Presentation in PPSX - UFSCar Database Group (GBD)

Download Report

Transcript Presentation in PPSX - UFSCar Database Group (GBD)

Universidade Federal de São Carlos - UFSCar
Departamento de Computação - DC
Programa de Pós-Graduação em Ciência da Computação - PPGCC
Metodologia de Pré-processamento
Textual para Extração de Informação
em Artigos Científicos do Domínio
Biomédico
Aluno: Pablo Freire Matos
Orientador: Dr. Ricardo Rodrigues Ciferri
Coorientador: Dr. Thiago Alexandre S. Pardo
Área: Banco de Dados
Roteiro

Introdução



Contexto
Objetivos
Proposta de Dissertação
08/10/09
WTDBD/SBBD
2/20
Roteiro

Introdução



Contexto
Objetivos
Proposta de Dissertação
08/10/09
WTDBD/SBBD
3/20
Contextualização

Quantidade imensa de informação disponível
Grantz (2007)

Humanos não são capazes de assimilar todo
esse conteúdo

Informação via e-mail, blogs, wikis, artigos...

+ de 80% das informações estão em formato de texto
Tan (1999) e Chen (2001)
08/10/09
WTDBD/SBBD
4/20
Contextualização

PubMed



+ de 18 milhões de artigos (desde 1966)
MEDLINE (área de ciências + biomedicina)
Entrez - Sistema integrado do NCBI


35 bases com 350 milhões de registros
Sickle Cell Anemia


08/10/09
15.748 registros do PubMed (citações e resumos)
3.463 do PubMed Central (artigos completos)
WTDBD/SBBD
5/20
Contextualização

Infinidade de meios de publicação


American Journal of Hematology, Blood, British
Journal of Haematology, Haematologica, The New
England Journal of Medicine,…
Leva tempo para

ler e identificar as principais informações do artigo
Solução: Mineração de Textos
08/10/09
WTDBD/SBBD
6/20
Objetivos

Identificar e extrair informações novas, úteis e
interessantes em artigos científicos sobre a
doença Anemia Falciforme

Foco: efeitos positivos e negativos (do
tratamento)

Organização e armazenamento de informação
em um BD para posterior mineração
08/10/09
WTDBD/SBBD
7/20
Exemplo de Extração de Termos
Regras e Dicionário
Aprendizado de Máquina
BD
Efeito
Positivo
Efeito
Negativo
Outros
Reductions in the frequency of chest syndrome and
the number of transfusions strengthen the conclusion that hydroxyurea
is a useful agent in sickle cell anemia
she died during the second year of therapy from acute severe anemia during an
episode of splenic sequestration
in some adolescents poor compliance was evident
BD
Reductions in the frequency of chest syndrome
Reductions in the number of transfusions
episode of splenic sequestration
08/10/09
WTDBD/SBBD
8/20
Roteiro


Introdução
Proposta de Dissertação
08/10/09
WTDBD/SBBD
9/20
Processo de MT

É uma das fases mais críticas
08/10/09
WTDBD/SBBD
Feldman e Sanger (2007)
10/20
Metodologia de Pré-processamento
08/10/09
WTDBD/SBBD
11/20
Pré-processamento Textual
08/10/09
WTDBD/SBBD
12/20
Processo Geral de Extração de Informação
08/10/09
WTDBD/SBBD
13/20
Categorização
Treinamento
Teste
Novo texto
TXT
Efeito Positivo
Classes
Diversos
arquivos com
sentenças de
efeito positivo
Efeito Negativo
Anthony e
Lashkia (2003)
Diversos
arquivos com
sentenças de
efeito negativo
Precisão de 68%
Saída
Outros
Diversos
arquivos com
sentenças de
outros
08/10/09
Conjunto de
sentenças
classificadas
em classes
WTDBD/SBBD
14/20
Sentenças classificadas - Mover
08/10/09
WTDBD/SBBD
15/20
Análise dos Resultados - Classificação

Taxa de Precisão (P)



Baseline ≤ P ≤ Topline
Baseline: Mover
Topline: Taxa de precisão humana


50 sentenças (efeito positivo, efeito negativo e outros)
Kappa de 6 anotadores (65,20%)
Ganho de 27,01%
Ganho de 18,99%
08/10/09
WTDBD/SBBD
16/20
Considerações Sobre a Classificação

Pré-processamento: 3 classes (Complicação, Benefício
e Outro)

Matriz atributo-valor






Eliminar Ruído com J48
Balanceamento (Bias 1 em Java - Mantém a distribuição das
classes)
Seleção de Atributo (Meta)


Frequência mínima = 2
1 a 3 gramas
sem stopword e sem stemmer
Ganho de Informação
Classificador


08/10/09
Naive Bayes
Support Vector Machine
WTDBD/SBBD
17/20
Extração de Informação: Dicionário + Regras
1.
2.
3.
Identificar verdadeiro positivo (efeito positivo)
Eliminar falso positivo (fator de risco)
Elaborar como recuperar falsos negativos
1
reductions in the frequency of chest syndrome and the number of
transfusions strengthen the conclusion that hydroxyurea is a useful agent in
sickle cell anemia
2
in scd children hydroxyurea has been shown to decrease the rate and the
intensity of painful events and the number of days of hospitalization
3
hydroxyurea therapy can ameliorate the clinical course of sickle cell anemia
in some adults with three or more painful crises per year
4
treatment was also stopped in another patient because of the first
occurrence of pathological tcd velocities
08/10/09
WTDBD/SBBD
18/20
Análise dos Resultados - Extração

Precisão, Revocação e Medida-F (Extração
de Informação)

Comparação com outros trabalhos
08/10/09
WTDBD/SBBD
19/20
Quatro Experimentos
1.
2.
3.
4.
Regras
Regras e Dicionário
AM e Regras
AM, Regras e Dicionário
08/10/09
WTDBD/SBBD
20/20
Universidade Federal de São Carlos - UFSCar
Departamento de Computação - DC
Programa de Pós-Graduação em Ciência da Computação - PPGCC
Metodologia de Pré-processamento
Textual Voltada à Extração de
Informação em Artigos Científicos do
Domínio Biomédico
Dúvidas?
Aluno: Pablo Freire Matos
Orientador: Dr. Ricardo Rodrigues Ciferri
Coorientador: Dr. Thiago Alexandre S. Pardo
Área: Banco de Dados
Cronograma de Atividades
Defesa do exame de qualificação
Classificação manual (anotadores: 3 médicos e 3 leigos) em
três classes de 50 sentenças e cálculo da medida de
Treinamento e teste no classificador Mover de 500 a 1.500
concordância
Kappa
Desenvolvimento
do módulo
de extração
efeitos
da
sentenças
identificadas
manualmente
nos de
artigos.
Calcular
AF(abordagem
baseada
em regras
e dicionário)
a extração
de informação
com
as medidas de
aAvaliar
acurácia.
precisão,
revocação
e Medida-F
Redação e
submissão
de artigo aos encontros qualificados
Concepção
projeto da ferramenta SCAeXtractor, integrando o
de
Ciência dae Computação
módulo de classificação
e o depropostos
extração nesta
ferramenta
Realização
dos quatros testes
na análise
dos para o
processo deeextração
dedissertação
informação ser realizado de forma
Preparação
da
resultados
Possibilitar
ao defesa
especialista
do domínio visualizar e validar
transparente e automática
o resultado
extração de
Redação
dada
dissertação
deinformação
mestrado
08/10/09
WTDBD/SBBD
22/20
Referências

ANTHONY, L.; LASHKIA, G. V. Mover: a machine learning tool to assist in the
reading and writing of technical papers. IEEE Transactions on Professional
Communication, v. 46, n. 3, p. 185-193, 2003.

ARANHA, C. N. Uma abordagem de pré-processamento automático para
mineração de textos em português: sob o enfoque da inteligência
computacional. 144 f. Tese (Doutorado em Engenharia Elétrica) –
Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio
de Janeiro, Rio de Janeiro, 2007.

BREMER, E. G. et al. Text mining of full text articles and creation of a
knowledge base for analysis of microarray data. In: KNOWLEDGE
EXPLORATION IN LIFE SCIENCE INFORMATICS (KELSI), 2004, Milan, Italy.
Proceedings... 2004. p. 84-95.

CHEN, H. Knowledge management systems: a text mining perspective.
Tucson, AZ: University of Arizona, 2001.

CORNEY, D. P. A. et al. BioRAT: extracting biological information from fulllength papers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004.
08/10/09
WTDBD/SBBD
23/20
Referências (cont. 1)

FELDMAN, R.; DAGAN, I. Knowledge discovery in textual databases (KDT). In:
INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA
MINING (KDD), 1995, Montréal, Québec. Proceedings... Menlo Park, CA: AAAI
Press, 1995. p. 112-117.

FELDMAN, R.; SANGER, J. The text mining handbook: advanced
approaches in analyzing unstructured data. New York: Cambridge University
Press, 2007. 391 p.

GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of
pharmacogenomic concepts and relationships from full text. BMC
Bioinformatics, v. 10, p. S6, 2009. Suppl. 2.

GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide
information growth through 2010. IDC Whitepaper, 2007.

HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE
ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College
Park, Maryland. Proceedings... Morristown, NJ: Association for Computational
Linguistics, 1999. p. 3-10.
08/10/09
WTDBD/SBBD
24/20
Referências (cont. 2)

IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de
bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e
Matemática Computacional) – Instituto de Ciências Matemáticas e de
Computação, Universidade de São Paulo, São Carlos, 2001.

MARTINS, C. A. Uma abordagem para pré-processamento de dados
textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência
de Computação e Matemática Computacional) – Instituto de Ciências
Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003.

MINISTÉRIO DA SAÚDE. Doença falciforme e outras hemoglobinopatias:
anemia falciforme. 2008.

NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. PubMed. 2009.
Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/>. Acesso em: 16 mar.
2009.

NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. Entrez, the life
sciences search engine. 2009. Disponível em:
<http://www.ncbi.nlm.nih.gov/Entrez/>. Acesso em: 26 mar. 2009.

SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts and
full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004.
08/10/09
WTDBD/SBBD
25/20
Referências (cont. 3)

______. Evaluation of techniques for increasing recall in a dictionary approach
to gene and protein name identification. Journal of Biomedical Informatics, v.
40, n. 3, p. 316-324, 2007.

TAN, A.-H. Text mining: the state of the art and the challenges. In:
KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999,
Beijing, China. Proceedings... PAKDD, 1999. p. 71-76.

TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical
text. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a.

______. Tagging gene and protein names in full text articles. In: WORKSHOP
ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN,
2002, Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association
for Computational Linguistics, 2002b. p. 9-13.
08/10/09
WTDBD/SBBD
26/20
Referências Classificação

ANTHONY, L.; LASHKIA, G. V. Mover: a machine learning tool to assist in
the reading and writing of technical papers. IEEE Transactions on
Professional Communication, v. 46, n. 3, p. 185-193, 2003.

BURSTEIN, J.; MARCU, D.; KNIGHT, K. Finding the WRITE stuff:
automatic identification of discourse structure in student essays. Intelligent
Systems, IEEE, v. 18, n. 1, p. 32-39, 2003.

BATISTA, G. E. A. P. A.; PRATI, R. C.; MONARD, M. C. A study of the
behavior of several methods for balancing machine learning training data.
SIGKDD Explorations Newsletter, v. 6, n. 1, p. 20-29, 2004.

HEY, D. F.; FELTRIM, V. D. Uma investigação sobre a aplicação de
algoritmos de aprendizado à classificação de papéis retóricos. In: VIII
Fórum de Informática e Tecnologia de Maringá, XI Mostra de Trabalhos de
Informática, 2008, Maringá. Anais... Universidade Estadual de Maringá,
2008. p. 94-104.
08/10/09
WTDBD/SBBD
27/20
Referências Classificação (Cont.)

WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools
and techniques with Java implementations. 2nd ed. San Francisco, CA:
Morgan Kaufmann, 2005. 525 p.
08/10/09
WTDBD/SBBD
28/20