CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português

dc.contributor.advisorOliveira, Elias Silva de
dc.contributor.refereeLaporte, Éric
dc.contributor.refereeLima, Priscila Machado Vieira
dc.contributor.refereeCiarelli, Patrick Marques
dc.contributor.refereeGonçalves, Claudine Santos Badue
dc.date.accessioned2019-04-10T02:15:22Z
dc.date.available2019-04-09
dc.date.available2019-04-10T02:15:22Z
dc.identifier.citationPIROVANI, Juliana Pinheiro Campos. CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português. 2019. 114 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2019.por
dc.identifier.urihttp://repositorio.ufes.br/handle/10/11013
dc.publisherUniversidade Federal do Espírito Santopor
dc.publisher.countryBRpor
dc.publisher.courseDoutorado em Ciência da Computaçãopor
dc.publisher.initialsUFESpor
dc.publisher.programPrograma de Pós-Graduação em Informáticapor
dc.subjectReconhecimento de entidades nomeadaspor
dc.subjectCampos aleatórios condicionaispor
dc.subjectGramáticas locaispor
dc.subjectNamed entity recognitionen
dc.subjectConditional random fieldsen
dc.subjectLocal grammarsen
dc.subject.br-rjbnProcessamento de linguagem natural (Computação)por
dc.subject.br-rjbnProcessamento de textos (Computação)por
dc.subject.br-rjbnLíngua portuguesa - Gramáticapor
dc.subject.br-rjbnMarkov, Campos aleatórios depor
dc.subject.cnpqCiência da Computaçãopor
dc.subject.udc004
dc.titleCRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em portuguêspor
dc.typedoctorThesisen
dcterms.abstractO Reconhecimento de Entidades Nomeadas tem como objetivo identificar e classificar automaticamente entidades como pessoas, locais e organizações e é uma tarefa muito importante em Extração de Informação. As abordagens utilizadas no desenvolvimento de sistemas de Reconhecimento de Entidades Nomeadas são: linguística, aprendizado de máquina ou híbrida. Este trabalho propõe o uso de uma abordagem híbrida, denominada CRF+LG, para o Reconhecimento de Entidades Nomeadas em textos em Português buscando explorar as vantagens das abordagens linguística e de aprendizado de máquina. A abordagem proposta usa Campos Aleatórios Condicionais considerando a classificação obtida previamente por uma Gramática Local como uma característica adicional. Campos Aleatórios Condicionais é um método probabilístico para predição estruturada. Gramáticas locais são regras construídas manualmente para identificar expressões em um texto. O objetivo foi estudar essa forma de incluir a expertise humana (Gramática Local) na abordagem de aprendizado de máquina Campos Aleatórios Condicionais e analisar como ela pode contribuir para o desempenho dessa abordagem. Para alcançar esse objetivo, uma Gramática Local foi construída para reconhecer as 10 categorias de entidades nomeadas do HAREM, um evento de avaliação conjunta para o Reconhecimento de Entidades Nomeadas em Português. Inicialmente, as Coleções Douradas do Primeiro e Segundo HAREM, consideradas bases de referência para essa tarefa em Português, foram utilizadas como bases de treino e teste respectivamente para avaliação do CRF+LG. Posteriormente, a abordagem proposta foi avaliada em outras duas bases de dados. Os resultados obtidos superam os resultados de sistemas reportados na literatura que foram avaliados em condições equivalentes. Esse ganho foi de aproximadamente 8% em Medida-F em relação a um sistema que também usou CRF e de 2% em relação a um sistema que usou Redes Neurais. Alguns sistemas que usaram Redes Neurais apresentam resultados superiores para as métricas, mas usando corpora massivo para aprendizado não supervisionado de características, o que não foi utilizado neste trabalho. A Gramática Local construída pode ser utilizada individualmente quando não há corpus de treino disponível e em conjunto com outras técnicas de aprendizado de máquina para melhorar o seu desempenho. Também foram analisados os limites (inferior e superior) da abordagem proposta. O limite superior indica o ganho máximo que pode ser obtido para a tarefa em questão ao usar esta abordagem.por
dcterms.abstractNamed Entity Recognition involves automatically identifying and classifying entities such as persons, places, and organizations, and it is a very important task in Information Extraction. Named Entity Recognition systems can be developed using the following approaches: linguistics, machine learning or hybrid. This work proposes the use of a hybrid approach, called CRF+LG, for Named Entity Recognition in Portuguese texts in order to explore the advantages of both linguistics and machine learning approaches. The proposed approach uses Conditional Random Fields (CRF) considering the term classification obtained by a Local Grammar (LG) as an additional informed feature. Conditional Random Fields is a probabilistic method for structured prediction. Local grammars are handmade rules to identify expressions within the text. The aim was to study this way of including the human expertise (Local Grammar) in the machine learning Conditional Random Fields approach and to analyze how it can contribute to the performance of this approach. To achieve this aim, a Local Grammar was built to recognize the 10 named entities categories of HAREM, a joint assessment for the Named Entity Recognition in Portuguese. Initially, the Golden Collection of the First and Second HAREM, considered as a reference for Named Entity Recognition systems in Portuguese, were used as training and test sets, respectively, for evaluation of the CRF+LG. After that, the proposed approach was evaluated in two other datasets. The results obtained outperform the results of systems reported in the literature that were evaluated under equivalent conditions. This gain was approximately 8 percentage points in F-measure in comparison to a system that also used CRF and 2 points in comparison to a system that used Neural Networks. Some systems that used Neural Networks presented superior results, but using massive corpora for unsupervised learning of features, which was not the case of this work. The Local Grammar built can be used individually when there is no training set available and in conjunction with other machine learning techniques to improve its performance. We also analyzed the boundaries (lower bound and upper bound) of the proposed approach. The lower bound indicates the minimum performance and the upper bound indicates the maximum gain that we can achieve for the task in question when using this approach.en
dcterms.creatorPirovani, Juliana Pinheiro Campos
dcterms.formatTexten
dcterms.issued2019-02-07
dcterms.languageporen
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Tese-Juliana.pdf
Tamanho:
1.49 MB
Formato:
Adobe Portable Document Format
Descrição: