CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português

Pirovani, Juliana Pinheiro Campos

CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português

dc.contributor.advisor1	Oliveira, Elias Silva de
dc.contributor.author	Pirovani, Juliana Pinheiro Campos
dc.contributor.referee1	Laporte, Éric
dc.contributor.referee2	Lima, Priscila Machado Vieira
dc.contributor.referee3	Ciarelli, Patrick Marques
dc.contributor.referee4	Gonçalves, Claudine Santos Badue
dc.date.accessioned	2019-04-10T02:15:22Z
dc.date.available	2019-04-09
dc.date.available	2019-04-10T02:15:22Z
dc.date.issued	2019-02-07
dc.description.abstract	Named Entity Recognition involves automatically identifying and classifying entities such as persons, places, and organizations, and it is a very important task in Information Extraction. Named Entity Recognition systems can be developed using the following approaches: linguistics, machine learning or hybrid. This work proposes the use of a hybrid approach, called CRF+LG, for Named Entity Recognition in Portuguese texts in order to explore the advantages of both linguistics and machine learning approaches. The proposed approach uses Conditional Random Fields (CRF) considering the term classification obtained by a Local Grammar (LG) as an additional informed feature. Conditional Random Fields is a probabilistic method for structured prediction. Local grammars are handmade rules to identify expressions within the text. The aim was to study this way of including the human expertise (Local Grammar) in the machine learning Conditional Random Fields approach and to analyze how it can contribute to the performance of this approach. To achieve this aim, a Local Grammar was built to recognize the 10 named entities categories of HAREM, a joint assessment for the Named Entity Recognition in Portuguese. Initially, the Golden Collection of the First and Second HAREM, considered as a reference for Named Entity Recognition systems in Portuguese, were used as training and test sets, respectively, for evaluation of the CRF+LG. After that, the proposed approach was evaluated in two other datasets. The results obtained outperform the results of systems reported in the literature that were evaluated under equivalent conditions. This gain was approximately 8 percentage points in F-measure in comparison to a system that also used CRF and 2 points in comparison to a system that used Neural Networks. Some systems that used Neural Networks presented superior results, but using massive corpora for unsupervised learning of features, which was not the case of this work. The Local Grammar built can be used individually when there is no training set available and in conjunction with other machine learning techniques to improve its performance. We also analyzed the boundaries (lower bound and upper bound) of the proposed approach. The lower bound indicates the minimum performance and the upper bound indicates the maximum gain that we can achieve for the task in question when using this approach.	eng
dc.description.resumo	O Reconhecimento de Entidades Nomeadas tem como objetivo identificar e classificar automaticamente entidades como pessoas, locais e organizações e é uma tarefa muito importante em Extração de Informação. As abordagens utilizadas no desenvolvimento de sistemas de Reconhecimento de Entidades Nomeadas são: linguística, aprendizado de máquina ou híbrida. Este trabalho propõe o uso de uma abordagem híbrida, denominada CRF+LG, para o Reconhecimento de Entidades Nomeadas em textos em Português buscando explorar as vantagens das abordagens linguística e de aprendizado de máquina. A abordagem proposta usa Campos Aleatórios Condicionais considerando a classificação obtida previamente por uma Gramática Local como uma característica adicional. Campos Aleatórios Condicionais é um método probabilístico para predição estruturada. Gramáticas locais são regras construídas manualmente para identificar expressões em um texto. O objetivo foi estudar essa forma de incluir a expertise humana (Gramática Local) na abordagem de aprendizado de máquina Campos Aleatórios Condicionais e analisar como ela pode contribuir para o desempenho dessa abordagem. Para alcançar esse objetivo, uma Gramática Local foi construída para reconhecer as 10 categorias de entidades nomeadas do HAREM, um evento de avaliação conjunta para o Reconhecimento de Entidades Nomeadas em Português. Inicialmente, as Coleções Douradas do Primeiro e Segundo HAREM, consideradas bases de referência para essa tarefa em Português, foram utilizadas como bases de treino e teste respectivamente para avaliação do CRF+LG. Posteriormente, a abordagem proposta foi avaliada em outras duas bases de dados. Os resultados obtidos superam os resultados de sistemas reportados na literatura que foram avaliados em condições equivalentes. Esse ganho foi de aproximadamente 8% em Medida-F em relação a um sistema que também usou CRF e de 2% em relação a um sistema que usou Redes Neurais. Alguns sistemas que usaram Redes Neurais apresentam resultados superiores para as métricas, mas usando corpora massivo para aprendizado não supervisionado de características, o que não foi utilizado neste trabalho. A Gramática Local construída pode ser utilizada individualmente quando não há corpus de treino disponível e em conjunto com outras técnicas de aprendizado de máquina para melhorar o seu desempenho. Também foram analisados os limites (inferior e superior) da abordagem proposta. O limite superior indica o ganho máximo que pode ser obtido para a tarefa em questão ao usar esta abordagem.
dc.format	Text
dc.identifier.citation	PIROVANI, Juliana Pinheiro Campos. CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português. 2019. 114 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2019.
dc.identifier.uri	http://repositorio.ufes.br/handle/10/11013
dc.language	por
dc.publisher	Universidade Federal do Espírito Santo
dc.publisher.country	BR
dc.publisher.course	Doutorado em Ciência da Computação
dc.publisher.department	Centro Tecnológico
dc.publisher.initials	UFES
dc.publisher.program	Programa de Pós-Graduação em Informática
dc.rights	open access
dc.subject	Named entity recognition	eng
dc.subject	Conditional random fields	eng
dc.subject	Local grammars	eng
dc.subject	Reconhecimento de entidades nomeadas	por
dc.subject	Campos aleatórios condicionais	por
dc.subject	Gramáticas locais	por
dc.subject.br-rjbn	Processamento de linguagem natural (Computação)
dc.subject.br-rjbn	Processamento de textos (Computação)
dc.subject.br-rjbn	Língua portuguesa - Gramática
dc.subject.br-rjbn	Markov, Campos aleatórios de
dc.subject.cnpq	Ciência da Computação
dc.subject.udc	004
dc.title	CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português
dc.type	doctoralThesis

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Tese-Juliana.pdf
Tamanho:: 1.49 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

Doutorado em Ciência da Computação