Please use this identifier to cite or link to this item: http://repositorio.ufes.br/handle/10/6372
Title: Uma Metodologia para a utilização do processamento de Linguagem Natural na b usca de informações em documentos digitais
metadata.dc.creator: Pereira, Francisco Santiago do Carmo
Keywords: recuperação da informação;processamento de linguagem natural
Issue Date: 7-Aug-2009
Publisher: Universidade Federal do Espírito Santo
Citation: PEREIRA, Francisco Santiago do Carmo. Uma Metodologia para a utilização do processamento de Linguagem Natural na b usca de informações em documentos digitais. 2009. 109 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Espírito Santo, Vitória, 2009.
Abstract: This dissertation proposes a methodology for searches in digital texts based in the Discourse Nominal Structure from Freitas [Freitas 2005] proposed to anaphora resolution. The anaphora resolution process allows the identification of text s formation structure intended by the author. Information Retrieval (IR) presents several models to create a computational representation of text s, besides differ in aspects as text representation or methodology to search all have in common the intention to attend user information need. IR classical models, as the Vector Space Model[Salton, Wong e Yang 1975] or the Latent Semantic Indexing [Deerwester et al. 1990], consider as basic element to create text s computational representation the words presented by it. This models a query made by a set of terms T is compared with indexed documents to find documents that present these words. The predicted relevant documents set is then returned as the query s result. But, natural language texts not always had explicit references to it s main entity. Anaphoras it s a common linguistic tool used in such texts and it s use can affect classical IR models representation power. Once, that entities presented by one word can be refered by another terms or even omitted. An alternative structuralmodel[Baeza-Yates e Ribeiro-Neto 1998], witch takes into account anaphora use, to made it s computational representation of texts is the model presented by Seibel Júnior[Seibel Júnior e Freitas 2007]. In [Seibel Júnior 2007] documents are represented by the Discourse Nominal Structure for Queries (ENDB) or Query Structure, with was created from Freitas Discourse Nominal Structure (END)[Freitas 2005, Freitas e Lopes 1995, Freitas e Lopes 1994, Freitas e Lopes 1993, Freitas 1992] witch has as objective the anaphora resolution. Once that a document had it s END representation. Seibel Junior s methodology adapts the END to a structure made to IR and the method to make searches in the structure. The Seibel Júnior methodology does not take into account any information besid es thephrases focus, the main entity in the text s phrase. But, the END can provide more information than only the phrases focus. Pereira et al presented in[Pereira, Seibel Júnior e Freitas 2009] an new IR methodology based in anaphora resolution. In it s work the Query structure construction takes all entities presented by a text s phrase. With this, it has a better qualitative performance during the searches. This works details Pereira et al s method showing the algorithms to it s definition and experimentations with the new search methodology.
Esta dissertação propõe uma metodologia para busca em textos digitais baseada na Estrutura Nominal do Discurso, originada da proposta de resolução de anáforas apresentada por Freitas[Freitas 2005]. O processo para resolução de anáforas permite a identificação da estrutura de formação do texto, criada pelo autor. A área de Recuperação de Informação (RI) propõe vários modelos para a representação e busca em documentos digitais, apesar de diferentes em aspectos como a representação do texto ou metodologia para a realização de pesquisas todos têm como objetivo atender a necessidade de informação dos usuários de seus sistemas de buscas. Os Modelos clássicos utilizados para Recuperação de Informação, como o mo delovetorial[Salton, Wong e Yang 1975] ou o LSI (Latent Semantic Indexing)[Deerwester et al. 1990], consideram como elemento básico para a representação de um documento os termos que o compõem. Nesses modelos uma query composta por um conjunto de termos T é comparada com osdocumentos indexados em busca de documentos que apresentem esses termos. Os documentos considerados como relevantes são então retornados como resultado a query. Entretanto textos escritos em linguagem natural nem sempre possuem referências explícitas as suas entidades principais. Anáforas são um recurso freqüente em textos dessa natureza e seu uso diminui o poder de representação dos modelos clássicos, uma vez que entidades citadas no texto podem ser referenciadas por diferentes termos ou até serem omitidas. Um modelo estrutural [Baeza-Yates e Ribeiro-Neto 1998] alternativo, que leva em consideração a utilização de anáforas na construção da representação computacional dos documentos, é o modelo apresentado por Seibel Júnior[Seibel Júnior e Freitas 2007]. Em [Seibel Júnior 2007] o documento é representado pela Estrutura Nominal do Discurso para Buscas (ENDB) ou Estrutura para Buscas, criada a partir da Estrutura Nominal do Discurso (END) proposta por Freitas [Freitas 2005, Freitas e Lopes 1995, Freitas e Lopes 1994, Freitas e Lopes 1993, Freitas 1992] com o objetivo de resolver anáforas. Uma vez que um documento tenha sua END construída, a metodologia proposta por Seibel Júnior [Seibel Júnior 2007] estabelece os mecanismos para transformá-la em uma estrutura voltada para a Recuperação de Informação e estabelece a metodologia para a realização de consultas à estrutura. A construção da representação dos textos baseia-se na identificação dos focos, elementos centrais das frases do texto. Nenhuma informação, além dos focos, é levada em consideração para a construção da Estrutura para Buscas, mas a END pode fornecer outras informações. A Estrutura Nominal armazena todas as entidades apresentadas no texto. Pereira et al apresentam em [Pereira, Seibel Júnior e Freitas 2009] uma nova metodologia para a RI baseada na resolução de anáforas de acordo com a proposta de Freitas[Freitas 2005]. Nesse trabalho, a construção da Estrutura para Buscas é realizada transpondo todas as entidades identificadas durante o processo de resolução anafórica, o que possibilita uma melhora na forma de representação do texto dos documentos e na qualidade dos resultados obtidos pelas pesquisas. Este trabalho detalha a proposta apresentada por Pereira et al, apresentando os algoritmos envolvidos na sua definição e experimentações sobre a nova metodologia de buscas.
URI: http://repositorio.ufes.br/handle/10/6372
Appears in Collections:PPGI - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
dissertacao-Francisco-S-do-C-Pereira-final.pdf1.04 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.