Please use this identifier to cite or link to this item: http://repositorio.ufes.br/handle/10/4228
Title: Medida de Certeza na Categorização Multi-Rótulo de Texto e sua Utilização como Estratégia de Poda de Ranking de Categorias
metadata.dc.creator: SOUZA, C. Z.
Keywords: categorização multi-rótulo de texto;medida de certeza de c
Issue Date: 27-Aug-2010
Publisher: Universidade Federal do Espírito Santo
Citation: SOUZA, C. Z., Medida de Certeza na Categorização Multi-Rótulo de Texto e sua Utilização como Estratégia de Poda de Ranking de Categorias
Abstract: Dado um documento de entrada, um sistema de categorização multi-rótulo de texto tipicamente computa graus de crença para as categorias de um conjunto prédefinido, ordena as categorias por grau de crença, e atribui ao documento as categorias com grau de crença superior a um determinado limiar de poda. Idealmente, o grau de crença deveria informar a probabilidade do documento de fato pertencer à categoria. Infelizmente, ainda não existem categorizadores que computam tais probabilidades e mapear graus de crença em probabilidades é um problema ainda pouco explorado na área de RI. Neste trabalho, propomos um método baseado na regra de Bayes para mapear graus de crença em medidas de certeza de categorização multi-rótulo de texto. Propomos também uma estratégia para determinar limiares de poda baseada na medida de certeza de categorização - bayesian cut (BCut) - e uma variante para BCut - position based bayesian CUT (PBCut). Avaliamos experimentalmente o impacto dos métodos propostos no desempenho de duas técnicas de categorização multi-rótulo de texto, kvizinhos mais próximos multi-rótulo (ML-kNN) e rede neural sem peso do tipo VGRAM com correlação de dados (VG-RAM WNN-COR), no contexto da categorização de descrições de atividades econômicas de empresas brasileiras segundo a Classificação Nacional de Atividades Econômicas (CNAE). Investigamos também o impacto no desempenho de categorização multi-rótulo de texto de três métodos de poda comumente usados na literatura de RI - RCut, PCut, e SCut e uma variante de RCut - RTCut. Além disso, propomos novas variantes para PCut e SCut PCut* e SCut*, respectivamente para tratar problemas existentes nestas abordagens. Nossos resultados experimentais mostram que, usando nosso método de geração de medidas de certeza de categorização, é possível prever o quão certo está o categorizador de que as categorias por ele preditas são de fato pertinentes para um dado documento. Nossos resultados mostram também que o uso de nossas estratégias de poda BCut e PBCut produz desempenho de categorização superior ao de todas as outras estratégias consideradas em termos de precisão.
URI: http://repositorio.ufes.br/handle/10/4228
Appears in Collections:PPGI - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
tese_4087_.pdf1.21 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.