Analysis of bias in GPT language models through fine-tuning with anti-vaccination speech
dc.contributor.advisor-co1 | Badue, Claudine | |
dc.contributor.advisor1 | Souza, Alberto Ferreira de | |
dc.contributor.advisor1ID | https://orcid.org/0000-0003-1561-8447 | |
dc.contributor.author | Turi, Leandro Furlam | |
dc.contributor.referee1 | Pacheco, Andre Georghton Cardoso | |
dc.contributor.referee2 | Almeida Junior, Jurandy Gomes de | |
dc.date.accessioned | 2025-01-31T22:35:33Z | |
dc.date.available | 2025-01-31T22:35:33Z | |
dc.date.issued | 2024-12-02 | |
dc.description.abstract | We examined the effects of integrating data containing divergent information, particularly concerning anti-vaccination narratives, in training a GPT-2 language model by fine-tuning it using content from anti-vaccination groups and channels on Telegram. Our objective was to analyze the model’s ability to generate coherent and rationalized texts compared to a model pre-trained on OpenAI’s WebText dataset. The results demonstrate that fine-tuning a GPT-2 model with biased data leads the model to perpetuate these biases in its responses, albeit with a certain degree of rationalization, highlighting the importance of using reliable and high-quality data in the training of natural language processing models and underscoring the implications for information dissemination through these models. We also explored the impact of data poisoning by incorporating anti-vaccination messages combined with general group messages in different proportions, aiming to understand how exposure to biased data can influence text generation and the introduction of harmful biases. The experiments highlight the change in frequency and intensity of anti-vaccination content generated by the model and elucidate the broader implications for reliability and ethics in using language models in sensitive applications. This study provides social scientists with a tool to explore and understand the complexities and challenges associated with misinformation in public health through the use of language models, particularly in the context of vaccine misinformation. | |
dc.description.resumo | Investigamos os efeitos da integração de dados contendo informações divergentes, especialmente no que diz respeito às narrativas antivacinação, no treinamento de um modelo de linguagem GPT-2, realizando o ajuste fino utilizando conteúdo proveniente de grupos e canais antivacinação no Telegram, com o objetivo de analisar sua capacidade de gerar textos coerentes e racionalizados em comparação com um modelo pré-treinado no conjunto de dados WebText da OpenAI. Os resultados demonstram que o ajuste fino de um modelo GPT-2 com dados tendenciosos leva o modelo a perpetuar esses vieses em suas respostas, embora com um certo grau de racionalização, sublinhando a importância de utilizar dados confiáveis e de alta qualidade no treinamento de modelos de processamento de linguagem natural e ressaltando as implicações para a disseminação de informações através desses modelos. Exploramos também o impacto do envenenamento de dados mediante a incorporação de mensagens antivacinação combinadas com mensagens gerais de grupo em diferentes proporções, com o objetivo de compreender como a exposição a dados tendenciosos pode influenciar a geração de textos e a introdução de preconceitos prejudiciais. Os experimentos destacam a mudança na frequência e intensidade do conteúdo antivacinação gerado pelo modelo e elucidam as implicações mais amplas para a confiabilidade e a ética no uso de modelos de linguagem em aplicações divergentes, oferecendo aos cientistas sociais uma ferramenta para explorar e compreender as complexidades e desafios associados à desinformação em saúde pública através do uso de modelos de linguagem, especialmente no contexto de desinformação sobre vacinas. | |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | |
dc.format | Text | |
dc.identifier.uri | http://repositorio.ufes.br/handle/10/18304 | |
dc.language | por | |
dc.publisher | Universidade Federal do Espírito Santo | |
dc.publisher.country | BR | |
dc.publisher.course | Mestrado em Informática | |
dc.publisher.department | Centro Tecnológico | |
dc.publisher.initials | UFES | |
dc.publisher.program | Programa de Pós-Graduação em Informática | |
dc.rights | open access | |
dc.subject | GPT-2 | |
dc.subject | Ajuste fino | |
dc.subject | Telegram | |
dc.subject.cnpq | Ciência da Computação | |
dc.title | Analysis of bias in GPT language models through fine-tuning with anti-vaccination speech | |
dc.type | masterThesis |