Analysis of bias in GPT language models through fine-tuning with anti-vaccination speech

dc.contributor.advisor-co1Badue, Claudine
dc.contributor.advisor1Souza, Alberto Ferreira de
dc.contributor.advisor1IDhttps://orcid.org/0000-0003-1561-8447
dc.contributor.authorTuri, Leandro Furlam
dc.contributor.referee1Pacheco, Andre Georghton Cardoso
dc.contributor.referee2Almeida Junior, Jurandy Gomes de
dc.date.accessioned2025-01-31T22:35:33Z
dc.date.available2025-01-31T22:35:33Z
dc.date.issued2024-12-02
dc.description.abstractWe examined the effects of integrating data containing divergent information, particularly concerning anti-vaccination narratives, in training a GPT-2 language model by fine-tuning it using content from anti-vaccination groups and channels on Telegram. Our objective was to analyze the model’s ability to generate coherent and rationalized texts compared to a model pre-trained on OpenAI’s WebText dataset. The results demonstrate that fine-tuning a GPT-2 model with biased data leads the model to perpetuate these biases in its responses, albeit with a certain degree of rationalization, highlighting the importance of using reliable and high-quality data in the training of natural language processing models and underscoring the implications for information dissemination through these models. We also explored the impact of data poisoning by incorporating anti-vaccination messages combined with general group messages in different proportions, aiming to understand how exposure to biased data can influence text generation and the introduction of harmful biases. The experiments highlight the change in frequency and intensity of anti-vaccination content generated by the model and elucidate the broader implications for reliability and ethics in using language models in sensitive applications. This study provides social scientists with a tool to explore and understand the complexities and challenges associated with misinformation in public health through the use of language models, particularly in the context of vaccine misinformation.
dc.description.resumoInvestigamos os efeitos da integração de dados contendo informações divergentes, especialmente no que diz respeito às narrativas antivacinação, no treinamento de um modelo de linguagem GPT-2, realizando o ajuste fino utilizando conteúdo proveniente de grupos e canais antivacinação no Telegram, com o objetivo de analisar sua capacidade de gerar textos coerentes e racionalizados em comparação com um modelo pré-treinado no conjunto de dados WebText da OpenAI. Os resultados demonstram que o ajuste fino de um modelo GPT-2 com dados tendenciosos leva o modelo a perpetuar esses vieses em suas respostas, embora com um certo grau de racionalização, sublinhando a importância de utilizar dados confiáveis e de alta qualidade no treinamento de modelos de processamento de linguagem natural e ressaltando as implicações para a disseminação de informações através desses modelos. Exploramos também o impacto do envenenamento de dados mediante a incorporação de mensagens antivacinação combinadas com mensagens gerais de grupo em diferentes proporções, com o objetivo de compreender como a exposição a dados tendenciosos pode influenciar a geração de textos e a introdução de preconceitos prejudiciais. Os experimentos destacam a mudança na frequência e intensidade do conteúdo antivacinação gerado pelo modelo e elucidam as implicações mais amplas para a confiabilidade e a ética no uso de modelos de linguagem em aplicações divergentes, oferecendo aos cientistas sociais uma ferramenta para explorar e compreender as complexidades e desafios associados à desinformação em saúde pública através do uso de modelos de linguagem, especialmente no contexto de desinformação sobre vacinas.
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.formatText
dc.identifier.urihttp://repositorio.ufes.br/handle/10/18304
dc.languagepor
dc.publisherUniversidade Federal do Espírito Santo
dc.publisher.countryBR
dc.publisher.courseMestrado em Informática
dc.publisher.departmentCentro Tecnológico
dc.publisher.initialsUFES
dc.publisher.programPrograma de Pós-Graduação em Informática
dc.rightsopen access
dc.subjectGPT-2
dc.subjectAjuste fino
dc.subjectTelegram
dc.subject.cnpqCiência da Computação
dc.titleAnalysis of bias in GPT language models through fine-tuning with anti-vaccination speech
dc.typemasterThesis
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
LeandroFurlamTuri-2024-Dissertacao.pdf
Tamanho:
1.84 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: