Aprendizagem de máquina na solução de problemas químicos: floresta aleatória aplicada à espectrometria na região do infravermelho
dc.contributor.advisor1 | Filgueiras, Paulo Roberto | |
dc.contributor.advisor1ID | https://orcid.org/0000000326171601 | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/1907915547207861 | |
dc.contributor.author | Nascimento, Márcia Helena Cassago | |
dc.contributor.authorID | https://orcid.org/0000-0001-5252-586X | |
dc.contributor.authorLattes | http://lattes.cnpq.br/2620289110303573 | |
dc.contributor.referee1 | Lima, Maria Tereza Weitzel Dias Carneiro | |
dc.contributor.referee1ID | https://orcid.org/0000-0002-8731-5093 | |
dc.contributor.referee1Lattes | http://lattes.cnpq.br/9989703911201351 | |
dc.contributor.referee2 | Ferrão, Marco Flôres | |
dc.contributor.referee2ID | https://orcid.org/0000-0002-3332-0540 | |
dc.contributor.referee2Lattes | http://lattes.cnpq.br/7552747227876113 | |
dc.contributor.referee3 | Almeida, Mariana Ramos de | |
dc.contributor.referee3ID | https://orcid.org/0000-0002-2612-068X | |
dc.contributor.referee3Lattes | http://lattes.cnpq.br/6690913086860156 | |
dc.contributor.referee4 | Romão, Wanderson | |
dc.contributor.referee4ID | https://orcid.org/0000000222546683 | |
dc.contributor.referee4Lattes | http://lattes.cnpq.br/9121022613112821 | |
dc.contributor.referee5 | Oliveira, Marcone Augusto Leal de | |
dc.date.accessioned | 2024-05-30T01:41:20Z | |
dc.date.available | 2024-05-30T01:41:20Z | |
dc.date.issued | 2023-02-13 | |
dc.description.abstract | Chemometrics began in the 1970s with the publication of a series of studies entitled "Computerized Learning Applied Machines to Chemical Problems" which express the motivation for the emergence of this field of study: the need for multivariate methods developed by chemists to solve chemical problems. Over 54 years, this area has expanded and presented solutions for increasingly complex data generated by modern Analytical Chemistry. Among the machine learning methods adapted to problems from the chemical point of view, this study contributes to a greater understanding, adaptation, and application of the random forest (RF) method. It is an ensemble-based method of learning multiple classifier systems. RF can be as a multivariate calibration model or pattern recognition, the latter being the focus of this thesis. In addition to the historical context, we describe adaptations proposed for the RF method to solve Chemistry problems with different analytical techniques and approaches. In this study, we applied RF for unsupervised pattern recognition as a screening method in a case study of suspected fuel fraud of diesel samples submitted to Fourier transform spectroscopy in the mid-infrared region (FT-MIR). The interpretation of the URF through a principal coordinate graph (PCoA) allowed the screening of samples with adulteration confirmed by the test of physical-chemical parameters. In addition, we adapted and applied the URF method to contribute to another field of study: biospectroscopy. A large part of the studies in this field is to develop alternative diagnosis methods or liquid biopsy. It is possible through biofluids, and spectroscopy associated with chemometric methods to extract information from biochemical changes caused by the disease or infectious agent. We adapted URF to identify a discriminant structure in spectroscopic data from two studies: a noninvasive diagnosis of COVID-19 from saliva samples analyzed by FT-MIR, and a proposal for pattern recognition and diagnosis of COVID-19 from nasopharyngeal swab and FT-MIR. In the first, an ensemble of classification models distinguished saliva samples from COVID19-infected people with an accuracy of 85%, a sensitivity of 93%, and a specificity of 74%. In another, URF was a comprehensive and innovative way: a starting point for selecting relevant variables and input data for classification models. With the URF as input data for classification models, we classified biofluid samples collected with two types of swabs with 87.6% accuracy, 93.6% sensitivity, 79.4% specificity, and 0.898 F-Score. Different approaches in this study contribute to disseminating the versatility and efficiency of the RF method, in addition to innovating its adaptation, taking advantage of the potential of this method for the different problems addressed. | |
dc.description.resumo | A Quimiometria iniciou na década de 70 com divulgação de estudos intitulados “Computerized Learning Machines Applied to Chemical Problems”, que expressam a motivação do surgimento deste campo de estudo: a necessidade de métodos multivariados desenvolvidos por químicos para resolver problemas químicos. Ao longo de 54 anos essa área tem se expandido e apresentado soluções para dados cada vez mais complexos, gerados pela Química Analítica moderna. Dentre os métodos de aprendizagem de máquina adaptados a problemas do ponto de vista químico, este trabalho buscou contribuir para maior compreensão, adaptação e aplicação do método floresta aleatória (RF). Este método faz parte de um grupo de métodos do tipo ensemble, que são caracterizados pelo agrupamento de classificadores gerando uma resposta combinada. RF pode ser utilizado como modelo de calibração multivariada, ou de reconhecimento de padrões, sendo este último o foco desta tese. Além do contexto histórico, descrevemos neste trabalho as adaptações que têm sido propostas para aplicação deste método nas soluções de problemas em Química, com diferentes técnicas analíticas e abordagens. Neste trabalho, RF foi aplicado para reconhecimento de padrões não supervisionado em estudo de caso de suspeita de fraude de combustíveis, como um método de triagem de amostras de diesel submetidas à espectroscopia na região do infravermelho médio (MIR). A interpretação do resultado da URF por meio de um gráfico de coordenadas principais (PCoA) permitiu a triagem de amostras cuja adulteração foi comprovada pelos ensaios de parâmetros físico-químicos. Ademais, adaptamos e aplicamos o método URF para contribuir em um outro campo de estudo, a bioespectroscopia. Uma grande parte dos estudos neste campo buscam desenvolver métodos de diagnóstico, ou biópsia líquida, por meio de biofluidos e espectroscopia de vibração associada aos métodos quimiométricos para extrair a informação das mudanças bioquímicas provocadas pela doença ou pelo agente infeccioso. Adaptamos e aplicamos o método URF para identificar e modelar estruturas discriminantes em dados espectroscópicos em dois estudos neste campo: diagnóstico não invasivo de COVID-19 a partir de amostras de saliva analisadas pela espectroscopia MIR e uma proposta para reconhecimento de padrões e diagnóstico de COVID-19 a partir de swab nasofaríngeo e espectroscopia MIR. No primeiro, uma combinação de modelos de classificação distinguiu amostras de saliva de pessoas infectadas pela COVID-19 com exatidão de 85%, sensibilidade de 93% e especificidade de 74%. No último, URF foi utilizada de forma mais abrangente e inovadora, sendo ponto de partida para seleção de variáveis relevantes associadas a alterações de biomoléculas presentes nos biofluidos e serviu como dados de entrada para modelos de classificação. Com o uso da URF como dados entrada para modelos de classificação, as amostras de biofluidos coletados com dois tipos de swab foram classificadas com 87,6% de exatidão, 93,6% de sensibilidade, 79,4% de especificidade e F-Score de 0,898. As diferentes abordagens deste trabalho contribuem para divulgar a versatilidade e a eficiência do método RF, além de inovar sua adaptação, aproveitando a potencialidade deste método para os campos de estudo abordados. | |
dc.description.sponsorship | Fundação Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | |
dc.format | Text | |
dc.identifier.uri | http://repositorio.ufes.br/handle/10/16693 | |
dc.language | por | |
dc.publisher | Universidade Federal do Espírito Santo | |
dc.publisher.country | BR | |
dc.publisher.course | Doutorado em Química | |
dc.publisher.department | Centro de Ciências Exatas | |
dc.publisher.initials | UFES | |
dc.publisher.program | Programa de Pós-Graduação em Química | |
dc.rights | open access | |
dc.subject | Quimiometria | |
dc.subject | Seleção de variáveis | |
dc.subject | Região do infravermelho médio | |
dc.subject.br-rjbn | subject.br-rjbn | |
dc.subject.cnpq | Química | |
dc.title | Aprendizagem de máquina na solução de problemas químicos: floresta aleatória aplicada à espectrometria na região do infravermelho | |
dc.title.alternative | Machine learning to solve chemical problems: random forest applied to spectrometry in the infrared region | |
dc.type | doctoralThesis |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- MarciaHelenaCassagoNascimento-2023-trabalho.pdf
- Tamanho:
- 9.94 MB
- Formato:
- Adobe Portable Document Format
- Descrição: