Explorando métodos de seleção de variáveis e fusão de dados em regressão por vetores de suporte : uma aplicação em petroleômica
dc.contributor.advisor1 | Filgueiras, Paulo Roberto | |
dc.contributor.advisor1ID | https://orcid.org/ | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/ | |
dc.contributor.author | Cunha, Pedro Henrique Pereira da | |
dc.contributor.authorID | https://orcid.org/ | |
dc.contributor.authorLattes | http://lattes.cnpq.br/ | |
dc.contributor.referee1 | Souza, Murilo de Oliveira | |
dc.contributor.referee1ID | https://orcid.org/ | |
dc.contributor.referee1Lattes | http://lattes.cnpq.br/ | |
dc.contributor.referee2 | Duarte, Lucas Mattos | |
dc.contributor.referee2ID | https://orcid.org/ | |
dc.contributor.referee2Lattes | http://lattes.cnpq.br/ | |
dc.contributor.referee3 | Almeida, Mariana Ramos de | |
dc.contributor.referee3ID | https://orcid.org/ | |
dc.contributor.referee3Lattes | http://lattes.cnpq.br/ | |
dc.contributor.referee4 | Romão, Wanderson | |
dc.contributor.referee4Lattes | http://lattes.cnpq.br/ | |
dc.date.accessioned | 2024-08-06T14:30:49Z | |
dc.date.available | 2024-08-06T14:30:49Z | |
dc.date.issued | 2024-03-28 | |
dc.description.abstract | Support Vector Regression (SVR) is considered a black-box machine learning method and has stood out in chemometrics over the past decades, achieving results superior or equal to methods already established in academia. As a black-box method, it is challenging to understand the cause/effect relationship. To address this, variable selection can be applied, a strategy that aims to identify the most influential variables in building the model. This work proposes the development of two variable selection methods - Permutation Subwindow Analysis (SPA) and Noise-Incorporated Permutation Subwindow Analysis (NISPA) - to apply in SVR combined with infrared. SPA and NISPA provided the most accurate models for kinematic viscosity, saturates, and aromatic content. The root mean square error of prediction (RMSEP) for SPA and NISPA were, respectively, 14.3% and 14.6% for kinematic viscosity, 4.7% and 4.4% for saturates content, and 3.4% and 3.1% for aromatic content. Therefore, SPA and NISPA, in addition to generally obtaining faster, more accurate, and more parsimonious models, revealed the most important variables for building SVR models. Another way to improve a model is data fusion, but this strategy has been little studied in SVR. Thus, data fusion was studied using NIR, MIR, and NMR of ¹H and ¹³C combined using low, medium, and high-level fusion. The models generated by data fusion were superior to the models without fusion for most tests. In API density, the application of medium-level fusion using PCA combining MIR and NIR developed a model with better parameters than the model without data fusion. By applying medium level fusion with GA to predict pour point, combining NIR and NMR of ¹H, it was possible to surpass models without fusion, as well as models found in the literature. In total nitrogen, high-level fusion with MIR and NMR of ¹H proved to be statistically better than models without data fusion. This demonstrates that it is possible to extract new information for SVR modeling using data fusion and obtain statistically better models than those derived from isolated analytical sources | |
dc.description.resumo | A regressão por vetores de suporte (SVR) é considerada um método de aprendizado de máquina caixa-preta e tem se destacado na quimiometria nas últimas décadas, alcançando resultados superiores ou iguais a métodos já consolidados na academia. Sendo um método caixa-preta, torna-se difícil compreender a relação causa/efeito. Para resolver isso, pode-se aplicar a seleção de variáveis, uma estratégia que visa identificar as variáveis mais influentes na construção do modelo. Este trabalho propõe o desenvolvimento de dois métodos de seleção de variáveis. - Análise de subjanela permutada (SPA) e análise de subjanela permutada incorporada por ruído (NISPA) - para aplicar no SVR aliado ao infravermelho. SPA e NISPA forneceram os modelos mais exatos para viscosidade cinemática, saturados e teor aromático. O erro médio quadrático percentual de previsão (RMSEP) do SPA e NISPA foram, respectivamente, de 14,3% e 14,6% para viscosidade cinemática, 4,7% e 4,4% para teor de saturados, e 3,4% e 3,1% para teor aromático. Portanto, SPA e NISPA, além de obterem, em geral, modelos mais rápidos, exatos e parcimoniosos, revelaram as variáveis mais importantes para a construção dos modelos SVR. Outra forma de aperfeiçoar um modelo é a fusão de dados, porém, essa estratégia foi pouco estudada no SVR. Assim, foi estudada a fusão de dados utilizando NIR, MIR, RMN de ¹H e ¹³C combinados utilizando fusão de baixo, médio e alto nível. Os modelos gerados pela fusão de dados apresentaram-se superiores os modelos sem, para a maioria dos testes. Na densidade API, a aplicação de fusão de médio nível utilizando PCA combinando MIR e NIR, desenvolveu um modelo com parâmetros melhores que o modelo sem fusão de dados. Ao aplicar fusão de médio nível com GA para predizer ponto de fluidez, combinando NIR e NMR de ¹H, conseguiu-se superar os modelos sem fusão, além de modelos encontrados na literatura. No nitrogênio total, a fusão de alto nível com MIR e NMR de ¹H conseguiu ser estatisticamente melhor que os modelos sem fusão de dados. Isso demonstra que é possível extrair novas informações para modelagem em SVR, utilizando a fusão de dados e obter modelos estatisticamente melhores que aqueles advindos a partir de fontes analíticas isoladas | |
dc.description.sponsorship | FAPES | |
dc.format | Text | |
dc.identifier.uri | http://repositorio.ufes.br/handle/10/17654 | |
dc.language | por | |
dc.language.iso | pt | |
dc.publisher | Universidade Federal do Espírito Santo | |
dc.publisher.country | BR | |
dc.publisher.course | Doutorado em Química | |
dc.publisher.department | Centro de Ciências Exatas | |
dc.publisher.initials | UFES | |
dc.publisher.program | Programa de Pós-Graduação em Química | |
dc.rights | open access | |
dc.subject | Máquina de vetores de suporte | |
dc.subject | Seleção de Variáveis | |
dc.subject | Fusão de dados | |
dc.subject | Petróleo | |
dc.subject | Aprendizagem de máquina | |
dc.subject.cnpq | Química | |
dc.title | Explorando métodos de seleção de variáveis e fusão de dados em regressão por vetores de suporte : uma aplicação em petroleômica | |
dc.title.alternative | Exploring variable selection methods and data fusion in support vector regression : an application in petroleomics | |
dc.type | doctoralThesis | |
foaf.mbox | pedrophenrique@hotmail.com |