Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação
Visualizar/ Abrir
Data
2023-04-24Primeiro coorientador
Lanzanova, Thompson Diórdinis Metzka
Primeiro membro da banca
Rocha, Luiz Alberto Oliveira
Segundo membro da banca
Fagundez, Jean Lucca Souza
Metadata
Mostrar registro completoResumo
A determinação das propriedades físico-químicas para substâncias é de suma importância na
área da engenharia química, uma vez que estas propriedades estão relacionadas ao
dimensionamento de equipamentos, às condições operacionais e às eficiências dos processos.
Como nem sempre os dados experimentais para determinadas substâncias estão disponíveis,
torna-se necessário o desenvolvimento e a utilização de equações para determinar estas
propriedades. Nas últimas décadas, houve uma popularização dos algoritmos de aprendizado
de máquina, que, por meio de um processo iterativo de treinamento com um banco de dados,
se tornaram capazes de fazer previsões. Com o objetivo de avaliar a integração entre os métodos
de predição de propriedades, utilizaram-se o calor de combustão e de formação de um total de
551 dados de substâncias puras constituídas por carbono, hidrogênio, oxigênio, nitrogênio e
enxofre. Essas substâncias puras foram representadas computacionalmente pelo número e tipo
de átomos ou pelo número e tipo de ligações químicas entre esses átomos, que foram as
variáveis de entrada para todos os modelos treinados. Para relacionar estas substâncias e suas
respectivas propriedades termodinâmicas, especificamente o calor de combustão e formação,
foram empregados os modelos de regressão linear multivariável, regressão simbólica, redes
neurais artificiais, gradiente boosting baseado em árvores de decisão e máquina de suporte de
vetor de regressão. Todos estes métodos foram treinados com uma divisão dos dados de 70%
para treinamento, 15% para validação e 15% para teste. Por fim, o modelo de regressão linear
multivariável, no caso de descrição por ligações químicas, apresentou desempenho superior aos
outros métodos, resultando em coeficiente de correlação de Pearson de 99,94% e 96,43% para
os dados de teste do calor de combustão e do calor de formação, respectivamente. Isso
demonstra que a abordagem de um modelo linear é adequada para substâncias orgânicas
compostas por C, H, O, N, S. Além da avaliação da qualidade do ajuste, também foi empregada
a análise de contribuição local para cada variável de entrada, por meio de uma metodologia de
cálculo proveniente da teoria dos jogos, denominada valores Shapley, permitindo identificar a
influência de cada variável em comparação com o valor médio predito pelo modelo.
Coleções
Os arquivos de licença a seguir estão associados a este item: