Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação

Maraschin, Mikael

Visualizar/Abrir

Dissertação de mestrado (3.552Mb)

Data

2023-04-24

Autor

Maraschin, Mikael

Primeiro orientador

Salau, Nina Paula Gonçalves

Primeiro coorientador

Lanzanova, Thompson Diórdinis Metzka

Primeiro membro da banca

Rocha, Luiz Alberto Oliveira

Segundo membro da banca

Fagundez, Jean Lucca Souza

Metadata

Mostrar registro completo

Resumo

A determinação das propriedades físico-químicas para substâncias é de suma importância na área da engenharia química, uma vez que estas propriedades estão relacionadas ao dimensionamento de equipamentos, às condições operacionais e às eficiências dos processos. Como nem sempre os dados experimentais para determinadas substâncias estão disponíveis, torna-se necessário o desenvolvimento e a utilização de equações para determinar estas propriedades. Nas últimas décadas, houve uma popularização dos algoritmos de aprendizado de máquina, que, por meio de um processo iterativo de treinamento com um banco de dados, se tornaram capazes de fazer previsões. Com o objetivo de avaliar a integração entre os métodos de predição de propriedades, utilizaram-se o calor de combustão e de formação de um total de 551 dados de substâncias puras constituídas por carbono, hidrogênio, oxigênio, nitrogênio e enxofre. Essas substâncias puras foram representadas computacionalmente pelo número e tipo de átomos ou pelo número e tipo de ligações químicas entre esses átomos, que foram as variáveis de entrada para todos os modelos treinados. Para relacionar estas substâncias e suas respectivas propriedades termodinâmicas, especificamente o calor de combustão e formação, foram empregados os modelos de regressão linear multivariável, regressão simbólica, redes neurais artificiais, gradiente boosting baseado em árvores de decisão e máquina de suporte de vetor de regressão. Todos estes métodos foram treinados com uma divisão dos dados de 70% para treinamento, 15% para validação e 15% para teste. Por fim, o modelo de regressão linear multivariável, no caso de descrição por ligações químicas, apresentou desempenho superior aos outros métodos, resultando em coeficiente de correlação de Pearson de 99,94% e 96,43% para os dados de teste do calor de combustão e do calor de formação, respectivamente. Isso demonstra que a abordagem de um modelo linear é adequada para substâncias orgânicas compostas por C, H, O, N, S. Além da avaliação da qualidade do ajuste, também foi empregada a análise de contribuição local para cada variável de entrada, por meio de uma metodologia de cálculo proveniente da teoria dos jogos, denominada valores Shapley, permitindo identificar a influência de cada variável em comparação com o valor médio predito pelo modelo.

URI

http://repositorio.ufsm.br/handle/1/29514

Coleções

Programa de Pós-Graduação em Engenharia Química [112]

Os arquivos de licença a seguir estão associados a este item:

Creative Commons

Exceto quando indicado o contrário, a licença deste item é descrito como Attribution-NonCommercial-NoDerivatives 4.0 International