dc.creator | Maraschin, Mikael | |
dc.date.accessioned | 2023-06-20T15:30:35Z | |
dc.date.available | 2023-06-20T15:30:35Z | |
dc.date.issued | 2023-04-24 | |
dc.identifier.uri | http://repositorio.ufsm.br/handle/1/29514 | |
dc.description.abstract | The determination of physical-chemical properties for substances is of paramount importance
in the field of chemical engineering, as these are related to equipment sizing, operational
conditions, and process efficiencies. Since experimental data for certain substances are not
always available, it is necessary to develop and use equations to determine these properties. In
recent decades, there has been a popularization of machine learning algorithms. Through an
interactive training process with a database, these algorithms have become capable of making
predictions. In order to evaluate the integration between different methods for property
prediction, a total of 551 data points for pure substances, consisting of carbon, hydrogen,
oxygen, nitrogen, and sulfur, were used. These pure substances were represented
computationally by the number and type of atoms or by the number and type of chemical bonds
between these atoms. These variables served as inputs for all trained models. To establish the
relationship between these substances and their respective thermodynamic properties, namely
the heat of combustion and formation, multivariable linear regression models, symbolic
regression, artificial neural networks, gradient boosting based on decision trees, and regression
vector support machines were employed. All of these methods were trained using a data split
of 70% for training, 15% for validation, and 15% for testing. Finally, the multivariable linear
regression model, specifically for the description based on chemical bonds, outperformed the
other methods. It resulted in a Pearson correlation coefficient of 99.93% and 96.43% for the
test data of heat of combustion and heat of formation, respectively. This demonstrates that the
linear model approach is suitable for organic substances composed of C, H, O, N, S. In addition
to evaluating the goodness of fit, a local contribution analysis was employed for each input
variable using a calculation methodology derived from game theory, known as Shapley values.
This analysis allowed for the identification of the influence of each variable in comparison with
the average value predicted by the model. | eng |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES | por |
dc.language | por | por |
dc.publisher | Universidade Federal de Santa Maria | por |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Calor de combustão | por |
dc.subject | Calor de formação | por |
dc.subject | Modelos de aprendizado de máquina | por |
dc.subject | Valores Shapley | por |
dc.subject | Heat of combustion | eng |
dc.subject | Heat of formation | eng |
dc.subject | Machine learning models | eng |
dc.title | Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação | por |
dc.title.alternative | Comparison of interpretable machine learning models for prediction of heat of combustion and formation | eng |
dc.type | Dissertação | por |
dc.description.resumo | A determinação das propriedades físico-químicas para substâncias é de suma importância na
área da engenharia química, uma vez que estas propriedades estão relacionadas ao
dimensionamento de equipamentos, às condições operacionais e às eficiências dos processos.
Como nem sempre os dados experimentais para determinadas substâncias estão disponíveis,
torna-se necessário o desenvolvimento e a utilização de equações para determinar estas
propriedades. Nas últimas décadas, houve uma popularização dos algoritmos de aprendizado
de máquina, que, por meio de um processo iterativo de treinamento com um banco de dados,
se tornaram capazes de fazer previsões. Com o objetivo de avaliar a integração entre os métodos
de predição de propriedades, utilizaram-se o calor de combustão e de formação de um total de
551 dados de substâncias puras constituídas por carbono, hidrogênio, oxigênio, nitrogênio e
enxofre. Essas substâncias puras foram representadas computacionalmente pelo número e tipo
de átomos ou pelo número e tipo de ligações químicas entre esses átomos, que foram as
variáveis de entrada para todos os modelos treinados. Para relacionar estas substâncias e suas
respectivas propriedades termodinâmicas, especificamente o calor de combustão e formação,
foram empregados os modelos de regressão linear multivariável, regressão simbólica, redes
neurais artificiais, gradiente boosting baseado em árvores de decisão e máquina de suporte de
vetor de regressão. Todos estes métodos foram treinados com uma divisão dos dados de 70%
para treinamento, 15% para validação e 15% para teste. Por fim, o modelo de regressão linear
multivariável, no caso de descrição por ligações químicas, apresentou desempenho superior aos
outros métodos, resultando em coeficiente de correlação de Pearson de 99,94% e 96,43% para
os dados de teste do calor de combustão e do calor de formação, respectivamente. Isso
demonstra que a abordagem de um modelo linear é adequada para substâncias orgânicas
compostas por C, H, O, N, S. Além da avaliação da qualidade do ajuste, também foi empregada
a análise de contribuição local para cada variável de entrada, por meio de uma metodologia de
cálculo proveniente da teoria dos jogos, denominada valores Shapley, permitindo identificar a
influência de cada variável em comparação com o valor médio predito pelo modelo. | por |
dc.contributor.advisor1 | Salau, Nina Paula Gonçalves | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/4234840503539989 | por |
dc.contributor.advisor-co1 | Lanzanova, Thompson Diórdinis Metzka | |
dc.contributor.referee1 | Rocha, Luiz Alberto Oliveira | |
dc.contributor.referee2 | Fagundez, Jean Lucca Souza | |
dc.creator.Lattes | http://lattes.cnpq.br/9816449389376898 | por |
dc.publisher.country | Brasil | por |
dc.publisher.department | Engenharia Química | por |
dc.publisher.initials | UFSM | por |
dc.publisher.program | Programa de Pós-Graduação em Engenharia Química | por |
dc.subject.cnpq | CNPQ::ENGENHARIAS::ENGENHARIA QUIMICA | por |
dc.publisher.unidade | Centro de Tecnologia | por |