dc.creator | Heinen, Taciara Zborowski Horst | |
dc.date.accessioned | 2022-04-28T15:17:09Z | |
dc.date.available | 2022-04-28T15:17:09Z | |
dc.date.issued | 2021-12-21 | |
dc.identifier.uri | http://repositorio.ufsm.br/handle/1/24215 | |
dc.description.abstract | The development of large databases usually implies combining data collected for different
purposes under different standards and methodologies, which often leads databases to
suffer from disparate and inconsistent soil data. Despite the potential of visible and nearinfrared
(Vis-NIR) spectroscopy to predict soil organic carbon (SOC) from those databases,
the effectiveness and consistency among analytical methods used to produce the target
data are seldom discussed. The main purpose of this research was to investigate the interplay
among preprocessing techniques, model architectures, and especially the analytical
methods used to produce the SOC target data. To accomplish it, we set up two specific
objectives: i) evaluate the interplay among analytical methods, preprocessing techniques,
and model architectures on SOC predictions, ii) assess whether this interplay can be translated
into some form of hierarchy across validation metrics. In this PhD thesis, two chapters
cover the topic where the above-mentioned objectives were met. Chapter I presents how
changes in the analytical method (dry (SOCDC) and wet combustion with quantification by
titrimetry (SOCWCt) and colorimetry (SOCWCc)) and the preprocessing techniques (smoothing
(SMO), continuum removal (CRR), and Savitzky-Golay first derivative (SGD)) affect the
empirical relationship captured by different machine learning algorithms (random forest, cubist,
and partial least square regression (PLSR)). Cross-validation metrics were used to
compare the parallel performance of 27 predictive models. The relationship between covariate
matrix and target data is explored based on the variable importance. Chapter II
shows how the interplay among those three factors can be translated into a hierarchy. A resampling
technique was used to split the dataset into training and validation sets 100 times
to achieve realistic performances and explore how the predictive performance changed as
the training set changed. Conditional inference tree analysis was performed to evaluate
how those three factors influenced global validation metrics. The predictive performance
in both studies varied depending on the SOC analytical method, preprocessing technique,
and model architecture employed. Among the three analytical methods tested, DC and
WCt provided a higher correlation between SOC and spectra than WCc, and thus, resulted
in higher models performance. The model architecture had a larger influence on the validation
metrics over preprocessing techniques and analytical methods. PLSR models were more influenced by the analytical method, whereas the preprocessing technique influenced
random forest and cubist more. Cubist models combined with CRR minimized the accuracy
differences resulting from the employed SOC analytical methods. However, this combination
resulted in overfitted model and high uncertainty on predictions. PLSR presented a
more consistent performance than random forest and cubist. Overall, SOC data produced
using different analytical methods in a training dataset significantly affected the prediction
reliability, capability, and assessment. These results will be useful either to guide the analytical
method selection for new projects or to manage already available databases. Besides
that, they highlight the need for transparent and precise documentation over spectroscopy
modeling to enable a fair comparison between publications. | eng |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES | por |
dc.language | eng | por |
dc.publisher | Universidade Federal de Santa Maria | por |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Pedometria | por |
dc.subject | Modelagem espectral | por |
dc.subject | Aprendizado de máquina | por |
dc.subject | Biblioteca espectral | por |
dc.subject | Quimiometria | por |
dc.subject | Pedometrics | eng |
dc.subject | Spectral modeling | eng |
dc.subject | Machine learning | eng |
dc.subject | Spectral library | por |
dc.subject | Chemometrics | por |
dc.title | Predição de carbono orgânico do solo por espectroscopia Vis-Nir | por |
dc.title.alternative | Soil organic carbon prediction by diffuse reflectance spectroscopy: analytical methods, preprocessing techniques, and model architectures | eng |
dc.type | Tese | por |
dc.description.resumo | O desenvolvimento de grandes bancos de dados geralmente implica a combinação de dados
coletados para diferentes propósitos sob diferentes padrões e metodologias, o que
muitas vezes leva os bancos de dados a sofrer com dados de solo díspares e inconsistentes.
Apesar do potencial da espectroscopia de infravermelho próximo e visível (Vis-
NIR) para prever o carbono orgânico do solo (COS) a partir desses bancos de dados,
a eficácia e a consistência entre os métodos analíticos usados para produzir os dados
alvo raramente são discutidos. O objetivo principal desta pesquisa foi investigar a interação
entre as técnicas de pré-processamento, arquiteturas de modelo e, especialmente,
os métodos analíticos usados para produzir os dados alvo do COS. Para alcançá-lo, estabelecemos
dois objetivos específicos: i) avaliar a interação entre métodos analíticos,
técnicas de pré-processamento e arquiteturas de modelo nas predições de COS, ii) avaliar
se essa interação pode ser traduzida em alguma forma de hierarquia entre as métricas
de validação. Nesta tese de doutorado, dois capítulos abordam o tema onde os objetivos
acima mencionados foram alcançados. O Capítulo I apresenta como mudanças no método
analítico (seco (COSDC) e combustão úmida com quantificação por titulometria (COSWCt) e
colorimetria (COSWCc)) e as técnicas de pré-processamento (suavização (SMO), continuum
remoção (CRR) e primeira derivada de Savitzky-Golay (SGD) afetam a relação empírica
capturada por diferentes arquiteturas de modelos (random forest, cubist e regressão de
mínimos quadrados parciais (PLSR)). Métricas de validação cruzada foram usadas para
comparar o desempenho paralelo de 27 modelos preditivos. A relação entre a matriz de
covariável e os dados alvo é explorada com base na importância da variável. O Capítulo
II mostra como a interação entre esses três fatores pode ser traduzida em uma hierarquia.
Uma técnica de reamostragem foi usada para dividir o conjunto de dados em conjuntos de
treinamento e validação 100 vezes para atingir desempenhos realistas e explorar como o
desempenho preditivo mudou conforme o conjunto de treinamento mudou. A análise da
árvore de inferência condicional foi realizada para avaliar como esses três fatores influenciaram
as métricas de validação global. O desempenho preditivo em ambos os estudos
variou dependendo do método analítico COS, da técnica de pré-processamento e da arquitetura
do modelo empregada. Dentre os três métodos analíticos testados, DC e WCt
proporcionaram maior correlação entre COS e espectros do que WCc e, portanto, resultaram em melhor desempenho dos modelos. A arquitetura do modelo teve maior influência
nas métricas de validação sobre as técnicas de pré-processamento e métodos analíticos.
Os modelos PLSR foram mais influenciados pelo método analítico, enquanto a técnica de
pré-processamento influenciou mais os modelos random forest e cubist. Modelos cubists
combinados com CRR minimizaram as diferenças de precisão resultantes dos métodos
analíticos de COS empregados. No entanto, essa combinação resultou em um modelo
sobreajustado e alta incerteza nas previsões. PLSR apresentou desempenho mais consistente
do que random forest e cubist. No geral, os dados do COS produzidos com diferentes
métodos analíticos em um conjunto de dados de treinamento afetaram significativamente
a confiabilidade, capacidade e avaliação das predições. Esses resultados serão úteis para
orientar a seleção de métodos analíticos para novos projetos ou para gerenciar bancos de
dados já disponíveis. Além disso, eles destacam a necessidade de documentação transparente
e precisa sobre a modelagem espectroscópica para permitir uma comparação justa
entre as publicações. | por |
dc.contributor.advisor1 | Dalmolin, Ricardo Simão Diniz | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/3735884911693854 | por |
dc.contributor.advisor-co1 | Rosa, Alessandro Samuel | |
dc.contributor.advisor-co2 | Grunwald, Sabine | |
dc.contributor.referee1 | ten Caten, Alexandre | |
dc.contributor.referee2 | Souza, Deorgia Tayane Mendes de | |
dc.contributor.referee3 | Pedron, Fabrício de Araújo | |
dc.contributor.referee4 | Schenato, Ricardo Bergamo | |
dc.creator.Lattes | http://lattes.cnpq.br/6763043931071514 | por |
dc.publisher.country | Brasil | por |
dc.publisher.department | Agronomia | por |
dc.publisher.initials | UFSM | por |
dc.publisher.program | Programa de Pós-Graduação em Ciência do Solo | por |
dc.subject.cnpq | CNPQ::CIENCIAS AGRARIAS::AGRONOMIA::CIENCIA DO SOLO | por |
dc.publisher.unidade | Centro de Ciências Rurais | por |