Predição de carbono orgânico do solo por espectroscopia Vis-Nir
Visualizar/ Abrir
Data
2021-12-21Primeiro coorientador
Rosa, Alessandro Samuel
Segundo coorientador
Grunwald, Sabine
Primeiro membro da banca
ten Caten, Alexandre
Segundo membro da banca
Souza, Deorgia Tayane Mendes de
Terceiro membro da banca
Pedron, Fabrício de Araújo
Quarto membro da banca
Schenato, Ricardo Bergamo
Metadata
Mostrar registro completoResumo
O desenvolvimento de grandes bancos de dados geralmente implica a combinação de dados
coletados para diferentes propósitos sob diferentes padrões e metodologias, o que
muitas vezes leva os bancos de dados a sofrer com dados de solo díspares e inconsistentes.
Apesar do potencial da espectroscopia de infravermelho próximo e visível (Vis-
NIR) para prever o carbono orgânico do solo (COS) a partir desses bancos de dados,
a eficácia e a consistência entre os métodos analíticos usados para produzir os dados
alvo raramente são discutidos. O objetivo principal desta pesquisa foi investigar a interação
entre as técnicas de pré-processamento, arquiteturas de modelo e, especialmente,
os métodos analíticos usados para produzir os dados alvo do COS. Para alcançá-lo, estabelecemos
dois objetivos específicos: i) avaliar a interação entre métodos analíticos,
técnicas de pré-processamento e arquiteturas de modelo nas predições de COS, ii) avaliar
se essa interação pode ser traduzida em alguma forma de hierarquia entre as métricas
de validação. Nesta tese de doutorado, dois capítulos abordam o tema onde os objetivos
acima mencionados foram alcançados. O Capítulo I apresenta como mudanças no método
analítico (seco (COSDC) e combustão úmida com quantificação por titulometria (COSWCt) e
colorimetria (COSWCc)) e as técnicas de pré-processamento (suavização (SMO), continuum
remoção (CRR) e primeira derivada de Savitzky-Golay (SGD) afetam a relação empírica
capturada por diferentes arquiteturas de modelos (random forest, cubist e regressão de
mínimos quadrados parciais (PLSR)). Métricas de validação cruzada foram usadas para
comparar o desempenho paralelo de 27 modelos preditivos. A relação entre a matriz de
covariável e os dados alvo é explorada com base na importância da variável. O Capítulo
II mostra como a interação entre esses três fatores pode ser traduzida em uma hierarquia.
Uma técnica de reamostragem foi usada para dividir o conjunto de dados em conjuntos de
treinamento e validação 100 vezes para atingir desempenhos realistas e explorar como o
desempenho preditivo mudou conforme o conjunto de treinamento mudou. A análise da
árvore de inferência condicional foi realizada para avaliar como esses três fatores influenciaram
as métricas de validação global. O desempenho preditivo em ambos os estudos
variou dependendo do método analítico COS, da técnica de pré-processamento e da arquitetura
do modelo empregada. Dentre os três métodos analíticos testados, DC e WCt
proporcionaram maior correlação entre COS e espectros do que WCc e, portanto, resultaram em melhor desempenho dos modelos. A arquitetura do modelo teve maior influência
nas métricas de validação sobre as técnicas de pré-processamento e métodos analíticos.
Os modelos PLSR foram mais influenciados pelo método analítico, enquanto a técnica de
pré-processamento influenciou mais os modelos random forest e cubist. Modelos cubists
combinados com CRR minimizaram as diferenças de precisão resultantes dos métodos
analíticos de COS empregados. No entanto, essa combinação resultou em um modelo
sobreajustado e alta incerteza nas previsões. PLSR apresentou desempenho mais consistente
do que random forest e cubist. No geral, os dados do COS produzidos com diferentes
métodos analíticos em um conjunto de dados de treinamento afetaram significativamente
a confiabilidade, capacidade e avaliação das predições. Esses resultados serão úteis para
orientar a seleção de métodos analíticos para novos projetos ou para gerenciar bancos de
dados já disponíveis. Além disso, eles destacam a necessidade de documentação transparente
e precisa sobre a modelagem espectroscópica para permitir uma comparação justa
entre as publicações.
Coleções
Os arquivos de licença a seguir estão associados a este item: