Viés associado ao arranjo de dados e tamanho amostral e suas implicações na acurácia da seleção indireta no melhoramento de plantas
Resumo
Alguns métodos de arranjo de dados utilizados atualmente podem superestimar os coeficientes de correlação de Pearson (r) entre variáveis explicativas, aumentando a multicolinearidade em análises que utilizam regressão múltipla. Neste sentido, os objetivos da presente pesquisa foram revelar o impacto de diferentes cenários de arranjos de dados na multicolinearidade de matrizes, na eficiência dos métodos utilizados para ajusta-la, nas estimativas dos coeficientes e acurácia da análise de trilha, bem como fazer uso de simulações para revelar o comportamento estatístico do r e o tamanho amostral ótimo para estimativas de r entre caracteres do milho. Para isto, foram utilizados dados de um experimento conduzido em delineamento de blocos completos casualizados em esquema fatorial 15 × 3 (15 híbridos simples de milho e três locais), dispostos em quatro repetições. As variáveis analisadas em cinco plantas de cada parcela foram: altura de planta, altura de inserção da espiga, diâmetro e comprimento da espiga, número de fileiras de grãos por espiga, número de grãos por fileira, diâmetro e comprimento do sabugo, relação diâmetro do sabugo/diâmetro da espiga, número de grãos por espiga, massa de grãos por espiga e massa de mil grãos. Em um primeiro momento, três métodos de análise de trilha (tradicional, com inclusão de k e com exclusão de variáveis) tendo como variável dependente a massa de grãos por espiga, foram testados em dois cenários: 1) com a matriz de correlação linear (X’X) entre as variáveis estimada com todas as observações amostradas, n = 900 e 2) com a matriz X’X estimada com o valor médio das cinco plantas amostradas em cada parcela, n = 180. Posteriormente, visando avaliar o comportamento estatístico do r, além dos dois cenários descritos, o valor médio dos tratamentos em cada local, n = 45, também foi considerado. Em cada cenário foram simulados 60 tamanhos amostrais utilizando simulações bootstrap com reposição. Intervalos de confiança para combinações de diferentes magnitudes foram estimados em cada cenário e tamanho amostral. Cento e oitenta matrizes de correlação (três cenários × 60 tamanhos amostrais) foram estimadas e a multicolinearidade avaliada. O número de grãos por espiga e a massa de mil grãos apresentam os efeitos diretos mais expressivos sob a massa de grãos por espiga (r = 0,892 e r = 0,733, respectivamente). A utilização de valores oriundos de médias reduz a variância individual de um conjunto de n-variáveis, superestima a magnitude do r entre os pares de combinação, aumenta a multicolinearidade da matriz e reduz a eficiência dos métodos utilizados para ajustá-la, bem como a acurácia das estimativas dos coeficientes de trilha. O número de plantas necessário para estimativa de coeficientes de correlação com intervalo de confiança bootstrap de 95% é maior quando todas as observações da amostra são utilizadas e aumenta no sentido de pares de combinação com menor magnitude. Utilizando todas as observações amostradas, 210 plantas são suficientes para estimativa do r entre caracteres de híbridos simples de milho, no intervalo de confiança “bootstrap” de 95% < 0,30. Um método simples para reduzir a multicolinearidade das matrizes e melhorar a acurácia da análise de trilha é proposto.
Os arquivos de licença a seguir estão associados a este item: