modelagem de conjuntos
A modelagem de conjuntos é o processo de executar dois ou mais modelos analíticos relacionados mas diferentes e depois sintetizar os resultados em uma única pontuação ou spread para melhorar a precisão da análise preditiva e aplicações de data mining.
Na modelagem preditiva e outros tipos de análise de dados, um único modelo baseado em uma amostra de dados pode ter vieses, alta variabilidade ou imprecisões que afetam a confiabilidade de seus achados analíticos. O uso de técnicas específicas de modelagem pode apresentar inconvenientes semelhantes. Ao combinar diferentes modelos ou analisar múltiplas amostras, os cientistas de dados e outros analistas de dados podem reduzir os efeitos dessas limitações e fornecer melhores informações para os tomadores de decisão de negócios.
Um exemplo comum de modelagem de conjuntos é um modelo florestal aleatório. Esta abordagem de mineração de dados alavanca múltiplas árvores de decisão, um tipo de modelo analítico que é projetado para prever resultados com base em diferentes variáveis e regras. Um modelo florestal aleatório combina árvores de decisão que podem analisar diferentes dados da amostra, avaliar diferentes fatores ou pesar variáveis comuns de forma diferente. Os resultados das várias árvores de decisão são então convertidos em uma média simples ou agregados através de uma maior ponderação.
A modelagem de montagem tem crescido em popularidade à medida que mais organizações implantaram os recursos computacionais e o software analítico avançado necessários para executar tais modelos. Além disso, o surgimento do Hadoop e outras grandes tecnologias de dados levou as empresas a armazenar e analisar maiores volumes de dados, criando um maior potencial para executar modelos analíticos em diferentes amostras de dados.