modelación por conjuntos
La modelización por conjuntos es el proceso de ejecutar dos o más modelos analíticos relacionados pero diferentes y, a continuación, sintetizar los resultados en una única puntuación o extensión con el fin de mejorar la precisión de las aplicaciones de análisis predictivo y de minería de datos.
En la modelización predictiva y otros tipos de análisis de datos, un único modelo basado en una muestra de datos puede tener sesgos, una alta variabilidad o inexactitudes absolutas que afectan a la fiabilidad de sus resultados analíticos. El uso de técnicas de modelización específicas puede presentar inconvenientes similares. Combinando diferentes modelos o analizando múltiples muestras, los científicos de datos y otros analistas de datos pueden reducir los efectos de esas limitaciones y proporcionar mejor información a los responsables de la toma de decisiones empresariales.
Un ejemplo común de modelado de conjunto es un modelo de bosque aleatorio. Este enfoque de la minería de datos aprovecha múltiples árboles de decisión, un tipo de modelo analítico que está diseñado para predecir resultados basados en diferentes variables y reglas. Un modelo de bosque aleatorio combina árboles de decisión que pueden analizar diferentes datos de muestra, evaluar diferentes factores o ponderar variables comunes de manera diferente. Los resultados de los distintos árboles de decisión se convierten entonces en una media simple o se agregan mediante una ponderación adicional.
El modelado conjunto ha crecido en popularidad a medida que más organizaciones han desplegado los recursos informáticos y el software de análisis avanzado necesarios para ejecutar dichos modelos. Además, la aparición de Hadoop y otras tecnologías de big data ha llevado a las empresas a almacenar y analizar mayores volúmenes de datos, creando un mayor potencial para ejecutar modelos analíticos en diferentes muestras de datos.