Modellazione d’insieme
La modellazione d’insieme è il processo di esecuzione di due o più modelli analitici correlati ma diversi e poi la sintesi dei risultati in un unico punteggio o spread al fine di migliorare l’accuratezza delle applicazioni di analisi predittiva e data mining.
Nella modellazione predittiva e in altri tipi di analisi dei dati, un singolo modello basato su un campione di dati può avere distorsioni, alta variabilità o vere e proprie imprecisioni che influenzano l’affidabilità dei suoi risultati analitici. L’uso di tecniche di modellazione specifiche può presentare inconvenienti simili. Combinando diversi modelli o analizzando più campioni, i data scientist e altri analisti di dati possono ridurre gli effetti di queste limitazioni e fornire informazioni migliori ai decisori aziendali.
Un esempio comune di modellazione ensemble è un modello random forest. Questo approccio al data mining sfrutta più alberi decisionali, un tipo di modello analitico che è progettato per prevedere i risultati sulla base di diverse variabili e regole. Un modello di foresta casuale mescola alberi decisionali che possono analizzare diversi dati campione, valutare diversi fattori o pesare le variabili comuni in modo diverso. I risultati dei vari alberi decisionali vengono poi convertiti in una media semplice o aggregati attraverso un’ulteriore ponderazione.
La modellazione ensemble è cresciuta in popolarità man mano che più organizzazioni hanno distribuito le risorse di calcolo e il software di analisi avanzata necessari per eseguire tali modelli. Inoltre, l’emergere di Hadoop e di altre tecnologie di big data ha portato le aziende a memorizzare e analizzare maggiori volumi di dati, creando un maggiore potenziale per l’esecuzione di modelli analitici su diversi campioni di dati.