Modélisation d’ensemble
La modélisation d’ensemble est le processus d’exécution de deux ou plusieurs modèles analytiques liés mais différents, puis de synthèse des résultats en un seul score ou écart afin d’améliorer la précision des applications d’analyse prédictive et d’exploration de données.
Dans la modélisation prédictive et d’autres types d’analyse de données, un modèle unique basé sur un échantillon de données peut présenter des biais, une variabilité élevée ou des inexactitudes flagrantes qui affectent la fiabilité de ses résultats analytiques. L’utilisation de techniques de modélisation spécifiques peut présenter des inconvénients similaires. En combinant différents modèles ou en analysant plusieurs échantillons, les scientifiques et autres analystes de données peuvent réduire les effets de ces limites et fournir de meilleures informations aux décideurs d’entreprise.
Un exemple courant de modélisation d’ensemble est un modèle de forêt aléatoire. Cette approche de l’exploration des données exploite plusieurs arbres de décision, un type de modèle analytique conçu pour prédire les résultats en fonction de différentes variables et règles. Un modèle de forêt aléatoire mélange des arbres de décision qui peuvent analyser différents échantillons de données, évaluer différents facteurs ou pondérer différemment des variables communes. Les résultats des différents arbres de décision sont ensuite soit convertis en une moyenne simple, soit agrégés par une pondération supplémentaire.
La modélisation d’assemblage a gagné en popularité car davantage d’organisations ont déployé les ressources informatiques et les logiciels d’analyse avancés nécessaires à l’exécution de tels modèles. En outre, l’émergence de Hadoop et d’autres technologies de big data a conduit les entreprises à stocker et à analyser de plus grands volumes de données, créant ainsi un potentiel accru pour l’exécution de modèles analytiques sur différents échantillons de données.