ensemble modeling
Ensemble modeling is het proces van het uitvoeren van twee of meer verwante maar verschillende analytische modellen en vervolgens het synthetiseren van de resultaten in een enkele score of spread om de nauwkeurigheid van predictive analytics en data mining toepassingen te verbeteren.
In predictive modeling en andere vormen van data analytics, kan een enkel model gebaseerd op één datamonster biases, hoge variabiliteit of regelrechte onnauwkeurigheden hebben die de betrouwbaarheid van de analytische bevindingen beïnvloeden. Het gebruik van specifieke modelleringstechnieken kan soortgelijke nadelen met zich meebrengen. Door verschillende modellen te combineren of meerdere steekproeven te analyseren, kunnen datawetenschappers en andere data-analisten de effecten van deze beperkingen beperken en betere informatie verstrekken aan zakelijke besluitvormers.
Een veelvoorkomend voorbeeld van ensemble-modellering is een random forest-model. Deze benadering van datamining maakt gebruik van meerdere beslisbomen, een type analytisch model dat is ontworpen om uitkomsten te voorspellen op basis van verschillende variabelen en regels. Een random forest model combineert beslisbomen die verschillende gegevensmonsters kunnen analyseren, verschillende factoren kunnen evalueren of gemeenschappelijke variabelen anders kunnen wegen. De resultaten van de verschillende beslisbomen worden vervolgens omgezet in een eenvoudig gemiddelde of samengevoegd door verdere weging.
Ensemble modeling heeft aan populariteit gewonnen naarmate meer organisaties de computerbronnen en geavanceerde analysesoftware hebben ingezet die nodig zijn om dergelijke modellen uit te voeren. Bovendien heeft de opkomst van Hadoop en andere big data-technologieën ertoe geleid dat bedrijven grotere hoeveelheden gegevens opslaan en analyseren, waardoor er meer mogelijkheden zijn om analysemodellen op verschillende gegevensmonsters uit te voeren.