ensemblemodellering
Ensemblemodellering är processen att köra två eller flera relaterade men olika analysmodeller och sedan syntetisera resultaten till en enda poäng eller spridning för att förbättra noggrannheten i prediktiva analyser och datautvinningstillämpningar.
Inför prediktiv modellering och andra typer av dataanalyser kan en enskild modell som baseras på ett datamaterial ha bias, stor variabilitet eller rena felaktigheter som påverkar tillförlitligheten av dess analytiska resultat. Användning av specifika modelleringstekniker kan medföra liknande nackdelar. Genom att kombinera olika modeller eller analysera flera prover kan datavetare och andra dataanalytiker minska effekterna av dessa begränsningar och ge bättre information till beslutsfattare i näringslivet.
Ett vanligt exempel på ensemble-modellering är en random forest-modell. Denna metod för datautvinning utnyttjar flera beslutsträd, en typ av analysmodell som är utformad för att förutsäga resultat baserat på olika variabler och regler. En random forest-modell blandar beslutsträd som kan analysera olika provdata, utvärdera olika faktorer eller vikta gemensamma variabler på olika sätt. Resultaten från de olika beslutsträden omvandlas sedan antingen till ett enkelt genomsnitt eller aggregeras genom ytterligare viktning.
Ensemblemodellering har ökat i popularitet i takt med att fler organisationer har installerat de datorresurser och den avancerade analysprogramvara som krävs för att köra sådana modeller. Dessutom har framväxten av Hadoop och annan teknik för stora datamängder lett till att företag lagrar och analyserar större datamängder, vilket skapar en ökad potential för att köra analysmodeller på olika dataprover.