ensemble modellering
Ensemble modellering er processen med at køre to eller flere relaterede, men forskellige analytiske modeller og derefter syntetisere resultaterne til en enkelt score eller spredning for at forbedre nøjagtigheden af prædiktive analyser og data mining-applikationer.
I prædiktiv modellering og andre typer dataanalyser kan en enkelt model baseret på én dataprøve have bias, høj variabilitet eller direkte unøjagtigheder, der påvirker pålideligheden af dens analytiske resultater. Anvendelse af specifikke modelleringsteknikker kan have lignende ulemper. Ved at kombinere forskellige modeller eller analysere flere stikprøver kan dataloger og andre dataanalytikere reducere virkningerne af disse begrænsninger og give bedre oplysninger til beslutningstagere i erhvervslivet.
Et almindeligt eksempel på ensemble-modellering er en random forest-model. Denne tilgang til data mining udnytter flere beslutningstræer, en type analytisk model, der er designet til at forudsige resultater baseret på forskellige variabler og regler. En random forest-model blander beslutningstræer, der kan analysere forskellige stikprøvedata, evaluere forskellige faktorer eller vægte fælles variabler forskelligt. Resultaterne af de forskellige beslutningstræer konverteres derefter enten til et simpelt gennemsnit eller aggregeres gennem yderligere vægtning.
Ensemble-modellering er blevet mere og mere populær, efterhånden som flere organisationer har implementeret de computerressourcer og den avancerede analytiske software, der er nødvendig for at køre sådanne modeller. Desuden har fremkomsten af Hadoop og andre big data-teknologier fået virksomheder til at lagre og analysere større datamængder, hvilket har skabt et øget potentiale for at køre analysemodeller på forskellige dataprøver.