ensemble-mallinnus
Ensemble-mallinnus on prosessi, jossa ajetaan kaksi tai useampia toisiinsa liittyviä, mutta erilaisia analyyttisiä malleja ja sen jälkeen syntetisoidaan tulokset yhdeksi pistemääräksi tai hajonnaksi ennustavan analytiikan ja tiedonlouhintasovellusten tarkkuuden parantamiseksi.
Ensemble-mallinnuksessa ja muussa data-analytiikassa yksittäisellä, yhteen datanäytteeseen pohjautuvalla mallilla voi olla vääristymiä, suurta vaihtelevuutta tai suoranaisia epätarkkuuksia, jotka vaikuttavat analyyttisten havaintojen luotettavuuteen. Tiettyjen mallinnustekniikoiden käyttö voi aiheuttaa samanlaisia haittoja. Yhdistämällä eri malleja tai analysoimalla useita näytteitä datatieteilijät ja muut data-analyytikot voivat vähentää näiden rajoitusten vaikutuksia ja tarjota parempaa tietoa liiketoimintapäättäjille.
Yksi yleinen esimerkki ensemble-mallinnuksesta on random forest -malli. Tämä tiedonlouhinnan lähestymistapa hyödyntää useita päätöspuita, eräänlaista analyyttistä mallia, joka on suunniteltu ennustamaan tuloksia eri muuttujien ja sääntöjen perusteella. Satunnaismetsämallissa sekoitetaan päätöspuita, jotka voivat analysoida eri näytetietoja, arvioida eri tekijöitä tai painottaa yhteisiä muuttujia eri tavalla. Eri päätöspuiden tulokset muunnetaan sitten joko yksinkertaiseksi keskiarvoksi tai aggregoidaan lisäpainotuksen avulla.
Yhdistelmämallinnus on kasvattanut suosiotaan, kun yhä useammat organisaatiot ovat ottaneet käyttöön laskentaresursseja ja kehittyneitä analyysiohjelmistoja, joita tarvitaan tällaisten mallien suorittamiseen. Lisäksi Hadoopin ja muiden big data -teknologioiden yleistyminen on saanut yritykset tallentamaan ja analysoimaan suurempia tietomääriä, mikä on lisännyt mahdollisuuksia analyyttisten mallien suorittamiseen erilaisille tietonäytteille.