semblové modelování
Semblové modelování je proces spuštění dvou nebo více souvisejících, ale různých analytických modelů a následné syntézy výsledků do jediného skóre nebo rozpětí s cílem zlepšit přesnost prediktivní analýzy a aplikací pro dolování dat.
V prediktivním modelování a dalších typech analýzy dat může mít jediný model založený na jednom vzorku dat zkreslení, vysokou variabilitu nebo přímo nepřesnosti, které ovlivňují spolehlivost jeho analytických závěrů. Použití specifických modelovacích technik může představovat podobné nevýhody. Kombinací různých modelů nebo analýzou více vzorků mohou datoví vědci a další datoví analytici omezit vliv těchto omezení a poskytnout tvůrcům obchodních rozhodnutí lepší informace.
Jedním z běžných příkladů skupinového modelování je model náhodného lesa. Tento přístup k dolování dat využívá více rozhodovacích stromů, což je typ analytického modelu, který je navržen tak, aby předpovídal výsledky na základě různých proměnných a pravidel. Model náhodného lesa kombinuje rozhodovací stromy, které mohou analyzovat různé vzorky dat, vyhodnocovat různé faktory nebo různě vážit společné proměnné. Výsledky různých rozhodovacích stromů se pak buď převedou na prostý průměr, nebo se agregují pomocí dalšího vážení.
Skládání modelů roste na popularitě s tím, jak stále více organizací nasazuje výpočetní zdroje a pokročilý analytický software potřebný k provozování takových modelů. Kromě toho nástup Hadoopu a dalších technologií pro zpracování velkých objemů dat vedl podniky k ukládání a analýze větších objemů dat, což vytvořilo větší potenciál pro spouštění analytických modelů na různých vzorcích dat.