python模型集成知識(shí)點(diǎn)總結(jié)
說明
1、模型集成是指將一系列不同模型的預(yù)測結(jié)果集成在一起,從而獲得更好的預(yù)測結(jié)果。
2、對于模型集成來說,模型的多樣性非常重要。Diversityisstrength.用于集成的模型應(yīng)盡可能好,同時(shí)應(yīng)盡可能不同。
同一的網(wǎng)絡(luò),使用不同的隨機(jī)初始化,多次獨(dú)立訓(xùn)練,然后集成,意義不大。更好的方法是使用結(jié)構(gòu)非常不同的模型進(jìn)行集成,這樣每個(gè)模型的偏差就會(huì)在不同的方向上相互抵消,結(jié)果就會(huì)更加穩(wěn)定準(zhǔn)確。
實(shí)例
可以用多種不同的方法來集成它們,最簡單的辦法是,取平均:
final_preds = 0.25 * (preds_a + preds_b + preds_c + preds_d)
由于每一個(gè)模型的性能會(huì)有差距,所以更好的辦法是加權(quán)平均:
final_preds = 0.5 * preds_a + 0.25 * preds_b + 0.1 * preds_c + 0.15 * preds_d
知識(shí)點(diǎn)擴(kuò)充:
當(dāng)我們想在數(shù)據(jù)集上構(gòu)建許多個(gè)模型,便可考慮使用集成的方法:
1. 掛袋法:并行進(jìn)行,掛袋法集成中的每一個(gè)模型只使用訓(xùn)練集的一部分,它們的思路是減少對數(shù)據(jù)產(chǎn)生過度擬合,但前提是每個(gè)模型的差別不能太大,掛袋法對如線性回歸之類的線性預(yù)測器無效。對于一些很穩(wěn)定的模型,掛袋法的效果不明顯,它適合那些對很小的改變也十分敏感的分類器,例如決策樹,它很不穩(wěn)定,未剪枝決策樹就十分適合掛袋法。而KNN分類器則是一種很穩(wěn)定的模型,不過我們可以使用隨機(jī)子空間方法,為最近鄰方法引入不穩(wěn)定性。
2. 賦權(quán)重提升法:順序進(jìn)行,產(chǎn)生一個(gè)逐步復(fù)雜的模型序列,它按順序基于前一個(gè)模型的錯(cuò)誤訓(xùn)練新的模型,每次訓(xùn)練得到的模型被賦予一個(gè)權(quán)重,這個(gè)權(quán)重依據(jù)模型再給定數(shù)據(jù)的效果而定。最終的預(yù)測值產(chǎn)生時(shí),這些權(quán)重值就是每個(gè)特定模型對于最終輸出結(jié)果的影響力的判據(jù)。整體來說就是把錯(cuò)誤率低的分類器賦予更大的權(quán)重。
3. 梯度提升法:由于賦權(quán)提升法使根據(jù)賦予錯(cuò)誤實(shí)例更大的權(quán)重,然后是的下一個(gè)模型更可能選中這些錯(cuò)誤分類的實(shí)例再次訓(xùn)練,而這也存在不足之處,這里梯度提升法采用梯度而不是權(quán)重來鑒別缺陷,基于調(diào)整殘差(真實(shí)值y與預(yù)測值y')來完善上一個(gè)模型的缺陷。
到此這篇關(guān)于python模型集成知識(shí)點(diǎn)總結(jié)的文章就介紹到這了,更多相關(guān)python模型集成是什么內(nèi)容請搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站!
版權(quán)聲明:本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學(xué)習(xí)參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。