国产在线观看精选视频,亚洲А∨天堂久久精品,精品欧美一区二区三区久久久

一、CART決策樹算法簡介

CART（Classification And Regression Trees 分類回歸樹）算法是一種樹構建算法，既可以用于分類任務，又可以用于回歸。相比于 ID3 和 C4.5 只能用于離散型數(shù)據(jù)且只能用于分類任務，CART 算法的適用面要廣得多，既可用于離散型數(shù)據(jù)，又可以處理連續(xù)型數(shù)據(jù)，并且分類和回歸任務都能處理。

本文僅討論基本的CART分類決策樹構建，不討論回歸樹和剪枝等問題。

首先，我們要明確以下幾點：
1. CART算法是二分類常用的方法，由CART算法生成的決策樹是二叉樹，而 ID3 以及 C4.5 算法生成的決策樹是多叉樹，從運行效率角度考慮，二叉樹模型會比多叉樹運算效率高。
2. CART算法通過基尼(Gini)指數(shù)來選擇最優(yōu)特征。

二、基尼系數(shù)

基尼系數(shù)代表模型的不純度，基尼系數(shù)越小，則不純度越低，注意這和 C4.5的信息增益比的定義恰好相反。

分類問題中，假設有K個類，樣本點屬于第k類的概率為pk，則概率分布的基尼系數(shù)定義為:

若CART用于二類分類問題（不是只能用于二分類），那么概率分布的基尼系數(shù)可簡化為

假設使用特征 A 將數(shù)據(jù)集 D 劃分為兩部分 D1 和 D2，此時按照特征 A 劃分的數(shù)據(jù)集的基尼系數(shù)為：

三、CART決策樹生成算法

輸入：訓練數(shù)據(jù)集D，停止計算的條件
輸出：CART決策樹
根據(jù)訓練數(shù)據(jù)集，從根結點開始，遞歸地對每個結點進行以下操作，構建二叉決策樹：
（1）計算現(xiàn)有特征對該數(shù)據(jù)集的基尼指數(shù)，如上面所示；
（2）選擇基尼指數(shù)最小的值對應的特征為最優(yōu)特征，對應的切分點為最優(yōu)切分點（若最小值對應的特征或切分點有多個，隨便取一個即可）；
（3）按照最優(yōu)特征和最優(yōu)切分點，從現(xiàn)結點生成兩個子結點，將訓練數(shù)據(jù)集中的數(shù)據(jù)按特征和屬性分配到兩個子結點中；
（4）對兩個子結點遞歸地調(diào)用（1）（2）（3），直至滿足停止條件。
（5）生成CART樹。
算法停止的條件：結點中的樣本個數(shù)小于預定閾值，或樣本集的基尼指數(shù)小于預定閾值（樣本基本屬于同一類，如完全屬于同一類則為0），或者特征集為空。
注：最優(yōu)切分點是將當前樣本下分為兩類（因為我們要構造二叉樹）的必要條件。對于離散的情況，最優(yōu)切分點是當前最優(yōu)特征的某個取值；對于連續(xù)的情況，最優(yōu)切分點可以是某個具體的數(shù)值。具體應用時需要遍歷所有可能的最優(yōu)切分點取值去找到我們需要的最優(yōu)切分點。

四、CART算法的Python實現(xiàn)

若是二分類問題，則函數(shù)calcGini和choose_best_feature可簡化如下：

# 計算樣本屬于第1個類的概率p
def calcProbabilityEnt(dataset):
 numEntries = len(dataset)
 count = 0
 label = dataset[0][len(dataset[0]) - 1]
 for example in dataset:
  if example[-1] == label:
count += 1
 probabilityEnt = float(count) / numEntries
 return probabilityEnt
def choose_best_feature(dataset):
 # 特征總數(shù)
 numFeatures = len(dataset[0]) - 1
 # 當只有一個特征時
 if numFeatures == 1:
  return 0
 # 初始化最佳基尼系數(shù)
 bestGini = 1
 # 初始化最優(yōu)特征
 index_of_best_feature = -1
 for i in range(numFeatures):
  # 去重，每個屬性值唯一
  uniqueVals = set(example[i] for example in dataset)
  # 定義特征的值的基尼系數(shù)
  Gini = {}
  for value in uniqueVals:
sub_dataset1, sub_dataset2 = split_dataset(dataset,i,value)
prob1 = len(sub_dataset1) / float(len(dataset))
prob2 = len(sub_dataset2) / float(len(dataset))
probabilityEnt1 = calcProbabilityEnt(sub_dataset1)
probabilityEnt2 = calcProbabilityEnt(sub_dataset2)
Gini[value] = prob1 * 2 * probabilityEnt1 * (1 - probabilityEnt1) + prob2 * 2 * probabilityEnt2 * (1 - probabilityEnt2)
if Gini[value] < bestGini:
 bestGini = Gini[value]
 index_of_best_feature = i
 best_split_point = value
 return index_of_best_feature, best_split_point

五、運行結果

到此這篇關于Python實現(xiàn)CART決策樹算法及詳細注釋的文章就介紹到這了,更多相關Python策樹算法內(nèi)容請搜索本站以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持本站！

版權聲明：本站文章來源標注為YINGSOO的內(nèi)容版權均為本站所有，歡迎引用、轉載，請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網(wǎng)站，禁止在非www.sddonglingsh.com所屬的服務器上建立鏡像，否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來，僅供學習參考，不代表本站立場，如有內(nèi)容涉嫌侵權，請聯(lián)系alex-e#qq.com處理。

動態(tài)撥號：關鍵詞排名下降是啥緣故，快速提高排名怎樣做

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項

概要：競價推廣費用大概要多少呢，競價推廣好不好

一下吧：SEO中site是什么意思，作用和應用是怎樣的

郵箱：付費郵箱有哪些優(yōu)勢，付費郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢呢