人妖在线一区,国产日韩欧美一区二区综合在线,国产啪精品视频网站免费,欧美内射深插日本少妇

新聞動(dòng)態(tài)

Python機(jī)器學(xué)習(xí)之AdaBoost算法

發(fā)布日期:2022-07-20 14:58 | 文章來(lái)源:CSDN

一、算法概述

  • AdaBoost 是英文 Adaptive Boosting(自適應(yīng)增強(qiáng))的縮寫,由 Yoav Freund 和Robert Schapire 在1995年提出。
  • AdaBoost 的自適應(yīng)在于前一個(gè)基本分類器分類錯(cuò)誤的樣本的權(quán)重會(huì)得到加強(qiáng),加強(qiáng)后的全體樣本再次被用來(lái)訓(xùn)練下一個(gè)基本分類器。同時(shí),在每一輪訓(xùn)練中加入一個(gè)新的弱分類器,直到達(dá)到某個(gè)預(yù)定的足夠小的錯(cuò)誤率或達(dá)到預(yù)先指定的最大迭代次數(shù)時(shí)停止訓(xùn)練。
  • AdaBoost 算法是一種集成學(xué)習(xí)的算法,其核心思想就是對(duì)多個(gè)機(jī)器學(xué)習(xí)模型進(jìn)行組合形成一個(gè)精度更高的模型,參與組合的模型稱為弱學(xué)習(xí)器。

二、算法原理

  • AdaBoost 的核心思想是針對(duì)同一訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)大的最終分類器(強(qiáng)分類器)。也 就是通過(guò)一些手段獲得多個(gè)弱分類器,將它們集成起來(lái)構(gòu)成強(qiáng)分類器,綜合所有分類器的預(yù)測(cè)得出最終的結(jié)果。
  • AdaBoost 算法本身是通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集中每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來(lái)確定每個(gè)樣本的權(quán)值。將修改過(guò)權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來(lái),作為最后的決策分類器。

三、算法步驟

1.初始化訓(xùn)練數(shù)據(jù)的權(quán)值分布,每一個(gè)訓(xùn)練樣本最開始時(shí)都被賦予相同的權(quán)值 1/n

2.進(jìn)行多輪迭代,用 m = 1,2,…,k 表示迭代到第幾輪

3.使用具有權(quán)值分布 Gm 的訓(xùn)練數(shù)據(jù)集學(xué)習(xí),得到基本分類器

4.計(jì)算 Gm(x) 在訓(xùn)練數(shù)據(jù)集上的分類誤差率

5.計(jì)算 Gm(x) 的系數(shù),am表示 Gm(x) 在最終分類器中的重要程度

6.更新訓(xùn)練數(shù)據(jù)集的權(quán)值分布,得到樣本的新的權(quán)值分布,用于下一輪迭代

7.組合各個(gè)弱分類器

四、算法實(shí)現(xiàn)

from numpy import *
import matplotlib.pyplot as plt

# 加載數(shù)據(jù)集
def loadDataSet(fileName):
 numFeat = len(open(fileName).readline().split('\t'))
 dataMat = []
 labelMat = []
 fr = open(fileName)
 for line in fr.readlines():
  lineArr = []
  curLine = line.strip().split('\t')
  for i in range(numFeat - 1):
lineArr.append(float(curLine[i]))
  dataMat.append(lineArr)
  labelMat.append(float(curLine[-1]))
 return dataMat, labelMat

# 返回分類預(yù)測(cè)結(jié)果  根據(jù)閾值所以有兩種返回情況
def stumpClassify(dataMatrix, dimen, threshVal, threshIneq):
 retArray = ones((shape(dataMatrix)[0], 1))
 if threshIneq == 'lt':
  retArray[dataMatrix[:, dimen] <= threshVal] = -1.0
 else:
  retArray[dataMatrix[:, dimen] > threshVal] = -1.0
 return retArray

# 返回 該弱分類器單層決策樹的信息  更新D向量的錯(cuò)誤率 更新D向量的預(yù)測(cè)目標(biāo)
def buildStump(dataArr, classLabels, D):
 dataMatrix = mat(dataArr)
 labelMat = mat(classLabels).T
 m, n = shape(dataMatrix)
 numSteps = 10.0
 bestStump = {}  # 字典用于保存每個(gè)分類器信息
 bestClasEst = mat(zeros((m, 1)))
 minError = inf  # 初始化最小誤差最大
 for i in range(n):  # 特征循環(huán)  (三層循環(huán),遍歷所有的可能性)
  rangeMin = dataMatrix[:, i].min()
  rangeMax = dataMatrix[:, i].max()
  stepSize = (rangeMax - rangeMin) / numSteps  # (大-小)/分割數(shù)  得到最小值到最大值需要的每一段距離
  for j in range(-1, int(numSteps) + 1):  # 遍歷步長(zhǎng) 最小值到最大值的需要次數(shù)
for inequal in ['lt', 'gt']:  # 在大于和小于之間切換
 threshVal = (rangeMin + float(j) * stepSize)  # 最小值+次數(shù)*步長(zhǎng)  每一次從最小值走的長(zhǎng)度
 predictedVals = stumpClassify(dataMatrix, i, threshVal,
inequal)  # 最優(yōu)預(yù)測(cè)目標(biāo)值  用于與目標(biāo)值比較得到誤差
 errArr = mat(ones((m, 1)))
 errArr[predictedVals == labelMat] = 0
 weightedError = D.T * errArr
 if weightedError < minError:  # 選出最小錯(cuò)誤的那個(gè)特征
  minError = weightedError  # 最小誤差 后面用來(lái)更新D權(quán)值的
  bestClasEst = predictedVals.copy()  # 最優(yōu)預(yù)測(cè)值
  bestStump['dim'] = i  # 特征
  bestStump['thresh'] = threshVal  # 到最小值的距離 (得到最優(yōu)預(yù)測(cè)值的那個(gè)距離)
  bestStump['ineq'] = inequal  # 大于還是小于 最優(yōu)距離為-1
 return bestStump, minError, bestClasEst

# 循環(huán)構(gòu)建numIt個(gè)弱分類器
def adaBoostTrainDS(dataArr, classLabels, numIt=40):
 weakClassArr = []  # 保存弱分類器數(shù)組
 m = shape(dataArr)[0]
 D = mat(ones((m, 1)) / m)  # D向量 每條樣本所對(duì)應(yīng)的一個(gè)權(quán)重
 aggClassEst = mat(zeros((m, 1)))  # 統(tǒng)計(jì)類別估計(jì)累積值
 for i in range(numIt):
  bestStump, error, classEst = buildStump(dataArr, classLabels, D)
  alpha = float(0.5 * log((1.0 - error) / max(error, 1e-16)))
  bestStump['alpha'] = alpha
  weakClassArr.append(bestStump)  # 加入單層決策樹
  # 得到運(yùn)算公式中的向量+/-α,預(yù)測(cè)正確為-α,錯(cuò)誤則+α。每條樣本一個(gè)α
  # multiply對(duì)應(yīng)位置相乘  這里很聰明,用-1*真實(shí)目標(biāo)值*預(yù)測(cè)值,實(shí)現(xiàn)了錯(cuò)誤分類則-,正確則+
  expon = multiply(-1 * alpha * mat(classLabels).T, classEst)
  D = multiply(D, exp(expon))  # 這三步為更新概率分布D向量 拆分開來(lái)了,每一步與公式相同
  D = D / D.sum()
  # 計(jì)算停止條件錯(cuò)誤率=0 以及計(jì)算每次的aggClassEst類別估計(jì)累計(jì)值
  aggClassEst += alpha * classEst
  # 很聰明的計(jì)算方法 計(jì)算得到錯(cuò)誤的個(gè)數(shù),向量中為1則錯(cuò)誤值
  aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T, ones((m, 1)))  # sign返回?cái)?shù)值的正負(fù)符號(hào),以1、-1表示
  errorRate = aggErrors.sum() / m  # 錯(cuò)誤個(gè)數(shù)/總個(gè)數(shù)
  # print("錯(cuò)誤率:", errorRate)
  if errorRate == 0.0:
break
 return weakClassArr, aggClassEst

# 預(yù)測(cè) 累加 多個(gè)弱分類器獲得預(yù)測(cè)值*該alpha 得到結(jié)果
def adaClassify(datToClass, classifierArr):  # classifierArr是元組,所以在取值時(shí)需要注意
 dataMatrix = mat(datToClass)
 m = shape(dataMatrix)[0]
 aggClassEst = mat(zeros((m, 1)))
 # 循環(huán)所有弱分類器
 for i in range(len(classifierArr[0])):
  # 獲得預(yù)測(cè)結(jié)果
  classEst = stumpClassify(dataMatrix, classifierArr[0][i]['dim'], classifierArr[0][i]['thresh'],
  classifierArr[0][i]['ineq'])
  # 該分類器α*預(yù)測(cè)結(jié)果 用于累加得到最終的正負(fù)判斷條件
  aggClassEst += classifierArr[0][i]['alpha'] * classEst  # 這里就是集合所有弱分類器的意見(jiàn),得到最終的意見(jiàn)
 return sign(aggClassEst)  # 提取數(shù)據(jù)符號(hào)
# ROC曲線,類別累計(jì)值、目標(biāo)標(biāo)簽
def plotROC(predStrengths, classLabels):
 cur = (1.0, 1.0)  # 每次畫線的起點(diǎn)游標(biāo)點(diǎn)
 ySum = 0.0  # 用于計(jì)算AUC的值 矩形面積的高度累計(jì)值
 numPosClas = sum(array(classLabels) == 1.0)  # 所有真實(shí)正例 確定了在y坐標(biāo)軸上的步進(jìn)數(shù)目
 yStep = 1 / float(numPosClas)  # 1/所有真實(shí)正例 y軸上的步長(zhǎng)
 xStep = 1 / float(len(classLabels) - numPosClas)  # 1/所有真實(shí)反例 x軸上的步長(zhǎng)
 sortedIndicies = predStrengths.argsort()  # 獲得累計(jì)值向量從小到大排序的下表index [50,88,2,71...]
 fig = plt.figure()
 fig.clf()
 ax = plt.subplot(111)
 # 循環(huán)所有的累計(jì)值 從小到大
 for index in sortedIndicies.tolist()[0]:
  if classLabels[index] == 1.0:
delX = 0  # 若為一個(gè)真正例,則沿y降一個(gè)步長(zhǎng),即不斷降低真陽(yáng)率;
delY = yStep  # 若為一個(gè)非真正例,則沿x退一個(gè)步長(zhǎng),尖笑陽(yáng)率
  else:
delX = xStep
delY = 0
ySum += cur[1]  # 向下移動(dòng)一次,則累計(jì)一個(gè)高度。寬度不變,我們只計(jì)算高度
  ax.plot([cur[0], cur[0] - delX], [cur[1], cur[1] - delY], c='b')  # 始終會(huì)有一個(gè)點(diǎn)是沒(méi)有改變的
  cur = (cur[0] - delX, cur[1] - delY)
 ax.plot([0, 1], [0, 1], 'b--')
 plt.xlabel('False positive rate')
 plt.ylabel('True positive rate')
 plt.title('ROC curve for AdaBoost horse colic detection system')
 ax.axis([0, 1, 0, 1])
 plt.show()
 print("the Area Under the Curve is: ", ySum * xStep)  # AUC面積我們以 高*低 的矩形來(lái)計(jì)算

# 測(cè)試正確率
datArr, labelArr = loadDataSet('horseColicTraining2.txt')
classifierArr = adaBoostTrainDS(datArr, labelArr, 15)
testArr, testLabelArr = loadDataSet('horseColicTest2.txt')
prediction10 = adaClassify(testArr, classifierArr)
errArr = mat(ones((67, 1)))  # 一共有67個(gè)樣本
cnt = errArr[prediction10 != mat(testLabelArr).T].sum()
print(cnt / 67)
# 畫出ROC曲線
datArr, labelArr = loadDataSet('horseColicTraining2.txt')
classifierArray, aggClassEst = adaBoostTrainDS(datArr, labelArr, 10)
plotROC(aggClassEst.T, labelArr)

五、算法優(yōu)化

  • 權(quán)值更新方法的改進(jìn)

在實(shí)際訓(xùn)練過(guò)程中可能存在正負(fù)樣本失衡的問(wèn)題,分類器會(huì)過(guò)于關(guān)注大容量樣本,導(dǎo)致分類器不能較好地完成區(qū)分小樣本的目的。此時(shí)可以適度增大小樣本的權(quán)重使重心達(dá)到平衡。在實(shí)際訓(xùn)練中還會(huì)出現(xiàn)困難樣本權(quán)重過(guò)高而發(fā)生過(guò)擬合的問(wèn)題,因此有必要設(shè)置困難樣本分類的權(quán)值上限。

  • 訓(xùn)練方法的改進(jìn)

AdaBoost算法由于其多次迭代訓(xùn)練分類器的原因,訓(xùn)練時(shí)間一般會(huì)比別的分類器長(zhǎng)。對(duì)此一般可以采用實(shí)現(xiàn)AdaBoost的并行計(jì)算或者訓(xùn)練過(guò)程中動(dòng)態(tài)剔除掉權(quán)重偏小的樣本以加速訓(xùn)練過(guò)程。

  • 多算法結(jié)合的改進(jìn)

除了以上算法外,AdaBoost還可以考慮與其它算法結(jié)合產(chǎn)生新的算法,如在訓(xùn)練過(guò)程中使用SVM算法加速挑選簡(jiǎn)單分類器來(lái)替代原始AdaBoost中的窮舉法挑選簡(jiǎn)單的分類器。

到此這篇關(guān)于Python機(jī)器學(xué)習(xí)之AdaBoost算法的文章就介紹到這了,更多相關(guān)Python AdaBoost算法內(nèi)容請(qǐng)搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站!

香港快速服務(wù)器

版權(quán)聲明:本站文章來(lái)源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請(qǐng)保持原文完整并注明來(lái)源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來(lái)源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來(lái),僅供學(xué)習(xí)參考,不代表本站立場(chǎng),如有內(nèi)容涉嫌侵權(quán),請(qǐng)聯(lián)系alex-e#qq.com處理。

相關(guān)文章

實(shí)時(shí)開通

自選配置、實(shí)時(shí)開通

免備案

全球線路精選!

全天候客戶服務(wù)

7x24全年不間斷在線

專屬顧問(wèn)服務(wù)

1對(duì)1客戶咨詢顧問(wèn)

在線
客服

在線客服:7*24小時(shí)在線

客服
熱線

400-630-3752
7*24小時(shí)客服服務(wù)熱線

關(guān)注
微信

關(guān)注官方微信
頂部