人妖在线一区,国产日韩欧美一区二区综合在线,国产啪精品视频网站免费,欧美内射深插日本少妇

新聞動態(tài)

python機器學習基礎(chǔ)特征工程算法詳解

發(fā)布日期:2021-12-11 13:28 | 文章來源:源碼之家

一、機器學習概述

機器學習是從數(shù)據(jù)中,自動分析獲得規(guī)律(模型),并利用規(guī)律對未知數(shù)據(jù)進行預測。

二、數(shù)據(jù)集的構(gòu)成

1.數(shù)據(jù)集存儲

機器學習的歷史數(shù)據(jù)通常使用csv文件存儲。

不用mysql的原因:

1、文件大的話讀取速度慢;

2、格式不符合機器學習要求的格式

2.可用的數(shù)據(jù)集

Kaggle:大數(shù)據(jù)競賽平臺、80萬科學家、真實數(shù)據(jù)、數(shù)據(jù)量巨大

Kaggle網(wǎng)址:https://www.kaggle.com/datasets

UCI:360個數(shù)據(jù)集、覆蓋科學生活經(jīng)濟等領(lǐng)域、數(shù)據(jù)量幾十萬

UCI數(shù)據(jù)集網(wǎng)址: http://archive.ics.uci.edu/ml/

scikit-learn:數(shù)據(jù)量較小、方便學習

scikit-learn網(wǎng)址:http://scikit-learn.org/stable/datasets/index.html#datasets

3.常用數(shù)據(jù)集的結(jié)構(gòu)

特征值(用以判斷目標值所用的條件:比如房子的面積朝向等)+目標值(希望實現(xiàn)的目標:比如房子價格)

有些數(shù)據(jù)集可以沒有目標值。

三、特征工程

”將原始數(shù)據(jù)轉(zhuǎn)換為能更好地代表預測模型的潛在問題的特征“的過程,叫做特征工程,能夠提高對未知數(shù)據(jù)的預測準確性。特征如果不好,很可能即使算法好,結(jié)果也不會盡如人意。

pandas可用于數(shù)據(jù)讀取、對數(shù)據(jù)的基本處理

sklearn有更多對于特征的處理的強大的接口

特征抽?。?/p>

特征抽取API:sklearn.feature_extraction

1.字典數(shù)據(jù)特征抽取

API:sklearn.feature_extraction.DictVectorizer

語法如下:

字典數(shù)據(jù)抽取:將字典中的類別數(shù)據(jù)分別進行轉(zhuǎn)換為特征數(shù)據(jù)。因此,如果輸入的是數(shù)組形式,并且有類別的這些特征,需要先轉(zhuǎn)換成字典數(shù)據(jù),然后進行抽取。

2.文本特征抽取

Count

類:sklearn.feature_extraction.text.CountVectorizer

用法:

1.統(tǒng)計所有文章當中所有的詞,重復的只看做一次
2.對每篇文章,在詞的列表里面,統(tǒng)計每個詞出現(xiàn)的次數(shù)
3.單個字母不統(tǒng)計

注意:該方法默認不支持中文,每個中文漢字被視為一個英文字母,中間有空格或者逗號就會被分開,同樣的,一個漢字不予統(tǒng)計。(中文可使用jieba分詞:pip install jieba,使用:jieba.cut("我是一個程序員"))

3.文本特征抽?。簍f-idf

上面的countvec不能處理中性詞比如“明天,中午,因為”等。于是可以使用tfidf方法。

tf:term frequency詞頻(和countvec方法一樣)

idf:inverse document frequency逆文檔頻率 log(總文檔數(shù)量/該詞出現(xiàn)的文檔數(shù))

tf * idf 重要性程度

類:sklearn.feature_extraction.text.TfidfVectorizer

4.特征預處理:歸一化

特征預處理:通過特定的統(tǒng)計方法,將數(shù)據(jù)轉(zhuǎn)換為算法要求的數(shù)據(jù)

特征預處理API:sklearn.preprocessing

歸一化API:sklearn.preprocessing.MinMaxScaler

多個特征同等重要并且特征數(shù)據(jù)之間差距較大的時候,進行歸一化。但歸一化容易受異常點的影響,因此該方法魯棒性較差,只適合傳統(tǒng)精確小數(shù)據(jù)場景。

5.特征預處理:標準化

將原始數(shù)據(jù)變換到均值為0,標準差為1的范圍內(nèi)

標準化API:

sklearn.preprocessing.StandardScaler

標準化適合現(xiàn)代嘈雜大數(shù)據(jù)場景,在已有樣本足夠多的情況下比較穩(wěn)定。

6.特征預處理:缺失值處理

插補:通過缺失值每行或每列的平均值、中位數(shù)來填補(一般按列填補)

API:sklearn.impute.SimpleImputer

數(shù)據(jù)當中的缺失值標記:默認為np.nan

以上就是python機器學習基礎(chǔ)特征工程算法詳解的詳細內(nèi)容,更多關(guān)于python機器學習特征工程的資料請關(guān)注本站其它相關(guān)文章!

版權(quán)聲明:本站文章來源標注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學習參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。

相關(guān)文章

實時開通

自選配置、實時開通

免備案

全球線路精選!

全天候客戶服務(wù)

7x24全年不間斷在線

專屬顧問服務(wù)

1對1客戶咨詢顧問

在線
客服

在線客服:7*24小時在線

客服
熱線

400-630-3752
7*24小時客服服務(wù)熱線

關(guān)注
微信

關(guān)注官方微信
頂部