人妖在线一区,国产日韩欧美一区二区综合在线,国产啪精品视频网站免费,欧美内射深插日本少妇

新聞動(dòng)態(tài)

Python Sweetviz輕松實(shí)現(xiàn)探索性數(shù)據(jù)分析

發(fā)布日期:2021-12-15 16:57 | 文章來源:CSDN

Sweetviz 是一個(gè)開源 Python 庫,它只需三行代碼就可以生成漂亮的高精度可視化效果來啟動(dòng)EDA(探索性數(shù)據(jù)分析)。輸出一個(gè)HTML。文末提供技術(shù)交流群,喜歡點(diǎn)贊支持,收藏。

如上圖所示,它不僅能根據(jù)性別、年齡等不同欄目縱向分析數(shù)據(jù),還能對(duì)每個(gè)欄目做眾數(shù)、最大值、最小值等橫向?qū)Ρ取?/p>

所有輸入的數(shù)值、文本信息都會(huì)被自動(dòng)檢測,并進(jìn)行數(shù)據(jù)分析、可視化和對(duì)比,最后自動(dòng)幫你進(jìn)行總結(jié),是一個(gè)探索性數(shù)據(jù)分析的好幫手。

1.準(zhǔn)備

請(qǐng)選擇以下任一種方式輸入命令安裝依賴:
1. Windows 環(huán)境 打開 Cmd (開始-運(yùn)行-CMD)。
2. MacOS 環(huán)境 打開 Terminal (command+空格輸入Terminal)。
3. 如果你用的是 VSCode編輯器 或 Pycharm,可以直接使用界面下方的Terminal.

pip install sweetviz

2.sweetviz 基本用法

sweetviz 使用的原理是,使用一行代碼,生成一個(gè)數(shù)據(jù)報(bào)告的對(duì)象(其中,my_dataframe是pandas中的DataFrame,一種表格型數(shù)據(jù)結(jié)構(gòu)):

import pandas as pd
import sweetviz as sv
# 讀取數(shù)據(jù)
my_dataframe = pd.read_csv('../ImpartData/iris.csv')
# 分析數(shù)據(jù)
my_report = sv.analyze(my_dataframe)
# 生成報(bào)告
my_report.show_html()

執(zhí)行完成后,會(huì)在當(dāng)前文件夾下生成一個(gè)HTML的報(bào)告文件

雙擊這個(gè)html,你就能看到精美的分析報(bào)告了:

其中,分析數(shù)據(jù)有三種函數(shù)可以用,除了上面提到的analyze函數(shù),還有 compare 和 compare_intra 函數(shù)。

首先是analyze函數(shù):

analyze(source: Union[pd.DataFrame, Tuple[pd.DataFrame, str]],
target_feat: str = None,
feat_cfg: FeatureConfig = None,
pairwise_analysis: str = 'auto')

可見其有以下4個(gè)參數(shù)可以配置:

  • source: 以pandas中的DataFrame數(shù)據(jù)結(jié)構(gòu)作為分析對(duì)象。
  • target_feat: 需要被標(biāo)記為目標(biāo)對(duì)象的字符串。
  • feat_cfg: 需要被跳過、或是需要被強(qiáng)制轉(zhuǎn)換為某種數(shù)據(jù)類型的特征。
  • pairwise_analysis: 相關(guān)性分析可能需要花費(fèi)較長時(shí)間。如果超過了你的忍受范圍,就需要設(shè)置這個(gè)參數(shù)為on或者off,以判斷是否需要分析數(shù)據(jù)相關(guān)性。

compare()丨兩個(gè)數(shù)據(jù)集比較

my_report = sv.compare([my_dataframe, "Training Data"], [test_df, "Test Data"], "Survived", feature_config)

要比較兩個(gè)數(shù)據(jù)集,只需使用該 compare() 函數(shù)。它的參數(shù)與 analyze() 相同,只是插入了第二個(gè)參數(shù)來覆蓋比較數(shù)據(jù)幀。建議使用 [dataframe, “name”] 參數(shù)格式以更好地區(qū)分基礎(chǔ)數(shù)據(jù)幀和比較數(shù)據(jù)幀。(例如 [my_df, "Train"]my_df 更好)

compare_intra()丨數(shù)據(jù)集欄目比較

my_report = sv.compare_intra(my_dataframe, my_dataframe["Sex"] == "male", ["Male", "Female"], feature_config)

想要對(duì)數(shù)據(jù)集中某個(gè)欄目下的參數(shù)進(jìn)行分析,就采用這個(gè)函數(shù)進(jìn)行。
例如,如果需要比較“性別”欄目下的“男性”和“女性”,就可以采用這個(gè)函數(shù)。

3.調(diào)整報(bào)告布局

一旦你創(chuàng)建了你的報(bào)告對(duì)象,只需將它傳遞給兩個(gè)show函數(shù)中的一個(gè):

1. show_html():

show_html( filepath='SWEETVIZ_REPORT.html',
open_browser=True,
layout='widescreen',
scale=None)

**show_html(…)**將在當(dāng)前文件路徑中創(chuàng)建并保存 HTML 報(bào)告。有以下參數(shù):

  • layout (布局):無論是 'widescreen'或 ‘vertical'。當(dāng)鼠標(biāo)移過每個(gè)功能時(shí),寬屏布局會(huì)在屏幕右側(cè)顯示詳細(xì)信息。新的(從 2.0 開始)垂直布局在水平方向上更加緊湊,并且可以在單擊時(shí)擴(kuò)展每個(gè)細(xì)節(jié)區(qū)域。
  • scale:使用浮點(diǎn)數(shù)(scale=0.8或 None )來縮放整個(gè)報(bào)告。
  • open_browser:啟用 Web 瀏覽器的自動(dòng)打開以顯示報(bào)告。如果不需要,可以在此處禁用它。

2.show_notebook():

show_notebook( w=None,
 h=None,
 scale=None,
 layout='widescreen',
 filepath=None)

它將嵌入一個(gè) IFRAME 元素,在notebook中顯示報(bào)告(例如 Jupyter、Google Colab 等)。

請(qǐng)注意,由于Notebook通常是一個(gè)更受限制的環(huán)境,因此使用自定義寬度/高度/比例值 (w , h , scale) 可能是個(gè)好主意。選項(xiàng)是:

  • w(寬度):設(shè)置報(bào)告輸出窗口的寬度。可以是百分比字符串 ( w=“100%”) 或像素 (w=900)。
  • h(高度):設(shè)置報(bào)告輸出窗口的高度。可以是像素?cái)?shù) (h=700) 或?qū)⒋翱诶斓脚c所有特征 ( h=“full”)一樣高。
  • scale:與上面的 show_html 相同。
  • layout:與上面的 show_html 相同。
  • scale:與上面的 show_html 相同。
  • filepath:可選的輸出 HTML 報(bào)告。

我們的文章到此就結(jié)束啦,如果你喜歡今天文章,點(diǎn)贊、支持、關(guān)注。

技術(shù)交流

歡迎轉(zhuǎn)載、收藏、有所收獲點(diǎn)贊支持一下!

到此這篇關(guān)于Python Sweetviz輕松實(shí)現(xiàn)探索性數(shù)據(jù)分析的文章就介紹到這了,更多相關(guān)Python Sweetviz內(nèi)容請(qǐng)搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站!

版權(quán)聲明:本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請(qǐng)保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學(xué)習(xí)參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請(qǐng)聯(lián)系alex-e#qq.com處理。

相關(guān)文章

實(shí)時(shí)開通

自選配置、實(shí)時(shí)開通

免備案

全球線路精選!

全天候客戶服務(wù)

7x24全年不間斷在線

專屬顧問服務(wù)

1對(duì)1客戶咨詢顧問

在線
客服

在線客服:7*24小時(shí)在線

客服
熱線

400-630-3752
7*24小時(shí)客服服務(wù)熱線

關(guān)注
微信

關(guān)注官方微信
頂部