Python通過四大 AutoEDA 工具包快速產(chǎn)出完美數(shù)據(jù)報告
AutoEDA工具包對于剛剛學習數(shù)據(jù)分析的小伙伴可以帶來非常大的幫助。
本篇文章我們介紹目前最流行的四大AutoEDA工具包。
- D-tale
- Pandas-Profiling
- Sweetviz
- AutoViz
這幾個工具包可以以短短三五行代碼幫新手節(jié)省將近一天時間去寫代碼分析,非常建議大家收藏學習,喜歡點贊支持,文末提供技術(shù)交流群,盡情暢聊。
介紹
01 D-Tale
D-Tale是Flask后端和React前端組合的產(chǎn)物,也是一個開源的Python自動可視化庫,可以為我們提供查看和分析Pandas DataFrame的方法,幫助我們獲得非常數(shù)據(jù)的詳細EDA。
目前D-Tale支持DataFrame、Series、MultiIndex、DatetimeIndex 和 RangeIndex 等 Pandas
對象。
Github 鏈接
https://github.com/man-group/dtale
# pip install dtale import dtale import pandas as pd df = pd.read_csv('./data/titanic.csv') d = dtale.show(df) d.open_browser()
02 Pandas-Profiling
Pandas-Profiling可以對Pandas DataFrame生成report報告。其中:
- pandas_profiling的df.profile_report()擴展了pandas DataFrame以方便進行快速數(shù)據(jù)分析。
Pandas-Profiling對于每一列特征,特征的統(tǒng)計信息(如果與列類型相關(guān))會顯示在交互式 HTML的report中:
- Type:檢測數(shù)據(jù)列類型;
- Essentials:類型、unique值、缺失值
- 分位數(shù)統(tǒng)計,如最小值、Q1、中位數(shù)、Q3、最大值、范圍、四分位距
- 描述性統(tǒng)計數(shù)據(jù),如均值、眾數(shù)、標準差、總和、中值絕對偏差、變異系數(shù)、峰態(tài)、偏度
- 出現(xiàn)最多的值
- 直方圖
- 高度相關(guān)變量、Spearman、Pearson 和 Kendall 矩陣的相關(guān)性突出顯示
- 缺失值矩陣、計數(shù)、熱圖和缺失值樹狀圖
- …
Github 鏈接
https://github.com/pandas-profiling/pandas-profiling/
from pandas_profiling import ProfileReport profile = ProfileReport(df, title="Pandas Profiling Report") profile
2021-10-30 22:50:43,584 - INFO - Pandas backend loaded 1.2.5
2021-10-30 22:50:43,597 - INFO - Numpy backend loaded 1.19.2
2021-10-30 22:50:43,599 - INFO - Pyspark backend NOT loaded
2021-10-30 22:50:43,600 - INFO - Python backend loaded
一個特征的案例
03 Sweetviz
Sweetviz也是一個開源Python庫,Sweetviz可以用簡短幾行代碼生成美觀、高密度的可視化文件,只需兩行代碼即可開啟探索性數(shù)據(jù)分析并輸出一個完全獨立的 HTML 應用程序。Sweetviz主要包含下面的分析:
- 數(shù)據(jù)集概述
- 變量屬性
- 類別的關(guān)聯(lián)性
- 數(shù)值關(guān)聯(lián)性
- 數(shù)值特征最頻繁值、最小、最大值
Github 鏈接
https://github.com/fbdesignpro/sweetviz
# pip install sweetviz import sweetviz as sv sweetviz_report = sv.analyze(df) sweetviz_report.show_html()
04 AutoViz
AutoViz可以使用一行自動顯示任何數(shù)據(jù)集。給出任何輸入文件(CSV、txt或json),AutoViz都可以對其進行可視化。AutoViz的結(jié)果會以非常多的圖片都形式存在文件夾下方。
Github 鏈接
https://github.com/AutoViML/AutoViz
# pip install autoviz from autoviz.AutoViz_Class import AutoViz_Class AV = AutoViz_Class() sep = ';' dft = AV.AutoViz(filename="",sep=sep, depVar='Pclass', dfte=df, header=0, verbose=2, lowess=False, chart_format='png', max_rows_analyzed=150000, max_cols_analyzed=30)
諸多文件全都在當前文件夾下方
我們打開其中一個效果如下:
適用問題
適用于所有的數(shù)據(jù)分析問題。
技術(shù)交流
歡迎轉(zhuǎn)載、收藏、有所收獲點贊支持一下!
到此這篇關(guān)于Python通過四大 AutoEDA 工具包快速產(chǎn)出完美數(shù)據(jù)報告的文章就介紹到這了,更多相關(guān)Python AutoEDA工具包內(nèi)容請搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站!
版權(quán)聲明:本站文章來源標注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務器上建立鏡像,否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學習參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。