国产韩久久久精品影院首页,WWW免费视频在线观看播放

人妖在线一区,国产日韩欧美一区二区综合在线,国产啪精品视频网站免费,欧美内射深插日本少妇

公司動態(tài)

產(chǎn)品資訊

行業(yè)資訊

大家好，常用探索性數(shù)據(jù)分析方法很多，比如常用的 Pandas DataFrame 方法有 .head()、.tail()、.info()、.describe()、.plot() 和 .value_counts()。

import pandas as pd
import numpy as np
df = pd.DataFrame( {  
"Student" : ["Mike", "Jack", "Diana", "Charles", "Philipp", "Charles", "Kale", "Jack"] ,  
"City" : ["London", "London", "Berlin", "London", "London", "Berlin", "London", "Berlin"] ,
"Age" : [20, 40, 18, 24, 37, 40, 44, 20 ],
"Maths_Score" : [84, 80, 50, 36, 44, 24, 41, 35],
"Science_Score" : [66, 83, 51, 35, 43, 58, 71, 65]} ) 
df

在 Pandas 中創(chuàng)建 groupby() 對象

在許多情況下，我們希望將數(shù)據(jù)集拆分為多個組并對這些組進(jìn)行處理。 Pandas 方法 groupby() 用于將 DataFrame 中的數(shù)據(jù)分組。

與其一起使用 groupby() 和聚合方法，不如創(chuàng)建一個 groupby() 對象。理想的情況是，我們可以在需要時直接使用此對象。

讓我們根據(jù)列“City”將給定的 DataFrame 分組

df_city_group = df.groupby("City")

我們創(chuàng)建一個對象 df_city_group，該對象可以與不同的聚合相結(jié)合，例如 min()、max()、mean()、describe() 和 count()。一個例子如下所示。

要獲取“City”是Berlin的 DataFrame 子集，只需使用方法 .get_group()

這不需要為每個組創(chuàng)建每個子 DataFrame 的副本，比較節(jié)省內(nèi)存。

另外，使用 .groupby() 進(jìn)行切片比常規(guī)方法快 2 倍??！

使用 .nlargest()

通常，我們根據(jù)特定列的值了解 DataFrame 的 Top 3 或 Top 5 數(shù)據(jù)。例如，從考試中獲得前 3 名得分者或從數(shù)據(jù)集中獲得前 5 名觀看次數(shù)最多的電影。使用 Pandas .nlargest() 是最簡單的方式。

df.nlargest(N, column_name, keep = ‘first' )

使用 .nlargest() 方法，可以檢索包含指定列的 Top ‘N' 值的 DataFrame 行。

在上面的示例中，讓我們獲取前 3 個“Maths_Score”的 DataFrame 的行。

如果兩個值之間存在聯(lián)系，則可以修改附加參數(shù)和可選參數(shù)。它需要值“first”、“l(fā)ast”和“all”來檢索領(lǐng)帶中的第一個、最后一個和所有值。這種方法的優(yōu)點是，你不需要專門對 DataFrame 進(jìn)行排序。

使用 .nsmallest()

與Top 3 或5 類似，有時我們也需要DataFrame 中的Last 5 條記錄。例如，獲得評分最低的 5 部電影或考試中得分最低的 5 名學(xué)生。使用 Pandas .nsmallest() 是最簡單的方式

df.nsmallestst(N, column_name, keep = ‘first' )

使用 .nsmallest() 方法，可以檢索包含指定列的底部“N”個值的 DataFrame 行。

在同一個示例中，讓我們獲取 DataFrame“df”中“Maths_Score”最低的 3 行。

邏輯比較

比較運算符 <、>、<=、>=、==、!= 及其包裝器 .lt()、.gt()、.le()、.ge()、.eq() 和 .ne() 分別在以下情況下非常方便將 DataFrame 與基值進(jìn)行比較，這種比較會產(chǎn)生一系列布爾值，這些值可用作以后的指標(biāo)。

基于比較對 DataFrame 進(jìn)行切片
可以基于與值的比較從 DataFrame 中提取子集。
根據(jù)兩列的比較在現(xiàn)有 DataFrame 中創(chuàng)建一個新列。

所有這些場景都在下面的示例中進(jìn)行了解釋

# 1. Comparing the DataFrame to a base value
# Selecting the columns with numerical values only
df.iloc[:,2:5].gt(50)
df.iloc[:,2:5].lt(50)
# 2. Slicing the DataFrame based on comparison
# df1 is subset of df when values in "Maths_Score" column are not equal or equal to '35'
df1 = df[df["Maths_Score"].ne(35)]
df2 = df[df["Maths_Score"].eq(35)]

# 3. Creating new column of True-False values by comparing two columns
df["Maths_Student"] = df["Maths_Score"].ge(df["Science_Score"])
df["Maths_Student_1"] = df["Science_Score"].le(df["Maths_Score"])

總結(jié)

在使用 Python 進(jìn)行數(shù)據(jù)分析時，我發(fā)現(xiàn)這些方法非常方便，它確實讓數(shù)據(jù)分析變得更快。歡迎大家嘗試這些，如果你有那些更棒的方法，歡迎評論區(qū)留言！

技術(shù)交流

歡迎轉(zhuǎn)載、收藏、有所收獲點贊支持一下！

到此這篇關(guān)于Python 更快進(jìn)行探索性數(shù)據(jù)分析的四個方法的文章就介紹到這了,更多相關(guān)Python 數(shù)據(jù)分析內(nèi)容請搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站！

版權(quán)聲明：本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有，歡迎引用、轉(zhuǎn)載，請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站，禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像，否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來，僅供學(xué)習(xí)參考，不代表本站立場，如有內(nèi)容涉嫌侵權(quán)，請聯(lián)系alex-e#qq.com處理。

相關(guān)文章

動態(tài)撥號：關(guān)鍵詞排名下降是啥緣故，快速提高排名怎樣做

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關(guān)鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉(zhuǎn)化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項

概要：競價推廣費用大概要多少呢，競價推廣好不好

一下吧：SEO中site是什么意思，作用和應(yīng)用是怎樣的

郵箱：付費郵箱有哪些優(yōu)勢，付費郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢呢