少妇熟女av一区二区三区,午夜国产精品一区二区

一、

本文就從數(shù)據(jù)爬取、數(shù)據(jù)清洗、數(shù)據(jù)可視化，這三個(gè)方面入手，但你簡(jiǎn)單完成一個(gè)小型的數(shù)據(jù)分析項(xiàng)目，讓你對(duì)知識(shí)能夠有一個(gè)綜合的運(yùn)用。

整個(gè)思路如下：

爬取網(wǎng)頁(yè)：https://www.jd.com/
爬取說(shuō)明：基于京東網(wǎng)站，我們搜索網(wǎng)站“粽子”數(shù)據(jù)，大概有100頁(yè)。我們爬取的字段，既有一級(jí)頁(yè)面的相關(guān)信息，還有二級(jí)頁(yè)面的部分信息；
爬取思路：先針對(duì)某一頁(yè)數(shù)據(jù)的一級(jí)頁(yè)面做一個(gè)解析，然后再進(jìn)行二級(jí)頁(yè)面做一個(gè)解析，最后再進(jìn)行翻頁(yè)操作；
爬取字段：分別是粽子的名稱(chēng)（標(biāo)題）、價(jià)格、品牌（店鋪）、類(lèi)別（口味）；
使用工具：requests+lxml+pandas+time+re+pyecharts
網(wǎng)站解析方式：xpath

最終的效果如下：

二、數(shù)據(jù)爬取

京東網(wǎng)站，一般是動(dòng)態(tài)加載的，也就是說(shuō)，采用一般方式只能爬取到某個(gè)頁(yè)面的前30個(gè)數(shù)據(jù)（一個(gè)頁(yè)面一共60個(gè)數(shù)據(jù)）。

基于本文，我僅用最基本的方法，爬取了每個(gè)頁(yè)面的前30條數(shù)據(jù)（如果大家有興趣，可以自行下去爬取所有的數(shù)據(jù)）。

那么，本文究竟爬取了哪些字段呢？我給大家做一個(gè)展示，大家有興趣，可以爬取更多的字段，做更為詳細(xì)的分析。

下面為大家展示爬蟲(chóng)代碼：

importpandasaspd
importrequests
fromlxmlimportetree
importchardet
importtime
importre
 
defget_CI(url):
headers={'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;X64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/71.0.3578.80Safari/537.36'}
rqg=requests.get(url,headers=headers)
rqg.encoding=chardet.detect(rqg.content)['encoding']
html=etree.HTML(rqg.text)
#價(jià)格
p_price=html.xpath('//div/div[@class="p-price"]/strong/i/text()')
#名稱(chēng)
p_name=html.xpath('//div/div[@class="p-namep-name-type-2"]/a/em')
p_name=[str(p_name[i].xpath('string(.)'))foriinrange(len(p_name))]
#深層url
deep_ur1=html.xpath('//div/div[@class="p-namep-name-type-2"]/a/@href')
deep_url=["http:"+iforiindeep_ur1]
#從這里開(kāi)始，我們獲取“二級(jí)頁(yè)面”的信息
brands_list=[]
kinds_list=[]
foriindeep_url:
rqg=requests.get(i,headers=headers)
rqg.encoding=chardet.detect(rqg.content)['encoding']
html=etree.HTML(rqg.text)
#品牌
brands=html.xpath('//div/div[@class="ETab"]//ul[@id="parameter-brand"]/li/@title')
brands_list.append(brands)
#類(lèi)別
kinds=re.findall('>類(lèi)別：(.*?)</li>',rqg.text)
kinds_list.append(kinds)
data=pd.DataFrame({'名稱(chēng)':p_name,'價(jià)格':p_price,'品牌':brands_list,'類(lèi)別':kinds_list})
return(data)
x="https://search.jd.com/Search?keyword=%E7%B2%BD%E5%AD%90&qrst=1&wq=%E7%B2%BD%E5%AD%90&stock=1&page="
url_list=[x+str(i)foriinrange(1,200,2)]
res=pd.DataFrame(columns=['名稱(chēng)','價(jià)格','品牌','類(lèi)別'])
 
#這里進(jìn)行“翻頁(yè)”操作
forurlinurl_list:
res0=get_CI(url)
res=pd.concat([res,res0])
time.sleep(3)
 
#保存數(shù)據(jù)
res.to_csv('aliang.csv',encoding='utf_8_sig')

最終爬取到的數(shù)據(jù)：

三、數(shù)據(jù)清洗

從上圖可以看到，整個(gè)數(shù)據(jù)算是很整齊的，不是特別亂，我們只做一些簡(jiǎn)單的操作即可。

先使用pandas庫(kù)，來(lái)讀取數(shù)據(jù)。

import pandas as pd
 
df = pd.read_excel("粽子.xlsx",index_col=False)
df.head()

結(jié)果如下：

我們分別針對(duì)“品牌”、“類(lèi)別”兩個(gè)字段，去掉中括號(hào)。

df["品牌"] = df["品牌"].apply(lambda x: x[1:-1])
df["類(lèi)別"] = df["類(lèi)別"].apply(lambda x: x[1:-1])
df.head()

結(jié)果如下：

① 粽子品牌排名前10的店鋪

df["品牌"].value_counts()[:10]

結(jié)果如下：

② 粽子口味排名前5的味道

deffunc1(x):
ifx.find("甜")>0:
return"甜粽子"
else:
returnx
df["類(lèi)別"]=df["類(lèi)別"].apply(func1)
df["類(lèi)別"].value_counts()[1:6]

結(jié)果如下：

③ 粽子售賣(mài)價(jià)格區(qū)間劃分

defprice_range(x):# 按照我的購(gòu)物習(xí)慣，劃分價(jià)格
ifx<=50:
return'<50元'
elifx<=100:
return'50-100元'
elifx<=300:
return'100-300元'
elifx<=500:
return'300-500元'
elifx<=1000:
return'500-1000元'
else:
return'>1000元'
 
df["價(jià)格區(qū)間"]=df["價(jià)格"].apply(price_range)
df["價(jià)格區(qū)間"].value_counts()

結(jié)果如下：

由于數(shù)據(jù)不是很多，沒(méi)有很多字段，也就沒(méi)有很多亂數(shù)據(jù)。因此，這里也沒(méi)有做數(shù)據(jù)去重、缺失值填充等操作。所以，大家可以下去獲取更多字段，更多數(shù)據(jù)，用于數(shù)據(jù)分析。

四、數(shù)據(jù)可視化

俗話說(shuō)：字不如表，表不如圖。通過(guò)可視化分析，我們可以將數(shù)據(jù)背后“隱藏”的信息，給展現(xiàn)出來(lái)。

拓展：當(dāng)然，這里只是“拋磚引玉”，我并沒(méi)有獲取太多的數(shù)據(jù)，也沒(méi)有獲取太多的字段。這里給學(xué)習(xí)的朋友當(dāng)一個(gè)作業(yè)題，自己下去用更多的數(shù)據(jù)、更多的字段，做更透徹的分析。

在這里，我們基于以下幾個(gè)問(wèn)題，做一個(gè)可視化展示，分別是：

① 粽子銷(xiāo)售店鋪Top10柱形圖；
② 粽子口味排名Top5柱形圖；
③ 粽子銷(xiāo)售價(jià)格區(qū)間劃分餅圖；
④ 粽子商品名稱(chēng)詞云圖；

① 粽子銷(xiāo)售店鋪Top10柱形圖

結(jié)論分析：去年，我們分析了一些月餅的數(shù)據(jù)，“五芳齋”、“北京稻香村”這幾個(gè)牌子記憶猶新，可謂是做月餅、粽子的老店。像“三全”和“思念”，在我印象中一直以為它們只做水餃和湯圓，粽子是否值得一試呢？當(dāng)然，這里還有一些新的牌子，像“諸老大”、“稻香私房”等一些牌子，大家都可以下去搜索一下。買(mǎi)東西，就是要精挑細(xì)選，品牌也重要。

② 粽子口味排名Top5柱形圖

結(jié)論分析：在我印象中，小時(shí)候一直吃的最多的就是“甜粽子”，直到我上了初中才知道，粽子還可以有肉？當(dāng)然，從圖中可以看出，賣(mài)“鮮肉粽”的店鋪還是居多，畢竟這個(gè)送人，還是顯得高端、大氣一些。這里還有一些口味，像“蜜棗粽”、“豆沙粽”，我基本沒(méi)吃過(guò)。如果你送人，你會(huì)送什么口味的呢？

③ 粽子銷(xiāo)售價(jià)格區(qū)間劃分餅圖

結(jié)論分析：這里，我故意把價(jià)格區(qū)間細(xì)分。這個(gè)餅圖也很符合實(shí)際，畢竟每年就過(guò)一次端午節(jié)，還是以薄利多銷(xiāo)為主，接近80%的粽子，售價(jià)都在100元以下。當(dāng)然，還有一些中檔的粽子，價(jià)格在100-300元。大于300元，我覺(jué)得也沒(méi)有吃的必要，反正我是不會(huì)花這么多錢(qián)去買(mǎi)粽子。

④ 粽子商品名稱(chēng)詞云圖

結(jié)論分析：從圖中，可以大致看出商家的賣(mài)點(diǎn)了。畢竟是節(jié)日，“送禮”、“禮品”體現(xiàn)了節(jié)日氛圍。“豬肉”、“豆沙”體現(xiàn)了粽子口味。當(dāng)然，它是否是“早餐”好選擇呢？購(gòu)買(mǎi)的話，還支持“團(tuán)購(gòu)”哦。這些字眼，多多少少都會(huì)各自吸引一部分人的眼球。

⑤ 圖形組合為大屏

到此這篇關(guān)于端午節(jié)將至,用Python將粽子數(shù)據(jù)可視化,看看網(wǎng)友喜歡哪種吧!的文章就介紹到這了,更多相關(guān)Python數(shù)據(jù)可視化內(nèi)容請(qǐng)搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站！

香港服務(wù)器租用

版權(quán)聲明：本站文章來(lái)源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有，歡迎引用、轉(zhuǎn)載，請(qǐng)保持原文完整并注明來(lái)源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站，禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像，否則將依法追究法律責(zé)任。本站部分內(nèi)容來(lái)源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來(lái)，僅供學(xué)習(xí)參考，不代表本站立場(chǎng)，如有內(nèi)容涉嫌侵權(quán)，請(qǐng)聯(lián)系alex-e#qq.com處理。

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關(guān)鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉(zhuǎn)化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項(xiàng)

概要：競(jìng)價(jià)推廣費(fèi)用大概要多少呢，競(jìng)價(jià)推廣好不好

一下吧：SEO中site是什么意思，作用和應(yīng)用是怎樣的

郵箱：付費(fèi)郵箱有哪些優(yōu)勢(shì)，付費(fèi)郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢(shì)呢