Python爬蟲之自動爬取某車之家各車銷售數(shù)據(jù)
一、目標網(wǎng)頁分析
目標網(wǎng)站是某車之家關(guān)于品牌汽車車型的口碑模塊相關(guān)數(shù)據(jù),比如我們演示的案例奧迪Q5L
的口碑頁面如下:
https://k.autohome.com.cn/4851/#pvareaid=3311678
為了演示方式,大家可以直接打開上面這個網(wǎng)址,然后拖到全部口碑位置,找到我們本次采集需要的字段如下圖所示:
采集字段
我們進行翻頁發(fā)現(xiàn),瀏覽器網(wǎng)址發(fā)生了變化,大家可以對下如下幾頁的網(wǎng)址找出規(guī)律:
https://k.autohome.com.cn/4851/index_2.html#dataList https://k.autohome.com.cn/4851/index_3.html#dataList https://k.autohome.com.cn/4851/index_4.html#dataList
對于上面寫網(wǎng)址,我們發(fā)現(xiàn)可變部分是車型(如4851
)以及頁碼(如2
,3
,4
),于是我們可以構(gòu)建url
參數(shù)如下:
# typeid是車型,page是頁碼 url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'
二、數(shù)據(jù)請求
通過簡單的測試,發(fā)現(xiàn)似乎不存在反爬,那就簡單了。
我們先引入需要用到的庫:
import requests import pandas as pd import html from lxml import etree import re
然后創(chuàng)建一個數(shù)據(jù)請求的函數(shù)備用:
#獲取網(wǎng)頁數(shù)據(jù)(傳遞參數(shù)車型typeid和頁碼數(shù)) defget_html(typeid,page): #組合出請求地址 url=f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList' #請求數(shù)據(jù)(因為沒有反爬,這里沒有設置請求頭和其他參數(shù)) r=requests.get(url) #請求的網(wǎng)頁數(shù)據(jù)中有網(wǎng)頁特殊字符,通過以下方法進行解析 r=html.unescape(r.text) #返回網(wǎng)頁數(shù)據(jù) returnr
請求來的數(shù)據(jù)就是網(wǎng)頁html
文本,我們接下來采用re
解析出一共多少頁碼,再用xpath
進行采集字段的解析。
三、數(shù)據(jù)解析
由于需要進行翻頁,這里我們可以先通過re正則表達式獲取總頁碼。通過查看網(wǎng)頁數(shù)據(jù),我們發(fā)現(xiàn)總頁碼可以通過如下方式獲取:
try: pages = int(re.findall(r'共(\d+)頁',r)[0]) # 如果請求不到頁數(shù),則表示該車型下沒有口碑數(shù)據(jù) except : print(f'{name} 沒有數(shù)據(jù)!') continue
總頁碼采集
關(guān)于待采集字段信息,我們發(fā)現(xiàn)都在節(jié)點div[@class="mouthcon-cont-left"]
里,可以先定位這個節(jié)點數(shù)據(jù),然后再進行逐一解析。
待采集字段信息所在節(jié)點
此外,我們發(fā)現(xiàn)每一頁最多15個車型口碑數(shù)據(jù),因此我們每頁可以定位15個待采集信息數(shù)據(jù)集,遍歷采集代碼:
divs=r_html.xpath('.//div[@class="mouthcon-cont-left"]') #遍歷每個全部的車輛銷售信息 fordivindivs: #找到車輛銷售信息所在的地方 mt=div.xpath('./div[@class="choose-conmt-10"]')[0] #找到所需字段 infos=mt.xpath('./dl[@class="choose-dl"]') #設置空的字典,用于存儲單個車輛信息 item={} #遍歷車輛信息字段 forinfoininfos: key=info.xpath('.//dt/text()')[0] #當字段為購買車型時,進行拆分為車型和配置 ifkey=='購買車型': item[key]=info.xpath('.//dd/a/text()')[0] item['購買配置']=info.xpath('.//span[@class="font-arial"]/text()')[0] #當字段為購車經(jīng)銷商時,需要獲取經(jīng)銷商的id參數(shù),再調(diào)用api獲取其真實經(jīng)銷商信息(這里有坑) elifkey=='購車經(jīng)銷商': #經(jīng)銷商id參數(shù) 經(jīng)銷商id=info.xpath('.//dd/a/@data-val')[0]+','+info.xpath('.//dd/a/@data-evalid')[0] #組合經(jīng)銷商信息請求地址 jxs_url=base_jxs_url+經(jīng)銷商id+'|' #請求數(shù)據(jù)(為json格式) data=requests.get(jxs_url) j=data.json() #獲取經(jīng)銷商名稱 item[key]=j['result']['List'][0]['CompanySimple'] else: #其他字段時,替換轉(zhuǎn)義字符和空格等為空 item[key]=info.xpath('.//dd/text()')[0].replace("\r\n","").replace('','').replace('\xa0','')
四、數(shù)據(jù)存儲
由于沒啥反爬,這里直接將采集到的數(shù)據(jù)轉(zhuǎn)化為pandas.DataFrame
類型,然后存儲為xlsx
文件即可。
df=pd.DataFrame(items) df=df[['購買車型','購買配置','購買地點','購車經(jīng)銷商','購買時間','裸車購買價']] #數(shù)據(jù)存儲在本地 df.to_excel(r'車輛銷售信息.xlsx',index=None,sheet_name='data')
五、采集結(jié)果預覽
整個爬蟲過程比較簡單,采集下來的數(shù)據(jù)也比較規(guī)范,以本文案例奧迪Q5L示例如下:
到此這篇關(guān)于Python爬蟲之自動采集某車之家各車銷售數(shù)據(jù)的文章就介紹到這了,更多相關(guān)Python采集汽車銷售數(shù)據(jù)內(nèi)容請搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站!
版權(quán)聲明:本站文章來源標注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務器上建立鏡像,否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學習參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。