国产精品国产精品一区,视频一区国产第一页,国产在线观看无码免费视频

人妖在线一区,国产日韩欧美一区二区综合在线,国产啪精品视频网站免费,欧美内射深插日本少妇

公司動態(tài)

產(chǎn)品資訊

行業(yè)資訊

輕云服務器升級CN2線路有什么優(yōu)點

一、目標網(wǎng)頁分析

目標網(wǎng)站是某車之家關(guān)于品牌汽車車型的口碑模塊相關(guān)數(shù)據(jù)，比如我們演示的案例奧迪Q5L的口碑頁面如下：

https://k.autohome.com.cn/4851/#pvareaid=3311678

為了演示方式，大家可以直接打開上面這個網(wǎng)址，然后拖到全部口碑位置，找到我們本次采集需要的字段如下圖所示：

采集字段

我們進行翻頁發(fā)現(xiàn)，瀏覽器網(wǎng)址發(fā)生了變化，大家可以對下如下幾頁的網(wǎng)址找出規(guī)律：

https://k.autohome.com.cn/4851/index_2.html#dataList
https://k.autohome.com.cn/4851/index_3.html#dataList
https://k.autohome.com.cn/4851/index_4.html#dataList

對于上面寫網(wǎng)址，我們發(fā)現(xiàn)可變部分是車型（如4851）以及頁碼（如2,3,4），于是我們可以構(gòu)建url參數(shù)如下：

# typeid是車型，page是頁碼
url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'

二、數(shù)據(jù)請求

通過簡單的測試，發(fā)現(xiàn)似乎不存在反爬，那就簡單了。

我們先引入需要用到的庫：

import requests
import pandas as pd
import html
from lxml import etree
import re

然后創(chuàng)建一個數(shù)據(jù)請求的函數(shù)備用：

#獲取網(wǎng)頁數(shù)據(jù)（傳遞參數(shù)車型typeid和頁碼數(shù)）
defget_html(typeid,page):
#組合出請求地址
url=f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'
#請求數(shù)據(jù)（因為沒有反爬，這里沒有設置請求頭和其他參數(shù)）
r=requests.get(url)
#請求的網(wǎng)頁數(shù)據(jù)中有網(wǎng)頁特殊字符，通過以下方法進行解析
r=html.unescape(r.text)
#返回網(wǎng)頁數(shù)據(jù)
returnr

請求來的數(shù)據(jù)就是網(wǎng)頁html文本，我們接下來采用re解析出一共多少頁碼，再用xpath進行采集字段的解析。

三、數(shù)據(jù)解析

由于需要進行翻頁，這里我們可以先通過re正則表達式獲取總頁碼。通過查看網(wǎng)頁數(shù)據(jù)，我們發(fā)現(xiàn)總頁碼可以通過如下方式獲取：

try:
 pages = int(re.findall(r'共(\d+)頁',r)[0])
# 如果請求不到頁數(shù)，則表示該車型下沒有口碑數(shù)據(jù)
except :
 print(f'{name} 沒有數(shù)據(jù)！')
 continue

總頁碼采集

關(guān)于待采集字段信息，我們發(fā)現(xiàn)都在節(jié)點div[@class="mouthcon-cont-left"]里，可以先定位這個節(jié)點數(shù)據(jù)，然后再進行逐一解析。

待采集字段信息所在節(jié)點

此外，我們發(fā)現(xiàn)每一頁最多15個車型口碑數(shù)據(jù)，因此我們每頁可以定位15個待采集信息數(shù)據(jù)集，遍歷采集代碼：

divs=r_html.xpath('.//div[@class="mouthcon-cont-left"]')
#遍歷每個全部的車輛銷售信息
fordivindivs:
#找到車輛銷售信息所在的地方
mt=div.xpath('./div[@class="choose-conmt-10"]')[0]
#找到所需字段
infos=mt.xpath('./dl[@class="choose-dl"]')
#設置空的字典，用于存儲單個車輛信息
item={}
#遍歷車輛信息字段
forinfoininfos:
key=info.xpath('.//dt/text()')[0]
#當字段為購買車型時，進行拆分為車型和配置
ifkey=='購買車型':
item[key]=info.xpath('.//dd/a/text()')[0]
item['購買配置']=info.xpath('.//span[@class="font-arial"]/text()')[0]
#當字段為購車經(jīng)銷商時，需要獲取經(jīng)銷商的id參數(shù)，再調(diào)用api獲取其真實經(jīng)銷商信息（這里有坑）
elifkey=='購車經(jīng)銷商':
#經(jīng)銷商id參數(shù)
經(jīng)銷商id=info.xpath('.//dd/a/@data-val')[0]+','+info.xpath('.//dd/a/@data-evalid')[0]
#組合經(jīng)銷商信息請求地址
jxs_url=base_jxs_url+經(jīng)銷商id+'|'
#請求數(shù)據(jù)（為json格式）
data=requests.get(jxs_url)
j=data.json()
#獲取經(jīng)銷商名稱
item[key]=j['result']['List'][0]['CompanySimple']
else:
#其他字段時，替換轉(zhuǎn)義字符和空格等為空
item[key]=info.xpath('.//dd/text()')[0].replace("\r\n","").replace('','').replace('\xa0','')

四、數(shù)據(jù)存儲

由于沒啥反爬，這里直接將采集到的數(shù)據(jù)轉(zhuǎn)化為pandas.DataFrame類型，然后存儲為xlsx文件即可。

df=pd.DataFrame(items)
df=df[['購買車型','購買配置','購買地點','購車經(jīng)銷商','購買時間','裸車購買價']]
#數(shù)據(jù)存儲在本地
df.to_excel(r'車輛銷售信息.xlsx',index=None,sheet_name='data')

五、采集結(jié)果預覽

整個爬蟲過程比較簡單，采集下來的數(shù)據(jù)也比較規(guī)范，以本文案例奧迪Q5L示例如下：

到此這篇關(guān)于Python爬蟲之自動采集某車之家各車銷售數(shù)據(jù)的文章就介紹到這了,更多相關(guān)Python采集汽車銷售數(shù)據(jù)內(nèi)容請搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站！

香港服務器租用

版權(quán)聲明：本站文章來源標注為YINGSOO的內(nèi)容版權(quán)均為本站所有，歡迎引用、轉(zhuǎn)載，請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網(wǎng)站，禁止在非www.sddonglingsh.com所屬的服務器上建立鏡像，否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來，僅供學習參考，不代表本站立場，如有內(nèi)容涉嫌侵權(quán)，請聯(lián)系alex-e#qq.com處理。

相關(guān)文章

動態(tài)撥號：關(guān)鍵詞排名下降是啥緣故，快速提高排名怎樣做

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關(guān)鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉(zhuǎn)化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項

概要：競價推廣費用大概要多少呢，競價推廣好不好

一下吧：SEO中site是什么意思，作用和應用是怎樣的

郵箱：付費郵箱有哪些優(yōu)勢，付費郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢呢