python爬蟲之異常捕獲及標(biāo)簽過濾詳解
增加異常捕獲,更容易現(xiàn)問題的解決方向
import ssl import urllib.request from bs4 import BeautifulSoup from urllib.error import HTTPError, URLError def get_data(url): headers = {"user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36" } ssl._create_default_https_context = ssl._create_unverified_context """ urlopen處增加兩個(gè)異常捕獲: 1、如果頁面出現(xiàn)錯(cuò)誤或者服務(wù)器不存在時(shí),會(huì)拋HTTP錯(cuò)誤代碼 2、如果url寫錯(cuò)了或者是鏈接打不開時(shí),會(huì)拋URLError錯(cuò)誤 """ try: url_obj = urllib.request.Request(url, headers=headers) response = urllib.request.urlopen(url_obj) html = response.read().decode('utf8') except (HTTPError, URLError)as e: raise e """ BeautifulSoup處增加異常捕獲是因?yàn)锽eautifulSoup對(duì)象中有時(shí)候標(biāo)簽實(shí)際不存在時(shí),會(huì)返回None值; 因?yàn)椴恢溃哉{(diào)用了就會(huì)導(dǎo)致拋出AttributeError: 'NoneType' object has no xxxxxxx。 """ try: bs = BeautifulSoup(html, "html.parser") results = bs.body except AttributeError as e: return None return results if __name__ == '__main__': print(get_data("https://movie.douban.com/chart"))
解析html,更好的實(shí)現(xiàn)數(shù)據(jù)展示效果
- get_text():獲取文本信息
# 此處代碼同上面打開url代碼一致,故此處省略...... html = response.read().decode('utf8') bs = BeautifulSoup(html, "html.parser") data = bs.find('span', {'class': 'pl'}) print(f'電影評(píng)價(jià)數(shù):{data}') print(f'電影評(píng)價(jià)數(shù):{data.get_text()}')
運(yùn)行后的結(jié)果顯示如下:
電影評(píng)價(jià)數(shù):<span class="pl">(38054人評(píng)價(jià))</span> 電影評(píng)價(jià)數(shù):(38054人評(píng)價(jià))
- find() 方法是過濾HTML標(biāo)簽,查找需要的單個(gè)標(biāo)簽
實(shí)際find方法封裝是調(diào)用了正則find_all方法,把find_all中的limt參數(shù)傳1,獲取單個(gè)標(biāo)簽
1.name:可直接理解為標(biāo)簽元素
2.attrs:字典格式,放屬性和屬性值{"class":"indent"}
3.recursive:遞歸參數(shù),布爾值,為真時(shí)遞歸查詢子標(biāo)簽
4.text:標(biāo)簽的文本內(nèi)容匹配 , 是標(biāo)簽的文本,標(biāo)簽的文本
- find_all() 方法是過濾HTML標(biāo)簽,查找需要的標(biāo)簽組
使用方法適合find一樣的,無非就是多了個(gè)limit參數(shù)(篩選數(shù)據(jù))
必須注意的小知識(shí)點(diǎn):
#下面兩種寫法,實(shí)際是一樣的功能,都是查詢id為text的屬性值 bs.find_all(id="text") bs.find_all(' ', {"id": "text"})
#如果是class的就不能class="x x x"了,因?yàn)閏lass是python中類的關(guān)鍵字 bs.find_all(class_="text") bs.find_all(' ', {"class": "text"})
到此這篇關(guān)于python爬蟲之異常捕獲及標(biāo)簽過濾詳解的文章就介紹到這了,更多相關(guān)python異常捕獲及標(biāo)簽過濾內(nèi)容請(qǐng)搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站!
版權(quán)聲明:本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請(qǐng)保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學(xué)習(xí)參考,不代表本站立場(chǎng),如有內(nèi)容涉嫌侵權(quán),請(qǐng)聯(lián)系alex-e#qq.com處理。