Python進階多線程爬取網頁項目實戰(zhàn)
上一篇文章介紹了并發(fā)和多線程的概念,這次就來向大家上一個實戰(zhàn)來講解一下如何真正的運用上多線程這個概念。
有需要的可以看看我之前這篇文章:Python進階篇之多線程爬取網頁
一、網頁分析
這次我們選擇爬取的網站是水木社區(qū)的Python頁面
網頁:https://www.mysmth.net/nForum/#!board/Python?p=1
根據慣例,我們第一步還是分析一下頁面結構和翻頁時的請求。
通過前三頁的鏈接分析后得知,每一頁鏈接中最后的參數是頁數,我們修改它即可得到其他頁面的數據。
再來分析一下,我們需要獲取帖子的鏈接就在id 為 body 的 section下,然后一層一層找到里面的 table,我們就能遍歷這些鏈接的標題。
我們點開一篇帖子:https://www.mysmth.net/nForum/#!article/Python/162717
和前面一樣,我們先分析標題和內容在網頁中的結構
不難發(fā)現,主題部分只要找到 id 為 main 的 section 下面的 class 為 b-head corner 的下面第二個 span即可
主題部分
而內容部分只要找到class 為 a-wrap corner 的 div,找到下面的 a-content即可。
內容部分
分析網頁結構后,我們就可以開始寫代碼了!
二、代碼實現
首先要確定要保存什么內容:這次我們保存水木社區(qū) Python 版面前 10 頁的所有帖子標題和帖子第一頁的所有回復。
解析列表頁,得到所有的帖子鏈接
from bs4 import BeautifulSoup # 解析列表頁內容,得到這一頁的內容鏈接 def parse_list_page(text): soup = BeautifulSoup(text, 'html.parser') # 下面相當于 soup.find('table', class_='board-list tiz').find('tbody') tbody = soup.find('table', class_='board-list tiz').tbody urls = [] for tr in tbody: td = tr.find('td', class_='title_9') urls.append(td.a.attrs['href']) return urls
解析內容頁,得到標題和這一頁的所有帖子內容
# 解析內容頁,得到標題和所有帖子內容 def parse_content_page(text): soup = BeautifulSoup(text, 'html.parser') title = soup.find('span', class_='n-left').text.strip('文章主題:').strip() content_div = soup.find('div', class_='b-content corner') contents = [] for awrap in content_div.find_all('div', class_='a-wrap corner'): content = awrap.p.text contents.append(content) return title, contents
把列表頁的鏈接轉換成我們要抓取的鏈接
def convert_content_url(path): URL_PREFIX = 'http://www.mysmth.net' path += '?ajax' return URL_PREFIX + path
生成前 10 頁的列表頁鏈接
list_urls = [] for i in range(1, 11): url = 'http://www.mysmth.net/nForum/board/Python?ajax&p=' url += str(i) list_urls.append(url)
下面是得到前 10 頁列表頁里所有正文的鏈接。這個時候我們使用線程池的方式來運行
import requests from concurrent import futures session = requests.Session() executor = futures.ThreadPoolExecutor(max_workers=5) # 這個函數獲取列表頁數據,解析出鏈接,并轉換成真實鏈接 def get_content_urls(list_url): res = session.get(list_url) content_urls = parse_list_page(res.text) real_content_urls = [] for url in content_urls: url = convert_content_url(url) real_content_urls.append(url) return real_content_urls # 根據剛剛生成的十個列表頁鏈接,開始提交任務 fs = [] for list_url in list_urls: fs.append(executor.submit(get_content_urls, list_url)) futures.wait(fs) content_urls = set() for f in fs: for url in f.result(): content_urls.add(url)
在這里要注意一下,第 23 行中我們使用了 set() 函數,作用是去除重復值。它的原理是創(chuàng)建一個 Set(集合),集合 是 Python 中的一種特殊數據類型,其中可以包含多個元素,但是不能重復。我們來看看 set() 的用法
numbers = [1, 1, 2, 2, 2, 3, 4] unique = set(numbers) print(type(unique)) # 輸出:<class 'set'> print(unique) # 輸出:{1, 2, 3, 4}
我們看到,set() 將列表 numbers 轉換成了沒有重復元素的集合 {1, 2, 3, 4}。
我們利用這個特性,首先在 23 行通過 content_urls = set() 創(chuàng)建了一個空集合,之后在其中添加鏈接時,就會自動去除多次出現的鏈接。
得到了所有正文鏈接之后,我們解析正文頁內容,放到一個字典里
# 獲取正文頁內容,解析出標題和帖子 def get_content(url): r = session.get(url) title, contents = parse_content_page(r.text) return title, contents # 提交解析正文的任務 fs = [] for url in content_urls: fs.append(executor.submit(get_content, url)) futures.wait(fs) results = {} for f in fs: title, contents = f.result() results[title] = contents print(results.keys())
就這樣,我們完成了多線程的水木社區(qū)爬蟲。打印 results.keys() 可以看到所有帖子的標題。
這次爬取了前十頁的所有主題,以及他們的第一頁回復。一共 10 個列表頁、300 個主題頁,解析出 1533 條回復。在一臺網絡良好、性能普通的機器上測試執(zhí)行只花費了 13 秒左右。
完整代碼如下
import requests from concurrent import futures from bs4 import BeautifulSoup # 解析列表頁內容,得到這一頁的內容鏈接 def parse_list_page(text): soup = BeautifulSoup(text, 'html.parser') tbody = soup.find('table', class_='board-list tiz').tbody urls = [] for tr in tbody: td = tr.find('td', class_='title_9') urls.append(td.a.attrs['href']) return urls # 解析內容頁,得到標題和所有帖子內容 def parse_content_page(text): soup = BeautifulSoup(text, 'html.parser') title = soup.find('span', class_='n-left').text.strip('文章主題:').strip() content_div = soup.find('div', class_='b-content corner') contents = [] for awrap in content_div.find_all('div', class_='a-wrap corner'): content = awrap.p.text contents.append(content) return title, contents # 把列表頁得到的鏈接轉換成我們要抓取的鏈接 def convert_content_url(path): URL_PREFIX = 'http://www.mysmth.net' path += '?ajax' return URL_PREFIX + path # 生成前十頁的鏈接 list_urls = [] for i in range(1, 11): url = 'http://www.mysmth.net/nForum/board/Python?ajax&p=' url += str(i) list_urls.append(url) session = requests.Session() executor = futures.ThreadPoolExecutor(max_workers=5) # 這個函數獲取列表頁數據,解析出鏈接,并轉換成真實鏈接 def get_content_urls(list_url): res = session.get(list_url) content_urls = parse_list_page(res.text) real_content_urls = [] for url in content_urls: url = convert_content_url(url) real_content_urls.append(url) return real_content_urls # 根據剛剛生成的十個列表頁鏈接,開始提交任務 fs = [] for list_url in list_urls: fs.append(executor.submit(get_content_urls, list_url)) futures.wait(fs) content_urls = set() for f in fs: for url in f.result(): content_urls.add(url) # 獲取正文頁內容,解析出標題和帖子 def get_content(url): r = session.get(url) title, contents = parse_content_page(r.text) return title, contents # 提交解析正文的任務 fs = [] for url in content_urls: fs.append(executor.submit(get_content, url)) futures.wait(fs) results = {} for f in fs: title, contents = f.result() results[title] = contents print(results.keys())
本次分享到此結束,謝謝大家閱讀??!
有問題歡迎評論區(qū)留言??!
更多關于Python多線程爬取網頁實戰(zhàn)的資料請關注本站其它相關文章!
版權聲明:本站文章來源標注為YINGSOO的內容版權均為本站所有,歡迎引用、轉載,請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網站,禁止在非www.sddonglingsh.com所屬的服務器上建立鏡像,否則將依法追究法律責任。本站部分內容來源于網友推薦、互聯(lián)網收集整理而來,僅供學習參考,不代表本站立場,如有內容涉嫌侵權,請聯(lián)系alex-e#qq.com處理。