中文字幕日韩激情无码不卡码,护士奶头又白又大又好摸视频

人妖在线一区,国产日韩欧美一区二区综合在线,国产啪精品视频网站免费,欧美内射深插日本少妇

公司動態(tài)

產(chǎn)品資訊

行業(yè)資訊

簡單版本爬蟲

我們先來一個簡單的爬蟲，看看單線程處理會花費多少時間？

import time
import requests
from datetime import datetime
def fetch(url):
 r = requests.get(url)
 print(r.text)
start = datetime.now() 
t1 = time.time()
for i in range(100):
 fetch('http://httpbin.org/get') 
print('requests版爬蟲耗時：', time.time() - t1)
# requests版爬蟲耗時：54.86306357383728

我們用一個爬蟲的測試網(wǎng)站，測試爬取100次，用時是54.86秒。

多線程版本爬蟲

下面我們將上面的程序改為多線程版本：

import threading
import time
import requests
def fetch():
 r = requests.get('http://httpbin.org/get')
 print(r.text)
t1 = time.time()
t_list = []
for i in range(100):
 t = threading.Thread(target=fetch, args=())
 t_list.append(t)
 t.start() 
for t in t_list:
 t.join() 
print("多線程版爬蟲耗時：", time.time() - t1)
# 多線程版爬蟲耗時：0.8038511276245117

我們可以看到，用上多線程之后，速度提高了68倍。其實用這種方式的話，由于我們并發(fā)操作，所以跑100次跟跑一次的時間基本是一致的。這只是一個簡單的例子，實際情況中我們不可能無限制地增加線程數(shù)。

多進(jìn)程版本爬蟲

除了多線程之外，我們還可以使用多進(jìn)程來提高爬蟲速度：

import requests
import time
import multiprocessing
from multiprocessing import Pool
MAX_WORKER_NUM = multiprocessing.cpu_count() 
def fetch():
 r = requests.get('http://httpbin.org/get')
 print(r.text) 
if __name__ == '__main__':
 t1 = time.time()
 p = Pool(MAX_WORKER_NUM)
 for i in range(100):
  p.apply_async(fetch, args=())
 p.close()
 p.join()
 
 print('多進(jìn)程爬蟲耗時：', time.time() - t1)
 
多進(jìn)程爬蟲耗時： 7.9846765995025635

我們可以看到多進(jìn)程處理的時間是多線程的10倍，比單線程版本快7倍。

協(xié)程版本爬蟲

我們將程序改為使用 aiohttp 來實現(xiàn)，看看效率如何：

import aiohttp
import asyncio
import time 
async def fetch(client):
 async with client.get('http://httpbin.org/get') as resp:
  assert resp.status == 200
  return await resp.text() 
async def main():
 async with aiohttp.ClientSession() as client:
  html = await fetch(client)
  print(html) 
loop = asyncio.get_event_loop() 
tasks = []
for i in range(100):
 task = loop.create_task(main())
 tasks.append(task) 
t1 = time.time() 
loop.run_until_complete(main()) 
print("aiohttp版爬蟲耗時：", time.time() - t1) 
aiohttp版爬蟲耗時： 0.6133313179016113

我們可以看到使用這種方式實現(xiàn)，比單線程版本快90倍，比多線程還快。

結(jié)論

通過上面的程序?qū)Ρ龋覀兛梢钥吹剑瑢τ诙嗳蝿?wù)爬蟲來說，多線程、多進(jìn)程、協(xié)程這幾種方式處理效率的排序為：aiohttp > 多線程 > 多進(jìn)程。因此，對于簡單的爬蟲任務(wù)，如果想要提高效率，可以考慮使用協(xié)程。但是同時也要注意，這里只是簡單的示例，實際運用中，我們一般會用線程池、進(jìn)程池、協(xié)程池去操作。

這就是問題的答案了嗎？

對于一個嚴(yán)謹(jǐn)?shù)某绦騿T來說，當(dāng)然不是，實際上還有一些優(yōu)化的庫，例如grequests，可以從請求上解決并發(fā)問題。實際的處理過程中，肯定還有其他的優(yōu)化點，這里只是從最常見的幾種并發(fā)方式去比較而已，應(yīng)付簡單爬蟲還是可以的，其他的方式歡迎大家在評論區(qū)留言探討。

以上就是熱門問題python爬蟲的效率如何提高的詳細(xì)內(nèi)容，更多關(guān)于python爬蟲效率提高的資料請關(guān)注本站其它相關(guān)文章！

版權(quán)聲明：本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有，歡迎引用、轉(zhuǎn)載，請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站，禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像，否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來，僅供學(xué)習(xí)參考，不代表本站立場，如有內(nèi)容涉嫌侵權(quán)，請聯(lián)系alex-e#qq.com處理。

相關(guān)文章

動態(tài)撥號：關(guān)鍵詞排名下降是啥緣故，快速提高排名怎樣做

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關(guān)鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉(zhuǎn)化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項

概要：競價推廣費用大概要多少呢，競價推廣好不好

一下吧：SEO中site是什么意思，作用和應(yīng)用是怎樣的

郵箱：付費郵箱有哪些優(yōu)勢，付費郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢呢