對于需要長期運行的python爬蟲程序選擇什么樣的服務(wù)器來運行比較好
【小Y提醒】本文內(nèi)容收集整理于互聯(lián)網(wǎng),僅作參考!如需咨詢“對于需要長期運行的python爬蟲程序選擇什么樣的服務(wù)器來運行比較好”等有關(guān)服務(wù)器、云主機租用、托管、配置、價格問題,請在線咨詢YINGSOO客服,為您答疑解惑!
【主機推薦】柬埔寨物理服務(wù)器特價 | 臺灣云服務(wù)器特價 | 澳大利亞云服務(wù)器特價
【推薦文章】云主機免費試用的正確方式!
現(xiàn)在我們可以通過python語言寫出爬蟲程序來實現(xiàn)頁面抓取、定時啟動更新、定時發(fā)郵件提醒功能。雖然python的爬蟲程序可以在本地運行,但是如果是要爬取數(shù)十萬頁面的內(nèi)容,電腦不能一直開機,本地網(wǎng)絡(luò)質(zhì)量不穩(wěn)定的情況下,使用服務(wù)器來運行爬蟲程序是最佳的選擇。不過現(xiàn)在的服務(wù)器類型那么多,性能及價格不一,那么選擇什么樣的服務(wù)器更適合作為爬蟲服務(wù)器來使用呢?
首先我們需要對爬蟲程序所需要的資源以及服務(wù)器配置來確定配置參數(shù):
假如頁面爬取總數(shù)是海外左右,接下來需要確定的是:頁面每天都需要爬一遍還是說每天只爬其中某一部分即可。
這里我們以最大上限來假設(shè),每天爬海外頁面,而且已經(jīng)考慮了目標的反爬機制、代理池等等所需的條件都已經(jīng)準備完成,那么需要測算的就是單位時間單核多線程的正常工作效率是多少,也就是爬蟲程序能爬多少頁面。
在網(wǎng)速不限的情況下,單位內(nèi)存及cpU最高使用率下能夠爬多少個頁面,設(shè)為n。如果是在額定網(wǎng)速下,內(nèi)存及cpU有閑置資源時能夠爬多少個頁面,設(shè)為m。
若基于m/n的爬取速度,都能滿足每天爬30w的需求,就可以用固定網(wǎng)速下的網(wǎng)速,不限網(wǎng)速的硬件配置。
這里可以先選擇彈性云,用最小配置測試,若不滿足需求,逐漸增加配置。不過在逐漸升級配置的過程中我們也要考慮相應(yīng)云服務(wù)器配置的成本,因為當(dāng)云服務(wù)器的性能達到一定程度之后,云服務(wù)器租用的價格就會大大超過獨立服務(wù)器,這時候我們就需要使用獨立服務(wù)器了,而且獨立服務(wù)器還可以選擇多ip的站群服務(wù)器,防止爬蟲ip過于單一而被屏蔽。
熱門節(jié)點:香港服務(wù)器去首頁注冊有禮!YINGSOO推出PHA挖礦服務(wù)器、PHA挖礦教程、Chia奇亞服務(wù)器、Swarm物理節(jié)點服務(wù)器、Swarm母雞服務(wù)器、Swarm云節(jié)點服務(wù)器、《Phala PHA挖礦資料大全》、《swarm bzz挖礦資料大全》,Swarm Bee節(jié)點租用請咨詢YINGSOO客服!
版權(quán)聲明:本站文章來源標注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學(xué)習(xí)參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。