人妖在线一区,国产日韩欧美一区二区综合在线,国产啪精品视频网站免费,欧美内射深插日本少妇

新聞動態(tài)

使用爬蟲采集網(wǎng)站時,解決被封IP的幾種方法

發(fā)布日期:2021-12-20 17:14 | 文章來源:源碼之家
方法1.
之前由于公司項目需要,采集過google地圖數(shù)據(jù),還有一些大型網(wǎng)站數(shù)據(jù)。
經(jīng)驗如下:
1.IP必須需要,像@alswl 說的非常正確,ADSL。如果有條件,其實可以跟機房多申請外網(wǎng)IP。
2.在有外網(wǎng)IP的機器上,部署代理服務器。
3.你的程序,使用輪訓替換代理服務器來訪問想要采集的網(wǎng)站。
好處:
1.程序邏輯變化小,只需要代理功能。
2.根據(jù)對方網(wǎng)站屏蔽規(guī)則不同,你只需要添加更多的代理就行了。
3.就算具體IP被屏蔽了,你可以直接把代理服務器下線就OK,程序邏輯不需要變化。
方法2.
有小部分網(wǎng)站的防范措施比較弱,可以偽裝下IP,修改X-Forwarded-for(貌似這么拼。。。)即可繞過。
大部分網(wǎng)站么,如果要頻繁抓取,一般還是要多IP。我比較喜歡的解決方案是國外VPS再配多IP,通過默認網(wǎng)關(guān)切換來實現(xiàn)IP切換,比HTTP代理高效得多,估計也比多數(shù)情況下的ADSL切換更高效。
方法3.
ADSL + 腳本,監(jiān)測是否被封,然后不斷切換 ip
設置查詢頻率限制
正統(tǒng)的做法是調(diào)用該網(wǎng)站提供的服務接口。
方法4.
8年多爬蟲經(jīng)驗的人告訴你,國內(nèi)ADSL是王道,多申請些線路,分布在多個不同的電信區(qū)局,能跨省跨市更好,自己寫好斷線重撥組件,自己寫動態(tài)IP追蹤服務,遠程硬件重置(主要針對ADSL貓,防止其宕機),其余的任務分配,數(shù)據(jù)回收,都不是大問題。我的已經(jīng)穩(wěn)定運行了好幾年了,妥妥的!
方法5.
1 user agent 偽裝和輪換
2 使用代理 ip 和輪換
3 cookies 的處理,有的網(wǎng)站對登陸用戶政策寬松些
友情提示:考慮爬蟲給人家網(wǎng)站帶來的負擔,be a responsible crawler :)
方法6.
盡可能的模擬用戶行為:
1、UserAgent經(jīng)常換一換;
2、訪問時間間隔設長一點,訪問時間設置為隨機數(shù);
3、訪問頁面的順序也可以隨機著來
方法8.
網(wǎng)站封的依據(jù)一般是單位時間內(nèi)特定IP的訪問次數(shù).
我是將采集的任務按 目標站點的IP進行分組 通過控制每個IP 在單位時間內(nèi)發(fā)出任務的個數(shù),來避免被封.當然,這個前題是你采集很多網(wǎng)站.如果只是采集一個網(wǎng)站,那么只能通過多外部IP的方式來實現(xiàn)了.
方法9.
1. 對爬蟲抓取進行壓力控制;
2. 可以考慮使用代理的方式訪問目標站點。
-降低抓取頻率,時間設置長一些,訪問時間采用隨機數(shù)
-頻繁切換UserAgent(模擬瀏覽器訪問)
-多頁面數(shù)據(jù),隨機訪問然后抓取數(shù)據(jù)
-更換用戶IP

版權(quán)聲明:本站文章來源標注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務器上建立鏡像,否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學習參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。

相關(guān)文章

實時開通

自選配置、實時開通

免備案

全球線路精選!

全天候客戶服務

7x24全年不間斷在線

專屬顧問服務

1對1客戶咨詢顧問

在線
客服

在線客服:7*24小時在線

客服
熱線

400-630-3752
7*24小時客服服務熱線

關(guān)注
微信

關(guān)注官方微信
頂部