Python中常見的反爬機(jī)制及其破解方法總結(jié)
一、常見反爬機(jī)制及其破解方式
封禁IP,使用cookie等前面文章已經(jīng)講過
現(xiàn)在主要將下面的:
~ 驗(yàn)證碼
—> 文字驗(yàn)證碼 —> OCR(光學(xué)文字識別)—> 接口 / easyocr
程序自己解決不了的問題就可以考慮使用三方接口(付費(fèi)/免費(fèi))
—> 行為驗(yàn)證碼 —> 超級鷹
~ 手機(jī)號+短信驗(yàn)證碼
—> 接碼平臺
~ 動態(tài)內(nèi)容
—> JavaScript逆向 —> 找到提供數(shù)據(jù)的API接口
—> 手機(jī)抓接口 —> 抓包工具(Charles / Fiddler)
—> Selenium直接模擬瀏覽器操作獲取動態(tài)內(nèi)容
~ find_element_by_xxx / find_elements_by_xxx
~ page_source —> 獲取包含動態(tài)內(nèi)容的網(wǎng)頁源代碼
—> JavaScript加密和混淆技術(shù) —> 讀懂JavaScript是反反爬的前提
~ 字體反爬 / 內(nèi)容來自于摳圖
—> 例子
bytes —> 不變字節(jié)串 —> 二進(jìn)制 —> BytesIO
str —> 不變字符串 —> 可閱讀的字符 —> StringIO
二、調(diào)用三方API接口數(shù)據(jù)(天行數(shù)據(jù))
import requests for page in range(1, 6): response = requests.get( 'http://api.tianapi.com/topnews/index', params={ 'key': 'd5eace66dccd771e36767ce3563efa09', 'page': page, 'num': 20, 'word': '華為', 'src': '人民日報(bào)' } ) result = response.json() for news in result['newslist']: print(news['title']) print(news['url'])
三、OCR(光學(xué)文字識別)庫
python 自帶的easyocr庫
import easyocr reader = easyocr.Reader(['ch_sim', 'en'], gpu=False) print(reader.readtext('./files/captcha.jpg', detail=0))
例子:阿里云郵箱自動登陸
import io import easyocr from PIL import Image from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions from selenium.webdriver.support.wait import WebDriverWait browser = webdriver.Chrome() browser.set_window_size(1280, 960) browser.get('http://mail.1000phone.com/') # 隱式等待(下面的方法在工作時(shí)如果取不到就等10秒) browser.implicitly_wait(10) # 顯式等待 wait = WebDriverWait(browser, 10) wait.until(expected_conditions.presence_of_element_located((By.CSS_SELECTOR, '.login_panel_iframe'))) iframe1 = browser.find_element_by_css_selector('.login_panel_iframe') # 記錄iframe1的位置(相對位置) x1, y1 = iframe1.location['x'], iframe1.location['y'] # Chrome對象的switch_to屬性的frame方法,可以從頁面切換到iframe中 browser.switch_to.frame(iframe1) iframe2 = browser.find_element_by_css_selector('#ding-login-iframe') x2, y2 = iframe2.location['x'], iframe2.location['y'] browser.switch_to.frame(iframe2) username_input = browser.find_element_by_css_selector('#username') # 模擬用戶輸入 username_input.send_keys('xx@1000phone.com') password_input = browser.find_element_by_css_selector('#password') password_input.send_keys('xxxxx!!') # 創(chuàng)建一個(gè)等待對象 wait = WebDriverWait(browser, 10) wait.until(expected_conditions.element_to_be_clickable((By.CSS_SELECTOR, '#login_checkcode_ico'))) captcha_img = browser.find_element_by_css_selector('#login_checkcode_ico') # WebElement對象的size屬性代表元素寬度和高度,location屬性代表元素在窗口中的位置 size, location = captcha_img.size, captcha_img.location x3, y3, width, height = location['x'], location['y'], size['width'], size['height'] # 截取整個(gè)瀏覽器窗口的圖片獲得圖片的二進(jìn)制數(shù)據(jù) image_data = browser.get_screenshot_as_png() # bytes(只讀字節(jié)串) ----> io.BytesIO(可寫字節(jié)串)---> getvalue() ---> bytes # str(只讀字符串) ----> io.StringIO(可寫字符串)---> getvalue() ---> str browser_image = Image.open(io.BytesIO(image_data)) # 從截圖上剪裁出驗(yàn)證碼的圖片 x, y = x1 + x2 + x3, y1 + y2 + y3 # Windows系統(tǒng)的寫法 ---> 如果截圖有問題就把坐標(biāo)寫死 # print(x, y, width, height) checkcode_image = browser_image.crop((x * 1.25, y * 1.25, (x + width) * 1.25, (y + height) * 1.25)) # macOS系統(tǒng)的寫法 # checkcode_image = browser_image.crop((x * 2, y * 2, (x + width) * 2, (y + height) * 2)) checkcode_image.save('result.png') # 通過easyocr做光學(xué)文字識別 reader = easyocr.Reader(['en'], gpu=False) code = reader.readtext('result.png', detail=0)[0] # 將識別出的驗(yàn)證碼輸入文本框 checkcode_input = browser.find_element_by_css_selector('#login_checkcode') checkcode_input.send_keys(code) login_button = browser.find_element_by_css_selector('#login_submit_btn') # 模擬用戶點(diǎn)擊 login_button.click()
四、第三方打碼平臺(超級鷹打碼平臺)
補(bǔ)充:需要使用python 自帶pillow庫
""" Pillow庫 ---> PIL ---> Python Image Library """ from PIL import Image, ImageFilter # 加載圖像 guido_image = Image.open('guido.jpg') # 剪裁 guido_image.crop((80, 40, 310, 350)).show() # 濾鏡 guido_image.filter(ImageFilter.CONTOUR).show() # 縮略圖 guido_image.thumbnail((125, 185)) # 顯示圖像 guido_image.show()
編寫超級鷹打碼平臺類
from hashlib import md5 import requests class ChaojiyingClient: def __init__(self, username, password, soft_id): self.username = username password = password.encode('utf8') self.password = md5(password).hexdigest() self.soft_id = soft_id self.base_params = { 'user': self.username, 'pass2': self.password, 'softid': self.soft_id, } self.headers = { 'Connection': 'Keep-Alive', 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)', } def post_pic(self, image_data, code_type): """ image_data: 圖片字節(jié) code_type: 驗(yàn)證碼類型 參考 http://www.chaojiying.com/price.html """ params = { 'codetype': code_type, } params.update(self.base_params) files = {'userfile': ('ccc.jpg', image_data)} response = requests.post( url='http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers ) return response.json() # 超級鷹錯(cuò)誤反饋函數(shù)(僅用于給超級鷹平臺反饋) def report_error(self, im_id): """ im_id:報(bào)錯(cuò)題目的圖片ID """ params = { 'id': im_id, } params.update(self.base_params) r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers) return r.json() if __name__ == '__main__': chaojiying = ChaojiyingClient('賬戶', '密碼x', 'ID') # 用戶中心>>軟件ID 生成一個(gè)替換 96001 with open('img.png', 'rb') as file: image_data = file.read() # 本地圖片文件路徑 來替換 a.jpg 有時(shí)WIN系統(tǒng)須要// print(chaojiying.post_pic(image_data, 1902)) # 1902 驗(yàn)證碼類型 官方網(wǎng)站>>價(jià)格體系 3.4+版 print 后要加()
例子:使用超級鷹進(jìn)行阿里云郵箱自動登陸
import io import easyocr from PIL import Image from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions from selenium.webdriver.support.wait import WebDriverWait from chaojiying import ChaojiyingClient browser = webdriver.Chrome() browser.set_window_size(1280, 960) browser.get('http://mail.1000phone.com/') # 隱式等待(下面的方法在工作時(shí)如果取不到就等10秒) browser.implicitly_wait(10) # 顯式等待 wait = WebDriverWait(browser, 10) wait.until(expected_conditions.presence_of_element_located((By.CSS_SELECTOR, '.login_panel_iframe'))) iframe1 = browser.find_element_by_css_selector('.login_panel_iframe') # 記錄iframe1的位置(相對位置) x1, y1 = iframe1.location['x'], iframe1.location['y'] # Chrome對象的switch_to屬性的frame方法,可以從頁面切換到iframe中 browser.switch_to.frame(iframe1) iframe2 = browser.find_element_by_css_selector('#ding-login-iframe') x2, y2 = iframe2.location['x'], iframe2.location['y'] browser.switch_to.frame(iframe2) username_input = browser.find_element_by_css_selector('#username') # 模擬用戶輸入 username_input.send_keys('xxxx.com') password_input = browser.find_element_by_css_selector('#password') password_input.send_keys('xxxx!!') # 創(chuàng)建一個(gè)等待對象 wait = WebDriverWait(browser, 10) wait.until(expected_conditions.element_to_be_clickable((By.CSS_SELECTOR, '#login_checkcode_ico'))) captcha_img = browser.find_element_by_css_selector('#login_checkcode_ico') # WebElement對象的size屬性代表元素寬度和高度,location屬性代表元素在窗口中的位置 size, location = captcha_img.size, captcha_img.location x3, y3, width, height = location['x'], location['y'], size['width'], size['height'] # 截取整個(gè)瀏覽器窗口的圖片獲得圖片的二進(jìn)制數(shù)據(jù) image_data = browser.get_screenshot_as_png() # bytes(只讀字節(jié)串) ----> io.BytesIO(可寫字節(jié)串)---> getvalue() ---> bytes # str(只讀字符串) ----> io.StringIO(可寫字符串)---> getvalue() ---> str browser_image = Image.open(io.BytesIO(image_data)) # 從截圖上剪裁出驗(yàn)證碼的圖片 x, y = x1 + x2 + x3, y1 + y2 + y3 # Windows系統(tǒng)的寫法 ---> 如果截圖有問題就把坐標(biāo)寫死 # print(x, y, width, height) checkcode_image = browser_image.crop((x * 1.25, y * 1.25, (x + width) * 1.25, (y + height) * 1.25)) # macOS系統(tǒng)的寫法 # checkcode_image = browser_image.crop((x * 2, y * 2, (x + width) * 2, (y + height) * 2)) checkcode_image.save('result.png') # 通過超級鷹打碼平臺打碼 chaojiying = ChaojiyingClient('賬戶', '密碼', 'ID') with open('result.png', 'rb') as file: image_data = file.read() result_dict = chaojiying.post_pic(image_data, 1902) # 將識別出的驗(yàn)證碼輸入文本框 checkcode_input = browser.find_element_by_css_selector('#login_checkcode') checkcode_input.send_keys(result_dict['pic_str']) login_button = browser.find_element_by_css_selector('#login_submit_btn') # 模擬用戶點(diǎn)擊 login_button.click()
五、通過接碼平臺接收手機(jī)驗(yàn)證碼(隱私短信平臺)
通過隱私短信平臺接收驗(yàn)證碼(免費(fèi))
import re import bs4 import requests pattern = re.compile(r'\d{4,6}') resp = requests.get('https://www.yinsiduanxin.com/china-phone-number/verification-code-16521686439.html') soup = bs4.BeautifulSoup(resp.text, 'html.parser') # print(resp.text) td = soup.select_one('body > div.container > div:nth-child(4) > div:nth-child(3) > div.main > div.layui-row > table > tbody > tr:nth-child(1) > td:nth-child(2)') results = pattern.findall(td.text) print(results[0])
到此這篇關(guān)于Python中常見的反爬機(jī)制及其破解方法總結(jié)的文章就介紹到這了,更多相關(guān)Python反爬機(jī)制及其破解內(nèi)容請搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站!
版權(quán)聲明:本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學(xué)習(xí)參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。