婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > python反扒機制的5種解決方法

python反扒機制的5種解決方法

熱門標簽:深圳網絡外呼系統代理商 柳州正規電銷機器人收費 鎮江人工外呼系統供應商 高德地圖標注字母 申請辦個400電話號碼 外呼系統前面有錄音播放嗎 騰訊地圖標注有什么版本 400電話辦理費用收費 千呼ai電話機器人免費

前言

反爬蟲是網站為了維護自己的核心安全而采取的抑制爬蟲的手段,反爬蟲的手段有很多種,一般情況下除了百度等網站,反扒機制會常常更新以外。為了保持網站運行的高效,網站采取的反扒機制并不是太多,今天分享幾個我在爬蟲過程中遇到的反扒機制,并簡單介紹其解決方式。

基于User-Agent反爬

簡介:服務器后臺對訪問的User_Agent進行統計,單位時間內同一User_Agent訪問的次數超過特定的閥值,則會被不同程度的封禁IP,從而造成無法進行爬蟲的狀況。

解決方法:

一 . 將常見的User-Agent放到ua_list中,以列表形式進行隨機使用

代碼示例:

二. 加載fake_useragent庫,隨機生成User-Agent添加到headers中

代碼示例:

2 基于IP反爬

簡介: 爬蟲程序可能會在短時間內對指定的服務器發起高頻的請求。后臺服務器對訪問進行統計,單位時間內同一IP訪問的次數超過一個特定的值(閥值),就會不同程度的禁封IP,導致無法進行爬蟲操作。

解決方法:使用代理池,并設定延遲訪問

如何獲取代理服務器?免費:西祠代理、快代理、goubanjia 收費:代理精靈等

代碼示例:

3 基于cookie反扒

簡介:網站會通過cookie跟蹤你的訪問過程,如果發現有爬蟲行為會立刻中斷你的訪問,比如特別快的填寫表單,或者短時間內瀏覽大量頁面。而正確地處理cookie,又可以避免很多采集問題,建議在采集網站過程中,檢查一下這些網站生成的cookie,然后想想哪一個是爬蟲需要處理的。

解決方法:

一 手動處理

將cookie封裝到headers字典中,將該字典作用到get/post方法的headers參數中

二 自動處理

需要兩次處理。第一次是為了捕獲和存儲cookie到session對象中,第二次就是用攜帶cookie的session進行請求發送,這次請求發送就是攜帶cookie發起的請求??梢愿鷕equests一樣調用get/post進行請求的發送。在使用session進行請求發送的過程中,如果產生了cookie,則cookie會被自動存儲session對象中

代碼示例:

#基于session自動處理
cookiesess = requests.Session() 
#該次請求只是為了捕獲cookie存儲到sess中
sess.get(url='https://xueqiu.com/',headers=headers)
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1max_id=20367942count=15category=-1'
json_data = sess.get(url=url,headers=headers).json()json_data

4 圖片懶加載

簡介:圖片懶加載是一種網頁優化技術。圖片作為一種網絡資源,在被請求時也與普通靜態資源一樣,將占用網絡資源,而一次性將整個頁面的所有圖片加載完,將大大增加頁面的首屏加載時間。為了解決這種問題,通過前后端配合,使圖片僅在瀏覽器當前視窗內出現時才加載該圖片,達到減少首屏圖片請求數的技術就被稱為“圖片懶加載”。在網頁源碼中,在img標簽中首先會使用一個“偽屬性”(通常使用src2,original......)去存放真正的圖片鏈接而并非是直接存放在src屬性中。當圖片出現到頁面的可視化區域中,會動態將偽屬性替換成src屬性,完成圖片的加載。

解決方法:通過細致觀察頁面的結構,發現圖片的鏈接真正鏈的偽屬性中,一般不在src中,而是src2中,xpath要使用該屬性

示例代碼:

5 Ajax動態加載

簡介:從網頁的 url 加載網頁的源代碼之后,會在瀏覽器里執行JavaScript程序。這些程序會加載出更多的內容,并把這些內容傳輸到網頁中。這就是為什么有些網頁直接爬它的URL時卻沒有數據的原因。現在這樣的網站也越來越多。
解決方法:使用審查元素分析”請求“對應的鏈接(方法:右鍵→審查元素→Network→清空,點擊”加載更多“,出現對應的GET鏈接尋找Type為text/html的,點擊,查看get參數或者復制Request URL),循環過程。如果“請求”之前有頁面,依據上一步的網址進行分析推導第1頁。以此類推,抓取抓Ajax地址的數據。對返回的json使用requests中的json進行解析,觀察動態加載的規律,在請求頭中對規律進行使用

抓包工具推薦:fiddler

到此這篇關于python反扒機制的5種解決方法的文章就介紹到這了,更多相關python反扒機制內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python爬蟲實例扒取2345天氣預報
  • python解決網站的反爬蟲策略總結
  • python爬蟲的一個常見簡單js反爬詳解
  • 詳解python 破解網站反爬蟲的兩種簡單方法
  • python通過偽裝頭部數據抵抗反爬蟲的實例
  • Python反爬蟲偽裝瀏覽器進行爬蟲
  • Python常見反爬蟲機制解決方案
  • python 常見的反爬蟲策略
  • python中繞過反爬蟲的方法總結

標簽:郴州 大慶 海南 平頂山 烏蘭察布 合肥 哈爾濱 烏蘭察布

巨人網絡通訊聲明:本文標題《python反扒機制的5種解決方法》,本文關鍵詞  python,反扒,機制,的,5種,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python反扒機制的5種解決方法》相關的同類信息!
  • 本頁收集關于python反扒機制的5種解決方法的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 绵竹市| 静宁县| 会宁县| 牡丹江市| 镇雄县| 根河市| 平和县| 临朐县| 汉寿县| 芒康县| 邵武市| 乳源| 云安县| 新密市| 玛曲县| 肥城市| 昌黎县| 白城市| 太谷县| 灵璧县| 昌宁县| 绥阳县| 宝应县| 双桥区| 库伦旗| 阿坝| 承德市| 宜州市| 唐河县| 静乐县| 古浪县| 永吉县| 高台县| 建昌县| 根河市| 建昌县| 虹口区| 高要市| 六枝特区| 岳阳市| 建湖县|