婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > python爬蟲破解字體加密案例詳解

python爬蟲破解字體加密案例詳解

熱門標簽:qt百度地圖標注 地圖地圖標注有嘆號 電銷機器人系統廠家鄭州 400電話申請資格 正安縣地圖標注app 舉辦過冬奧會的城市地圖標注 遼寧智能外呼系統需要多少錢 螳螂科技外呼系統怎么用 阿里電話機器人對話

本次案例以爬取起小點小說為例

案例目的:

通過爬取起小點小說月票榜的名稱和月票數,介紹如何破解字體加密的反爬,將加密的數據轉化成明文數據。

程序功能:

輸入要爬取的頁數,得到每一頁對應的小說名稱和月票數。

案例分析: 找到目標的url:

(右鍵檢查)找到小說名稱所在的位置:

通過名稱所在的節點位置,找到小說名稱的xpath語法:

(右鍵檢查)找到月票數所在的位置:

由上圖發現,檢查月票數據的文本,得到一串加密數據。

我們通過xpathhelper進行調試發現,無法找到加密數據的語法。因此,需要通過正則表達式進行提取。

通過正則進行數據提取。

正則表達式如下:

得到的加密數據如下:

破解加密數據是本次案例的關鍵:

既然是加密數據,就會有加密數據所對應的加密規則的Font文件。
通過找到Font字體文件中數據加密文件的url,發送請求,獲取響應,得到加密數據的woff文件。

注:我們需要的woff文件,名稱與加密月票數前面的class屬性相同。

如下圖,下載woff文件:

找到16進制的數字對應的英文數字。

其次,我們需要通過第三方庫TTFont將文件中的16進制數轉換成10進制,將英文數字轉換成阿拉伯數字。如下圖:

解析出每個加密數據對應的對應的月票數的數字如下:

注意:

由于我們在上面通過正則表式獲得的加密數據攜帶特殊符號

因此解析出月票數據中的數字之后,除了將特殊符號去除,還需把每個數字進行拼接,得到最后的票數。

最后,通過對比不同頁的url,找到翻頁的規律:



對比三個不同url發現,翻頁的規律在于參數page

所以問題分析完畢,開始代碼:

import requests
from lxml import etree
import re
from fontTools.ttLib import TTFont
import json

if __name__ == '__main__':
  # 輸入爬取的頁數、
  pages = int(input('請輸入要爬取的頁數:')) # eg:pages=1,2
  for i in range(pages): # i=0,(0,1)
    page = i+1  # 1,(1,2)
    # 確認目標的url
    url_ = f'https://www.qidian.com/rank/yuepiao?page={page}'
    # 構造請求頭參數
    headers = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
    # 發送請求,獲取響應
    response_ = requests.get(url_,headers=headers)
    # 響應類型為html問文本
    str_data = response_.text
    # 將html文本轉換成python文件
    py_data = etree.HTML(str_data)
    # 提取文本中的目標數據
    title_list = py_data.xpath('//h4/a[@target="_blank"]/text() ')
    # 提取月票數,由于利用xpath語法無法提取,因此換用正則表達式,正則提取的目標為response_.text
    mon_list = re.findall('/style>span class=".*?">(.*?)/span>/span>',str_data)
    print(mon_list)
    # 獲取字體反爬woff文件對應的url,xpath配合正則使用
    fonturl_str = py_data.xpath('//p/span/style/text()')
    font_url = re.findall(r"format\('eot'\); src: url\('(.*?)'\) format\('woff'\)",str_data)[0]
    print(font_url)
    # 獲得url之后,構造請求頭獲取響應
    headers_ = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36',
      'Referer':'https://www.qidian.com/'
    }
    # 發送請求,獲取響應
    font_response = requests.get(font_url,headers=headers_)
    # 文件類型未知,因此用使用content格式
    font_data = font_response.content
    # 保存到本地
    with open('加密font文件.woff','wb')as f:
      f.write(font_data)
    # 解析加密的font文件
    font_obj = TTFont('加密font文件.woff')
    # 將文件轉成明文的xml文件
    font_obj.saveXML('加密font文件.xml')
    # 獲取字體加密的關系映射表,將16進制轉換成10進制
    cmap_list = font_obj.getBestCmap()
    print('字體加密關系映射表:',cmap_list)
    # 創建英文轉英文的字典
    dict_e_a = {'one':'1','two':'2','three':'3','four':'4','five':'5','six':'6',
          'seven':'7','eight':'8','nine':'9','zero':'0'}
    # 將英文數據進行轉換
    for i in cmap_list:
      for j in dict_e_a:
        if j == cmap_list[i]:
          cmap_list[i] = dict_e_a[j]
    print('轉換為阿拉伯數字的映射表為:',cmap_list)
    # 去掉加密的月票數據列表中的符號
    new_mon_list = []
    for i in mon_list:
      list_ = re.findall(r'\d+',i)
      new_mon_list.append(list_)
    print('去掉符號之后的月票數據列表為:',new_mon_list)
    # 最終解析月票數據
    for i in new_mon_list:
      for j in enumerate(i):
        for k in cmap_list:
          if j[1] == str(k):
            i[j[0]] = cmap_list[k]
    print('解析之后的月票數據為:',new_mon_list)
    # 將月票數據進行拼接
    new_list = []
    for i in new_mon_list:
      j = ''.join(i)
      new_list.append(j)
    print('解析出的明文數據為:',new_list)
    # 將名稱和對應的月票數據放進字典,并轉換成json格式及進行保存
    for i in range(len(title_list)):
      dict_ = {}
      dict_[title_list[i]] = new_list[i]
      # 將字典轉換成json格式
      json_data = json.dumps(dict_,ensure_ascii=False)+',\n'
      # 將數據保存到本地
      with open('翻頁起小點月票榜數據爬取.json','a',encoding='utf-8')as f:
        f.write(json_data)

爬取了兩頁的數據,每一頁包含20個數據

執行結果如下:

到此這篇關于python爬蟲破解字體加密案例詳解的文章就介紹到這了,更多相關python爬蟲破解字體加密內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • scrapy在python爬蟲中搭建出錯的解決方法
  • scrapy-redis分布式爬蟲的搭建過程(理論篇)
  • Python爬蟲代理池搭建的方法步驟
  • windows下搭建python scrapy爬蟲框架步驟
  • windows7 32、64位下python爬蟲框架scrapy環境的搭建方法
  • 使用Docker Swarm搭建分布式爬蟲集群的方法示例
  • 快速一鍵生成Python爬蟲請求頭
  • 一文讀懂python Scrapy爬蟲框架
  • 快速搭建python爬蟲管理平臺

標簽:濟源 合肥 淘寶好評回訪 興安盟 阜新 信陽 昭通 隨州

巨人網絡通訊聲明:本文標題《python爬蟲破解字體加密案例詳解》,本文關鍵詞  python,爬蟲,破解,字體,加密,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python爬蟲破解字體加密案例詳解》相關的同類信息!
  • 本頁收集關于python爬蟲破解字體加密案例詳解的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    日产国产欧美视频一区精品 | 欧美伊人精品成人久久综合97 | 午夜精品福利视频网站| 欧美bbbbb| 91在线观看成人| 精品国产一区二区三区久久影院| 国产精品理论在线观看| 久久国产麻豆精品| 欧美日韩一区视频| 一区二区三区欧美日韩| 国产一区二区按摩在线观看| 91精品国产色综合久久ai换脸| 亚洲乱码中文字幕| 不卡av在线网| 久久久精品综合| 美腿丝袜亚洲色图| 在线不卡中文字幕| 免费一级片91| 在线精品国精品国产尤物884a| 欧美国产精品v| 国产一区二区影院| 欧美一区二区三区视频免费播放| 亚洲蜜桃精久久久久久久| 韩国毛片一区二区三区| 91精品国产综合久久久久久漫画 | 日韩欧美在线影院| 午夜欧美2019年伦理| 在线视频你懂得一区| 亚洲人午夜精品天堂一二香蕉| 国产99精品国产| 久久久91精品国产一区二区精品 | 欧美激情一区二区在线| 麻豆91在线看| 精品福利一区二区三区免费视频| 看国产成人h片视频| 欧美成人a在线| 激情综合色播激情啊| 久久蜜桃av一区精品变态类天堂 | 91色乱码一区二区三区| 国产精品福利一区| 94色蜜桃网一区二区三区| 欧美激情综合五月色丁香小说| 国产91精品欧美| 中文字幕第一区综合| 高潮精品一区videoshd| 国产精品欧美极品| 在线观看中文字幕不卡| 午夜伊人狠狠久久| 日韩三级高清在线| 国产精品77777竹菊影视小说| 国产欧美日韩不卡| 91福利小视频| 久久国产精品99久久久久久老狼| 久久综合中文字幕| 9人人澡人人爽人人精品| 亚洲午夜久久久久久久久久久 | 欧美日韩一区不卡| 久草精品在线观看| 国产精品美女视频| 欧美精品 国产精品| 国产一区二区三区高清播放| 亚洲丝袜另类动漫二区| 欧美高清视频在线高清观看mv色露露十八| 九色|91porny| 亚洲精品免费在线| 精品1区2区在线观看| 色综合久久久久久久久| 麻豆91在线观看| 亚洲人成亚洲人成在线观看图片 | 精品一区二区三区免费观看 | 久久精品国产在热久久| 国产精品无遮挡| 欧美欧美欧美欧美| aaa欧美色吧激情视频| 青青草成人在线观看| 国产精品不卡在线| 欧美大片在线观看| 欧美色综合久久| 国产成人精品免费视频网站| 天天综合天天综合色| 亚洲视频一区在线| 国产日韩欧美在线一区| 欧美日韩国产天堂| 99综合电影在线视频| 国产九色精品成人porny| 午夜精品久久久久久久蜜桃app| 欧美激情一区二区三区四区 | 亚洲柠檬福利资源导航| 亚洲精品一区二区三区蜜桃下载 | 日韩专区一卡二卡| 中文字幕一区二区三| 欧美一级日韩一级| 欧美最猛黑人xxxxx猛交| 国产91清纯白嫩初高中在线观看| 日韩精品1区2区3区| 伊人开心综合网| 中文字幕一区二区三区在线不卡| 久久男人中文字幕资源站| 日韩亚洲国产中文字幕欧美| 欧美欧美午夜aⅴ在线观看| 色94色欧美sute亚洲线路一ni | 91美女片黄在线观看| 岛国一区二区在线观看| 国产精品资源网| 国产一区在线不卡| 激情综合色丁香一区二区| 日韩不卡免费视频| 婷婷综合久久一区二区三区| 亚洲一区二区欧美| 一区二区久久久久| 亚洲午夜一二三区视频| 午夜精彩视频在线观看不卡| 亚洲午夜一二三区视频| 亚洲韩国精品一区| 五月综合激情婷婷六月色窝| 亚洲第一成年网| 亚洲444eee在线观看| 日韩电影在线免费看| 琪琪一区二区三区| 国产精品综合二区| 成人黄色在线网站| 在线这里只有精品| 91精品国产日韩91久久久久久| 日韩欧美国产电影| 国产三级一区二区三区| 国产欧美日韩精品一区| 亚洲免费观看视频| 图片区小说区区亚洲影院| 日韩高清欧美激情| 国产xxx精品视频大全| 99久久精品国产麻豆演员表| 在线观看免费亚洲| 日韩三级免费观看| 国产精品色在线| 午夜激情久久久| 国产在线不卡一区| 99热精品国产| 这里只有精品免费| 中文在线资源观看网站视频免费不卡 | 亚洲激情在线播放| 天天综合网天天综合色 | 日韩成人午夜精品| 另类中文字幕网| 成人黄色电影在线| 欧美日本国产视频| 久久精品在线免费观看| 亚洲影视在线播放| 国产在线一区观看| 欧美性猛片xxxx免费看久爱| 欧美成人高清电影在线| 亚洲精品日韩专区silk| 久久se这里有精品| 色噜噜狠狠成人网p站| 日韩视频在线一区二区| 亚洲三级免费电影| 国产专区综合网| 欧美日韩视频专区在线播放| 久久中文娱乐网| 亚洲成年人影院| 91天堂素人约啪| 久久久亚洲欧洲日产国码αv| 一区二区三区小说| 国产成人亚洲综合色影视| 在线观看免费亚洲| 国产精品久久久久久久久晋中| 亚洲3atv精品一区二区三区| www.日韩在线| 26uuu精品一区二区三区四区在线| 亚洲精品视频在线看| 国产一区久久久| 日韩欧美aaaaaa| 日韩—二三区免费观看av| 99久久免费精品高清特色大片| 欧美草草影院在线视频| 婷婷开心激情综合| 一本色道a无线码一区v| 欧美激情艳妇裸体舞| 国产乱子伦一区二区三区国色天香| 欧美四级电影在线观看| 亚洲色图一区二区| 99久久99久久免费精品蜜臀| 久久久蜜桃精品| 激情欧美日韩一区二区| 91精品国产欧美一区二区成人| 性欧美大战久久久久久久久| 在线亚洲一区观看| 亚洲最色的网站| 欧美日韩一区二区三区高清| 亚洲综合免费观看高清在线观看| 99久久久久免费精品国产| 中文字幕av一区 二区| 懂色一区二区三区免费观看| 国产午夜精品久久久久久久 | 精品一区二区成人精品| 欧美人动与zoxxxx乱| 亚洲韩国一区二区三区| 欧美日韩另类国产亚洲欧美一级| 午夜精品久久久久影视| 777a∨成人精品桃花网| 麻豆精品视频在线|