婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Python爬蟲之必備chardet庫

Python爬蟲之必備chardet庫

熱門標簽:遼寧400電話辦理多少錢 江蘇房產電銷機器人廠家 電信營業廳400電話申請 幫人做地圖標注收費算詐騙嗎 外呼不封號系統 溫州旅游地圖標注 荊州云電銷機器人供應商 悟空智電銷機器人6 蘇州電銷機器人十大排行榜

一、chardet庫的安裝與介紹

玩兒過爬蟲的朋友應該知道,在爬取不同的網頁時,返回結果會出現亂碼的情況。比如,在爬取某個中文網頁的時候,有的頁面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些頁面,知道網頁編碼很重要的。

雖然HTML頁面有charset標簽,但是有些時候是不對的,那么chardet就能幫我們大忙了。使用 chardet 可以很方便的實現字符串/文件的編碼檢測。

如果你安裝過Anaconda,那么可以直接使用chardet庫。如果你只是安裝了Python的話,就需要使用下面幾行代碼,完成chardet庫的安裝。

pip install chardet

接著,使用下面這行代碼,導入chardet庫。

import chardet

二、chardet庫的使用

這個小節,我們分3部分講解。

2.1 chardet.detect()函數

detect()函數接受一個參數,一個非unicode字符串。它返回一個字典,其中包含自動檢測到的字符編碼和從0到1的可信度級別。

  • encoding:表示字符編碼方式。
  • confidence:表示可信度。
  • language:語言。

光看這個解釋,大多數朋友可能看不懂,下面我們就用例子來講述這個函數。

2.2 使用該函數分別檢測gbk、utf-8和日語

檢測gbk編碼的中文:

str1 = '大家好,我是黃同學'.encode('gbk')
chardet.detect(str1)

chardet.detect(str1)["encoding"]

結果如下:

檢測的編碼是GB2312,注意到GBK是GB2312的父集,兩者是同一種編碼,檢測正確的概率是99%,language字段指出的語言是'Chinese'。

檢測utf-8編碼的中文:

str2 = '我有一個夢想'.encode('utf-8')
chardet.detect(str2)

chardet.detect(str2)["encoding"]

結果如下:

檢測一段日文:

str3 = 'ありがとう'.encode('euc-jp')
chardet.detect(str3)

chardet.detect(str3)

結果如下:

2.3 如何在“爬蟲”中使用chardet庫呢?

我們以百度網頁為例子,進行講述。

這個網頁的源代碼,使用的是什么編碼呢?我們看看源代碼:

從圖中可以看到,是utf-8字符編碼。

如果不使用chardet庫,獲取網頁源代碼的時候,怎么指定字符編碼呢?

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)
response.encoding = "utf-8"
response.text

結果如下:

你會發現:正確指定編碼后,沒有亂碼。如果你將編碼改為gbk,再看看結果。此時已經亂碼。

如果使用chardet庫,獲取網頁源代碼的時候,可以輕松指定字符編碼!

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)

# 注意下面這行代碼,是怎么寫的?
response.encoding = chardet.detect(response.content)['encoding']
response.text

結果如下:

編碼不用我們自己查找,也不用猜,直接交給chardet庫去猜測,正確率還高。

到此這篇關于Python爬蟲之必備chardet庫的文章就介紹到這了,更多相關Python chardet庫內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python中利用aiohttp制作異步爬蟲及簡單應用
  • Python爬蟲之線程池的使用
  • python基礎之爬蟲入門
  • python爬蟲請求庫httpx和parsel解析庫的使用測評
  • Python爬蟲之爬取最新更新的小說網站
  • 用Python爬蟲破解滑動驗證碼的案例解析
  • Python爬蟲框架-scrapy的使用
  • Python爬蟲之爬取二手房信息
  • python爬蟲之爬取百度翻譯
  • python爬蟲基礎之簡易網頁搜集器
  • Django利用Cookie實現反爬蟲的例子
  • python爬蟲之生活常識解答機器人
  • Python異步爬蟲實現原理與知識總結

標簽:臺灣 黃山 濟南 欽州 景德鎮 宿遷 喀什 三沙

巨人網絡通訊聲明:本文標題《Python爬蟲之必備chardet庫》,本文關鍵詞  Python,爬蟲,之,必備,chardet,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python爬蟲之必備chardet庫》相關的同類信息!
  • 本頁收集關于Python爬蟲之必備chardet庫的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 萨迦县| 双桥区| 九寨沟县| 德昌县| 浦东新区| 容城县| 华容县| 广饶县| 精河县| 黔西| 修水县| 太仓市| 定远县| 吉林省| 花垣县| 敦化市| 仁寿县| 苍梧县| 彩票| 南开区| 洛南县| 金秀| 庆元县| 高淳县| 巫溪县| 四川省| 徐水县| 科技| 申扎县| 东丰县| 德保县| 永定县| 金寨县| 南华县| 禄劝| 舞钢市| 封开县| 武陟县| 乌拉特前旗| 汉寿县| 广南县|