婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識(shí)庫 > python 實(shí)現(xiàn)存儲(chǔ)數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

python 實(shí)現(xiàn)存儲(chǔ)數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

熱門標(biāo)簽:云南地圖標(biāo)注 南京crm外呼系統(tǒng)排名 crm電銷機(jī)器人 汕頭電商外呼系統(tǒng)供應(yīng)商 400電話 申請 條件 電銷機(jī)器人 金倫通信 鄭州智能外呼系統(tǒng)中心 賓館能在百度地圖標(biāo)注嗎 北京外呼電銷機(jī)器人招商

第一、幾種常用方法

讀取TXT文檔:urlopen()

讀取PDF文檔:pdfminer3k

第二、亂碼問題

(1)、

from urllib.request import urlopen
#訪問wiki內(nèi)容
html = urlopen("https://en.wikipedia.org/robots.txt")
print(html.read())

輸出的結(jié)果中出現(xiàn)亂碼原因:

計(jì)算機(jī)只能處理0和1兩個(gè)數(shù)字,所以想要處理文本,必須把文本變成0和1這樣的數(shù)字,最早的計(jì)算機(jī)使用八個(gè)0和1表示一個(gè)字節(jié),所以最大能夠表示整數(shù)是255=11111111.如果想要表示更大的數(shù),必須使用更多的字節(jié)。

由于計(jì)算機(jī)是美國人發(fā)明的,所以最早只有127個(gè)字符被編寫進(jìn)計(jì)算機(jī),即常見的阿拉伯?dāng)?shù)字,字母大小寫,以及鍵盤上的符號(hào)。此編碼被稱為ASCII編碼,比如大寫字母A的ASCII編碼是65,65再被轉(zhuǎn)換二進(jìn)制01000001,即是計(jì)算機(jī)處理的東西。

顯然,ASCII不能表示中文,故中國制定了自己的GB2312編碼,并且兼容ASCII編碼。問題是:使用GB2312編碼的慕課網(wǎng)三個(gè)字,假設(shè)編碼為61,62,63.但在ASCII碼表可能是其他字符。如下圖示,日文中的616263編碼成其他字符,打開后意思出錯(cuò)。

解決方法:

國際上的unicode編碼,整合全世界所有編碼。故unicode編碼的內(nèi)容在任一臺(tái)計(jì)算機(jī)用unicode仍正常打開

又對于A,ASCII編碼為01000001,Unicode編碼:0000000001000001此時(shí)浪費(fèi)空間

故出現(xiàn)UTF-8編碼:01000001此時(shí)用兩個(gè)八位存儲(chǔ)中文。

(2)、記事本使用unicode編碼,將記事本存到計(jì)算機(jī)時(shí),將轉(zhuǎn)化為utf-8儲(chǔ)存。

在計(jì)算機(jī)中打開文本時(shí),將轉(zhuǎn)化為unicode編碼

存儲(chǔ)原因:使用utf-8儲(chǔ)存節(jié)省空間,使用unicode打開保證最大的兼容

(3)、服務(wù)器讀取uncode編碼的文檔,轉(zhuǎn)化為utf-8格式傳給瀏覽器。因?yàn)榫W(wǎng)絡(luò)帶寬昂貴,轉(zhuǎn)化為了減少負(fù)擔(dān)。

(4)、python3字符串默認(rèn)使用Unicode編碼,所以python3支持多種語言

以Unicode表示的str通過encode()方法可以編碼為指定的bytes

如果bytes使用ASCII編碼,遇到ASCII碼表沒有的字符會(huì)以\x##表示,此時(shí)只用‘\x##'.decode('utf-8')即可

(5)、解決方法

from urllib.request import urlopen
#訪問wiki內(nèi)容
html = urlopen("https://en.wikipedia.org/robots.txt")
print(html.read().decode("utf-8"))

第三、pdfminer3k安裝

法一:

(1)、進(jìn)入網(wǎng)址直接下載并解壓:https://pypi.python.org/pypi/pdfminer3k/

(2)、以管理員身份運(yùn)行命令行窗口,進(jìn)入軟件解壓縮位置,運(yùn)行python setup.py install

法二:

(3)、直接在pycharm中安裝

(4)、讀取pdf過程:首先創(chuàng)建一個(gè)分析器pdfparser和文檔對象pdfdocument,并通過兩個(gè)方法相互關(guān)聯(lián),然后調(diào)用文檔對象的初始化方法(可以傳參數(shù)),此時(shí)資源內(nèi)容被加載到文檔對象中。

創(chuàng)建資源管理器和參數(shù)分析器,然后創(chuàng)建聚合器(整合資源管理器和參數(shù)分析器),通過聚合器創(chuàng)建解釋器(對pdf文檔進(jìn)行編碼,解釋成python能識(shí)別的格式)

(5)、讀取pdf文檔:通過文檔對象的get_pages()方法得到pdf每一頁的內(nèi)容,通過解釋器的process_page()方法讀取一頁一頁。

(6)、實(shí)例演示

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
#獲得文檔對象,以二進(jìn)制讀方式打開
fp = open("naacl06-shinyama.pdf", "rb")
#創(chuàng)建一個(gè)與文檔關(guān)聯(lián)的分析器
parser = PDFParser(fp)
#創(chuàng)建一個(gè)pdf文檔的對象
doc = PDFDocument()
#連接解釋器與文檔對象
parser.set_document(doc)
doc.set_parser(parser)
#初始化文檔,如果文檔有密碼,寫與此。
doc.initialize("")
#創(chuàng)建pdf資源管理器
resource = PDFResourceManager()
#參數(shù)分析器
laparam = LAParams()
#創(chuàng)建聚合器
device = PDFPageAggregator(resource, laparams=laparam)
#創(chuàng)建pdf頁面解釋器
interpreter = PDFPageInterpreter(resource, device)
#使用文檔對象得到頁面的集合
for page in doc.get_pages():
  #使用頁面解釋器讀取
  interpreter.process_page(page)
  #使用聚合器來獲得內(nèi)容
  layout = device.get_result()
  for out in layout:
    if hasattr(out, "get_text"):
      print(out.get_text())

一下用于讀取網(wǎng)站上pdf內(nèi)容

fp = urlopen(http://www.tencent.com/zh-cn/articles/8003251479983154.pdf)

補(bǔ)充內(nèi)容:

以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。

您可能感興趣的文章:
  • Python爬蟲爬取全球疫情數(shù)據(jù)并存儲(chǔ)到mysql數(shù)據(jù)庫的步驟
  • Python爬取騰訊疫情實(shí)時(shí)數(shù)據(jù)并存儲(chǔ)到mysql數(shù)據(jù)庫的示例代碼
  • MySQL和Python交互的示例
  • 配置python連接oracle讀取excel數(shù)據(jù)寫入數(shù)據(jù)庫的操作流程
  • Python 對Excel求和、合并居中的操作
  • 如何用python合并多個(gè)excel文件
  • python基于pyppeteer制作PDF文件
  • python操作mysql、excel、pdf的示例

標(biāo)簽:文山 懷化 昆明 浙江 梅州 西寧 錫林郭勒盟 石家莊

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《python 實(shí)現(xiàn)存儲(chǔ)數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決》,本文關(guān)鍵詞  python,實(shí)現(xiàn),存儲(chǔ),數(shù)據(jù),到,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《python 實(shí)現(xiàn)存儲(chǔ)數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決》相關(guān)的同類信息!
  • 本頁收集關(guān)于python 實(shí)現(xiàn)存儲(chǔ)數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    国产剧情在线观看一区二区 | 国产91精品一区二区麻豆网站 | 国产精品一区二区久久不卡| 高清不卡一区二区| 7777精品久久久大香线蕉| 欧美经典一区二区三区| 日韩国产欧美在线观看| 91成人免费电影| 欧美日韩精品三区| 91黄视频在线| 欧美极品aⅴ影院| 日本aⅴ免费视频一区二区三区| 丰满白嫩尤物一区二区| 欧美三级日韩在线| 亚洲狠狠丁香婷婷综合久久久| 国产suv精品一区二区三区| 日韩精品一区二区三区三区免费| 亚洲风情在线资源站| 麻豆精品在线播放| 精品国产伦理网| 麻豆国产精品官网| 日韩一区二区免费电影| 一区二区三区 在线观看视频| 国产成人午夜精品影院观看视频| 精品对白一区国产伦| 激情久久久久久久久久久久久久久久| 99riav久久精品riav| 亚洲女人小视频在线观看| 成人app软件下载大全免费| 久久精品男人天堂av| 国产91精品精华液一区二区三区 | 婷婷综合久久一区二区三区| 91麻豆123| 亚洲欧美视频在线观看视频| 日本丰满少妇一区二区三区| 午夜a成v人精品| 欧美va亚洲va国产综合| 亚洲欧美另类图片小说| 肉肉av福利一精品导航| 久久se这里有精品| 蜜桃视频在线一区| 亚洲精品亚洲人成人网在线播放| 国产成人免费视频网站| 午夜电影一区二区| 欧美一区二区精品久久911| 亚洲超碰精品一区二区| 国产精品人人做人人爽人人添 | 中文字幕一区二区5566日韩| 色婷婷综合在线| 亚洲成在线观看| 久久久99精品久久| 91蝌蚪porny成人天涯| 午夜精品久久久久久久| 欧美精品日韩精品| 国产高清不卡一区| 亚洲午夜日本在线观看| 91精品国产欧美一区二区成人| 免费在线观看成人| 中文字幕制服丝袜一区二区三区| 欧美日韩精品福利| 日韩精品一区第一页| 精品国产伦一区二区三区观看方式 | 日本不卡的三区四区五区| 精品欧美一区二区久久| 91丨九色丨黑人外教| 另类综合日韩欧美亚洲| 日韩美女天天操| 欧美亚洲自拍偷拍| 成人h动漫精品| 免费在线观看精品| 亚洲精品自拍动漫在线| 久久色视频免费观看| 欧美日韩电影一区| 99久久精品国产精品久久| 免费成人在线影院| 夜夜嗨av一区二区三区四季av| 欧美二区三区的天堂| 一本大道av伊人久久综合| 国产精品中文字幕日韩精品| 天天免费综合色| 亚洲欧美激情小说另类| 久久精品免费观看| 老色鬼精品视频在线观看播放| 亚洲丝袜美腿综合| 《视频一区视频二区| 国产日本欧洲亚洲| 欧美精品一区二区在线观看| 欧美色图激情小说| 欧美专区日韩专区| 色8久久人人97超碰香蕉987| 亚洲美女在线一区| 亚洲欧洲无码一区二区三区| 国产色一区二区| 久久免费偷拍视频| 欧美不卡一区二区| 欧美最猛黑人xxxxx猛交| 色婷婷一区二区三区四区| 懂色av一区二区在线播放| 国产东北露脸精品视频| 韩国精品主播一区二区在线观看| 日本亚洲三级在线| 蜜臀av亚洲一区中文字幕| 视频一区中文字幕| 丝袜美腿亚洲综合| 美腿丝袜一区二区三区| 加勒比av一区二区| 蜜桃视频在线观看一区| 日本欧美加勒比视频| 麻豆成人综合网| 午夜影院久久久| 日韩不卡一二三区| 国产一区二区日韩精品| 粉嫩13p一区二区三区| 国产一区二三区| 成人动漫一区二区在线| 99久久精品国产网站| 久久精品欧美一区二区三区不卡 | 亚洲欧美成aⅴ人在线观看| 久久99精品视频| 欧美三级电影网| 亚洲美女淫视频| 国产91在线观看| 久久久久88色偷偷免费| 免费欧美在线视频| 欧美日韩一级二级| 亚洲精品免费播放| 91在线观看美女| 日韩美女久久久| 色综合色综合色综合| 国产精品视频一区二区三区不卡| 久久精品国产秦先生| 91麻豆精品国产91久久久更新时间| 一区二区三区在线观看网站| 91久久精品一区二区三| √…a在线天堂一区| 99国产麻豆精品| 亚洲日本欧美天堂| 91丨九色丨蝌蚪丨老版| 亚洲欧美日韩小说| 欧美主播一区二区三区美女| 亚洲成人激情av| 欧美mv日韩mv| 成人av在线播放网址| 国产精品午夜在线观看| 国产麻豆精品久久一二三| 日韩女优视频免费观看| 狠狠色综合色综合网络| 日韩欧美国产三级电影视频| 麻豆精品视频在线| 国产性天天综合网| 大胆欧美人体老妇| 国产精品亚洲视频| 欧美一区二区免费视频| 欧美国产精品久久| 国产在线视频一区二区| 国产精品久久久久久久久搜平片| 青青草97国产精品免费观看 | 国产毛片精品视频| 亚洲色图一区二区三区| 国产精品一区二区黑丝| 久久丝袜美腿综合| 蜜臀久久99精品久久久久宅男| 欧美三级韩国三级日本一级| 麻豆一区二区在线| 国产福利一区二区三区视频在线| 日韩高清欧美激情| 欧美日韩免费不卡视频一区二区三区 | 精品理论电影在线观看| 国产成人在线观看| 亚洲乱码国产乱码精品精小说| 91久久香蕉国产日韩欧美9色| 日韩在线一区二区三区| 久久九九全国免费| 色视频成人在线观看免| 免费av网站大全久久| 中国色在线观看另类| 欧美日韩免费观看一区三区| 国产精品888| 亚洲成人午夜影院| 国产午夜精品久久久久久久 | 97久久超碰精品国产| 亚洲制服丝袜av| 欧美不卡一二三| 日本大香伊一区二区三区| 韩国av一区二区三区| 亚洲一区视频在线| 国产午夜精品久久久久久久| 欧美日本一区二区在线观看| 国产高清久久久久| 免费成人在线网站| 亚洲裸体在线观看| 国产欧美日韩另类视频免费观看| 九色porny丨国产精品| 国产清纯美女被跳蛋高潮一区二区久久w| 中文字幕一区二| 精品免费国产二区三区| 精品一区二区三区影院在线午夜 | 久久综合给合久久狠狠狠97色69| 一本色道久久综合狠狠躁的推荐| 日韩va欧美va亚洲va久久|