婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > python讀取pdf格式文檔的實現代碼

python讀取pdf格式文檔的實現代碼

熱門標簽:千陽自動外呼系統 西藏智能外呼系統五星服務 原裝電話機器人 400電話申請服務商選什么 江蘇客服外呼系統廠家 清遠360地圖標注方法 在哪里辦理400電話號碼 工廠智能電話機器人 平頂山外呼系統免費

python讀取pdf文檔

一、 準備工作

安裝對應的庫
	pip install pdfminer3k
	pip install pdfminer.six 

二、部分變量的含義

PDFDocument(pdf文檔對象)
PDFPageInterpreter(解釋器)
PDFParser(pdf文檔分析器)
PDFResourceManager(資源管理器)
PDFPageAggregator(聚合器)
LAParams(參數分析器)

三、PDFMiner類之間的關系

PDFMiner的相關文檔(點擊跳轉)

四、代碼實現

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# datetime:2021/3/17 12:12
# software: PyCharm
# version: python 3.9.2

def changePdfToText(filePath):
 """
 解析pdf 文本,保存到同名txt文件中

 param:
 filePath: 需要讀取的pdf文檔的目錄
 introduced module:
 from pdfminer.pdfpage import PDFPage
 from pdfminer.pdfparser import PDFParser
 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
 from pdfminer.converter import PDFPageAggregator
 from pdfminer.layout import LAParams
 from pdfminer.pdfdocument import PDFDocument, PDFTextExtractionNotAllowed
 import os.path
 """
 file = open(filePath, 'rb') # 以二進制讀模式打開
 # 用文件對象來創建一個pdf文檔分析器
 praser = PDFParser(file)
 # 創建一個PDF文檔
 doc = PDFDocument(praser, '') # praser :上面創建的pdf文檔分析器 ,第二個參數是密碼,設置為空就好了
 # 連接分析器 與文檔對象
 praser.set_document(doc)
 # 檢測文檔是否提供txt轉換,不提供就忽略
 if not doc.is_extractable:
 raise PDFTextExtractionNotAllowed
 # 創建PDf 資源管理器 來管理共享資源
 rsrcmgr = PDFResourceManager()
 # 創建一個PDF設備對象
 laparams = LAParams()
 device = PDFPageAggregator(rsrcmgr, laparams=laparams)
 # 創建一個PDF解釋器對象
 interpreter = PDFPageInterpreter(rsrcmgr, device)
 result = [] # 內容列表
 # 循環遍歷列表,每次處理一個page的內容
 for page in PDFPage.create_pages(doc):
 interpreter.process_page(page)
 # 接受該頁面的LTPage對象
 layout = device.get_result()
 for x in layout:
  if hasattr(x, "get_text"):
  result.append(x.get_text())
  fileNames = os.path.splitext(filePath) # 分割
  # 以追加的方式打開文件
  with open(fileNames[0] + '.txt', 'a', encoding="utf-8") as f:
   results = x.get_text()
   # print(results) 這個句可以取消注釋就可以在控制臺將所有內容輸出了
   f.write(results) # 寫入文件

# 調用示例 :

# path = u'E:\\1.pdf'
# changePdfToText(path)

利用PyPDF2實現了對pdf文字內容的提取

from PyPDF2 import PdfFileReader

# 定義獲取pdf內容的方法
def getPdfContent(filename):
  # 獲取PdfFileReader對象
  pdf = PdfFileReader(open(filename, "rb"))
  content = "" #content是輸出文本
  for i in range(0,pdf.getNumPages()): #遍歷每一頁
    pageObj = pdf.getPage(i)
    try:
      extractedText = pageObj.extractText()#導出每一頁的內容,如果當前頁有圖片的話就跳過
      content += extractedText + "\n"
    except BaseException:
      pass
  return content.encode("ascii", "ignore")


# 將獲取的內容寫入txt文件
with open("test.txt","w") as f:
  count=0 #count的作用是限制每一行的文字個數,本人設置的是十行
  #將獲取的文本變成字符串并用空白隔開
  for item in str(getPdfContent("test.pdf")).split(" "):
    # 如果當前文字以句號結尾就換行
    if item[-1]==".":
      f.write(item+"\n")
      count=0
    else:
      f.write(item+" ")
      count +=1
    # 如果寫了十個字就換行
    if count==10:
      f.write("\n")
      # 重置count
      count = 0

總結

到此這篇關于python讀取pdf格式文檔的文章就介紹到這了,更多相關python讀取pdf文檔內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python解析并讀取PDF文件內容的方法
  • Python2.7讀取PDF文件的方法示例
  • python 使用pdfminer3k 讀取PDF文檔的例子
  • Python讀取pdf表格寫入excel的方法

標簽:安慶 天水 錦州 日照 白城 隨州 股票 西安

巨人網絡通訊聲明:本文標題《python讀取pdf格式文檔的實現代碼》,本文關鍵詞  python,讀取,pdf,格式,文檔,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python讀取pdf格式文檔的實現代碼》相關的同類信息!
  • 本頁收集關于python讀取pdf格式文檔的實現代碼的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    日本在线不卡视频| 成人性生交大片| 91免费国产在线| 丁香激情综合国产| 成人app网站| 日韩一级黄色大片| 国产精品色婷婷| 国产麻豆成人传媒免费观看| 国产91精品久久久久久久网曝门| av电影在线不卡| 欧美经典三级视频一区二区三区| 欧美另类z0zxhd电影| 日韩免费电影网站| 懂色av一区二区三区免费看| 国产成人精品免费在线| 欧美日韩激情一区二区| 亚洲天堂免费在线观看视频| 久久99九九99精品| 91精品国产福利在线观看| 国产欧美精品一区aⅴ影院| 色综合久久综合网97色综合| 在线观看91av| 国产蜜臀97一区二区三区| 欧美视频一区二区三区| 69p69国产精品| 亚洲欧洲日韩在线| 国产suv一区二区三区88区| 国产亚洲成aⅴ人片在线观看| 国产一区二区三区免费| 欧美一区二区大片| 久色婷婷小香蕉久久| 国产欧美日韩综合| 欧美日韩一区二区在线观看| 国产一区二区在线影院| 国产精品美女久久久久aⅴ国产馆| 在线亚洲+欧美+日本专区| 麻豆精品视频在线观看免费| 欧美tickling网站挠脚心| 99久久精品免费| 奇米色777欧美一区二区| 国产三级欧美三级日产三级99| 欧美午夜寂寞影院| 欧美久久久影院| 成人综合在线网站| 久久99精品一区二区三区三区| 亚洲福利视频三区| 国产精品理论片| 欧美va日韩va| 久久久精品人体av艺术| 久久久久久久久久久久久夜| 日韩一级视频免费观看在线| 欧美人狂配大交3d怪物一区| 色香蕉成人二区免费| 成人av免费网站| 色综合天天综合| 欧美亚洲自拍偷拍| 99精品国产91久久久久久| 欧美影院一区二区| 亚洲国产高清在线| 成人精品免费看| 久久久美女艺术照精彩视频福利播放| 中文字幕亚洲成人| 色婷婷综合久久久中文一区二区| 成人免费在线播放视频| 99精品视频在线免费观看| 国产精品女人毛片| 94-欧美-setu| 亚洲成av人片www| 喷水一区二区三区| 精品在线播放午夜| 91日韩在线专区| 国产日韩欧美一区二区三区综合| 国产欧美中文在线| 国产精品91一区二区| 色狠狠综合天天综合综合| 欧美色男人天堂| 国产亚洲欧美色| 日韩av一区二区三区四区| 色偷偷久久人人79超碰人人澡| 欧美一级爆毛片| 亚洲欧美日韩中文字幕一区二区三区| 久久精品国产99国产精品| 欧美三级日韩三级国产三级| 午夜伊人狠狠久久| 91精品国产色综合久久不卡电影 | 欧美一卡二卡三卡| 日韩在线一区二区三区| 中文一区在线播放| 国产精品成人免费精品自在线观看| 欧美精品九九99久久| 99re这里都是精品| 99精品视频在线观看免费| 亚洲乱码精品一二三四区日韩在线| 在线视频一区二区三| av综合在线播放| 国产一区二区三区电影在线观看| 亚洲国产欧美在线| 亚洲自拍偷拍av| 亚洲午夜在线电影| 成人综合在线网站| 日韩欧美一二三四区| 成人免费在线视频| 91精品国产欧美日韩| 首页国产丝袜综合| 国产夜色精品一区二区av| 99久久久国产精品| 捆绑调教一区二区三区| 亚洲日本丝袜连裤袜办公室| 欧美一区二区私人影院日本| 91在线一区二区| 丁香桃色午夜亚洲一区二区三区| 天堂va蜜桃一区二区三区漫画版| 中文字幕永久在线不卡| 久久久99精品久久| 精品福利二区三区| 日韩一区二区三区av| 欧美日韩国产另类一区| 色94色欧美sute亚洲13| 色综合婷婷久久| 一本色道久久综合亚洲aⅴ蜜桃| 狠狠色综合播放一区二区| 日本伊人精品一区二区三区观看方式| 亚洲激情图片qvod| 亚洲国产视频a| 日韩av中文字幕一区二区| 久久99精品视频| 国产麻豆视频精品| 91美女在线看| 欧美四级电影在线观看| 日韩一区二区三区免费看 | 欧美日韩第一区日日骚| 欧美在线综合视频| 欧美一级在线视频| 久久久91精品国产一区二区精品| 国产色一区二区| 亚洲香蕉伊在人在线观| 国产尤物一区二区在线| 91福利在线导航| 久久综合国产精品| 一区二区三区中文字幕精品精品 | 亚洲私人影院在线观看| 激情综合网天天干| 色哦色哦哦色天天综合| 91精品国产入口在线| 国产精品系列在线| 国产精品一区在线观看乱码| 色噜噜狠狠成人中文综合| 日韩亚洲国产中文字幕欧美| 国产精品久久久久久户外露出| 美腿丝袜一区二区三区| 欧美老人xxxx18| 五月婷婷综合网| 91国产福利在线| 欧美韩国日本一区| 天堂在线一区二区| 欧美综合亚洲图片综合区| 亚洲男人的天堂一区二区 | 中文字幕精品综合| 风间由美一区二区三区在线观看 | 亚洲欧美日韩综合aⅴ视频| 韩国中文字幕2020精品| 欧美成人一级视频| 久久福利视频一区二区| 欧美一区二区成人| 免费观看在线综合| 久久先锋影音av| a在线播放不卡| 午夜婷婷国产麻豆精品| 日韩一级免费观看| 国产一区不卡精品| 国产精品三级久久久久三级| 成人激情动漫在线观看| 午夜影院久久久| 国产日韩欧美制服另类| 99re66热这里只有精品3直播 | 国产福利一区在线观看| 亚洲三级电影全部在线观看高清| 91麻豆swag| 麻豆成人久久精品二区三区红| 国内国产精品久久| 亚洲制服欧美中文字幕中文字幕| 欧美一级夜夜爽| 天堂一区二区在线| 久久色.com| 欧美日韩第一区日日骚| 91性感美女视频| 国产在线看一区| 日韩高清不卡一区| 五月婷婷另类国产| 中文字幕一区二区三区精华液| 欧美va日韩va| 日韩精品一区二区三区中文不卡| 色婷婷狠狠综合| 91麻豆产精品久久久久久| 国产99久久精品| 成人午夜精品在线| 99视频精品免费视频| 国产成人精品一区二区三区四区| 国产精品久久久久婷婷| 欧美v国产在线一区二区三区|