婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁(yè) > 知識(shí)庫(kù) > python解析PDF程序代碼

python解析PDF程序代碼

熱門標(biāo)簽:無(wú)錫客服外呼系統(tǒng)一般多少錢 百度地圖標(biāo)注位置怎么修改 洪澤縣地圖標(biāo)注 地圖標(biāo)注視頻廣告 北京電信外呼系統(tǒng)靠譜嗎 高德地圖標(biāo)注是免費(fèi)的嗎 梅州外呼業(yè)務(wù)系統(tǒng) 老人電話機(jī)器人 大連crm外呼系統(tǒng)

說(shuō)在前面

和word的文本相比PDF更類似于一張張圖片,圖上放著一個(gè)個(gè)文字。對(duì)其的解析是將圖片上的文字提取到text文件中,方便之后的分析。

添加依賴

在python的環(huán)境中安裝PDFminer3k,不要裝錯(cuò)了,一開始我裝的是PDFminer,結(jié)果有幾個(gè)包不能用
pip install pdfminer3k

源程序代碼

#!/usr/bin/env python3
# -*- coding:utf-8 -*-
# pip3 install pdfminer3k

import os
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBoxHorizontal
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowed
from pdfminer.pdfdevice import PDFDevice


def read_pdf(pdf_name, result_name):
    # 以二進(jìn)制讀模式打開
    fp = open(pdf_name, 'rb')
    # 用文件對(duì)象來(lái)創(chuàng)建一個(gè)pdf文檔分析器
    parser = PDFParser(fp)
    # 創(chuàng)建一個(gè)pdf文檔
    doc = PDFDocument()
    # 連接分析器 與文檔對(duì)象
    parser.set_document(doc)
    doc.set_parser(parser)
    # 提供初始密碼,如果沒(méi)有密碼 就創(chuàng)建一個(gè)空的字符串
    doc.initialize('')
    # 檢測(cè)文檔是否提供txt轉(zhuǎn)換,不提供就拋出異常
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    # 創(chuàng)建PDf 資源管理器 來(lái)管理共享資源
    rsrcmgr = PDFResourceManager()
    # 創(chuàng)建一個(gè)PDF設(shè)備對(duì)象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 創(chuàng)建一個(gè)PDF解釋器對(duì)象
    interpreter = PDFPageInterpreter(rsrcmgr, device)

    with open(result_name, "w", encoding="u8") as fd_out:
        # 循環(huán)遍歷列表,每次處理一個(gè)page的內(nèi)容
        for i, page in enumerate(doc.get_pages(), 1):
            index = "===========《第{}頁(yè)》===========".format(i)
            print(index)
            fd_out.write(index + "\n")
            interpreter.process_page(page)
            # 接受該頁(yè)面的LTPage對(duì)象
            layout = device.get_result()
            for x in layout:
                # 這里layout是一個(gè)LTPage對(duì)象 里面存放著 這個(gè)page解析出的各種對(duì)象 一般包括LTTextBox,
                # LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對(duì)象的text屬性
                if not isinstance(x, LTTextBoxHorizontal):
                    continue
                results = x.get_text()
                print(results)
                fd_out.write(results)

if __name__ == '__main__':

    # 獲取讀取文件夾
    filePath = '../PDFfile'
    #遍歷文件夾
    for i,j,k in os.walk(filePath):
        for m in k:
            # 格式化輸出的名稱和地址
            result = '../TextFile/' + m[:-4] + '.txt'
            # 格式化源文件路徑
            fileName = i + '/' + m
            # 調(diào)用函數(shù)解析
            read_pdf(fileName, result)

參考以下代碼內(nèi)容:python 讀取pdf文本內(nèi)容

#!/usr/bin/env python3
#-*- coding:utf-8 -*-
# pip3 install pdfminer3k
  
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBoxHorizontal
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowed
from pdfminer.pdfdevice import PDFDevice
 
def read_pdf(pdf_name, result_name):
    # 以二進(jìn)制讀模式打開
    fp = open(pdf_name, 'rb')
    # 用文件對(duì)象來(lái)創(chuàng)建一個(gè)pdf文檔分析器
    parser = PDFParser(fp)
    # 創(chuàng)建一個(gè)pdf文檔
    doc = PDFDocument()
    # 連接分析器 與文檔對(duì)象
    parser.set_document(doc)
    doc.set_parser(parser)
    # 提供初始密碼,如果沒(méi)有密碼 就創(chuàng)建一個(gè)空的字符串
    doc.initialize('')
    # 檢測(cè)文檔是否提供txt轉(zhuǎn)換,不提供就拋出異常
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    # 創(chuàng)建PDf 資源管理器 來(lái)管理共享資源
    rsrcmgr = PDFResourceManager()
    # 創(chuàng)建一個(gè)PDF設(shè)備對(duì)象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 創(chuàng)建一個(gè)PDF解釋器對(duì)象
    interpreter = PDFPageInterpreter(rsrcmgr, device)
     
    with open(result_name,"w",encoding="u8") as fd_out:
        # 循環(huán)遍歷列表,每次處理一個(gè)page的內(nèi)容
        for i,page in enumerate(doc.get_pages(),1):
            index = "===========《第{}頁(yè)》===========".format(i)
            print(index)
            fd_out.write(index + "\n")
            interpreter.process_page(page)
            # 接受該頁(yè)面的LTPage對(duì)象
            layout = device.get_result()
            for x in layout:
                # 這里layout是一個(gè)LTPage對(duì)象 里面存放著 這個(gè)page解析出的各種對(duì)象 一般包括LTTextBox,
                # LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對(duì)象的text屬性
                if not isinstance(x, LTTextBoxHorizontal):
                    continue
                results = x.get_text()
                print(results)
                fd_out.write(results)   
                       
if __name__ == '__main__':
    pdf_name = 'test.pdf'
    result = 'test.txt'
    read_pdf(pdf_name, result)

以上就是python解析PDF的詳細(xì)內(nèi)容,更多關(guān)于python解析PDF的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

您可能感興趣的文章:
  • python實(shí)現(xiàn)csdn全部博文下載并轉(zhuǎn)PDF
  • Python合并多張圖片成PDF
  • Python提取PDF指定內(nèi)容并生成新文件
  • 詳解用Python把PDF轉(zhuǎn)為Word方法總結(jié)
  • python操作mysql、excel、pdf的示例
  • python pdfkit 中文亂碼問(wèn)題的解決方案
  • python 三種方法提取pdf中的圖片
  • Python實(shí)現(xiàn)給PDF添加水印的方法
  • Python讀取pdf表格寫入excel的方法
  • Python 多張圖片合并成一個(gè)pdf的參考示例

標(biāo)簽:吉林 怒江 長(zhǎng)春 岳陽(yáng) 洛陽(yáng) 安慶 泉州 清遠(yuǎn)

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《python解析PDF程序代碼》,本文關(guān)鍵詞  python,解析,PDF,程序,代碼,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《python解析PDF程序代碼》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于python解析PDF程序代碼的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    亚洲天堂a在线| 2023国产精品自拍| 婷婷丁香激情综合| 国产精品乱码一区二三区小蝌蚪| 欧美在线免费播放| 成人永久看片免费视频天堂| 欧美一区二区日韩一区二区| 亚洲成人综合视频| 欧美日韩视频一区二区| 一区二区三区中文免费| 色偷偷久久人人79超碰人人澡| 亚洲人123区| 色先锋aa成人| 亚洲国产综合在线| 欧美日韩国产小视频在线观看| 亚洲成人精品影院| 91精品国产黑色紧身裤美女| 日韩**一区毛片| 精品国产一区二区三区不卡| 777奇米四色成人影色区| 国产自产2019最新不卡| 狠狠色丁香婷婷综合| 精品中文字幕一区二区| 激情综合网最新| 国内一区二区视频| 成人精品在线视频观看| 色婷婷综合久色| 欧美性色黄大片手机版| 欧美福利视频一区| 欧美一级片在线| 欧美精品一区在线观看| 国产欧美日韩不卡免费| 综合久久久久久| 一区二区三区在线视频免费| 亚洲视频在线一区观看| 亚洲一区在线观看视频| 日韩在线一区二区| 国产伦精品一区二区三区免费迷 | 精品伦理精品一区| 日韩一本二本av| 欧美国产日韩a欧美在线观看| 国产精品伦理一区二区| 亚洲成av人片一区二区梦乃| 另类欧美日韩国产在线| 国产传媒日韩欧美成人| 欧美亚洲国产一卡| 精品欧美一区二区久久| 日韩伦理电影网| 欧美日韩免费视频| 久久久久97国产精华液好用吗| 中文字幕一区二| 亚洲人成电影网站色mp4| 国产1区2区3区精品美女| 一二三四社区欧美黄| 精品国产一区二区三区久久久蜜月 | 成人免费黄色在线| 亚洲成av人片www| 久久蜜桃一区二区| 精品污污网站免费看| 国产麻豆精品视频| 91麻豆福利精品推荐| www.性欧美| 精品动漫一区二区三区在线观看| 洋洋成人永久网站入口| 成人av在线看| 精品国产99国产精品| 亚洲午夜视频在线| 91在线免费播放| 国产精品网站在线播放| 激情综合色播激情啊| 欧美三片在线视频观看 | 亚洲一二三四在线| 成人一道本在线| 久久婷婷国产综合精品青草 | 欧美一区二区三区日韩视频| 国产精品传媒入口麻豆| 韩国三级中文字幕hd久久精品| 色呦呦国产精品| 亚洲欧洲精品成人久久奇米网| 国内外精品视频| 日韩欧美电影在线| 日本中文字幕一区二区有限公司| 97精品电影院| 亚洲日本一区二区| 色综合久久久久网| 一区二区免费在线| 欧美亚洲综合久久| 亚洲第一综合色| 欧美撒尿777hd撒尿| 亚洲一区二区视频| 欧美美女一区二区| 蜜桃一区二区三区四区| 欧美一区午夜精品| 青青草国产成人av片免费| 欧美狂野另类xxxxoooo| 香蕉久久夜色精品国产使用方法 | 精品电影一区二区三区| 日本aⅴ精品一区二区三区 | 色综合天天综合色综合av| 国产精品视频看| 成人av一区二区三区| 最新成人av在线| 欧美综合久久久| 亚洲二区视频在线| 欧美一区二区三区视频免费播放| 日本91福利区| 国产欧美日韩一区二区三区在线观看| 国产麻豆视频一区二区| 国产精品第一页第二页第三页| 99久久久精品| 亚洲福利视频一区二区| 日韩三级.com| 成人看片黄a免费看在线| 亚洲一区二区影院| 精品久久久久久久久久久院品网 | 琪琪久久久久日韩精品| 亚洲人妖av一区二区| 亚洲图片欧美综合| 蜜乳av一区二区| 国产精品一区二区你懂的| 成人免费观看av| 欧美少妇xxx| 乱一区二区av| 久久久久国产一区二区三区四区| 国产亚洲va综合人人澡精品| 中文字幕中文字幕一区二区| 亚洲五码中文字幕| 久国产精品韩国三级视频| 国产iv一区二区三区| 一本大道久久精品懂色aⅴ| 欧美日韩中文字幕一区二区| 日韩欧美你懂的| 国产精品五月天| 天天色综合天天| 国产成人精品一区二| 在线观看中文字幕不卡| 欧美成人高清电影在线| 亚洲天堂成人网| 麻豆一区二区三| 91视频www| 久久亚洲欧美国产精品乐播| 伊人开心综合网| 国精产品一区一区三区mba视频| 91片黄在线观看| 日韩三级电影网址| 一区二区激情小说| 国产91在线观看丝袜| 制服丝袜国产精品| 自拍偷拍国产精品| 国产一区二区网址| 欧美无砖砖区免费| 欧美国产一区在线| 美女高潮久久久| 91黄色激情网站| 国产欧美一区在线| 免费久久精品视频| 在线观看免费成人| 中文成人综合网| 韩国精品主播一区二区在线观看| 欧美日韩亚洲不卡| 亚洲男女毛片无遮挡| 欧亚洲嫩模精品一区三区| 国产精品一二三区在线| 久草精品在线观看| 久久精品国产第一区二区三区| 婷婷夜色潮精品综合在线| 国产乱一区二区| 99视频在线精品| 亚洲国产精品黑人久久久| 国产尤物一区二区在线| 91精品国产91热久久久做人人| 亚洲精品免费看| 97精品国产97久久久久久久久久久久| 99久久综合狠狠综合久久| 亚洲成人久久影院| 久久99精品网久久| 视频一区在线播放| 琪琪久久久久日韩精品| 奇米精品一区二区三区在线观看| 日本va欧美va精品发布| 久久成人免费电影| 国产自产2019最新不卡| 国产成人免费视频网站| 成人激情小说乱人伦| 99精品在线观看视频| 色哦色哦哦色天天综合| 在线一区二区三区四区五区| 在线一区二区观看| 日韩一区二区三| 国产日韩精品一区二区三区在线| 国产精品入口麻豆九色| 亚洲日本青草视频在线怡红院 | 精品区一区二区| 精品91自产拍在线观看一区| 中文字幕第一页久久| 亚洲黄一区二区三区| 老色鬼精品视频在线观看播放| 成人综合在线网站| 欧美日韩一区二区三区四区| 欧美精品一区二区三区四区|