婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > 詳解用Python把PDF轉(zhuǎn)為Word方法總結(jié)

詳解用Python把PDF轉(zhuǎn)為Word方法總結(jié)

熱門標(biāo)簽:外呼不封號系統(tǒng) 電信營業(yè)廳400電話申請 幫人做地圖標(biāo)注收費(fèi)算詐騙嗎 江蘇房產(chǎn)電銷機(jī)器人廠家 溫州旅游地圖標(biāo)注 蘇州電銷機(jī)器人十大排行榜 悟空智電銷機(jī)器人6 荊州云電銷機(jī)器人供應(yīng)商 遼寧400電話辦理多少錢

先講一下為啥要寫這個(gè)文章,網(wǎng)上其實(shí)很多這種PDF轉(zhuǎn)化的代碼和軟件。我一直想用Python做,但是網(wǎng)上搜到的代碼很多都不能用,很多是2.7版本的代碼,再就是PDF需要用到的庫在導(dǎo)入的時(shí)候,很多的報(bào)錯(cuò),解決起來特別費(fèi)勁,而且自從2021年初以來,似乎網(wǎng)上很少有關(guān)PDF轉(zhuǎn)化的代碼出現(xiàn)了。我在研究了很多代碼和pdfminer的用法后,總結(jié)了幾個(gè)方法,目前這幾種方法可以解決大多數(shù)格式的轉(zhuǎn)化,后面我也專門放了提取PDF表格的代碼,文末有高效的免費(fèi)在線工具推薦。

下面這個(gè)是我最最推薦的方法 ,簡單高效 ,只要是標(biāo)準(zhǔn)PDF文檔,里面的圖片和表格都可以保留格式

# pip install pdf2docx #安裝依賴庫
from pdf2docx import Converter

pdf_file = r'C:\Users\Administrator\Desktop\新建文件夾\mednine.pdf'
docx_file = r'C:\Users\Administrator\Desktop\Python教程\02.docx'

# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)
cv.close()

下面是另外三種常用方法

1 把標(biāo)準(zhǔn)格式的PDF轉(zhuǎn)為Word,測試環(huán)境Python3.6.5和3.6.6(注意PDF內(nèi)容僅僅是文字為主的里面沒有圖片圖表的適用,不適合掃描版PDF,因?yàn)槟侵荒苡脠D片識別的方式進(jìn)行)

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
import sys
import string
from docx import Document


def convert_pdf_2_text(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    
    device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    
    with open(path, 'rb') as fp:
        for page in PDFPage.get_pages(fp, set()):
            interpreter.process_page(page)
            #print(retstr.getvalue())  
        text = retstr.getvalue()
    device.close()
    retstr.close()
    return text


def pdf2txt():
    text=convert_pdf_2_text(path)
    with open('real.txt','a',encoding='utf-8') as f:
        for line in text.split('\n'):
            f.write(line+'\n')

        

def remove_control_characters(content):
    mpa = dict.fromkeys(range(32))
    return content.translate(mpa)
    
def save_text_to_word(content, file_path):     

    doc = Document()
    for line in content.split(''):
        print(line)
            
        paragraph = doc.add_paragraph()
        paragraph.add_run(remove_control_characters(line))
    doc.save(file_path)


if __name__ == '__main__':
    path = r'C:\Users\mayn\Desktop\程序臨時(shí)\培訓(xùn)教材.pdf'  # 你自己的pdf文件路徑及文件名 不適合掃描版 只適合標(biāo)準(zhǔn)PDF文件
    text = convert_pdf_2_text(path)
    save_text_to_word(text, 'output.doc')  #PDF轉(zhuǎn)為word方法
    #pdf2txt()  #PDF轉(zhuǎn)為txt方法

2專門提取PDF里面的表格,使用pdfplumber適合標(biāo)準(zhǔn)格式的PDF

import pdfplumber
import pandas as pd
import time
from time import  ctime
import psutil as ps 
#import threading
import gc
pdf = pdfplumber.open(r"C:\Users\Administrator\Desktop\新建文件夾\mednine.pdf")
N=len(pdf.pages)
print('總共有',N,'頁')

def pdf2exl(i): # 讀取了第i頁,第i頁是有表格的,
    print('********************************************************************************************************************************************************')
    print('正在輸出第',str(i+1),'頁表格')
    print('********************************************************************************************************************************************************')   
    p0 = pdf.pages[i]
    try:
        table = p0.extract_table()
        print(table)
    
        df = pd.DataFrame(table[1:], columns=table[0])
    #print(df)
        df.to_excel(r"C:\Users\Administrator\Desktop\新建文件夾\Model"+str(i+1)+".xlsx")
    
        #df.info(memory_usage='deep')
        
        
    except Exception as e:
        print('第'+str(i+1)+'頁無表格,或者檢查是否存在表格')       
       
        pass
    #print('目前內(nèi)存占用率是百分之',str(ps.virtual_memory().percent),'    第',str(i+1),'頁輸出完畢')
    print('**********************************************************************************************************************************************************')
    print('\n\n\n') 
    time.sleep(5)


def dojob1():  #此函數(shù)  直接循環(huán)提取PDF里面各個(gè)頁面的表格 
    print('*********************')
    for i in range(0,N):
        pdf2exl(i)    

3也可以提取PDF里面的表格,使用camelot(camelot的安裝可能需要點(diǎn)耐心,反正用的人不多)

import camelot
import wand

# 從PDF文件中提取表格

def output(i):  
    #print(tables)
    #for i in range(5):
    tables = camelot.read_pdf(r'C:\Users\Administrator\Desktop\新建文件夾\mednine.pdf', pages=str(i), flavor='stream')
    print(tables[i])
    
# 表格數(shù)據(jù)
    print(tables[i].data)
    
    tables[i].to_csv(r'C:\Users\Administrator\Desktop\新建文件夾\002'+str(i)+r'.csv')


def plotpdf():
        # 這個(gè)是畫pdf 結(jié)構(gòu)的函數(shù) 現(xiàn)在不能用 不要打開
    
    #print(tables[0])
    tables = camelot.read_pdf(r'C:\Users\mayn\Desktop\vcode工作區(qū)\11\路基.pdf', pages='200', flavor='stream')
    camelot.plot(tables[0], kind='text')
    print(tables[0])
    plt.show()
    # 繪制PDF文檔的坐標(biāo),定位表格所在的位置  
    #plt = camelot.plot(tables[0],kind='text')
    #plt.show()
    #table_df = tables[0].df

#plotpdf() 
#i=3
#output(i)
for i in range(0,2):
    try:    
        output(i)
    except Exception as e:
        print('第'+str(i)+'頁沒找到表格啊啊啊')
        pass 
    continue

以下是pdfplumber測試效果

源文件如下

提取結(jié)果

最后補(bǔ)充2個(gè)免費(fèi)轉(zhuǎn)換的網(wǎng)站感覺還比較好用,關(guān)鍵是免費(fèi)

http://pdfdo.com/pdf-to-word.aspx

http://app.xunjiepdf.com/pdf2word/

到此這篇關(guān)于詳解用Python把PDF轉(zhuǎn)為Word方法總結(jié)的文章就介紹到這了,更多相關(guān)Python把PDF轉(zhuǎn)為Word內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python解析PDF程序代碼
  • python實(shí)現(xiàn)csdn全部博文下載并轉(zhuǎn)PDF
  • Python合并多張圖片成PDF
  • Python提取PDF指定內(nèi)容并生成新文件
  • python操作mysql、excel、pdf的示例
  • python pdfkit 中文亂碼問題的解決方案
  • python 三種方法提取pdf中的圖片
  • Python實(shí)現(xiàn)給PDF添加水印的方法
  • Python讀取pdf表格寫入excel的方法
  • Python 多張圖片合并成一個(gè)pdf的參考示例

標(biāo)簽:三沙 黃山 景德鎮(zhèn) 喀什 臺灣 宿遷 欽州 濟(jì)南

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《詳解用Python把PDF轉(zhuǎn)為Word方法總結(jié)》,本文關(guān)鍵詞  詳解,用,Python,把,PDF,轉(zhuǎn)為,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《詳解用Python把PDF轉(zhuǎn)為Word方法總結(jié)》相關(guān)的同類信息!
  • 本頁收集關(guān)于詳解用Python把PDF轉(zhuǎn)為Word方法總結(jié)的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    欧美一区二区三区免费视频 | 九九国产精品视频| 亚洲视频一区二区在线观看| 日韩亚洲欧美综合| 亚洲精品一区二区三区影院 | 在线观看亚洲精品视频| 91香蕉国产在线观看软件| 91在线观看成人| 欧美精品xxxxbbbb| 久久先锋影音av| 亚洲精品国产一区二区三区四区在线 | 9久草视频在线视频精品| 久久国产尿小便嘘嘘| 久久草av在线| 成人av在线观| 欧美一区二区三区人| 国产调教视频一区| 亚洲影院久久精品| 国产一区二区精品在线观看| 亚洲不卡一区二区三区| 蓝色福利精品导航| 日韩av在线播放中文字幕| 日韩二区三区四区| 丁香一区二区三区| 欧美一区二区视频网站| 国产日韩欧美激情| 蜜臀久久久久久久| 91在线视频播放| 国产欧美日韩亚州综合 | 成人精品一区二区三区中文字幕 | 亚洲免费观看高清完整版在线观看 | www.亚洲在线| 国产精品青草综合久久久久99| 日韩精品乱码av一区二区| 蜜臀91精品一区二区三区 | 黑人巨大精品欧美黑白配亚洲| 成人性视频网站| 国产精品久久久爽爽爽麻豆色哟哟| 精彩视频一区二区三区| 精品日韩一区二区三区| 国内精品不卡在线| 久久久一区二区三区| 日韩中文字幕麻豆| 日韩欧美中文字幕制服| 亚洲va欧美va国产va天堂影院| 日本久久精品电影| 亚洲精品视频在线观看网站| 91麻豆成人久久精品二区三区| 亚洲日本成人在线观看| 欧美性xxxxxxxx| 久久精品国产99国产精品| 日韩免费看网站| 国模少妇一区二区三区| 国产欧美日韩久久| 色综合天天天天做夜夜夜夜做| 一区二区三区在线高清| 在线国产电影不卡| 久久国产福利国产秒拍| 欧美国产激情二区三区| 在线免费一区三区| 国产一区二区三区黄视频| 国产精品成人免费| 欧美久久一二三四区| 粉嫩欧美一区二区三区高清影视| 亚洲精品一二三四区| 国产日韩欧美一区二区三区乱码| 欧美日韩在线观看一区二区| 99在线精品免费| 国产精品 欧美精品| 蜜臀国产一区二区三区在线播放| 综合中文字幕亚洲| 91精品国产入口| 91亚洲精品一区二区乱码| 三级在线观看一区二区 | 亚洲欧美日韩在线不卡| 欧美电影免费提供在线观看| 国产激情视频一区二区在线观看| 日本强好片久久久久久aaa| 中文字幕一区二区视频| 中文字幕精品三区| 日本一区二区视频在线| 欧美第一区第二区| 制服丝袜中文字幕亚洲| 欧美色区777第一页| 欧美体内she精视频| 欧美午夜精品免费| 91久久精品一区二区二区| 99re热视频精品| 色哦色哦哦色天天综合| 色中色一区二区| 在线视频国内自拍亚洲视频| 欧美午夜精品久久久久久孕妇| 91污在线观看| 欧美军同video69gay| 精品国产自在久精品国产| 亚洲欧洲精品一区二区精品久久久| 国产精品成人免费在线| 日本大胆欧美人术艺术动态| 国产成人丝袜美腿| 欧美精品久久一区二区三区 | 久久这里只有精品6| 国产三级精品视频| 亚洲成人777| 成人免费精品视频| 在线观看亚洲一区| 久久久久久久久久看片| 亚洲视频每日更新| 国产美女精品人人做人人爽| 色婷婷综合久久久久中文 | 欧美一区二区在线播放| 中文字幕一区在线观看| 亚洲成在线观看| 成人18视频在线播放| 91精品中文字幕一区二区三区| 国产精品精品国产色婷婷| 丝袜诱惑亚洲看片| 色综合久久天天| 亚洲欧美一区二区三区极速播放| 九九精品一区二区| 日韩欧美综合一区| 青青草国产精品97视觉盛宴| 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | 2021久久国产精品不只是精品| 亚洲一区二区av电影| 国产精选一区二区三区| 久久精品一区二区三区四区| 韩国av一区二区三区在线观看| 欧美一级理论性理论a| 亚洲国产日韩一区二区| 日韩欧美一二三四区| 免费看欧美美女黄的网站| 亚洲精品一区二区在线观看| 91在线无精精品入口| 亚洲一区二区视频在线观看| 久久众筹精品私拍模特| 91在线视频播放| 国产精品一区二区x88av| 国产精品成人一区二区艾草| 欧美大尺度电影在线| 国产精品一卡二| 亚洲影视在线播放| 亚洲精品在线网站| 91搞黄在线观看| 久久99国产精品尤物| 一区二区三区蜜桃网| 久久影院午夜片一区| 91麻豆福利精品推荐| 国产一区二区三区综合| 一区二区三区av电影| 久久九九99视频| 欧美久久久久免费| 国产精品羞羞答答xxdd| 午夜精品在线视频一区| 久久久久九九视频| 久久色.com| 久久婷婷国产综合精品青草| 日韩一区二区三区视频在线| 91黄色免费观看| 99久久久无码国产精品| 丁香桃色午夜亚洲一区二区三区| 亚洲国产精品一区二区尤物区| 国产女主播一区| 欧美xxxx在线观看| 欧美一区二区三区视频免费播放| jvid福利写真一区二区三区| 成人精品视频网站| 成人av网站免费观看| 成人毛片视频在线观看| www.亚洲精品| 欧美日韩亚洲高清一区二区| 欧美日韩极品在线观看一区| 在线视频你懂得一区二区三区| 91女厕偷拍女厕偷拍高清| 91传媒视频在线播放| 欧美性受xxxx| 精品sm捆绑视频| 国产精品理论片| 图片区小说区区亚洲影院| 麻豆视频观看网址久久| 国产在线看一区| 欧美日韩卡一卡二| 日韩精品一区二区三区视频播放| 欧美激情综合网| 午夜成人在线视频| 久久超碰97中文字幕| 91浏览器入口在线观看| 欧美一区二区视频观看视频| 久久久亚洲国产美女国产盗摄 | 国产欧美日韩不卡免费| 亚洲欧洲av色图| 国产综合色精品一区二区三区| www.欧美精品一二区| 在线综合亚洲欧美在线视频| 国产日韩欧美麻豆| 日本美女一区二区| 在线观看亚洲a| ...中文天堂在线一区| 国产一区二区三区蝌蚪| 51精品国自产在线| 亚洲综合网站在线观看|