婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > 詳解用Python把PDF轉為Word方法總結

詳解用Python把PDF轉為Word方法總結

熱門標簽:外呼不封號系統 電信營業廳400電話申請 幫人做地圖標注收費算詐騙嗎 江蘇房產電銷機器人廠家 溫州旅游地圖標注 蘇州電銷機器人十大排行榜 悟空智電銷機器人6 荊州云電銷機器人供應商 遼寧400電話辦理多少錢

先講一下為啥要寫這個文章,網上其實很多這種PDF轉化的代碼和軟件。我一直想用Python做,但是網上搜到的代碼很多都不能用,很多是2.7版本的代碼,再就是PDF需要用到的庫在導入的時候,很多的報錯,解決起來特別費勁,而且自從2021年初以來,似乎網上很少有關PDF轉化的代碼出現了。我在研究了很多代碼和pdfminer的用法后,總結了幾個方法,目前這幾種方法可以解決大多數格式的轉化,后面我也專門放了提取PDF表格的代碼,文末有高效的免費在線工具推薦。

下面這個是我最最推薦的方法 ,簡單高效 ,只要是標準PDF文檔,里面的圖片和表格都可以保留格式

# pip install pdf2docx #安裝依賴庫
from pdf2docx import Converter

pdf_file = r'C:\Users\Administrator\Desktop\新建文件夾\mednine.pdf'
docx_file = r'C:\Users\Administrator\Desktop\Python教程\02.docx'

# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)
cv.close()

下面是另外三種常用方法

1 把標準格式的PDF轉為Word,測試環境Python3.6.5和3.6.6(注意PDF內容僅僅是文字為主的里面沒有圖片圖表的適用,不適合掃描版PDF,因為那只能用圖片識別的方式進行)

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
import sys
import string
from docx import Document


def convert_pdf_2_text(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    
    device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    
    with open(path, 'rb') as fp:
        for page in PDFPage.get_pages(fp, set()):
            interpreter.process_page(page)
            #print(retstr.getvalue())  
        text = retstr.getvalue()
    device.close()
    retstr.close()
    return text


def pdf2txt():
    text=convert_pdf_2_text(path)
    with open('real.txt','a',encoding='utf-8') as f:
        for line in text.split('\n'):
            f.write(line+'\n')

        

def remove_control_characters(content):
    mpa = dict.fromkeys(range(32))
    return content.translate(mpa)
    
def save_text_to_word(content, file_path):     

    doc = Document()
    for line in content.split(''):
        print(line)
            
        paragraph = doc.add_paragraph()
        paragraph.add_run(remove_control_characters(line))
    doc.save(file_path)


if __name__ == '__main__':
    path = r'C:\Users\mayn\Desktop\程序臨時\培訓教材.pdf'  # 你自己的pdf文件路徑及文件名 不適合掃描版 只適合標準PDF文件
    text = convert_pdf_2_text(path)
    save_text_to_word(text, 'output.doc')  #PDF轉為word方法
    #pdf2txt()  #PDF轉為txt方法

2專門提取PDF里面的表格,使用pdfplumber適合標準格式的PDF

import pdfplumber
import pandas as pd
import time
from time import  ctime
import psutil as ps 
#import threading
import gc
pdf = pdfplumber.open(r"C:\Users\Administrator\Desktop\新建文件夾\mednine.pdf")
N=len(pdf.pages)
print('總共有',N,'頁')

def pdf2exl(i): # 讀取了第i頁,第i頁是有表格的,
    print('********************************************************************************************************************************************************')
    print('正在輸出第',str(i+1),'頁表格')
    print('********************************************************************************************************************************************************')   
    p0 = pdf.pages[i]
    try:
        table = p0.extract_table()
        print(table)
    
        df = pd.DataFrame(table[1:], columns=table[0])
    #print(df)
        df.to_excel(r"C:\Users\Administrator\Desktop\新建文件夾\Model"+str(i+1)+".xlsx")
    
        #df.info(memory_usage='deep')
        
        
    except Exception as e:
        print('第'+str(i+1)+'頁無表格,或者檢查是否存在表格')       
       
        pass
    #print('目前內存占用率是百分之',str(ps.virtual_memory().percent),'    第',str(i+1),'頁輸出完畢')
    print('**********************************************************************************************************************************************************')
    print('\n\n\n') 
    time.sleep(5)


def dojob1():  #此函數  直接循環提取PDF里面各個頁面的表格 
    print('*********************')
    for i in range(0,N):
        pdf2exl(i)    

3也可以提取PDF里面的表格,使用camelot(camelot的安裝可能需要點耐心,反正用的人不多)

import camelot
import wand

# 從PDF文件中提取表格

def output(i):  
    #print(tables)
    #for i in range(5):
    tables = camelot.read_pdf(r'C:\Users\Administrator\Desktop\新建文件夾\mednine.pdf', pages=str(i), flavor='stream')
    print(tables[i])
    
# 表格數據
    print(tables[i].data)
    
    tables[i].to_csv(r'C:\Users\Administrator\Desktop\新建文件夾\002'+str(i)+r'.csv')


def plotpdf():
        # 這個是畫pdf 結構的函數 現在不能用 不要打開
    
    #print(tables[0])
    tables = camelot.read_pdf(r'C:\Users\mayn\Desktop\vcode工作區\11\路基.pdf', pages='200', flavor='stream')
    camelot.plot(tables[0], kind='text')
    print(tables[0])
    plt.show()
    # 繪制PDF文檔的坐標,定位表格所在的位置  
    #plt = camelot.plot(tables[0],kind='text')
    #plt.show()
    #table_df = tables[0].df

#plotpdf() 
#i=3
#output(i)
for i in range(0,2):
    try:    
        output(i)
    except Exception as e:
        print('第'+str(i)+'頁沒找到表格啊啊啊')
        pass 
    continue

以下是pdfplumber測試效果

源文件如下

提取結果

最后補充2個免費轉換的網站感覺還比較好用,關鍵是免費

http://pdfdo.com/pdf-to-word.aspx

http://app.xunjiepdf.com/pdf2word/

到此這篇關于詳解用Python把PDF轉為Word方法總結的文章就介紹到這了,更多相關Python把PDF轉為Word內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python解析PDF程序代碼
  • python實現csdn全部博文下載并轉PDF
  • Python合并多張圖片成PDF
  • Python提取PDF指定內容并生成新文件
  • python操作mysql、excel、pdf的示例
  • python pdfkit 中文亂碼問題的解決方案
  • python 三種方法提取pdf中的圖片
  • Python實現給PDF添加水印的方法
  • Python讀取pdf表格寫入excel的方法
  • Python 多張圖片合并成一個pdf的參考示例

標簽:三沙 黃山 景德鎮 喀什 臺灣 宿遷 欽州 濟南

巨人網絡通訊聲明:本文標題《詳解用Python把PDF轉為Word方法總結》,本文關鍵詞  詳解,用,Python,把,PDF,轉為,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《詳解用Python把PDF轉為Word方法總結》相關的同類信息!
  • 本頁收集關于詳解用Python把PDF轉為Word方法總結的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    色哟哟精品一区| 一区二区三区蜜桃| www.在线欧美| 伊人色综合久久天天| 欧美乱妇一区二区三区不卡视频| 蜜乳av一区二区三区| 制服丝袜亚洲网站| 国产乱人伦偷精品视频免下载| 亚洲永久精品大片| 中文字幕中文字幕一区二区| 精品福利一区二区三区 | 国产激情精品久久久第一区二区 | 亚洲午夜在线电影| 毛片av中文字幕一区二区| 9191久久久久久久久久久| 亚洲国产精品久久久久秋霞影院| 91免费视频观看| 日韩电影在线免费看| 丰满少妇在线播放bd日韩电影| 黑人巨大精品欧美一区| 一区二区三区在线影院| 综合婷婷亚洲小说| 久久免费午夜影院| 日本一区免费视频| 欧美日韩国产小视频在线观看| 1区2区3区精品视频| 在线观看日韩电影| 国产一区视频在线看| 亚洲婷婷在线视频| 国产三区在线成人av| 成人av在线网站| 激情综合色综合久久| 中文字幕欧美日韩一区| 884aa四虎影成人精品一区| 国产成人午夜精品影院观看视频 | 欧美不卡一区二区三区| 亚洲一区在线看| 久久精品99久久久| 日韩视频在线观看一区二区| 亚洲天堂成人在线观看| 久久91精品国产91久久小草| 日韩美女在线视频| 中文字幕精品三区| 午夜伦欧美伦电影理论片| 黑人精品欧美一区二区蜜桃| 日本亚洲欧美天堂免费| 精品av综合导航| 久久久精品免费观看| 日韩av中文在线观看| 97久久精品人人做人人爽| 懂色av噜噜一区二区三区av| 偷拍亚洲欧洲综合| 亚洲欧美日韩国产成人精品影院| 欧美午夜寂寞影院| av一区二区不卡| 亚洲欧洲三级电影| 久久综合狠狠综合久久激情| 狠狠色丁香久久婷婷综合_中| 久久亚洲精华国产精华液| 久久99精品国产麻豆婷婷洗澡| 亚洲激情图片小说视频| 99re6这里只有精品视频在线观看 99re8在线精品视频免费播放 | 337p亚洲精品色噜噜狠狠| 欧美群妇大交群中文字幕| 精品毛片乱码1区2区3区| 欧美女孩性生活视频| 亚洲精品视频在线观看免费| 欧美综合在线视频| 欧美一二三四区在线| 99精品久久免费看蜜臀剧情介绍| 亚洲视频在线一区观看| 欧美视频中文一区二区三区在线观看 | 久久午夜色播影院免费高清 | 欧美日韩一区二区电影| kk眼镜猥琐国模调教系列一区二区| 精品伊人久久久久7777人| 久久国产婷婷国产香蕉| 奇米777欧美一区二区| 天天综合色天天综合| 天天综合色天天| 日韩电影一区二区三区四区| 青娱乐精品在线视频| 老司机免费视频一区二区三区| 偷窥国产亚洲免费视频| 免费欧美在线视频| 久久99这里只有精品| 蓝色福利精品导航| 国产精品中文字幕欧美| 成人激情免费电影网址| 97久久精品人人做人人爽| 在线观看免费成人| 777欧美精品| 精品国偷自产国产一区| 国产精品日产欧美久久久久| 亚洲色图19p| 午夜亚洲福利老司机| 久久国产精品免费| 国产91综合一区在线观看| 色综合久久久久| 欧美日本高清视频在线观看| 精品国产自在久精品国产| 国产亚洲欧美色| 一区二区在线观看不卡| 蜜臀av亚洲一区中文字幕| 精品亚洲成a人| hitomi一区二区三区精品| 欧美久久一区二区| 国产欧美日本一区视频| 一区二区三区免费网站| 日本一区中文字幕| 成人性生交大片免费看中文网站| 欧美性一级生活| 国产亚洲污的网站| 婷婷综合在线观看| jiyouzz国产精品久久| 欧美日韩国产在线播放网站| 久久久亚洲国产美女国产盗摄 | 一本大道av一区二区在线播放| 欧美日韩高清影院| 国产亚洲午夜高清国产拍精品| 亚洲超碰精品一区二区| 国产一区啦啦啦在线观看| 欧美日韩在线一区二区| 国产日韩av一区二区| 日本成人在线电影网| 99久久精品费精品国产一区二区| 日韩一级欧美一级| 伊人开心综合网| 不卡的av电影在线观看| 日韩欧美卡一卡二| 亚洲图片自拍偷拍| 波多野结衣中文字幕一区 | 大白屁股一区二区视频| 欧美精品国产精品| 亚洲天堂成人在线观看| 国v精品久久久网| 欧美电视剧免费全集观看| 亚洲一二三四在线观看| 国产福利精品导航| 日韩欧美国产三级| 丝袜国产日韩另类美女| 91日韩在线专区| 亚洲国产精华液网站w| 国模大尺度一区二区三区| 欧美日韩亚洲另类| 亚洲午夜久久久久久久久电影网 | 国产精品理论在线观看| 韩国成人在线视频| 91精品国产91热久久久做人人| 一区二区三区 在线观看视频| 99久久综合狠狠综合久久| 国产午夜精品福利| 精品一区二区三区免费视频| 4438x亚洲最大成人网| 亚洲与欧洲av电影| 色噜噜夜夜夜综合网| 亚洲天堂福利av| av不卡一区二区三区| 久久久久久久综合日本| 国模少妇一区二区三区| 欧美成人精品1314www| 美女免费视频一区二区| 日韩一级黄色大片| 免费成人深夜小野草| 91精品在线免费观看| 蜜臀av一级做a爰片久久| 日韩欧美成人一区| 国模娜娜一区二区三区| 久久欧美一区二区| 国产白丝网站精品污在线入口| 国产色综合一区| 成人黄页毛片网站| 综合分类小说区另类春色亚洲小说欧美| 国产福利一区二区三区视频在线| 国产欧美日韩一区二区三区在线观看| 国产成人免费在线观看| 国产精品毛片久久久久久| 99精品视频在线观看| 一区二区三区四区不卡在线| 欧美日韩激情一区| 麻豆精品一区二区av白丝在线| 欧美大片日本大片免费观看| 韩国欧美国产一区| 国产精品久久看| 欧美三级电影一区| 另类欧美日韩国产在线| 国产丝袜美腿一区二区三区| 99亚偷拍自图区亚洲| 亚洲国产精品麻豆| 日韩精品专区在线| 从欧美一区二区三区| 亚洲123区在线观看| 精品国产乱码久久久久久久 | 在线欧美日韩国产| 久久国产视频网| 亚洲欧洲综合另类| 91精品午夜视频| 成人动漫中文字幕| 性做久久久久久久免费看| 337p日本欧洲亚洲大胆精品|