婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > 用Python提取PDF表格的方法

用Python提取PDF表格的方法

熱門標簽:京華圖書館地圖標注 廣東旅游地圖標注 打印谷歌地圖標注 蘇州人工外呼系統軟件 淮安呼叫中心外呼系統如何 看懂地圖標注方法 佛山通用400電話申請 電話外呼系統招商代理 電話機器人貸款詐騙

大家好,從PDF中提取信息是辦公場景中經常需要用到的操作,也是經常又讀者在后臺問的一個操作。

內容少的話我們可以手動復制粘貼,但如果需要批量提取就可以考慮使用Python,之前我也轉載過相關文章,提到主要就是使用pdfplumber庫,今天我們再次舉例講解。

通常PDF里的表格分為圖片型和文本型。文本型又分簡單型和復雜型。本文就針對這三部分舉例講解。

  • 提取簡單型表格
  • 提取較為復雜型表格
  • 提取圖片型表格

用到的模塊主要有

  • pdfplumber
  • pandas
  • Tesseract
  • PIL

文中出現的PDF材料是在巨潮資訊官網下載的公開PDF文件,主題是關于理財的,相關發布信息等信息如下:

內容總共有6頁,后文中的例子會有展示。

一、簡單文本類型數據

簡單文本類型表格就是一頁PDF中只有一個表格,并且表格內容完整可復制,例如我們選定內容為PDF中的第四頁,內容如下:

可以看到,該頁只有一個表格,下面我們將這個表寫入Excel中,先上代碼

import pdfplumber as pr
import pandas as pd
pdf = pr.open('關于使用自有資金購買銀行理財產品的進展公告.PDF')
ps = pdf.pages
pg = ps[3]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df1.to_excel('page2.xlsx')

得到的結果如下:

通過與PDF上原表格對比,在內容上是完全一致的,唯一不同的是由于主營業務內容較多,導致顯示的不全面,現在來說說這段代碼。

首先導入要用到的兩個庫。在pdfplumber中,open()函數是用來打開PDF文件,該代碼用的是相對路徑。.open().pages則是獲取PDF的頁數,打印ps值可以得到如下

pg = ps[3]代表的就是我們所選的第三頁。

pg.extract_tables():可輸出頁面中所有表格,并返回一個嵌套列表,其結構層次為table→row→cell。此時,頁面上的整個表格被放入一個大列表中,原表格中的各行組成該大列表中的各個子列表。若需輸出單個外層列表元素,得到的便是由原表格同一行元素構成的列表。

與其類似的是pg.extract_table( ):返回多個獨立列表,其結構層次為row→cell。若頁面中存在多個行數相同的表格,則默認輸出頂部表格;否則,僅輸出行數最多的一個表格。此時,表格的每一行都作為一個單獨的列表,列表中每個元素即為原表格的各個單元格內容。

由于該頁面中只有一個表格,我們需要tables集合中的第一個元素。打印table值,如下:

可以看到在上述中是存在\n這種沒不要的字符,它的作用其實是換行但我們在Excel中是不需要的。所以需要剔除它,用代碼中的for循環與replace函數將控制替換成空格(即刪除\n)。觀察table是一個裝有2個元素的列表。

最后df1 = pd.DataFrame(table[1:],columns = table[0])這段代碼的作用就是創建一個數據框,將內容放到對應的行列中。

本代碼只是簡單將數據存入到Excel,如果你需要進一步對樣式進行調整,可以使用openpyxl等模塊進行修改。

二、復雜型表格提取

復雜型表格即表格樣式不統一或一頁中有多個表格,以PDF中的第五頁為例:

可以看到本頁中有兩個大的表格,并且細看的話,其實是4個表格,按照簡單型表格類型提取方法,得到的效果如下:

可以看到,只是將全部表格文本提取出來,但實際上第一個表格又細分為兩個表,所以需要我們進一步修改,將這張表再次拆分!例如提取上半部分代碼如下:

import pdfplumber as pr
import pandas as pd
pdf = pr.open('關于使用自有資金購買銀行理財產品的進展公告.PDF')
ps = pdf.pages
pg = ps[4]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df2 = df1.iloc[2:,:]
df2 = df2.rename(columns = {"2019年12月31日":"2019年1-12月","2020年9月30日":"2020年1-9月"})
df2 = df2.loc[3:,:]
df1 = df1.loc[:1,:]
with pd.ExcelWriter('公司影響.xlsx') as i:
    df1.to_excel(i,sheet_name='資產', index=False, header=True) #放入資產數據
    df2.to_excel(i,sheet_name='營業',index=False, header=True) #放入營業數據

這段代碼在簡單型表格提取的基礎上進行了修改,第十四行代碼的作用就是提取另外一個表頭的信息,并將他賦值給df2,而后對df2進行重命名操作(用到rename函數)。

打印df2可以看出columns列名和第一行信息重復了,因此我們需要重復剛剛的步驟,利用loc()函數切割數據框。

注意,我們這里用了罕見的pandas.Excelwriter函數套for循環,這個是為了避免直接寫入導致的最后數據覆蓋原數據,感興趣可以嘗試一下不用withopen這種方法后結果。最終得到的效果如下:

可以看到,現在這個表格就被放在兩個sheet中單獨展示,當然用于對比放在一張表中也是可以的

說到底復雜型表格的主觀性是非常大的,需要根據不同情況進行不同處理,想寫出一個一勞永逸的辦法是比較困難的!

三、圖片型表格提取

最后也是最難處理的就是圖片型表格,經常有人會問如何提取圖片型PDF中的表格/文本等信息。

其實本質上就是提取圖片,之后如何對圖片進一步處理提取信息就與Python提取PDF表格這個主題沒有太大關系了!

這里我們也簡單進行介紹,也就是先提取圖片再進行OCR識別提取表格,在Python中可以使用Tesseract庫,首先需要pip安裝

pip install pytesseract

在Python中安裝完這個庫之后我們需要安裝exe文件以在后面代碼用到。

http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下載安裝完即可,注意目前如果按照正常步驟安裝的話是不會識別中文的,所以需要安裝簡體中文語言包,下載地址為https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata,將其放到Tesseract-OCR的tessdata目錄下即可。

接下來我們使用一個簡單的圖片型pdf如下:

第一步,提取圖片,這里使用在GUI辦公自動化系列中的圖片提取軟件來提取PDF中的圖片,得到如下圖片:

接著執行下方代碼識別圖片內容

import pytesseract
from PIL import Image
import pandas as pd
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
tiqu = pytesseract.image_to_string(Image.open('圖片型.jpg'))
print(tiqu)
tiqu = tiqu.split('\n')
while '' in tiqu:    #不能使用for
  tiqu.remove('')
  first = tiqu[:6]
  second = tiqu[6:12]
  third =  tiqu[12:]
  df = pd.DataFrame()
  df[first[0]] = first[1:]
  df[second[0]] = second[1:]
  df[third[0]] = third[1:]
#df.to_excel('圖片型表格.xlsx')  #轉為xlsx文件

我們的思路是用Tesseract-OCR來解析圖片,得到一個字符串,接著對字符串運用split函數,把字符串變成列表同時刪除\n。

接著可以發現我們的列表里還存在空格,這時我們用while循環來刪除這些空字符,注意,這里不能用for循環,因為每次刪除一個,列表里的元素就會前進一個,這樣會刪不完全。最后就是用pandas把這些變成數據框形式。最終得到的效果如下:

可以看到,該圖片型表格內容被完美解析與處理!當然能輕松搞定的原因也與這個表格足夠簡單有關,在真實場景中的圖片可能會有更復雜的干擾因素,而這就需要大家在處理的同時自行找到一個最合適的辦法!

以上就是用Python提取PDF表格的方法的詳細內容,更多關于Python提取PDF表格的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • Python 用三行代碼提取PDF表格數據
  • Python讀取pdf表格寫入excel的方法
  • python實現PDF中表格轉化為Excel的方法
  • 基于Python快速處理PDF表格數據
  • python 三種方法提取pdf中的圖片
  • python從PDF中提取數據的示例
  • python如何提取英語pdf內容并翻譯
  • Python提取PDF內容的方法(文本、圖像、線條等)
  • python基于pdfminer庫提取pdf文字代碼實例

標簽:江蘇 湖州 畢節 呼和浩特 駐馬店 中山 衡水 股票

巨人網絡通訊聲明:本文標題《用Python提取PDF表格的方法》,本文關鍵詞  用,Python,提取,PDF,表格,的,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《用Python提取PDF表格的方法》相關的同類信息!
  • 本頁收集關于用Python提取PDF表格的方法的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    国产精品一区在线观看你懂的| 成人午夜激情影院| 亚洲欧洲性图库| 亚洲免费观看高清完整版在线观看熊| 一区二区欧美在线观看| 天堂蜜桃91精品| 国产精品一卡二| 91毛片在线观看| 欧美日韩在线播放一区| 色噜噜狠狠色综合中国 | 欧美三级乱人伦电影| 91精品国产综合久久久蜜臀粉嫩 | 日韩精品在线看片z| 国产欧美日韩精品一区| 午夜欧美视频在线观看| 国产一区二区不卡老阿姨| 在线观看亚洲精品视频| 久久免费精品国产久精品久久久久| 亚洲欧美日韩久久精品| 奇米四色…亚洲| 欧美综合一区二区三区| 亚洲第一久久影院| 久久99精品国产.久久久久久| 波多野结衣视频一区| 久久噜噜亚洲综合| 欧美乱妇23p| 26uuu国产日韩综合| 亚洲成人午夜电影| 福利一区在线观看| 欧美一级片在线| 一区二区三区国产豹纹内裤在线| 激情六月婷婷久久| 欧美日韩精品免费| 亚洲少妇中出一区| 成人激情动漫在线观看| 日韩精品一区二区三区视频在线观看| 亚洲国产成人私人影院tom| 奇米888四色在线精品| 欧美无人高清视频在线观看| 中文字幕在线观看一区二区| 国产乱子伦一区二区三区国色天香 | 3atv一区二区三区| 日韩亚洲欧美综合| 一区二区三区久久| 一本大道综合伊人精品热热| 日韩欧美在线不卡| 日韩av二区在线播放| 91超碰这里只有精品国产| 亚洲国产毛片aaaaa无费看 | 亚洲欧美激情一区二区| 福利91精品一区二区三区| 欧美videos中文字幕| 免费成人美女在线观看.| 777xxx欧美| 奇米色一区二区| 精品欧美乱码久久久久久| 蜜桃视频在线观看一区| 亚洲精品在线观| 国产呦萝稀缺另类资源| 久久久噜噜噜久噜久久综合| 国产精品77777| 国产精品久久久久久福利一牛影视| 国产99久久久国产精品| 国产精品欧美一区二区三区| www.视频一区| 亚洲综合一区在线| 欧美精品一级二级三级| 精品一区二区影视| 中文av一区二区| 91福利小视频| 日韩精品电影在线| 久久蜜桃av一区精品变态类天堂 | 国产精品网友自拍| 成人性色生活片免费看爆迷你毛片| 国产偷国产偷亚洲高清人白洁| 成人污视频在线观看| 一区二区三区av电影| 在线成人av影院| 国产精品99久| 亚洲图片自拍偷拍| 精品国产乱码久久久久久久 | 国产欧美一区二区精品仙草咪| 波多野结衣中文字幕一区二区三区| 亚洲精品视频在线观看网站| 在线观看91av| 国产电影一区在线| 亚洲一二三四在线| 日韩久久久久久| 波多野结衣中文字幕一区| 日本欧美一区二区| 国产精品久久久久aaaa| 欧美无砖专区一中文字| 国产精品资源在线看| 亚洲一区二区高清| 欧美激情在线看| 91精品国产综合久久精品性色| 国产精品一区二区91| 亚洲综合激情网| 国产日韩精品一区二区三区| 欧美日韩一区在线| 成人精品视频一区二区三区| 秋霞国产午夜精品免费视频| 国产精品毛片无遮挡高清| 日韩一级免费观看| 日本乱码高清不卡字幕| 国产高清无密码一区二区三区| 亚洲国产婷婷综合在线精品| 中文字幕第一区| 精品少妇一区二区三区视频免付费 | 欧美伊人久久久久久午夜久久久久| 久久se精品一区精品二区| 亚洲精品美国一| 亚洲国产精品成人久久综合一区| 制服丝袜激情欧洲亚洲| 91麻豆精东视频| 国产在线精品不卡| 日韩精品1区2区3区| 亚洲夂夂婷婷色拍ww47| 中文字幕日韩精品一区 | 国产色一区二区| 欧美一区二区三区影视| 91国内精品野花午夜精品| 国产98色在线|日韩| 久久69国产一区二区蜜臀| 视频在线观看一区二区三区| 亚洲欧美日韩人成在线播放| 国产精品久久看| 337p日本欧洲亚洲大胆色噜噜| 69堂国产成人免费视频| 精品视频一区三区九区| 暴力调教一区二区三区| 国产一区二区在线电影| 免费看欧美女人艹b| 日韩不卡免费视频| 午夜激情久久久| 亚洲综合一区二区| 亚洲一二三四在线| 亚洲欧美日韩一区| 欧美综合久久久| 麻豆久久久久久| 亚洲男人天堂av| 国产精品久久久久久久久图文区 | 欧美日韩高清影院| av亚洲精华国产精华精| 国产91精品免费| 国v精品久久久网| 懂色av噜噜一区二区三区av| 国产一区美女在线| 成人自拍视频在线| 99久精品国产| 91高清在线观看| 欧美日本一区二区在线观看| 欧美二区三区91| 精品国精品自拍自在线| 亚洲国产高清在线| 亚洲精品欧美激情| 日韩电影在线看| 国模一区二区三区白浆| 99久久精品费精品国产一区二区| 91视视频在线观看入口直接观看www | 欧美另类一区二区三区| 9191国产精品| 精品国产凹凸成av人网站| 国产视频在线观看一区二区三区| 国产精品视频第一区| 亚洲一本大道在线| 久久精品国内一区二区三区| 成人夜色视频网站在线观看| 欧美综合久久久| 日韩欧美精品三级| 国产精品高潮久久久久无| 亚洲丶国产丶欧美一区二区三区| 免费观看成人鲁鲁鲁鲁鲁视频| 中文一区在线播放| 国产欧美一区二区在线| 亚洲美女屁股眼交3| 亚洲18色成人| 国产乱国产乱300精品| 成人黄色小视频| 精品视频免费看| 久久精品亚洲精品国产欧美kt∨| 亚洲男人都懂的| 男女男精品视频网| 奇米888四色在线精品| 国产传媒一区在线| 成人精品高清在线| 日本韩国一区二区三区视频| 欧美成人一级视频| 亚洲另类一区二区| 黄色日韩网站视频| 欧美日韩在线播放一区| 欧美精品一区二区三区蜜臀| 一区二区三区精品在线| 国产精品一区二区视频| 欧美在线观看18| 国产精品丝袜91| 极品美女销魂一区二区三区免费| 在线观看亚洲精品| 欧美激情一区二区在线| 麻豆精品视频在线观看视频|