婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Python中docx2txt庫的使用說明

Python中docx2txt庫的使用說明

熱門標簽:鄭州智能外呼系統中心 賓館能在百度地圖標注嗎 汕頭電商外呼系統供應商 電銷機器人 金倫通信 400電話 申請 條件 北京外呼電銷機器人招商 crm電銷機器人 南京crm外呼系統排名 云南地圖標注

docx2txt的Github地址

docx2txt是基于python的從docx文件中提取文本和圖片的庫。

代碼是從python-docx中獲取的。它也可以從頁眉,頁腳和超鏈接中提取文本。它現在也可以提取圖像。

安裝

pip install docx2txt

運行

1、命令行運行

# extract text
docx2txt file.docx
# extract text and images
docx2txt -i /tmp/img_dir file.docx

2、在python中調用

# extract text
docx2txt file.docx
# extract text and images
docx2txt -i /tmp/img_dir file.docx

補充:python docx提取word中的目錄及文本框中的文本

問題描述

python docx提取word中的目錄及文本框中的文本

解決方案

因未在docx庫找到直接識別word中目錄及文本框中文本的方法,所以采用了一個“笨”方法,docx庫可以把word文檔解析成xml格式,以解析xml的方式查找目錄及文本框中文本,具體做法:

迭代出文檔的所有element,其中目錄的tag為“std”,找到它后提出他的所有文本即為目錄文本;文本框的tag 為“textbox”,找到它后還要繼續下鉆尋找tag為 'r'的element,提取其文本則為文本框中文本。

# 提取word目錄
file = docx.Document(file_path)
children = file.element.body.iter()
child_iters = []
for child in children:
 # 通過類型判斷目錄
 if child.tag.endswith('main}sdt'):
  for ci in child.iter():
   if ci.text and ci.text.strip():
    child_iters.append(ci)
catalog = [ci.text for ci in child_iters]
# 提取word文本框中文本
file = docx.Document(file_path)
children = file.element.body.iter()
child_iters = []
for child in children:
 # 通過類型判斷目錄
 if child.tag.endswith('textbox'):
  for ci in child.iter():
   if ci.tag.endswith('main}r'):
    child_iters.append(ci)
textbox = [ci.text for ci in child_iters]

文本域的標簽,第一次找的是AlternateContent,后來發現對有些文本域失效;第二次又找到了pict,基本覆蓋了測試的所有文本域;第三次把word文檔的標簽都找出來看了一下,發現textbox這個標簽看著更靠譜,用它測試了一下,也能覆蓋所有的測試文本域,決定就選擇這個標簽。

提取文本后,又有了新需求,提取的文本很多都不成句,呈短語或單詞的形式,需要把提取的文本還原成段落形式:

file = docx.Document(file_path)
children = file.element.body.iter()
child_iters = []
tags = []
for child in children:
 # 通過類型判斷目錄
 if child.tag.endswith(('AlternateContent','textbox')):
  for ci in child.iter():
   tags.append(ci.tag)
   if ci.tag.endswith(('main}r', 'main}pPr')):
    child_iters.append(ci)
text = ['']
for ci in child_iters :
 if ci.tag.endswith('main}pPr'):
  text.append('')
 else:
  text[-1] += ci.text
 ci.text = ''
trans_text = ['***'+t+'***' for t in text]
print(trans_text)
i, k = 0, 0
for ci in child_iters :
 if ci.tag.endswith('main}pPr'):
  i += 1
  k = 0
 elif k == 0:
  ci.text = trans_text[i]
  k = 1
file.save('E:/***/test.docx')

把標簽pPr當做換行標志, 把提取的文本每段前后都加了“***”后又寫回文檔中。

注:這里又發現AlternateContent這個標簽必須要帶上,否則可以提取文本域內的文字,但改變文字寫回去保存word不顯示更改后的文字。

以上為個人經驗,希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。

您可能感興趣的文章:
  • 安裝python-docx后,無法在pycharm中導入的解決方案
  • Python安裝docx依賴包教程
  • Python-docx 實現整體修改或者部分修改文字的大小和字體類型
  • 使用Python docx修改word關鍵詞顏色的操作
  • python docx的超鏈接網址和鏈接文本操作
  • 詳解用 python-docx 創建浮動圖片
  • python 實現docx與doc文件的互相轉換

標簽:昆明 石家莊 梅州 浙江 懷化 文山 西寧 錫林郭勒盟

巨人網絡通訊聲明:本文標題《Python中docx2txt庫的使用說明》,本文關鍵詞  Python,中,docx2txt,庫,的,使用說明,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python中docx2txt庫的使用說明》相關的同類信息!
  • 本頁收集關于Python中docx2txt庫的使用說明的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    成人激情校园春色| 亚洲第一成年网| 国产另类ts人妖一区二区| 欧美国产日韩精品免费观看| 91蜜桃婷婷狠狠久久综合9色| 精品剧情在线观看| 国产成人h网站| 国产精品久久777777| 99国产精品国产精品久久| 国产女主播视频一区二区| 国产精品18久久久久久久网站| 91精品国产综合久久精品app| 亚洲福利电影网| 日韩一卡二卡三卡| 成人免费精品视频| 亚洲电影在线播放| 777精品伊人久久久久大香线蕉| 99久久er热在这里只有精品15| 国产精品主播直播| 色噜噜狠狠成人中文综合| 精品一区二区综合| 首页国产欧美久久| 亚洲三级电影网站| 《视频一区视频二区| 久久蜜臀精品av| 精品久久久久久久久久久久久久久 | 精品国产精品网麻豆系列| 久久久亚洲国产美女国产盗摄| 国产成+人+日韩+欧美+亚洲| 91国内精品野花午夜精品| 一区二区三区四区不卡视频| www.日韩在线| 三级久久三级久久| 日本一区二区三区四区| 丁香啪啪综合成人亚洲小说| 丁香桃色午夜亚洲一区二区三区| 欧美日韩午夜精品| 亚洲久本草在线中文字幕| 国产 日韩 欧美大片| 精品国产免费一区二区三区四区 | 成人性视频网站| 日韩欧美一二三区| 天天做天天摸天天爽国产一区| 99久久久无码国产精品| 日本一区免费视频| 岛国精品一区二区| 精品欧美久久久| 美女尤物国产一区| 日韩三级精品电影久久久 | 欧美日本一区二区三区四区| 亚洲欧美一区二区久久 | 99精品热视频| 亚洲欧洲成人精品av97| www.亚洲在线| 亚洲欧美在线高清| 一本大道久久a久久综合| 亚洲男同性恋视频| 欧美最新大片在线看| 亚洲福利视频导航| 91精品国产综合久久福利软件| 亚洲国产一区视频| 欧美精品高清视频| 日韩av一区二区三区| 欧美一区二区三区的| 欧美在线色视频| 91精品国产一区二区三区香蕉| 同产精品九九九| 7777精品伊人久久久大香线蕉经典版下载| 亚洲一级电影视频| 91传媒视频在线播放| 三级欧美韩日大片在线看| 精品噜噜噜噜久久久久久久久试看 | 精品国产制服丝袜高跟| 国产91精品在线观看| 亚洲色欲色欲www| 欧美日韩专区在线| 精品伊人久久久久7777人| 国产精品视频第一区| 99re这里只有精品视频首页| 一区二区三区在线播放| 69av一区二区三区| 国产成人aaaa| 亚洲va欧美va国产va天堂影院| 欧美成人午夜电影| 成人精品在线视频观看| 亚洲高清视频的网址| 久久一区二区视频| 91成人国产精品| 国产剧情一区在线| 亚洲线精品一区二区三区八戒| 精品福利一区二区三区免费视频| 成人激情午夜影院| 美女视频黄免费的久久| 亚洲精品日产精品乱码不卡| 日韩免费看的电影| 91福利精品视频| 国产成人夜色高潮福利影视| 亚洲高清视频在线| 国产精品大尺度| 日韩欧美一二区| 日本电影亚洲天堂一区| 国产一区二区剧情av在线| 亚洲一区中文在线| 国产精品系列在线| 精品乱人伦小说| 欧美挠脚心视频网站| 懂色av一区二区三区蜜臀| 婷婷久久综合九色国产成人| 国产精品乱码一区二区三区软件| 欧美一区二区三区免费视频 | 国产精品国产精品国产专区不片| 欧美性猛交xxxxxx富婆| 国产成人丝袜美腿| 久久超碰97中文字幕| 亚洲一级二级在线| 亚洲女同女同女同女同女同69| 国产日韩欧美不卡| 精品av综合导航| 欧美一区二区三区影视| 91久久国产综合久久| 99在线精品视频| 国产一区二三区| 久久av中文字幕片| 美女在线观看视频一区二区| 日韩国产在线一| 一区二区高清免费观看影视大全| 国产精品美女久久福利网站| 国产人成一区二区三区影院| 亚洲精品在线免费观看视频| 欧美大片国产精品| 精品国一区二区三区| 欧美年轻男男videosbes| 欧美日韩精品久久久| 欧美日韩激情在线| 欧美一二三四区在线| 91精品国产一区二区三区| 91国产免费看| 欧美在线观看视频一区二区| 在线精品观看国产| 欧美日韩一级视频| 欧美精品v国产精品v日韩精品 | 色久优优欧美色久优优| 99精品欧美一区二区三区小说| 丁香婷婷综合激情五月色| 成人午夜伦理影院| 9i在线看片成人免费| 一本大道av一区二区在线播放| 91黄色免费网站| 欧美日韩性生活| 欧美另类videos死尸| 日韩欧美电影在线| 26uuu色噜噜精品一区二区| 久久久久久亚洲综合影院红桃| 日本一区二区视频在线| 国产精品久久久久久久久免费丝袜 | 亚洲激情中文1区| 亚洲综合色区另类av| 午夜激情久久久| 美女视频第一区二区三区免费观看网站| 精品午夜一区二区三区在线观看| 国产一区二区三区久久悠悠色av| 成人激情文学综合网| 欧美日韩在线免费视频| 欧美电影免费观看高清完整版| 国产欧美日韩综合| 一区二区三区成人| 久久99精品一区二区三区| 成人av在线一区二区| 4hu四虎永久在线影院成人| 国产亚洲综合在线| 一区二区三区不卡视频| 免费国产亚洲视频| www.综合网.com| 69久久99精品久久久久婷婷 | 激情欧美一区二区三区在线观看| 国产成人av网站| 欧美日韩一区中文字幕| 久久久久久久电影| 亚洲午夜免费电影| 国产乱子轮精品视频| 91精品办公室少妇高潮对白| 日韩美女视频在线| 综合电影一区二区三区| 极品美女销魂一区二区三区免费| 99精品国产一区二区三区不卡| 欧美精品久久天天躁| 亚洲人成精品久久久久久| 国产一区亚洲一区| 在线看日本不卡| 中文一区二区完整视频在线观看| 肉丝袜脚交视频一区二区| av高清不卡在线| 精品国产99国产精品| 亚洲一卡二卡三卡四卡无卡久久| 国产.欧美.日韩| 久久综合色鬼综合色| 日韩精品高清不卡| 在线视频你懂得一区二区三区| 国产偷国产偷亚洲高清人白洁| 日韩高清不卡一区|