婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > 正則表達式re.sub替換不完整的問題及完整解決方案

正則表達式re.sub替換不完整的問題及完整解決方案

熱門標簽:梅縣地圖標注 呼叫系統外呼只能兩次 甘肅醫(yī)療外呼系統排名 西藏智能外呼系統代理商 外呼系統無呼出路由是什么原因 地圖標注教學點 ai電話機器人搭建 400電話辦理電話辦理 貴港公司如何申請400電話

title: 正則表達式re.sub替換不完整的問題現象及其根本原因

toc: true
comment: true
date: 2018-08-27 21:48:22
tags: ["Python", "正則表達式"]
category: ["Python"]
---

問題描述

問題的起因來自于一段正則替換。為了從一段HTML代碼里面提取出正文,去掉所有的HTML標簽和屬性,可以寫一個Python函數:

import re
def remove_tag(html):
 text = re.sub('.*?>', '', html, re.S)
 return text

這段代碼的使用了正則表達式的替換功能re.sub。這個函數的第一個參數表示需要被替換的內容的正則表達式,由于HTML標簽都是使用尖括號包起來的,因此使用.*?>就可以匹配所有xxx yyy="zzz">/xxx>

第二個參數表示被匹配到的內容將要被替換成什么內容。由于我需要提取正文,那么只要把所有HTML標簽都替換為空字符串即可。第三個參數就是需要被替換的文本,在這個例子中是HTML源代碼段。

至于re.S,在4年前的一篇文章中我講到了它的用法:https://www.jb51.net/article/146384.htm

現在使用一段HTML代碼來測試一下:

import re
def remove_tag(html):
 text = re.sub('.*?>', '', html, re.S)
 return text
source_1 = '''
div class="content">今天的主角是a href="xxx">kingname/a>,我們掌聲歡迎!/div>
'''
text = remove_tag(source_1)
print(text)

運行效果如下圖所示,功能完全符合預期

再來測試一下代碼中有換行符的情況:

import re
def remove_tag(html):
 text = re.sub('.*?>', '', html, re.S)
 return text
source_2 = '''
div class="content">
 今天的主角是
 a href="xxx">kingname/a>
 ,我們掌聲歡迎!
/div>
'''
text = remove_tag(source_2)
print(text)

運行效果如下圖所示,完全符合預期。


經過測試,在絕大多數情況下,能夠從的HTML代碼段中提取出正文。但也有例外。

例外情況

有一段HTML代碼段比較長,內容如下:

img>
/span>span>遇見kingname/span>/a >a >span class='url-icon'> img '>/span>span >溫柔/span>/a >a >span >#青南#/span>/a > br />就在這里…br />我的小侯爺呢???

運行效果如下圖所示,最后兩個HTML標簽替換失敗。

一開始我以為是HTML里面的空格或者引號引起的問題,于是我把HTML代碼進行簡化:

img>/span>span>遇見kingname/span>/a>a>span>img>/span>span>溫柔/span>/a>a>span>#青南#/span>/a>br/>就在這里…br/>我的小侯爺呢

問題依然存在,如下圖所示。

而且更令人驚訝的是,如果把第一個標簽img>刪了,那么替換結果里面就少了一個標簽,如下圖所示。

實際上,不僅僅是刪除第一個標簽,前面任意一個標簽刪了都可以減少結果里面的一個標簽。如果刪除前面兩個或以上標簽,那么結果就正常了。

答疑解惑

這個看起來很奇怪的問題,根本原因在re.sub的第4個參數。從函數原型可以看到:

def sub(pattern, repl, string, count=0, flags=0)

第四個參數是count表示替換個數,re.S如果要用,應該作為第五個參數。所以如果把remove_tag函數做一些修改,那么結果就正確了:

def remove_tag(html):
 text = re.sub('.*?>', '', html, flags=re.S)
 return text

那么問題來了,把re.S放在count的位置,為什么代碼沒有報錯?難道re.S是數字?實際上,如果打印一下就會發(fā)現,re.S確實可以作為數字:

>>> import re
>>> print(int(re.S))
16

現在回頭數一數出問題的HTML代碼,發(fā)現最后多出來的兩個br>標簽,剛剛好是第17和18個標簽,而由于count填寫的re.S可以當做16來處理,那么Python就會把前16個標簽替換為空字符串,從而留下最后兩個。

至此問題的原因搞清楚了。

這個問題沒有被及早發(fā)現,有以下幾個原因:

被替換的HTML代碼是代碼段,大多數情況下HTML標簽不足16個,所以問題被隱藏。re.S是一個對象,但也是數字,count接收的參數剛好也是數字。在很多編程語言里面,常量都會使用數字,然后用一個有意義的大寫字母來表示。re.S 處理的情況是div \n> 而不是div>\n/div>但測試的代碼段標簽都是第二種情況,所以在代碼段里面實際上加不加re.S效果是一樣的。

補充:下面在給大家介紹下正則表達式 re.sub()替換功能

re.sub()替換功能

re.sub是個正則表達式方面的函數,用來實現通過正則表達式,實現比普通字符串的replace更加強大的替換功能。簡單的替換功能可以使用replace()實現。

def main():
 text = '123, word!'
 text1 = text.replace('123', 'Hello')
 print(text1)
if __name__ == '__main__':
 main()
# Hello, wold!

如果通過re.sub(0函數則可以匹配任意的數字,并將其替換:

import re
def main():
 content = 'abc124hello46goodbye67shit'
 list1 = re.findall(r'\d+', content)
 print(list1)
 mylist = list(map(int, list1))
 print(mylist)
 print(sum(mylist))
 print(re.sub(r'\d+[hg]', 'foo1', content))
 print()
 print(re.sub(r'\d+', '456654', content))
if __name__ == '__main__':
 main()
# ['124', '46', '67']
# [124, 46, 67]
# 237
# abcfoo1ellofoo1oodbye67shit
# abc456654hello456654goodbye456654shit

總結

以上所述是小編給大家介紹的正則表達式re.sub替換不完整的問題及完整解決方案,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對腳本之家網站的支持!

您可能感興趣的文章:
  • python 正則表達式 re.sub & re.subn
  • Python使用正則表達式獲取網頁中所需要的信息
  • Python正則表達式中的re.S的作用詳解

標簽:泰安 湖州 海口 大興安嶺 涼山 哈密 本溪 常州

巨人網絡通訊聲明:本文標題《正則表達式re.sub替換不完整的問題及完整解決方案》,本文關鍵詞  正則,表達式,re.sub,替換,;如發(fā)現本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《正則表達式re.sub替換不完整的問題及完整解決方案》相關的同類信息!
  • 本頁收集關于正則表達式re.sub替換不完整的問題及完整解決方案的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    色8久久精品久久久久久蜜| 日韩免费视频一区| 国产精品自在在线| 欧美午夜影院一区| 色综合欧美在线视频区| 日韩国产欧美在线播放| 久久先锋影音av| 一区二区三区欧美久久| 日韩视频免费直播| 成人高清视频免费观看| 亚洲国产综合人成综合网站| 免费成人在线网站| 国产精品久久久久久久浪潮网站 | 91精品国产全国免费观看| 久久久久99精品一区| 蜜桃精品视频在线观看| 国产欧美精品一区二区色综合朱莉| 国内不卡的二区三区中文字幕| 中文字幕中文字幕一区二区| 欧美三级蜜桃2在线观看| 麻豆精品久久精品色综合| 亚洲欧美日韩国产中文在线| 欧美一级二级三级蜜桃| 欧美三级乱人伦电影| 欧美综合亚洲图片综合区| 99riav久久精品riav| 婷婷久久综合九色综合绿巨人| 亚洲欧洲制服丝袜| 久久精品视频免费观看| 日韩欧美亚洲一区二区| 欧美精品一区二区三区高清aⅴ| 制服丝袜中文字幕亚洲| 日韩一级大片在线| 欧美精品少妇一区二区三区| av资源网一区| hitomi一区二区三区精品| 日韩欧美在线网站| 欧美日韩国产综合视频在线观看| 91浏览器在线视频| 欧美一区二区私人影院日本| 日韩美女一区二区三区四区| 制服丝袜亚洲精品中文字幕| 成人午夜伦理影院| 久久综合资源网| 日韩一区二区视频| 中文字幕精品在线不卡| 一区二区三区波多野结衣在线观看 | 亚洲自拍都市欧美小说| 亚洲视频在线一区二区| 国产一区二区不卡| 欧美无砖专区一中文字| 国产精品久久久久久久久果冻传媒 | 2020国产精品自拍| 99精品视频在线播放观看| 欧美伊人久久大香线蕉综合69| 99久久精品国产麻豆演员表| 国产精品伦一区| 日韩不卡免费视频| 在线免费一区三区| 中文字幕一区在线观看视频| 麻豆一区二区在线| 欧美日韩成人激情| 五月天精品一区二区三区| 欧美日韩在线播放一区| 亚洲一区二区三区影院| 国产精品久久影院| 国产一区二区美女诱惑| 色噜噜狠狠成人中文综合 | 欧美性高清videossexo| 亚洲一区在线观看视频| 欧美婷婷六月丁香综合色| 国产日韩av一区二区| 国产一区二区三区精品欧美日韩一区二区三区 | 国产一区二区视频在线| 欧美精品一区二区三区很污很色的| 轻轻草成人在线| xnxx国产精品| 成人深夜在线观看| 中文字幕日本乱码精品影院| 成人a区在线观看| 国产精品狼人久久影院观看方式| 欧美日韩三级一区二区| av不卡一区二区三区| 国产一区二区h| 国内精品国产成人国产三级粉色| 一区二区三区中文字幕电影| 国产精品美女久久久久av爽李琼 | 视频一区在线视频| 国产精品色呦呦| 日韩一区二区影院| 91视频www| a亚洲天堂av| 一区二区免费在线播放| 亚洲国产精品视频| 国产精品久久99| 国产欧美日韩综合精品一区二区| 在线观看一区日韩| 91国产福利在线| av综合在线播放| 91精品国产综合久久国产大片| 91国产成人在线| 欧美揉bbbbb揉bbbbb| 色婷婷av一区| 在线观看一区二区精品视频| 激情图片小说一区| 一本久久a久久精品亚洲| 日本韩国精品在线| 欧美在线999| 日韩欧美中文字幕精品| 精品欧美久久久| 欧美日本视频在线| 中文字幕在线不卡国产视频| 欧美午夜精品一区二区三区| 欧美视频一区二区在线观看| 精品视频一区三区九区| 日韩一级二级三级| 亚洲国产毛片aaaaa无费看| 色综合久久综合网欧美综合网| 色婷婷久久久久swag精品| 欧美电视剧免费观看| 欧美不卡一区二区| 日本一区二区成人| 国产精品久久久久一区二区三区| 亚洲精品大片www| 伦理电影国产精品| 色噜噜偷拍精品综合在线| 在线不卡a资源高清| 日本一区二区成人在线| 成人免费av资源| 5858s免费视频成人| 亚洲综合成人网| av不卡免费在线观看| 欧美天堂亚洲电影院在线播放| 日韩欧美亚洲一区二区| 亚洲欧美韩国综合色| 国产成人h网站| 国产欧美一区二区精品忘忧草 | 91成人免费电影| 亚洲视频香蕉人妖| 99r国产精品| 美女性感视频久久| 91麻豆精品国产91久久久使用方法 | 欧美一区在线视频| 一区二区三区波多野结衣在线观看| 国产精品99久久久久久久女警| 97久久精品人人做人人爽| 亚洲国产美女搞黄色| 欧美色综合天天久久综合精品| 日韩伦理免费电影| 欧美日韩一区三区四区| 日本成人中文字幕| 国产精品不卡视频| 欧洲另类一二三四区| 日韩专区中文字幕一区二区| 日韩欧美一二三区| 99久久精品国产麻豆演员表| 国模娜娜一区二区三区| 亚洲国产精品激情在线观看| 99久久国产综合精品色伊| 亚洲香肠在线观看| 日韩精品一区在线观看| 日日噜噜夜夜狠狠视频欧美人| 亚洲欧美视频一区| 久久伊人中文字幕| 欧美在线999| 一本久久a久久免费精品不卡| 亚洲日穴在线视频| 综合久久久久久久| 久久久久免费观看| 日韩精品一区二区三区在线观看| 成人免费黄色在线| 五月天久久比比资源色| 亚洲福利视频导航| ㊣最新国产の精品bt伙计久久| 精品视频一区二区不卡| 不卡在线视频中文字幕| 国产综合色产在线精品| 午夜欧美视频在线观看| 亚洲欧美日韩一区二区三区在线观看| 日韩一区二区三区在线| 久久久久久久精| 久久久精品日韩欧美| 欧美一区二区三级| 精品奇米国产一区二区三区| 国产精品丝袜黑色高跟| 久久老女人爱爱| 亚洲欧洲99久久| 亚洲人成7777| 亚洲欧洲日韩女同| 国产一区二区三区精品欧美日韩一区二区三区| 国产福利不卡视频| 日韩欧美国产综合一区 | 欧美变态tickle挠乳网站| 在线不卡欧美精品一区二区三区| 欧美偷拍一区二区| 日韩精品一区二区三区视频在线观看| 国产成人av自拍| 日韩欧美www| 综合久久国产九一剧情麻豆| 亚洲成人动漫av|