婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > 淺談Python中的正則表達式

淺談Python中的正則表達式

熱門標簽:長春極信防封電銷卡批發 如何地圖標注公司 電銷機器人錄音要學習什么 煙臺電話外呼營銷系統 上海正規的外呼系統最新報價 企業彩鈴地圖標注 銀川電話機器人電話 外賣地址有什么地圖標注 預覽式外呼系統

Python里的正則表達式

Python里的正則表達式,無需下載外部模塊,只需要引入自帶模塊:re

import re

官方re模塊文檔: https://docs.python.org/zh-cn/3.9/library/re.html

同時,Python的正則表達式是PCRE標準的,相較于廣泛應用在Unix上的POSIX標準,還是有些區別的(主要是簡化)

基本方法

觀察re源碼,其主要的接口方法有:

  • match(…):從字符串的起始位置匹配一個模式,如果無法匹配成功,則match()就返回none
  • fullmatch(…):是match函數的完全匹配(從字符串開頭到結尾)版本
  • search(…):掃描整個字符串并(默認)返回第一個成功的匹配
  • sub(…):用于替換字符串中的匹配項
  • subn(…):和sub(…)類似,但返回值多一個替換次數
  • split(…):分割字符串,返回列表形式f
  • indall(…):在字符串中找到正則表達式所匹配的所有子串,并返回一個列表形式,如果沒有找到匹配的,則返回空列表。finditer(…):和 findall 類似,在字符串中找到正則表達式所匹配的所有子串,并把它們作為一個迭代器返回
  • compile(…):用于編譯正則表達式,生成一個正則表達式( Pattern )對象,供 match() 和 search() 這兩個函數使用
  • purge(…):用于清除正則表達式緩存

其中,本文主要會介紹的方法為:match(...)search(...)findall(...)spilt(...)。不過,方法都類似,會這些方法,剩下的也大同小異。

元字符與預定義字符集

我認為,元字符算和預定義字符集是正則表達式的核心內容了。

預定義字符集:

預定義字符 說明
\w 匹配下劃線“”或任何字母(a-zA-Z)與數字(0-9)等價于a-zA-Z0-9
\W 與\w相反,匹配特殊字符等價于**^a-zA-Z0-9_**
\s 匹配任意的空白字符,等價于**空格>\r\n\f\v**
\S 與\s相反,匹配任意非空白字符的字符,等價于**^\s**
\d 匹配任意數字,等價于0-9
\D 與\d相反,匹配任意非數字的字符,等價于**^\d**
\b 匹配單詞的邊界
\B 與\b相反,匹配不出現在單詞邊界的元素
\A 僅匹配字符串開頭,等價于^
\Z 僅匹配字符串結尾,等價于$

元字符:

元字符 說明
. 匹配任何一個字符(除換行符**\n**除外)
^ 脫字符,匹配行的開始
$ 美元符,匹配行的結束
| 連接多個可選元素,匹配表達式中出現的任意子項
[] 字符組,匹配其中的出現的任意一個字符
- 連字符,表示范圍,如“1-5”等價于“1、2、3、4、5”
? 匹配其前導元素0次或1次
* 匹配其前導元素0次或多次
+ 匹配其前導元素1次或多次
{n}/{m,n} 匹配其前導元素n次/匹配其前導元素m~n次
() 在模式中劃分出子模式,并保存子模式的匹配結果

一般來說,使用+?*{n}{n,}{n,m}時,即激活正則表達式的貪婪模式。可以在其后加入?來取消貪婪模式。

貪婪模式

一般來見,重復多次匹配就是貪婪模式,也就是盡可能匹配多個字符。

比如:

import re

lineOne = "Who is the Mintimate"
# 貪婪模式
print(re.findall(r'\w+',lineOne))
# 非貪婪模式
print(re.findall(r'\w',lineOne))
print(re.findall(r'\w+?',lineOne))

輸出:

['Who', 'is', 'the', 'Mintimate']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']

可以看到,使用**?**來激活非貪婪模式,基本是讓多次匹配無效化。

捕獲與非捕獲括號

之所以捕獲與非捕獲括號單獨出來講,其實是我當時學習正則時候,這邊卡了很久。

  • 捕獲括號:()
  • 非捕獲括號:(?:)

捕獲括號其實就是代碼里的優先級一樣,比如:

2*(2+3)=10

之所以,我們會先算2+3,是因為有**()的存在。正則里也是,如果存在()**,則會優先捕獲()內的內容:

import re

lineOne = "Who is Mintimate?"
# 未使用捕獲括號
print(re.findall(r'Mintimate',lineOne))
# 使用捕獲括號
print(re.findall(r'M(intimate)',lineOne))
# 使用非捕獲括號
print(re.findall(r'M(?:intimate)',lineOne))

輸出結果:

['Mintimate']
['intimate']
['Mintimate']

而非捕獲括號主要與|同時使用:

import re

lineOne = "This is the Mintimate,not the Minimen?"
print(re.findall(r'M(?:intimate|inimen)',lineOne))

輸出結果:

['Mintimate', 'Minimen']

正則匹配(判斷目標格式)

主要講解Python下的幾個方法使用方法。

match匹配

match(…)即:

re.match(pattern, string, flags=0)

參數的具體含義如下:

  • pattern:表示需要傳入的正則表達式。
  • string:表示待匹配的目標文本。
  • flags:表示使用的匹配模式。如:是否區分大小寫,多行匹配等等。可省略,默認為0

使用match進行正則匹配,可以方便我們對字符串內類型的判斷,如:是否為純數字或第一位數否為數字

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
print(re.match(r"\d", lineOne))
print(re.match(r"\d+", lineOne))
print("===")
print(re.match(r"\d", lineTwo))
print(re.match(r"\d+", lineTwo))

輸出結果:

re.Match object; span=(0, 1), match='7'>
re.Match object; span=(0, 7), match='7704194'>
===
None
None

其中,\d為匹配0-9的數字類型,而+是匹配出現1次或多次。

正則搜索(提取/分組字符)

正則搜索,常用的是search和findall方法了,方法體均一樣:

re.search(pattern, string, flags=0)
re.findall(pattern, string, flags=0)

search和march類似,均是匹配字符串內容,不符合返回None。但是主要區別:

  • re.match() 從第一個字符開始找, 如果第一個字符就不匹配就返回None, 不繼續匹配. 用于判斷字符串開頭或整個字符串是否匹配,速度快
  • re.search() 會整個字符串查找,直到找到一個匹配

代碼中更形象:

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
# 使用match搜索純數字字符串
print(re.match(r"\d", lineOne))
# 使用search搜索純數字字符串
print(re.search(r"\d", lineOne))
# 使用match搜索復合字符串
print(re.match(r"\d", lineTwo))
# 使用search搜索復合字符串
print(re.search(r"\d", lineTwo))

其輸出結果:

re.Match object; span=(0, 1), match='7'>
re.Match object; span=(0, 1), match='7'>
None
re.Match object; span=(31, 32), match='7'>

而findall,在上match和search的前提下,進一步封裝。相對于強化版的match和search

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
print(re.findall(r'\d',lineOne))
print(re.findall(r"\d",lineTwo))

輸出結果:

['7', '7', '0', '4', '1', '9', '4']
['7', '7', '0', '4', '1', '9', '4']

而如果你想完成提取:

print(re.findall(r"\d+",lineTwo))

輸出:

['7704194']

方便在數據處理時,快速提取連續數字╮( ̄▽ ̄"")╭。

操作實例

單單看文檔,總是不實際。這邊我演示幾個正則表達式的實例(我根據我自己使用環境所寫,可能在其他特殊環境有問題

URL去參

在寫爬蟲時候,有時候得到的URL是帶標簽(#)或者Get請求(?id=*)的,但是有時候我們需要去除這些參數,得到純凈的URL地址,這個時候可以用正則表達式:

lineOne = "https://www.mintimate.cn#mintimate"
lineTwo = "https://www.mintimate.cn?user=mintimate"
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineOne))
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineTwo))

效果:

['https://www.mintimate.cn']
['https://www.mintimate.cn']

這里主要的細節:

  • https?:匹配http或https
  • (?😃:非捕獲括號,用于和后續|進行配合

IPv4匹配

用正則匹配IPv4就比較復雜了,我是這樣寫的:

import re

lineOne = "192.168.1.1"
lineTwo="這不是IPv4嗷"
isIPv4=re.compile(r'((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3}')
print(isIPv4.search(lineOne))
print(isIPv4.search(lineTwo))

輸出結果為:

re.Match object; span=(0, 11), match='192.168.1.1'>
None

解釋一下:

  • 末尾的{3},代表前面(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2}))重復三次匹配,
  • 而前面的((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})我們可以拆分為兩部分,(2(5[0-5]|[0-4]\d))和0-1?\d{1,2}:前者是匹配首位為2開頭、第二位為1到5或1到4、最后一位為0到9;后者是匹配第一位為0或1,且?代表可以不存在這一項,后兩位為兩位0-9的數字。

效率問題

使用正則表達式,很大程度是為了精簡代碼,但是存在一下問題:

  • 代碼可讀性降低:普通的匹配數字還好,但是如果都像IPv4這樣的,一定程度可讀性就降低了,維護成本高(雖然后期一般不回去改)
  • 解析時間長:這個還是要看具體代碼,但是總的來說:貪婪模式相比懶惰模式以及獨占模式有一個回溯過程,消耗資源會更多。

解決方案:

  • 一條正則表達式規則如果運用上百次,可以使用compile()方法進行預先加載。
  • 減少使用貪婪模式。

總結

正則表達式是一個很重要的工具,尤其是在Python數據處理時,能高效處理問題事件。看完這篇文章后,應該對正則表達式不在陌生,感興趣可以自己寫個正則規則,如:強密碼判斷、IPv6的判斷等

另外,因為篇幅所限,更多Python內的細則,可以參考官方文檔:

https://docs.python.org/zh-cn/3.9/library/re.html

到此這篇關于淺談Python中的正則表達式的文章就介紹到這了,更多相關Python正則表達式內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python演示解答正則為什么是最強文本處理工具
  • 一篇文章帶你了解Python和Java的正則表達式對比
  • 一篇文章徹底搞懂python正則表達式
  • 超詳細講解python正則表達式
  • Python正則表達式保姆式教學詳細教程
  • 帶你精通Python正則表達式
  • Python正則表達式中的量詞符號與組問題小結
  • 一篇文章帶你了解python正則表達式的正確用法
  • Python正則表達式的應用詳解
  • python正則表達式re.search()的基本使用教程
  • python正則表達式函數match()和search()的區別

標簽:湖北 宜昌 西寧 佳木斯 珠海 盤錦 潮州 上饒

巨人網絡通訊聲明:本文標題《淺談Python中的正則表達式》,本文關鍵詞  淺談,Python,中的,正則,表達式,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《淺談Python中的正則表達式》相關的同類信息!
  • 本頁收集關于淺談Python中的正則表達式的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    中文字幕免费观看一区| 欧美性大战久久| 喷水一区二区三区| 色综合久久久久久久| 欧美一区二区免费观在线| 亚洲欧美日本在线| 国产网站一区二区| 激情图区综合网| 26uuu亚洲综合色| 国产激情一区二区三区| 国产精品美女久久久久久久| 97se狠狠狠综合亚洲狠狠| 亚洲欧美一区二区三区极速播放| 精品视频1区2区3区| 国产精品天天看| 中文字幕人成不卡一区| 日韩精品久久久久久| 国产原创一区二区| 国内精品免费**视频| 91香蕉视频污| 欧美视频一区在线观看| 日本视频在线一区| 精品女同一区二区| 日本韩国精品一区二区在线观看| 亚洲丰满少妇videoshd| 久久免费的精品国产v∧| 欧美中文字幕一二三区视频| 国内国产精品久久| 青娱乐精品视频| 亚洲欧美成人一区二区三区| 91精品国产高清一区二区三区| 韩国av一区二区三区| 亚洲va天堂va国产va久| 亚洲美女少妇撒尿| 国产清纯美女被跳蛋高潮一区二区久久w | 91蜜桃在线观看| 亚洲色图一区二区| 欧美激情一区二区三区在线| 欧美专区在线观看一区| 九九在线精品视频| 制服视频三区第一页精品| 亚洲成人福利片| 亚洲尤物在线视频观看| 欧美大胆人体bbbb| 精品久久久久一区| 日韩视频一区在线观看| 91精品欧美久久久久久动漫| 欧洲国内综合视频| 91女人视频在线观看| 一本大道久久精品懂色aⅴ| 一区二区欧美精品| 欧美一级免费观看| 亚洲一级二级三级| 日韩高清不卡一区二区三区| 波多野结衣亚洲一区| 国产精品国产三级国产普通话三级 | 国产精品高潮久久久久无| 成人欧美一区二区三区| 国产精品久久久久久久久晋中| 亚洲欧美日韩在线不卡| 日本三级亚洲精品| 国产盗摄视频一区二区三区| 欧美色网站导航| 精品国产人成亚洲区| 欧美国产97人人爽人人喊| 日韩在线观看一区二区| 99久久亚洲一区二区三区青草| 91国内精品野花午夜精品| 欧美成人乱码一区二区三区| 一区二区在线免费观看| 成人精品国产福利| 国产女同互慰高潮91漫画| 亚洲自拍另类综合| 国产成人三级在线观看| 精品欧美久久久| 香蕉av福利精品导航| 欧洲亚洲精品在线| 一本色道久久综合狠狠躁的推荐 | 成人av综合一区| 日本最新不卡在线| 精品国产99国产精品| 一区二区在线观看av| 久久久综合激的五月天| 亚洲天堂a在线| eeuss鲁片一区二区三区在线观看| 4438x亚洲最大成人网| 亚洲综合视频在线观看| 国产成人鲁色资源国产91色综| 欧美亚洲一区二区三区四区| 国产三区在线成人av| 奇米四色…亚洲| 精品亚洲aⅴ乱码一区二区三区| 亚洲高清在线精品| 亚洲午夜精品在线| 丝袜亚洲另类欧美| 91久久精品网| 日韩1区2区日韩1区2区| 91精品国产综合久久久久久久久久 | 国内精品伊人久久久久av一坑| 欧美精品久久天天躁| 亚洲午夜久久久久久久久电影院| 懂色av一区二区三区免费观看| 日韩国产高清在线| 捆绑调教美女网站视频一区| 国内精品免费在线观看| 精品一区二区成人精品| 不卡一区中文字幕| 国产成人超碰人人澡人人澡| 国产精品白丝jk黑袜喷水| 欧美成人国产一区二区| 奇米色一区二区| 国产女人水真多18毛片18精品视频| 波多野结衣91| 中文字幕乱码日本亚洲一区二区| 亚洲一区二区三区四区五区黄 | 日韩午夜三级在线| 国产成人免费9x9x人网站视频| 亚洲综合免费观看高清完整版在线 | 精品久久久久久久久久久久包黑料| 韩国av一区二区三区四区| 国产精品久久久久久久久晋中| 7777精品伊人久久久大香线蕉超级流畅| 日韩va欧美va亚洲va久久| 久久久高清一区二区三区| 国产美女av一区二区三区| 亚洲精品欧美激情| 久久精品国内一区二区三区| 97久久超碰精品国产| 精品国产欧美一区二区| 欧美激情一区在线| 日韩视频免费观看高清完整版 | 中文字幕 久热精品 视频在线| 精品一区二区在线观看| 欧美精品一区二区三区蜜臀| 日av在线不卡| 久久久久久日产精品| 国产一区二三区| 中文字幕在线观看一区二区| 亚洲欧洲精品一区二区三区不卡| 久久免费电影网| 国产女人18水真多18精品一级做| 久久网站最新地址| 国产精品污污网站在线观看| 久久久精品综合| 一级做a爱片久久| 国产精品国产精品国产专区不片| 久久综合九色综合97婷婷| 欧美成人免费网站| 欧美亚日韩国产aⅴ精品中极品| 亚洲电影中文字幕在线观看| 久久亚区不卡日本| 欧美久久久久久蜜桃| 成人aaaa免费全部观看| 日本vs亚洲vs韩国一区三区| 欧美极品另类videosde| 欧美一区二区网站| 99久久婷婷国产| 国产成+人+日韩+欧美+亚洲| 日韩不卡免费视频| 亚洲国产美国国产综合一区二区| 国产日韩欧美精品一区| 久久久久久久网| 欧美一级片在线看| 欧美精品在线观看一区二区| 色噜噜久久综合| 欧美制服丝袜第一页| 色呦呦国产精品| 91久久免费观看| 欧美日韩在线三区| 欧洲一区在线电影| 欧美日韩视频一区二区| 欧美色综合久久| 欧美喷水一区二区| 69p69国产精品| 久久这里只有精品6| 国产欧美精品一区aⅴ影院 | 国内欧美视频一区二区| 蜜乳av一区二区| 国产精品羞羞答答xxdd| 国产精品91一区二区| a亚洲天堂av| 在线成人午夜影院| 久久久久久久精| 亚洲永久免费视频| 国产在线播放一区三区四| 成人免费视频免费观看| 欧美人动与zoxxxx乱| 国产精品欧美经典| 亚洲第一狼人社区| zzijzzij亚洲日本少妇熟睡| 国产人伦精品一区二区| 日韩一区二区三区在线| 久久久777精品电影网影网 | 国产欧美日韩精品a在线观看| 亚洲影视在线播放| 成人三级伦理片| 精品国产伦一区二区三区观看方式| 亚洲免费av在线| 成人深夜视频在线观看| 精品国产免费视频|