Python 内置模块之 re 库,一文搞定正则表达式初阶用法,滚雪球学 Python 第 13 篇

网友投稿 803 2022-05-30

橡皮擦,一个逗趣的互联网高级网虫。新的系列,让我们一起 Be More Pythonic。

十三、Python 内置模块之 re 库,一文搞定正则表达式初阶用法

13.1 re 库的应用

re 库是 Python 中处理正则表达式的标准库,本篇博客介绍 re 库的同时,会简单介绍一下正则表达式语法,如果想深入学习正则表达式,还需要好好下一番功夫。

13.1.1 正则表达式语法

正则表达式语法由字符和操作符构成,初期阶段掌握下述这些内容即可。

以上表示仅仅为正则表达最基础部分内容,如果希望深入研究正则表达式,建议寻找更加全面的资料进行学习,本文只做药引。

13.1.2 re 库基本用法

re 库主要函数如下:

基础函数:compile;

功能函数:search、match、findall、split、finditer、sub。

Python 内置模块之 re 库,一文搞定正则表达式初阶用法,滚雪球学 Python 第 13 篇

在正式学习之前,先了解一下原生字符串。

在 Python 中,表示原生字符串,需要在字符串前面加上 r。

例如 my_str = 'i'am xiangpica' 在程序中会直接报错,如果希望字符串中 ' 可以正常运行,需要加上转移字符 \,修改为 my_str = 'i\'am xiangpica'。

但这样结合上文正则表达式中的操作符,就会出现问题,因为 \ 在正则表达式中是有真实含义的,如果你使用 re 库去匹配字符串中的 \,那需要使用 4 个反斜杠,为了避免这种情况出现,引入了原生字符串概念。

# 不使用原生字符串的正则表达式 "\\\\" # 使用原生字符串的正则表达式 r"\\"

在后文会有实际的应用。

接下来在学习一个案例,例如下述代码:

my_str='C:\number' print(my_str)

C: umber

本段代码的输出效果如下,\n 被解析成了换行,如果想要屏蔽这种现象,使用 r 即可:

my_str=r'C:\number' print(my_str)

输出 C:\number。

13.2 re 库相关函数说明

13.2.1 re.search 函数

该函数用于,在字符串中搜索正则表达式匹配到的第一个位置的值,返回 match 对象。

函数原型如下:

re.search(pattern,string,flags=0)

需求:在字符串 梦想橡皮擦 good good 中匹配 橡皮擦。

import re my_str='梦想橡皮擦 good good' pattern = r'橡皮擦' ret = re.search(pattern,my_str) print(ret)

返回结果:

search 函数的第三个参数 flags 表示正则表达式使用时的控制标记。

re.I,re.IGNORECASE:忽略正则表达式的大小写;

re.M,re.MULTILINE:正则表达式中的 ^ 操作符能够将给定字符串的每行当做匹配的开始;

re.S,re.DOTALL:正则表达式中的 . 操作符能够匹配所有字符。

最后将匹配到的字符串进行输出,使用下述代码即可实现。

import re my_str = '梦想橡皮擦 good good' pattern = r'橡皮擦' ret = re.search(pattern, my_str) if ret: print(ret.group(0))

13.2.2 re.match 函数

该函数用于在目标字符串开始位置去匹配正则表达式,返回 match 对象,未匹配成功返回 None,函数原型如下:

re.match(pattern,string,flags=0)

一定要注意是目标字符串开始位置。

import re my_str = '梦想橡皮擦 good good' pattern = r'梦' # 匹配到数据 pattern = r'good' # 匹配不到数据 ret = re.match(pattern, my_str) if ret: print(ret.group(0))

re.match 和 re.search 方法都是一次最多返回一个匹配对象,如果希望返回多个值,可以通过在 pattern 里加括号构造匹配组返回多个字符串。

13.2.3 re.findall 函数

该函数用于搜索字符串,以列表格式返回全部匹配到的字符串,函数原型如下:

re.findall(pattern,string,flags=0)

测试代码如下:

import re my_str = '梦想橡皮擦 good good' pattern = r'good' ret = re.findall(pattern, my_str) print(ret)

13.2.4 re.split 函数

该函数将一个字符串按照正则表达式匹配结果进行分割,返回一个列表。

函数原型如下:

re.split(pattern, string, maxsplit=0, flags=0)

re.split 函数进行分割的时候,如果正则表达式匹配到的字符恰好在字符串开头或者结尾,返回分割后的字符串列表首尾都多了空格,需要手动去除,例如下述代码:

import re my_str = '1梦想橡皮擦1good1good1' pattern = r'\d' ret = re.split(pattern, my_str) print(ret)

运行结果:

['', '梦想橡皮擦', 'good', 'good', '']

切换为中间的内容,则能正确的分割字符串。

import re my_str = '1梦想橡皮擦1good1good1' pattern = r'good' ret = re.split(pattern, my_str) print(ret)

如果在 pattern 中捕获到括号,那括号中匹配到的结果也会在返回的列表中。

import re my_str = '1梦想橡皮擦1good1good1' pattern = r'(good)' ret = re.split(pattern, my_str) print(ret)

运行结果,你可以对比带括号和不带括号的区别进行学习:

['1梦想橡皮擦1', 'good', '1', 'good', '1']

maxsplit 参数表示最多进行分割次数, 剩下的字符全部返回到列表的最后一个元素,例如设置匹配 1 次,得到的结果是 ['1梦想橡皮擦1', '1good1']。

13.2.5 re.finditer 函数

搜索字符串,并返回一个匹配结果的迭代器,每个迭代元素都是 match 对象。函数原型如下:

re.finditer(pattern,string,flags=0)

测试代码如下:

import re my_str = '1梦想橡皮擦1good1good1' pattern = r'good' # ret = re.split(pattern, my_str,maxsplit=1) ret =re.finditer(pattern, my_str) print(ret)

13.2.6 re.sub 函数

在一个字符串中替换被正则表达式匹配到的字符串,返回替换后的字符串,函数原型如下:

re.sub(pattern,repl,string,count=0,flags=0)

其中 repl 参数是替换匹配字符串的字符串,count 参数是匹配的最大替换次数。

import re my_str = '1梦想橡皮擦1good1good1' pattern = r'good' ret = re.sub(pattern, "nice", my_str) print(ret)

运行之后,得到替换之后的字符串:

1梦想橡皮擦1nice1nice1

13.2.7 re 库其它函数

其它比较常见的函数有:re.fullmatch(),re.subn(),re.escape(),更多内容可以查阅 官方文档,获取一手资料。

13.3 re 库的面向对象写法

上文都是函数式写法,re 库可以采用面向对象的写法,将正则表达式进行编译之后,多次操作。核心用到的函数是 re.compile。

该函数原型如下:

regex = re.compile(pattern,flags=0)

其中 pattern 是正则表达式字符串或者原生字符串。

测试代码如下:

import re my_str = '1梦想橡皮擦1good1good1' # 正则对象 regex = re.compile(pattern = r'good') ret = regex.sub("nice", my_str) print(ret)

上述代码将正则表达式编译为一个正则对象,后面在 regex.sub 函数中就不需要在写正则表达式了,使用时,只需要将编译好的 regex 对象替换所有的 re 对象,再去调用对应的方法。

13.4 re 库的 match 对象

使用 re 库匹配字符串之后,会返回 match 对象,该对象具备以下属性和方法。

13.4.1 match 对象的属性

.string:待匹配的文本;

.re:匹配时使用的 pattern 对象;

.pos:正则表达式搜索文本的开始位置;

.endpos:正则表达式搜索文本的结束位置。

测试代码如下:

import re my_str = '1梦想橡皮擦1good1good1' regex = re.compile(pattern = r'g\w+d') ret = regex.search(my_str) print(ret) print(ret.string) print(ret.re) print(ret.pos) print(ret.endpos)

结果输出:

1梦想橡皮擦1good1good1 re.compile('g\\w+d') 0 17

13.4.2 match 对象的方法

.group(0):获取匹配后的字符串;

.start():匹配字符串在原始字符串的开始位置;

.end():匹配字符串在原始字符串的结尾位置;

.span():返回(.start(),.end())

因为内容比较简单,具体代码不再展示。

13.5 这篇博客的总结

本篇博客学习了 Python 中 re 库的知识点,重点在 re 库中的各个函数,对正则表达式未做过多说明,希望对你有所帮助。

博主 ID:梦想橡皮擦,希望大家

评论

Python 正则表达式

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:15 个对新手和专家都非常有用的 Linux Grep 命令示例
下一篇:SpringBoot配置文件的分水岭——高级配置的使用
相关文章