【python基础】正则表达式及re模块使用

流畅的美杜莎

已于 2024-03-18 11:17:32 修改

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：基础问题文章标签：正则表达式开发语言 python

于 2022-05-07 20:17:14 首次发布

本文链接：https://blog.csdn.net/qq_42774234/article/details/124636049

基础问题专栏收录该内容

9 篇文章

订阅专栏

本文详细介绍了正则表达式的定义与用途，包括元字符的使用，以及如何利用Python re模块进行高效字符串操作，如match、search、findall、finditer等。此外，还涵盖了匹配中文、贪婪模式与非贪婪模式、分支和分组的实例。适合初学者和进阶者学习正则表达式技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

正则表达式及re模块使用

正则表达式的作用，即是从非/半结构化数据中过滤和匹配出我们需要的数据。

在这里插入图片描述

1 正则表达式

1.1 定义

正则表达式是用来操作字符串的一种逻辑公式，就是用事先定义好的一些特定字符、或特定字符的组合，组成一个表示某种规则的字符串，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

1.2 用途

判断给定的字符串是否符合正则表达式的过滤逻辑(“匹配”)
通过正则表达式，从文本字符串中获取我们想要的特定部分(“过滤”)

直观上看正则表达式由正则表达式是由普通字符和元字符组成的文字模式。

2 正则表达式的元字符

正则表达式元字符

3 python正则 re模块

3.1 re模块使用的一般步骤

使用 compile()函数将正则表达式的字符串形式编译为一个 Pattern 对象
通过 Pattern 对象提供的一系列方法对文本进行匹配查找，获得匹配结果
最后使用 Match 对象提供的属性和方法获得信息，根据需要进行其他的操作

3.2 compile函数

compile 函数用于编译正则表达式，生成一个 Pattern 对象，它的一般使用形式如下:

import re
pattern = re.compile(r'正则表达式')

3.3 pattern对象的常用方法

名称	用处
match	从起始位置开始查找，一次匹配
search	从任任意置开始查找，一次匹配
findall	全部匹配，返回列表
split	分割字符串，返回列表
sub	替换

说明:

3.4 match 方法

import re
pattern = re.compile(r'正则表达式')
pattern.match(your_string)

从头开始匹配，如果第一个字符不符合或未匹配到，直接返回None；匹配成功返回match对象。只匹配一次。

3.5 search 方法

import re
pattern = re.compile(r'正则表达式')
pattern.search(your_string)

从头开始匹配，开头不符合继续往下匹配，直到找到符合规则的为止返回match对象；如果整个字符串中未匹配到符合规则的字符串，则返回None。只匹配一次。

3.6 findall 方法

import re
pattern = re.compile(r'正则表达式')
pattern.findall(your_string)

全局匹配，与match和search不同的是，它以列表形式返回所有符合规则的字串；如果未匹配到，返回空列表。多次匹配。

3.7 finditer 方法

import re
pattern = re.compile(r'正则表达式')
pattern.finditer(your_string)

全局匹配，与findall不同的是，它返回的是迭代器。多次匹配。

3.8 split 方法

import re
re.split(split_char, your_string)

以split_char切割字符串，返回列表。

3.9 sub 方法

import re
pattern = re.compile(r'正则表达式')
new_str = re.sub(pattern, sub_str, your_string)
# re.sub(r'[a-z]', '*', s) 表示只匹配单一小写字母，并将每一个小写字母替换为一个星号

将your_string中符合pattern模式的字符串替换成sub_str，返回新的字符串。

4 匹配中文

在某些情况下，我们想匹配文本中的汉字，那就使用中文的Unicode编码即可:

pattern = re.compile(r'[\u4e00-\u8fa5]')

5 贪婪模式与非贪婪模式

5.1 贪婪模式

在符合正则表达式模式的前提下，尽可能多的匹配字符串。在规则串中使用*即可。

import re
your_string = "abcbbbssssabcccb"
pattern = re.compile('a.*b')
pattern.findall(your_string)

它匹配的结果是['abcbbbssssabcccb']，因为贪婪匹配会在符合匹配模式的前提下尽可能多的匹配字符。

5.2 非贪婪模式

整个表达式匹配成功的前提下，尽可能少的匹配。在规则串中使用?即可

import re
your_string = "abcbbbssssabcccb"
pattern = re.compile('a.*？b')
pattern.findall(your_string)

它匹配的结果是['ab', 'ab']，因为非贪婪匹配会在符合匹配模式的前提下尽可能少的匹配字符。findall()是找出所有符合正则表达式的字符串，所以这里是两个ab。

6 分支

有多种规则，只要符合其中一种，就算成功匹配。不同规则之间用 | 隔开。

import re
your_string = "123abc.*。。"
# 匹配多个数字或多个字母
p = re.compile('\d+|\w+')
p.findall(your_string)

它匹配的结果是['123', 'abc']，前者是多个数字，后者是多个字母。

7 分组

分组一般用于重复指定的子表达式，可以用()来指定子表达式。

import re
your_string = "123abc.*。。"
# abc这个子表达式重复0次或1次
p = re.compile("(abc)?")
p.findall(your_string)   # ['', '', '', 'abc', '', '', '']

如果不指定次数的话，就只会匹配出分组内容，括号相当于正则表达式边界。
小括号的其他作用:
可以改变限定符的作用范围

import re
pattern = re.compile('(ho|o)ur')

匹配单词hour或our，如果不使用小括号，那么就变成了匹配单词ho和our了。

正则表达式博大精深，以上只是基本用法，还有一些高级用法，以后抽空补充。