python正则表达式应用

最新推荐文章于 2022-03-17 10:29:12 发布

原创最新推荐文章于 2022-03-17 10:29:12 发布 · 630 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则表达式

python 专栏收录该内容

14 篇文章

订阅专栏

本文详细介绍正则表达式的常用模式及其应用场景，包括基础匹配、贪婪与非贪婪匹配、搜索与替换等，并通过实例演示如何利用正则表达式进行网页元素抓取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

正则表达式

模式	描述
\w	匹配字母数字及下划线
\W	匹配非字母数字及下划线
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于[^ \f\n\r\t\v]。
\d	匹配一个数字字符。等价于[0-9]。
\D	匹配一个非数字字符。等价于[^0-9]。
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的技术字符串
\z	匹配字符串结束
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配字符串开头
$	匹配字符串的末尾
.	匹配除“\n”之外的任何单个字符。当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符
[…]	用来表示一组字符，单独列出：[amk]匹配’a’,’m’或’k’
[^…]	不在[]中的字符：[^abc]匹配除a,b,c之外的字符
*	匹配0个或多个的表达式
+	匹配1个或多个的表达式
?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
{n}	精确匹配n个前面表达式
{n,m}	匹配n到m次由前面正则表达式定义的片段，贪婪方式
a\|b	匹配a或b
()	匹配括号内的表达式，也表示一个组

re.match

re.match尝试从字符串的起始位置进行匹配，如果起始位置匹配不成功的话，match()就返回none。

re.match(pattern, string, flags=0)

最常规的匹配

import re
content = 'hello 123456 world this is regex demo'

result = re.match('^hello\s\d{6}\s\w{5}.*?demo$',content)
print(result)
print(result.group())
print(result.span())

<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
hello 123456 world this is regex demo
(0, 37)

泛匹配

import re
content = 'hello 123456 world this is regex demo'
re.match('^hello.*demo$',content)
print(result)
print(result.group())
print(result.span())

<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
hello 123456 world this is regex demo
(0, 37)

一般情况下尽量使用泛匹配。

匹配目标

import re
content = 'hello 123456 world this is regex demo'
result = re.match('^hello\s(\d+)\sworld.*demo$',content)
print(result)
print(result.group(1))
print(result.span())

<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
123456
(0, 37)

贪婪匹配

import re
content = 'hello 123456 world this is regex demo'
result = re.match('^hello.*(\d+).*demo$',content)
print(result)
print(result.group(1))
print(result.span())

<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
6
(0, 37)

贪婪匹配是尽可能多的匹配到符合要求的字符串，上面这例中.*就把12345都给匹配走了，只留了一个数字给后面的(\d+)

非贪婪匹配

import re
content = 'hello 123456 world this is regex demo'
result = re.match('^hello.*(\d+).*demo$',content)
print(result)
print(result.group(1))
print(result.span())

<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
123456
(0, 37)

非贪婪匹配是尽可能少的匹配到符合要求的字符串，上面这例中.*就只匹配了一个空格符，因为它后面有(\d+)需要匹配数字了

匹配模式

import re
content = '''hello 123456 world this is 
regex demo'''
result = re.match('^hello.*?(\d+).*?demo$',content)
print(result)
print(result.group(1))
print(result.span())

None

---------------------------------------------------------------------------

AttributeError                            Traceback (most recent call last)

<ipython-input-18-a48f81485571> in <module>()
      4 result = re.match('^hello.*?(\d+).*?demo$',content)
      5 print(result)
----> 6 print(result.group(1))
      7 print(result.span())

AttributeError: 'NoneType' object has no attribute 'group'

可以看到上面出错了，这是因为字符串中含有换行符，.*不能匹配了，这时候我们要切换匹配模式，如下所示，加入re.S的匹配模式即可：

result = re.match('^hello.*?(\d+).*?demo$',content,re.S)
print(result)
print(result.group(1))
print(result.span())

<_sre.SRE_Match object; span=(0, 38), match='hello 123456 world this is \nregex demo'>
123456
(0, 38)

转义

import re
content = 'this is $5.00'
result = re.match('this is $5.00',content)
print(result)

None

我们看到这里输出结果是None,是匹配失败的，因为原字符串里面含有正则表达式的规则字符$和.，所以这里要转义一下，如下所示：

result = re.match('this is \$5\.00',content)
print(result)
print(result.group())

<_sre.SRE_Match object; span=(0, 13), match='this is $5.00'>
this is $5.00

re.search

re.search扫描整个字符串并返回第一个成功的匹配

import re
content = 'Head String hello 123456 world this is regex demo End String'
result = re.match('hello.*?(\d+).*?demo',content)
print(result)

None

我们可以看到，re.match是从开头开始匹配的，匹配不到就返回None,那有时候如果字符串特别长，我们不可能从开始去匹配，就可以使用re.search来搜索整个字符串

content = 'Head String hello 123456 world this is regex demo End String'
result = re.search('hello.*?(\d+).*?demo',content)
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(12, 49), match='hello 123456 world this is regex demo'>
123456

可以看到，我们正确的搜索到了我们想要的字符串。

匹配演练

这里我们尝试匹配<a href="/3.mp3" singer="齐秦">往事随风</a>这个字符串，并且获取齐秦，往事随风这两个文本目标

import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
        </li>
    </ul>
</div>'''

result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result)
print(result.group(1),result.group(2))

<_sre.SRE_Match object; span=(153, 366), match='<li data-view="2">一路上有你</li>\n        <li data-vi>
齐秦 往事随风

我们再来获取下第二个<li>标签

result = re.search('<li.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result)
print(result.group(1),result.group(2))

<_sre.SRE_Match object; span=(153, 260), match='<li data-view="2">一路上有你</li>\n        <li data-vi>
任贤齐 沧海一声笑

如果我们去掉匹配模式re.S呢？会有什么反应？我们来看下

result = re.search('<li.*?singer="(.*?)">(.*?)</a>',html)
print(result)
print(result.group(1),result.group(2))

<_sre.SRE_Match object; span=(389, 448), match='<li data-view="6"><a href="/4.mp3" singer="beyond>
beyond 光辉岁月

可以看到它匹配到了beyond这个标签，这个li标签是没有换行符的

re.findall

搜索字符串，以列表形式返回全部能匹配的字符串。

如下所示，我们查找所有含有<href>标签的<li>标签内容

import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''

result = re.findall('<li.*?href.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result)

[('任贤齐', '沧海一声笑'), ('齐秦', '往事随风'), ('beyond', '光辉岁月'), ('陈慧琳', '记事本'), ('邓丽君', '但愿人长久')]

re.sub

替换字符串中每一个匹配的子串后返回替换后的字符串。

import re
content = 'hello 123456 world this is regex demo'

result = re.sub('\d+','', content)
print(result)

hello  world this is regex demo

我们可以看到这里我们把数字全部给替换掉了。

re.compile

将正则字符串编译成正则表达式对象

import re

content = '''Hello 1234567 World_This
is a Regex Demo'''
pattern = re.compile('Hello.*Demo', re.S)
result = re.match(pattern, content)
#result = re.match('Hello.*Demo', content, re.S)
print(result)

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>

一般我们可以使用re.compile把正则表达式变成一个对象，方便复用。

实战练习

爬取豆瓣读书，最受关注图书榜:https://book.douban.com/chart?icn=index-topchart-nonfiction

import requests
import re

response = requests.get('https://book.douban.com/chart?icn=index-topchart-nonfiction')

pattern = re.compile('<li.*?media\sclearfix.*?<a.*?fleft.*?>(.*?)</a>.*?<p.*?subject-abstract.*?>(.*?)</p>',re.S)
result = re.findall(pattern, response.content.decode('utf-8'))

if result:
    for item in result:
        name, auther = item
        name = re.sub('\s','',name)  # 去掉换行和空格
        auther = re.sub('\s','',auther)  # 去掉换行和空格
        print(name,auther)

鱼翅与花椒 [英]扶霞·邓洛普/2018-7/上海译文出版社/48/平装
今日简史 [以]尤瓦尔·赫拉利/2018-8/中信出版集团/68/平装
往事与随想 [俄]赫尔岑/2018-8/后浪丨四川人民出版社/280.00元/精装
邻人之妻 [美]盖伊·特立斯/2018-7/上海人民出版社/78.00元/精装
铁道之旅 [德]沃尔夫冈•希弗尔布施（WolfgangSchivelbusch）/2018-7/世纪文景|上海人民出版社/59.00元/精装
扫地出门 [美]马修·德斯蒙德/2018-7/理想国|广西师范大学出版社/68.00/平装
会赚钱的妈妈 [美]克丽丝特尔·潘恩/CrystalPaine/2018-7/江西人民出版社/39.80元/平装
潦草 贾行家/2018-8/理想国∣上海三联书店/49.00/平装
伟大的海 [英]大卫‧阿布拉菲亚/2018-7-1/社会科学文献出版社/168/精装
天长地久 龙应台/2018-8-1/湖南文艺出版社/58.00/平装