python正则表达式应用

本文详细介绍正则表达式的常用模式及其应用场景,包括基础匹配、贪婪与非贪婪匹配、搜索与替换等,并通过实例演示如何利用正则表达式进行网页元素抓取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

正则表达式

模式描述
\w匹配字母数字及下划线
\W匹配非字母数字及下划线
\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S匹配任何非空白字符。等价于[^ \f\n\r\t\v]。
\d匹配一个数字字符。等价于[0-9]。
\D匹配一个非数字字符。等价于[^0-9]。
\A匹配字符串开始
\Z匹配字符串结束,如果是存在换行,只匹配到换行前的技术字符串
\z匹配字符串结束
\G匹配最后匹配完成的位置
\n匹配一个换行符
\t匹配一个制表符
^匹配字符串开头
$匹配字符串的末尾
.匹配除“\n”之外的任何单个字符。当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符
[…]用来表示一组字符,单独列出:[amk]匹配’a’,’m’或’k’
[^…]不在[]中的字符:[^abc]匹配除a,b,c之外的字符
*匹配0个或多个的表达式
+匹配1个或多个的表达式
?匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式
{n}精确匹配n个前面表达式
{n,m}匹配n到m次由前面正则表达式定义的片段,贪婪方式
a|b匹配a或b
()匹配括号内的表达式,也表示一个组

re.match

re.match尝试从字符串的起始位置进行匹配,如果起始位置匹配不成功的话,match()就返回none。

re.match(pattern, string, flags=0)

最常规的匹配

import re
content = 'hello 123456 world this is regex demo'

result = re.match('^hello\s\d{6}\s\w{5}.*?demo$',content)
print(result)
print(result.group())
print(result.span())
<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
hello 123456 world this is regex demo
(0, 37)

泛匹配

import re
content = 'hello 123456 world this is regex demo'
re.match('^hello.*demo$',content)
print(result)
print(result.group())
print(result.span())
<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
hello 123456 world this is regex demo
(0, 37)

一般情况下尽量使用泛匹配。

匹配目标

import re
content = 'hello 123456 world this is regex demo'
result = re.match('^hello\s(\d+)\sworld.*demo$',content)
print(result)
print(result.group(1))
print(result.span())
<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
123456
(0, 37)

贪婪匹配

import re
content = 'hello 123456 world this is regex demo'
result = re.match('^hello.*(\d+).*demo$',content)
print(result)
print(result.group(1))
print(result.span())
<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
6
(0, 37)

贪婪匹配是尽可能多的匹配到符合要求的字符串,上面这例中.*就把12345都给匹配走了,只留了一个数字给后面的(\d+)

非贪婪匹配

import re
content = 'hello 123456 world this is regex demo'
result = re.match('^hello.*(\d+).*demo$',content)
print(result)
print(result.group(1))
print(result.span())
<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
123456
(0, 37)

非贪婪匹配是尽可能少的匹配到符合要求的字符串,上面这例中.*就只匹配了一个空格符,因为它后面有(\d+)需要匹配数字了

匹配模式

import re
content = '''hello 123456 world this is 
regex demo'''
result = re.match('^hello.*?(\d+).*?demo$',content)
print(result)
print(result.group(1))
print(result.span())
None
---------------------------------------------------------------------------

AttributeError                            Traceback (most recent call last)

<ipython-input-18-a48f81485571> in <module>()
      4 result = re.match('^hello.*?(\d+).*?demo$',content)
      5 print(result)
----> 6 print(result.group(1))
      7 print(result.span())
AttributeError: 'NoneType' object has no attribute 'group'

可以看到上面出错了,这是因为字符串中含有换行符,.*不能匹配了,这时候我们要切换匹配模式,如下所示,加入re.S的匹配模式即可:

result = re.match('^hello.*?(\d+).*?demo$',content,re.S)
print(result)
print(result.group(1))
print(result.span())
<_sre.SRE_Match object; span=(0, 38), match='hello 123456 world this is \nregex demo'>
123456
(0, 38)

转义

import re
content = 'this is $5.00'
result = re.match('this is $5.00',content)
print(result)
None

我们看到这里输出结果是None,是匹配失败的,因为原字符串里面含有正则表达式的规则字符$和.,所以这里要转义一下,如下所示:

result = re.match('this is \$5\.00',content)
print(result)
print(result.group())
<_sre.SRE_Match object; span=(0, 13), match='this is $5.00'>
this is $5.00

re.search

re.search扫描整个字符串并返回第一个成功的匹配

import re
content = 'Head String hello 123456 world this is regex demo End String'
result = re.match('hello.*?(\d+).*?demo',content)
print(result)
None

我们可以看到,re.match是从开头开始匹配的,匹配不到就返回None,那有时候如果字符串特别长,我们不可能从开始去匹配,就可以使用re.search来搜索整个字符串

content = 'Head String hello 123456 world this is regex demo End String'
result = re.search('hello.*?(\d+).*?demo',content)
print(result)
print(result.group(1))
<_sre.SRE_Match object; span=(12, 49), match='hello 123456 world this is regex demo'>
123456

可以看到,我们正确的搜索到了我们想要的字符串。

匹配演练

这里我们尝试匹配<a href="/3.mp3" singer="齐秦">往事随风</a>这个字符串,并且获取齐秦,往事随风这两个文本目标

import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
        </li>
    </ul>
</div>'''

result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result)
print(result.group(1),result.group(2))
<_sre.SRE_Match object; span=(153, 366), match='<li data-view="2">一路上有你</li>\n        <li data-vi>
齐秦 往事随风

我们再来获取下第二个<li>标签

result = re.search('<li.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result)
print(result.group(1),result.group(2))
<_sre.SRE_Match object; span=(153, 260), match='<li data-view="2">一路上有你</li>\n        <li data-vi>
任贤齐 沧海一声笑

如果我们去掉匹配模式re.S呢?会有什么反应?我们来看下

result = re.search('<li.*?singer="(.*?)">(.*?)</a>',html)
print(result)
print(result.group(1),result.group(2))
<_sre.SRE_Match object; span=(389, 448), match='<li data-view="6"><a href="/4.mp3" singer="beyond>
beyond 光辉岁月

可以看到它匹配到了beyond这个标签,这个li标签是没有换行符的

re.findall

搜索字符串,以列表形式返回全部能匹配的字符串。

如下所示,我们查找所有含有<href>标签的<li>标签内容

import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''

result = re.findall('<li.*?href.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result)
[('任贤齐', '沧海一声笑'), ('齐秦', '往事随风'), ('beyond', '光辉岁月'), ('陈慧琳', '记事本'), ('邓丽君', '但愿人长久')]

re.sub

替换字符串中每一个匹配的子串后返回替换后的字符串。

import re
content = 'hello 123456 world this is regex demo'

result = re.sub('\d+','', content)
print(result)
hello  world this is regex demo

我们可以看到这里我们把数字全部给替换掉了。

re.compile

将正则字符串编译成正则表达式对象

import re

content = '''Hello 1234567 World_This
is a Regex Demo'''
pattern = re.compile('Hello.*Demo', re.S)
result = re.match(pattern, content)
#result = re.match('Hello.*Demo', content, re.S)
print(result)
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>

一般我们可以使用re.compile把正则表达式变成一个对象,方便复用。

实战练习

爬取豆瓣读书,最受关注图书榜:https://book.douban.com/chart?icn=index-topchart-nonfiction

import requests
import re

response = requests.get('https://book.douban.com/chart?icn=index-topchart-nonfiction')

pattern = re.compile('<li.*?media\sclearfix.*?<a.*?fleft.*?>(.*?)</a>.*?<p.*?subject-abstract.*?>(.*?)</p>',re.S)
result = re.findall(pattern, response.content.decode('utf-8'))

if result:
    for item in result:
        name, auther = item
        name = re.sub('\s','',name)  # 去掉换行和空格
        auther = re.sub('\s','',auther)  # 去掉换行和空格
        print(name,auther)
鱼翅与花椒 [英]扶霞·邓洛普/2018-7/上海译文出版社/48/平装
今日简史 [以]尤瓦尔·赫拉利/2018-8/中信出版集团/68/平装
往事与随想 [俄]赫尔岑/2018-8/后浪丨四川人民出版社/280.00元/精装
邻人之妻 [美]盖伊·特立斯/2018-7/上海人民出版社/78.00元/精装
铁道之旅 [德]沃尔夫冈•希弗尔布施(WolfgangSchivelbusch)/2018-7/世纪文景|上海人民出版社/59.00元/精装
扫地出门 [美]马修·德斯蒙德/2018-7/理想国|广西师范大学出版社/68.00/平装
会赚钱的妈妈 [美]克丽丝特尔·潘恩/CrystalPaine/2018-7/江西人民出版社/39.80元/平装
潦草 贾行家/2018-8/理想国∣上海三联书店/49.00/平装
伟大的海 [英]大卫‧阿布拉菲亚/2018-7-1/社会科学文献出版社/168/精装
天长地久 龙应台/2018-8-1/湖南文艺出版社/58.00/平装
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值