正则表达式
模式 | 描述 |
---|---|
\w | 匹配字母数字及下划线 |
\W | 匹配非字母数字及下划线 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。 |
\S | 匹配任何非空白字符。等价于[^ \f\n\r\t\v]。 |
\d | 匹配一个数字字符。等价于[0-9]。 |
\D | 匹配一个非数字字符。等价于[^0-9]。 |
\A | 匹配字符串开始 |
\Z | 匹配字符串结束,如果是存在换行,只匹配到换行前的技术字符串 |
\z | 匹配字符串结束 |
\G | 匹配最后匹配完成的位置 |
\n | 匹配一个换行符 |
\t | 匹配一个制表符 |
^ | 匹配字符串开头 |
$ | 匹配字符串的末尾 |
. | 匹配除“\n”之外的任何单个字符。当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符 |
[…] | 用来表示一组字符,单独列出:[amk]匹配’a’,’m’或’k’ |
[^…] | 不在[]中的字符:[^abc]匹配除a,b,c之外的字符 |
* | 匹配0个或多个的表达式 |
+ | 匹配1个或多个的表达式 |
? | 匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式 |
{n} | 精确匹配n个前面表达式 |
{n,m} | 匹配n到m次由前面正则表达式定义的片段,贪婪方式 |
a|b | 匹配a或b |
() | 匹配括号内的表达式,也表示一个组 |
re.match
re.match尝试从字符串的起始位置进行匹配,如果起始位置匹配不成功的话,match()就返回none。
re.match(pattern, string, flags=0)
最常规的匹配
import re
content = 'hello 123456 world this is regex demo'
result = re.match('^hello\s\d{6}\s\w{5}.*?demo$',content)
print(result)
print(result.group())
print(result.span())
<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
hello 123456 world this is regex demo
(0, 37)
泛匹配
import re
content = 'hello 123456 world this is regex demo'
re.match('^hello.*demo$',content)
print(result)
print(result.group())
print(result.span())
<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
hello 123456 world this is regex demo
(0, 37)
一般情况下尽量使用泛匹配。
匹配目标
import re
content = 'hello 123456 world this is regex demo'
result = re.match('^hello\s(\d+)\sworld.*demo$',content)
print(result)
print(result.group(1))
print(result.span())
<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
123456
(0, 37)
贪婪匹配
import re
content = 'hello 123456 world this is regex demo'
result = re.match('^hello.*(\d+).*demo$',content)
print(result)
print(result.group(1))
print(result.span())
<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
6
(0, 37)
贪婪匹配是尽可能多的匹配到符合要求的字符串,上面这例中.*
就把12345都给匹配走了,只留了一个数字给后面的(\d+)
非贪婪匹配
import re
content = 'hello 123456 world this is regex demo'
result = re.match('^hello.*(\d+).*demo$',content)
print(result)
print(result.group(1))
print(result.span())
<_sre.SRE_Match object; span=(0, 37), match='hello 123456 world this is regex demo'>
123456
(0, 37)
非贪婪匹配是尽可能少的匹配到符合要求的字符串,上面这例中.*
就只匹配了一个空格符,因为它后面有(\d+)需要匹配数字了
匹配模式
import re
content = '''hello 123456 world this is
regex demo'''
result = re.match('^hello.*?(\d+).*?demo$',content)
print(result)
print(result.group(1))
print(result.span())
None
---------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-18-a48f81485571> in <module>()
4 result = re.match('^hello.*?(\d+).*?demo$',content)
5 print(result)
----> 6 print(result.group(1))
7 print(result.span())
AttributeError: 'NoneType' object has no attribute 'group'
可以看到上面出错了,这是因为字符串中含有换行符,.*
不能匹配了,这时候我们要切换匹配模式,如下所示,加入re.S的匹配模式即可:
result = re.match('^hello.*?(\d+).*?demo$',content,re.S)
print(result)
print(result.group(1))
print(result.span())
<_sre.SRE_Match object; span=(0, 38), match='hello 123456 world this is \nregex demo'>
123456
(0, 38)
转义
import re
content = 'this is $5.00'
result = re.match('this is $5.00',content)
print(result)
None
我们看到这里输出结果是None,是匹配失败的,因为原字符串里面含有正则表达式的规则字符$和.,所以这里要转义一下,如下所示:
result = re.match('this is \$5\.00',content)
print(result)
print(result.group())
<_sre.SRE_Match object; span=(0, 13), match='this is $5.00'>
this is $5.00
re.search
re.search扫描整个字符串并返回第一个成功的匹配
import re
content = 'Head String hello 123456 world this is regex demo End String'
result = re.match('hello.*?(\d+).*?demo',content)
print(result)
None
我们可以看到,re.match是从开头开始匹配的,匹配不到就返回None,那有时候如果字符串特别长,我们不可能从开始去匹配,就可以使用re.search来搜索整个字符串
content = 'Head String hello 123456 world this is regex demo End String'
result = re.search('hello.*?(\d+).*?demo',content)
print(result)
print(result.group(1))
<_sre.SRE_Match object; span=(12, 49), match='hello 123456 world this is regex demo'>
123456
可以看到,我们正确的搜索到了我们想要的字符串。
匹配演练
这里我们尝试匹配<a href="/3.mp3" singer="齐秦">往事随风</a>
这个字符串,并且获取齐秦,往事随风这两个文本目标
import re
html = '''<div id="songs-list">
<h2 class="title">经典老歌</h2>
<p class="introduction">
经典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
<a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齐秦">往事随风</a>
</li>
<li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
<li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
<li data-view="5">
<a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
</li>
</ul>
</div>'''
result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result)
print(result.group(1),result.group(2))
<_sre.SRE_Match object; span=(153, 366), match='<li data-view="2">一路上有你</li>\n <li data-vi>
齐秦 往事随风
我们再来获取下第二个<li>
标签
result = re.search('<li.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result)
print(result.group(1),result.group(2))
<_sre.SRE_Match object; span=(153, 260), match='<li data-view="2">一路上有你</li>\n <li data-vi>
任贤齐 沧海一声笑
如果我们去掉匹配模式re.S呢?会有什么反应?我们来看下
result = re.search('<li.*?singer="(.*?)">(.*?)</a>',html)
print(result)
print(result.group(1),result.group(2))
<_sre.SRE_Match object; span=(389, 448), match='<li data-view="6"><a href="/4.mp3" singer="beyond>
beyond 光辉岁月
可以看到它匹配到了beyond这个标签,这个li
标签是没有换行符的
re.findall
搜索字符串,以列表形式返回全部能匹配的字符串。
如下所示,我们查找所有含有<href>
标签的<li>
标签内容
import re
html = '''<div id="songs-list">
<h2 class="title">经典老歌</h2>
<p class="introduction">
经典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
<a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齐秦">往事随风</a>
</li>
<li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
<li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
<li data-view="5">
<a href="/6.mp3" singer="邓丽君">但愿人长久</a>
</li>
</ul>
</div>'''
result = re.findall('<li.*?href.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result)
[('任贤齐', '沧海一声笑'), ('齐秦', '往事随风'), ('beyond', '光辉岁月'), ('陈慧琳', '记事本'), ('邓丽君', '但愿人长久')]
re.sub
替换字符串中每一个匹配的子串后返回替换后的字符串。
import re
content = 'hello 123456 world this is regex demo'
result = re.sub('\d+','', content)
print(result)
hello world this is regex demo
我们可以看到这里我们把数字全部给替换掉了。
re.compile
将正则字符串编译成正则表达式对象
import re
content = '''Hello 1234567 World_This
is a Regex Demo'''
pattern = re.compile('Hello.*Demo', re.S)
result = re.match(pattern, content)
#result = re.match('Hello.*Demo', content, re.S)
print(result)
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>
一般我们可以使用re.compile把正则表达式变成一个对象,方便复用。
实战练习
爬取豆瓣读书,最受关注图书榜:https://book.douban.com/chart?icn=index-topchart-nonfiction
import requests
import re
response = requests.get('https://book.douban.com/chart?icn=index-topchart-nonfiction')
pattern = re.compile('<li.*?media\sclearfix.*?<a.*?fleft.*?>(.*?)</a>.*?<p.*?subject-abstract.*?>(.*?)</p>',re.S)
result = re.findall(pattern, response.content.decode('utf-8'))
if result:
for item in result:
name, auther = item
name = re.sub('\s','',name) # 去掉换行和空格
auther = re.sub('\s','',auther) # 去掉换行和空格
print(name,auther)
鱼翅与花椒 [英]扶霞·邓洛普/2018-7/上海译文出版社/48/平装
今日简史 [以]尤瓦尔·赫拉利/2018-8/中信出版集团/68/平装
往事与随想 [俄]赫尔岑/2018-8/后浪丨四川人民出版社/280.00元/精装
邻人之妻 [美]盖伊·特立斯/2018-7/上海人民出版社/78.00元/精装
铁道之旅 [德]沃尔夫冈•希弗尔布施(WolfgangSchivelbusch)/2018-7/世纪文景|上海人民出版社/59.00元/精装
扫地出门 [美]马修·德斯蒙德/2018-7/理想国|广西师范大学出版社/68.00/平装
会赚钱的妈妈 [美]克丽丝特尔·潘恩/CrystalPaine/2018-7/江西人民出版社/39.80元/平装
潦草 贾行家/2018-8/理想国∣上海三联书店/49.00/平装
伟大的海 [英]大卫‧阿布拉菲亚/2018-7-1/社会科学文献出版社/168/精装
天长地久 龙应台/2018-8-1/湖南文艺出版社/58.00/平装