爬虫之正则表达式-CSDN博客

本文链接：https://blog.csdn.net/weixin_45729831/article/details/121383887

import re
# findall:匹配字符串中所有符合正则的内容
lst = re.findall(r"\d+","我的电话是：17347912348")
print(lst)

#finditer:匹配字符串中所有的内容【返回的是迭代器】
#从迭代器中拿到内容需要.group
it = re.finditer(r"\d+","我的电话是：17347912348,我的QQ是：2239602082")
for i in it:
      print(i.group())

#search 找到一个结果就返回 返回的结果是match对象，拿数据需要.group()
s = re.search(r"\d+","我的电话是：17347912348,我的QQ是：2239602082")
print(s.group())

#match  从头开始匹配 相当于（^\d+） search 全文匹配
#这里 运行 会显示'NoneType' object has no attribute 'group' 因为match是从头开始匹配的
s = re.match(r"\d+","我的电话是：17347912348,我的QQ是：2239602082")
print(s.group())

# 预加载正则表达式
obj = re.compile(r"\d+")
ret = obj.finditer("我的电话是：17347912348,我的QQ是：2239602082")
for it in ret:
      print(it.group())

ret = obj.findall("呵呵哒，我就不信你不换我100020")
print(ret)

s = """
<div class='西游记'><span id='1'>吴承恩</span></div>
<div class='红楼梦'><span id='2'>曹雪芹</span></div>
<div class='三国演义'><span id='3'>罗贯中</span></div>
"""

#re.S : 让.能匹配换行符
# (?P<分组名字>正则) 可以单独从正则匹配的内容中进一步提取内容
obj = re.compile(r"<div class='.*?'><span id='(?P<id>\d+)'>(?P<wa>.*?)</span></div>",re.S)
result = obj.finditer(s)
for it in result:
      print(it.group("wa"))
      print(it.group("id"))

上面是简单的代码训练