python 爬取<span></span>中间标签的内容

最新推荐文章于 2024-12-09 17:46:26 发布

sxf_0123

最新推荐文章于 2024-12-09 17:46:26 发布

阅读量2.1w

点赞数 5

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python 爬取&lt;span&gt;&lt;/span&gt;中间标签的内容

本文链接：https://blog.csdn.net/sxf_123456/article/details/103689379

python 专栏收录该内容

87 篇文章

订阅专栏

本文介绍如何使用Python的Scrapy和Bs4库从HTML中精确提取<span>标签内的文本，包括通过css选择器和正则表达式进行数据抓取的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

# python 爬取<span></span>中间标签的内容
html = """
<div>
    <span class='red'>item1</span>
    <div>
        <span id='s1'>item2</span>
    </div>
</div>
"""
# 方法一:使用 scrapy 的Selector
from scrapy.selector import Selector

# scrapy 的选择器支持 css和xpath选择。下面是css选择器。如果你了解前端JQuery的知识，
# 会发现
t1 = Selector(text=html).css('span.red::text').extract()  # class 用点
print(t1)  # ['item1']
t2 = Selector(text=html).css('span::text').extract()  # 所有span 的内容
print(t2)  # ['item1','item2']
t3 = Selector(text=html).css('span#s1::text').extract()  # id 用#
print(t3)  # ['item2']
t4 = Selector(text=html).css('div>div>span::text').extract()  # div 里边 span
print(t4)  # ['item2']

# 方法二:使用bs4
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
s1 = soup.find('span', attrs={"class": "red"})  # 查找span class为red的字符串
s2 = soup.find_all("span")  # 查找所有的span
result = [span.get_text() for span in s2]
print(result)  # ['item1', 'item2']

1、正则表达式获取<td></td>标签之间的内容

如：<td class="label">行政相对人名称:</td> 获取行政相对人名称:

Name= re.findall('<td class="label">(.*?)</tb>',text)[0]