BeautifuSoup和Pyquery解析库方法比较

最新推荐文章于 2025-01-15 16:30:57 发布

不想打代码了

最新推荐文章于 2025-01-15 16:30:57 发布

阅读量411

点赞数

CC 4.0 BY-SA版权

分类专栏： Python网络爬虫合集（PC+APP）

原文链接：https://www.cnblogs.com/strivepy/p/9253311.html#_label0

Python网络爬虫合集（PC+APP）专栏收录该内容

4 篇文章

订阅专栏

本文介绍使用BeautifySoup和Pyquery库进行网页解析的方法，包括对象初始化、节点属性获取及文本内容获取等关键步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.对象初始化：

BeautifySoup库：

from bs4 import BeautifulSoup 
html = 'html string......'
soup = BeautifulSoup(html, 'lxml')

Pyquery库：

from pyquery import PyQuery as pq
# 以字符串初始化
html = 'html string...'
doc = pq(html)
# 以url初始化
doc = pq(url='https://....')
# 以文件初始化
doc = pq(filename='XXX.html')

2. 节点属性获取：

BeautifuSoup库：

# 在根据节点选择器、方法选择器或者CSS选择器，选择出节点（例如：li）后，两种方法获取属性值
value = li['attr_name']
value = li.attrs['attr_name']

Pyquery库：

# 在根据CSS选择器定位到节点（例如li）后，两种方法获取属性值
value = li.attr.attr_name
value = li.attr('attr_name')

3. 文本内容获取：

BeautifulSoup库：

# 在根据节点选择器、方法选择器或者CSS选择器，选择出节点（例如：li）后，两种方法获取属性值
text = li.string
text = li.get_text()

Pyquery库：

# 在根据CSS选择器定位到节点（例如li）后
text = li.text()

转载于：https://www.cnblogs.com/strivepy/p/9253311.html#_label0

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不想打代码了

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

BeautifulSoup4与pyquery

weixin_43706470的博客

09-10

515

BeautifulSoup4 什么是beautiful soup ：是python的一个HTML或XML的解析库，可以用它来方便的从网页中提取数据 bs4在解析时所依赖的解析器： 1，Python标准库 BeautifulSoup(markup,‘html.parser’) Python内置标准库，执行速度适中，容错能力强 2，lxml HTML解析器 BeautifulSoup(mar...

Beautifulsoup，pyquery、xpath解析库比较

qq_43680223的博客

08-29

2798

俗话说：好记性不如烂笔头，零零碎碎的知识不加以总结归纳，建立知识体系，就会感觉杂乱无章，获得感极低，因此，再次比较三种解析库的常见使用方法。主要参考： BeautifulSoup官方文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc/ pyquery官方文档 https://pythonhosted.org/pyquery/ind...

参与评论您还未登录，请先登录后发表或查看评论

解析库的使用（XPath，BeautifulSoup, pyquery）

10-10

解析库的使用（XPath，BeautifulSoup, pyquery），从崔庆才的《Python3网络开发实战》上总结而来。

【爬虫】学习：正则、Beautiful Soup、Pyquery

myaijarvis notebook

12-24

729

Github python3网络爬虫开发实战第二版——2.5基础爬虫案例实战正则表达式 + 文本 + 多进程版 import requests import logging import re from urllib.parse import urljoin # 拼接路径 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s') BASE_URL = 'https://ssr1

3.4 XPath、Beautiful Soup 与 Pyquery的基本使用总结和比较

学编程的菜恐龙的博客

03-14

1354

简要概述 XPath、Beautiful Soup 与 Pyquery的基本使用总结和比较

python爬虫主流解析库的使用方法——XPath、BuautifulSoup、pyquery

the best messi的博客

08-18

1584

前面学习到了使用正则表达式来实现一个基本的爬虫进行数据的爬取，但是这个正则表达式使用起来还是比较的繁琐，毕竟要写符号啊啥的都太多了，一不留神就容易搞错了，然后导致匹配失败，然后怼着那一坨找半天也不知道到底哪错了，就很烦！由于我们在使用爬虫的时候大多数都是用来爬取网页源代码中的信息，而对于一个HTML网页来说，他其中的逻辑结构还是比较明确的，每一个标签，每一个属性都有其自有的层次关系，我们就可以通过这种关系来获取到我们想要的文本或者属性信息。基于这样一种思想，我们python中提供了功能强大的解析库给我们使用

python Web爬取工具总结 1 ：Requests和BeautifulSoup

hhhparty的博客

09-28

1023

1. 引言近一年接触了不少基于python的Web爬虫系统或工具库，收获不少，需要继续总结提高，所以下面对各类工具的应用方法和特性进行总结。 2. 内容概要根据自己的学习经历，本文涉及内容大致有以下部分： - Requests - beautifuSoup - selinium - urlib - scrapy - pyspider

爬虫四步曲大神一步一步来教你，使用python抓取网页数据并储存

pythonxiaopeng的博客

10-12

6488

爬虫是Python的一个重要的应用，使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据，本文将基于爬取B站视频热搜榜单数据并存储为例，详细介绍Python爬虫的基本流程。如果你还在入门爬虫阶段或者不清楚爬虫的具体工作流程，那么应该仔细阅读本文！第一步：尝试请求首先进入b站首页，点击排行榜并复制链接 https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3 现在启动Jupyter

初试小刀内容提取神器——BeatifulSoup

weixin_43834228的博客

06-30

605

什么是内容提取？说到内容提取，大家会想到爬虫，那爬虫是关注在如何把网页上的内容抓取下来。而今天我们来分享下，当你已经把内容爬下来之后，如何提取出其中你需要的具体信息。以信永中和项目为例，其中有一个功能叫做智能报告，智能报告有一个章节叫做：正文装配，其中正文装配的内容是以Html文档的形式被爬下来的，我们要测试正文内容的正确与否，需要对这个html文档做内容提取。所以，内容提取就是将从网上爬下来的文档（比如带标签的html）进行内容提取。就像java里有Soup这个方法一样，同理，python有Bea

一张表看懂XPath、Beautiful Soup和Pyquery的区别和联系

weixin_47660684的博客

09-22

418

浅谈解析库XPath，bs4和pyquery

12-21

《浅谈解析库XPath，bs4和pyquery》作者：墨非墨菲非菲前几天在CSDN看到一篇帖子，题目是“如何让自己像打王者一样发了疯，拼了命，石乐志的学习”。这里面讲到了阶段性反馈机制，我觉得蛮有意思的，正好前两天用python写了一个scrawler爬取了某XXXX软件上面的挑战答题并自动匹配。在解析题库网页的时候碰到了一系列的问题，把三种解析库都回顾了个遍。借着这个兴奋劲儿，决定码一篇python解析库————lxml，bs4，以及pyquery的简要概述。 :happy: 下面仅仅是我个人的回忆和记录，仅供参考，错误之处还请多多指正。写在前面以上提到的三个是python语言中最

关于xpath、pyquery和beautifulsoup的一点区别---xpath可以**根据文本定位到节点**

gly的博客

02-17

773

关于xpath、pyquery和beautifulsoup的一点区别—xpath可以根据文本定位到节点 #根据两个标签间文字定位节点在使用xpath之前要导入lxml的etree模块，格式是：html = etree.HTML(response.text) 格式化后，得到可以进行xpath处理的文档。于是，进行搜索，比如搜索含有文字为：“hello”的a节点，可以使用： result = ht...

Python爬虫学习笔记（六）——BeautifulSoup和pyquery的使用

weixin_34361881的博客

09-06

728

介绍 BeautifulSoup和pyquery都是用来解析html的库，与昨天学的XPath有很多相似之处，因此就将这两个库放在一起学习 BeautifulSoup库基本用法 from bs4 import BeautifulSoup html = #略 # 初始化BeautifulSoup，第二个参数表示解释器为lxml soup = BeautifulSoup(html, 'lxml')...

beautifulsoup详解_PyQuery详解

weixin_39947812的博客

11-20

173

在之前写的爬虫入门里，PyQuery一笔带过，这次详细地讲一下。（公众号里代码排版会好看些）为什么选择PyQuery？Python爬虫解析库，主流的有 PyQueryBeautifulsoupScrapy Selectors正则表达式。PyQuery和scrapy Selectors都是基于lxml模块，而lxml和正则表达式都是C语言写的，只有Beautifulsoup是用纯Python编写的，...

pyquery和BeautifulSoup的基本用法

DETACH-MENT的博客

12-28

591

from pyqery import PyQuery 选择器熟悉jquery 选择id --> 加#号选择class --> 加. 选择标签名 --> 什么都不用加所有的items 选择器：价格： Title ...

BeautifulSoup4 和 pyquery 的基本用法

子末的博客

09-10

540

CSS选择器：BeautifulSoup4 啰嗦一下我们安装 pip install BeautifulSoup4 #如果安装慢或者报错的话不如在最后面加一个镜像源试一试 -i https://pypi.douban.com/simple 解决一个疑问 BeautifulSoup4是什么东西呢？ Beautiful Soup 和 lxml 一样，Beautiful Soup ...

BeautifulSoup vs 其他解析库：一场“谁是最强解析王”的较量