从 OLAP 到 Pandas

原创于 2025-07-13 07:24:55 发布 · 680 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#pandas

Pandas 和 OLAP（如 Mondrian、MDX都用于处理结构化数据，但设计目标和抽象层级不同

一、核心概念对比

OLAP/Mondrian/MDX	Pandas	说明
多维数据集（Cube）	DataFrame	两者都是结构化数据容器，但 DataFrame 是二维表格，多维分析需通过分组 / 透视实现。
维度（Dimension）	索引（Index）或列（Column）	维度用于切片和切块，Pandas 中可通过索引层级或列实现类似功能。
层次结构（Hierarchy）	多级索引（MultiIndex）	两者都支持数据的层次化组织。
MDX 查询（SELECT FROM CUBE）	DataFrame 操作（.query()、[]）	MDX 通过维度导航数据，Pandas 通过标签或条件过滤数据。
切片（Slice）/ 切块（Dice）	索引筛选（loc/iloc）	从多维数据中提取子集的操作类似。
钻取（Drill Down）/ 上卷（Roll Up）	groupby() + 聚合函数	改变分析粒度的操作在 Pandas 中通过分组和聚合实现。

二、基础操作对照

1. 数据结构创建

MDX：从 Cube 中查询数据

SELECT

{[Measures].[Sales], [Measures].[Profit]} ON COLUMNS,

{[Time].[Year].[2023], [Time].[Year].[2024]} ON ROWS

FROM [SalesCube]

Pandas：创建 DataFrame

import pandas as pd

data = {

'Year': [2023, 2023, 2024, 2024],

'Product': ['A', 'B', 'A', 'B'],

'Sales': [100, 200, 150, 250],

'Profit': [20, 40, 30, 50]

}

df = pd.DataFrame(data)

2. 数据筛选（切片）

MDX：筛选 2023 年的数据

SELECT

{[Measures].[Sales]} ON COLUMNS,

[Product].Members ON ROWS

FROM [SalesCube]

WHERE [Time].[Year].[2023]

Pandas：筛选 2023 年的数据

df_2023 = df[df['Year'] == 2023]

3. 数据聚合

MDX：按产品汇总销售额

SELECT

{[Measures].[Sales]} ON COLUMNS,

[Product].Members ON ROWS

FROM [SalesCube]

Pandas：按产品分组求和

df.groupby('Product')['Sales'].sum()

4. 多维分析（透视）

MDX：按年和产品交叉分析销售额

SELECT

{[Measures].[Sales]} ON COLUMNS,

[Product].Members ON ROWS,

[Time].[Year].Members ON PAGES

FROM [SalesCube]

Pandas：使用pivot_table或crosstab

pd.pivot_table(df, values='Sales', index='Product', columns='Year', aggfunc='sum')

三、进阶功能对比

1. 计算成员（Calculated Member）

MDX：计算利润率

WITH MEMBER [Measures].[ProfitRate] AS

[Measures].[Profit] / [Measures].[Sales]

SELECT

{[Measures].[Sales], [Measures].[Profit], [Measures].[ProfitRate]} ON COLUMNS,

[Product].Members ON ROWS

FROM [SalesCube]

Pandas：新增计算列

df['ProfitRate'] = df['Profit'] / df['Sales']

2. 时间智能函数

MDX：同比增长

WITH MEMBER [Measures].[YoY_Sales] AS

([Measures].[Sales] - ([Time].[Year].CurrentMember.PrevMember, [Measures].[Sales]))

/ ([Time].[Year].CurrentMember.PrevMember, [Measures].[Sales])

SELECT

{[Measures].[Sales], [Measures].[YoY_Sales]} ON COLUMNS,

[Time].[Year].Members ON ROWS

FROM [SalesCube]

Pandas：使用shift()计算同比

df['YoY_Sales'] = df['Sales'].pct_change()

3. 层次结构处理

MDX：按时间层次（年→季度→月）钻取

SELECT

{[Measures].[Sales]} ON COLUMNS,

[Time].[Calendar].Children ON ROWS

FROM [SalesCube]

WHERE [Time].[Year].[2023]

Pandas：使用多级索引

df_hier = df.set_index(['Year', 'Product'])

df_hier.loc[2023] # 相当于MDX的切片操作

四、性能与适用场景

场景	OLAP/Mondrian/MDX	Pandas
大数据量（亿级行）	✅ 预计算和聚合优化	❌ 内存限制，需配合 Dask 等工具
即席查询	✅ MDX 灵活表达多维分析	❌ 需编写较多代码
复杂报表	✅ 原生支持维度导航	❌ 需手动实现透视和聚合
数据清洗与转换	❌ 功能有限	✅ 强大的 ETL 能力
机器学习集成	❌ 需导出数据到外部工具	✅ 直接对接 Scikit-learn 等库