精选_python数据分析（8）——挖掘建模（3）关联规则_源码打包

共5个文件

py：2个

xls：1个

md：1个

版权申诉

python

数据分析

开发语言

数据挖掘

129 浏览量 2022-03-09 16:38:31 上传评论收藏 11KB ZIP 举报

在Python数据分析领域，关联规则是一种重要的数据挖掘技术，主要用于发现数据集中不同项目之间的关系或模式。这个主题在“python数据分析（8）——挖掘建模（3）关联规则”中进行了深入探讨，它属于一系列旨在帮助开发者掌握数据分析核心技能的文章。在本篇中，我们将详细解析关联规则的概念、应用以及Python实现。关联规则学习的目标是找出数据集中频繁出现的项集，这些项集通常以集合的形式表示，如{"商品A", "商品B"}。关联规则通常表述为：“如果事件X发生，那么事件Y发生的概率会增加”。最著名的关联规则挖掘算法包括Apriori和FP-Growth。 Apriori算法是一种迭代的、基于候选集的算法，它首先生成频繁项集，然后从中构建强关联规则。其核心思想是：频繁项集的子集也必须是频繁的。Python中可以使用`mlxtend`库来实现Apriori算法。 FP-Growth算法则采用了不同的策略，它通过构建一个频繁项集的前缀树（FP树），来避免对所有项集进行多次扫描。这大大减少了计算复杂度，特别是在处理大规模数据时。Python中的`pymining`库提供了FP-Growth的实现。关联规则挖掘通常包含以下步骤： 1. 数据预处理：清洗数据，去除异常值，将数据转化为适合挖掘的格式，如二进制表示。 2. 生成频繁项集：根据设定的支持度阈值，找出频繁出现的项目组合。 3. 生成关联规则：基于频繁项集，计算每个规则的置信度，保留满足最小置信度阈值的规则。 4. 规则解释与评估：对生成的规则进行理解和验证，看是否符合业务需求。在“python数据分析（8）——挖掘建模（3）关联规则”中，可能详细讲解了如何使用Python库实现这些步骤，包括数据导入、数据转换、Apriori或FP-Growth算法的应用，以及结果的可视化和解释。此外，源码打包文件`python-data-analysis_8`可能包含了完整的代码示例，供读者实践和理解。关联规则在零售、市场篮子分析、推荐系统等领域有广泛应用。例如，零售商可以通过关联规则发现哪些商品经常一起被购买，从而优化商品摆放，提高销售额。在电影推荐系统中，关联规则可以帮助发现用户可能感兴趣的电影组合。 Python作为强大的数据分析工具，结合各种数据挖掘库，使得关联规则的学习和应用变得简单易行。通过深入学习并实践这个主题，开发者可以提升数据分析能力，解决实际问题。

资源推荐

资源详情

资源评论

收起资源包目录

9959790680843026.zip （5个子文件）

python-data-analysis_8

menu_orders.xls 25KB

cal_apriori.py 910B

LICENSE 1KB

README.md 4KB

apriori.py 2KB

# python数据分析（8）——挖掘建模（3）关联规则 # 1. 常用关联规则算法 ![](http://www.writebug.com/myres/static/uploads/2021/10/19/9df36954780f6f087d0b12c21f86491f.writebug) # 2. Apriori算法 ## 2.1 关联规则和频繁项集 ### 2.1.1 关联规则的一般形式 ![](http://www.writebug.com/myres/static/uploads/2021/10/19/7b5f3934495f52b0b8c3283ca9a5a10c.writebug) ### 2.1.2 最小支持度和最小置信度最小支持度是用户或专家定义的衡量支持度的一个阈值，表示项目集在统计意义上的最低重要性；最小置信度是用户或专家定义的衡量置信度的一个阈值，表示关联规则的可靠性。同时满足最小支持度阈值和最小置信度阈值的规则称作强规则。 ### 2.1.3 项集项集是项的集合。项集的出现频率是所有包含项集的事务计数，又称作绝对支持度或支持度计数。如果项集I的相对支持度满足预定义的最小支持度阈值，则I是频繁项集。 ### 2.1.4 支持度计数 ![](http://www.writebug.com/myres/static/uploads/2021/10/19/c65f787e42f0f86cf204ab211654e67a.writebug) ```python # -*- coding: utf-8 -*- from __future__ import print_function import pandas as pd # 自定义连接函数，用于实现L_{k-1}到C_k的连接 def connect_string(x, ms): x = list(map(lambda i:sorted(i.split(ms)), x)) l = len(x[0]) r = [] for i in range(len(x)): for j in range(i,len(x)): if x[i][:l-1] == x[j][:l-1] and x[i][l-1] != x[j][l-1]: r.append(x[i][:l-1]+sorted([x[j][l-1],x[i][l-1]])) return r # 寻找关联规则的函数 def find_rule(d, support, confidence, ms = u'--'): result = pd.DataFrame(index=['support', 'confidence']) #定义输出结果 support_series = 1.0*d.sum()/len(d) #支持度序列 column = list(support_series[support_series > support].index) #初步根据支持度筛选 k = 0 while len(column) > 1: k = k+1 print(u'\n正在进行第%s次搜索...' %k) column = connect_string(column, ms) print(u'数目：%s...' %len(column)) sf = lambda i: d[i].prod(axis=1, numeric_only = True) #新一批支持度的计算函数 #创建连接数据，这一步耗时、耗内存最严重。当数据集较大时，可以考虑并行运算优化。 d_2 = pd.DataFrame(list(map(sf,column)), index = [ms.join(i) for i in column]).T support_series_2 = 1.0*d_2[[ms.join(i) for i in column]].sum()/len(d) #计算连接后的支持度 column = list(support_series_2[support_series_2 > support].index) #新一轮支持度筛选 support_series = support_series.append(support_series_2) column2 = [] for i in column: #遍历可能的推理，如{A,B,C}究竟是A+B-->C还是B+C-->A还是C+A-->B？ i = i.split(ms) for j in range(len(i)): column2.append(i[:j]+i[j+1:]+i[j:j+1]) cofidence_series = pd.Series(index=[ms.join(i) for i in column2]) #定义置信度序列 for i in column2: #计算置信度序列 cofidence_series[ms.join(i)] = support_series[ms.join(sorted(i))]/support_series[ms.join(i[:len(i)-1])] for i in cofidence_series[cofidence_series > confidence].index: #置信度筛选 result[i] = 0.0 result[i]['confidence'] = cofidence_series[i] result[i]['support'] = support_series[ms.join(sorted(i.split(ms)))] result = result.T.sort_values(['confidence','support'], ascending = False) #结果整理，输出 print(u'\n结果为：') print(result) return result ``` ![](http://www.writebug.com/myres/static/uploads/2021/10/19/4351536a47c743d50e640761bb04512e.writebug)

评论收藏

内容反馈

版权申诉