关联规则算法总结
文章目录
一、Apriori、FP Growth算法原理:
频繁项集的评估标准有:
1.1 Apriori算法原理
频繁项集: 是支持值大于阈值(support)的项集。
关联分析的目的:
- 发现频繁项集:发现满足最小支持度的所有项集;
- 发现关联规则:从频繁项集中提取所有高置信度的规则。
Apriori算法就是基于一个先验:
- 如果某个项集是频繁的,那么它的所有子集也是频繁的;
- 如果一个集合不是频繁项集,则它的所有父集(超集)都不是频繁项集。
Apriori算法流程:
输入:数据集合D,支持度阈值𝛼
输出:最大的频繁k项集
(1)扫描整个数据集,得到所有出现过的数据,作为候选频繁1项集。k=1,频繁0项集为空集。
(2)挖掘频繁k项集:
a) 扫描数据计算候选频繁k项集的支持度;
b) 去除候选频繁k项集中支持度低于阈值的数据集,得到频繁k项集。如果得到的频繁k项集为空,则直接返回频繁k-1项集的集合作为算法