📚 算法原理
什么是Apriori算法?
Apriori算法是一种经典的关联规则挖掘算法,用于从交易数据中发现频繁项集(经常一起出现的商品组合)。
核心思想
Apriori原理(先验原理):
- 如果一个项集是频繁的,那么它的所有子集也一定是频繁的
- 如果一个项集是非频繁的,那么它的所有超集也一定是非频繁的
例子:如果 {面包, 牛奶} 不是频繁项集,那么 {面包, 牛奶, 鸡蛋} 也不可能是频繁项集。
算法步骤
步骤1:扫描数据库,找出所有1-项集的频繁项集
统计每个单独商品出现的次数,计算支持度
步骤2:根据最小支持度过滤
只保留支持度 ≥ 最小支持度的1-项集
步骤3:生成候选k-项集(k≥2)
将频繁(k-1)-项集进行连接,生成候选k-项集
步骤4:剪枝
删除候选k-项集中包含非频繁(k-1)-项集的项集
步骤5:扫描数据库,计算支持度
统计每个候选k-项集在数据库中的出现次数
步骤6:重复步骤2-5
直到无法生成更多的频繁项集为止
💼 使用场景
🛒 超市购物篮分析
发现"买了A商品的顾客,也经常买B商品"的规律,用于商品推荐和货架摆放优化
📱 电商推荐系统
分析用户购买行为,推荐相关商品,提高销售额
🏥 医疗诊断辅助
发现疾病与症状之间的关联关系,辅助医生诊断
🎓 教育数据分析
分析学生选课模式,优化课程安排
🎮 交互式演示
示例数据:超市购物记录
| 交易ID | 购买的商品 |
|---|
参数设置
0.3
0.6