🛒 Apriori算法演示

关联规则挖掘 - 发现频繁项集和关联规则

📚 算法原理

什么是Apriori算法?

Apriori算法是一种经典的关联规则挖掘算法,用于从交易数据中发现频繁项集(经常一起出现的商品组合)。

核心思想

Apriori原理(先验原理):

  • 如果一个项集是频繁的,那么它的所有子集也一定是频繁的
  • 如果一个项集是非频繁的,那么它的所有超集也一定是非频繁的

例子:如果 {面包, 牛奶} 不是频繁项集,那么 {面包, 牛奶, 鸡蛋} 也不可能是频繁项集。

算法步骤

步骤1:扫描数据库,找出所有1-项集的频繁项集

统计每个单独商品出现的次数,计算支持度

步骤2:根据最小支持度过滤

只保留支持度 ≥ 最小支持度的1-项集

步骤3:生成候选k-项集(k≥2)

将频繁(k-1)-项集进行连接,生成候选k-项集

步骤4:剪枝

删除候选k-项集中包含非频繁(k-1)-项集的项集

步骤5:扫描数据库,计算支持度

统计每个候选k-项集在数据库中的出现次数

步骤6:重复步骤2-5

直到无法生成更多的频繁项集为止

💼 使用场景

🛒 超市购物篮分析

发现"买了A商品的顾客,也经常买B商品"的规律,用于商品推荐和货架摆放优化

📱 电商推荐系统

分析用户购买行为,推荐相关商品,提高销售额

🏥 医疗诊断辅助

发现疾病与症状之间的关联关系,辅助医生诊断

🎓 教育数据分析

分析学生选课模式,优化课程安排

🎮 交互式演示

示例数据:超市购物记录

交易ID 购买的商品

参数设置

0.3
0.6