FP-Growth 算法演示 | 必学必会演示

📚 算法原理

什么是FP-Growth算法？

FP-Growth（Frequent Pattern Growth）算法是一种高效的频繁项集挖掘算法，它通过构建FP-tree（频繁模式树）数据结构来压缩数据，避免重复扫描数据库。

核心思想

FP-Growth的优势：

只需要扫描数据库两次（Apriori需要多次扫描）
使用FP-tree压缩数据，减少内存占用
采用分治策略，递归挖掘频繁模式
不需要生成候选项集，效率更高

算法步骤

步骤1：第一次扫描数据库，构建频繁1-项集

统计每个商品的支持度，按支持度降序排序

步骤2：第二次扫描数据库，构建FP-tree

对每个事务，按照频繁1-项集的顺序重新排序，插入FP-tree

步骤3：构建条件模式基（Conditional Pattern Base）

从FP-tree中提取每个频繁项的条件模式基

步骤4：构建条件FP-tree

根据条件模式基构建条件FP-tree

步骤5：递归挖掘

在条件FP-tree上递归挖掘频繁模式

FP-tree结构

FP-tree的特点：

根节点：标记为"null"
内部节点：包含项名和支持度计数
头表（Header Table）：指向FP-tree中每个项的链接
相同项通过链接连接，形成链表

⚖️ FP-Growth vs Apriori

算法对比

特性	Apriori	FP-Growth
数据库扫描次数	多次（每次迭代一次）	仅2次
候选项集生成	需要生成和测试	不需要
数据结构	简单的集合	FP-tree（压缩树）
内存使用	较高（存储所有候选项集）	较低（FP-tree压缩数据）
适用场景	小到中等数据集	大数据集，效率更高

💼 使用场景

🛒 大规模购物篮分析

处理大型超市的海量交易数据，快速发现商品关联规则

📊 网站日志分析

分析用户浏览路径，优化网站结构和推荐策略

🔍 生物信息学

发现基因序列中的频繁模式，研究基因关联

📱 用户行为分析

分析移动应用中的用户操作序列，改进产品设计

🎮 交互式演示

示例数据：超市购物记录

交易ID	购买的商品

参数设置

最小支持度 (Min Support)

0.3

最小置信度 (Min Confidence)

0.6

频繁1-项集（按支持度降序）

FP-tree 结构可视化

📖 如何阅读FP-tree：

节点格式：每个节点显示"项名"，下方显示"计数 (支持度%)"
路径含义：从根节点到叶子节点的路径代表一个频繁项集
颜色编码：不同颜色的边和节点表示不同的路径分支
节点计数：节点中的数字表示包含该路径的交易数量
交互功能：鼠标悬停在节点上可以查看从根到该节点的完整路径
虚线链接：橙色虚线连接相同项的节点（nodeLink），便于快速遍历

🎬 动画控制

速度: 800ms

准备就绪

根节点 (null)

不同路径分支（颜色区分）

节点链接 (nodeLink)

💡 提示：鼠标悬停节点查看路径详情

🌳 FP-Growth算法演示