首页 / 算法 / weka实战004：fp-growth关联规则算法

weka实战004：fp-growth关联规则算法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了weka实战004：fp-growth关联规则算法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1408字，纯文字阅读大概需要3分钟。

内容图文

apriori算法的计算量太大，如果数据集略大一些，会比较慢，非常容易内存溢出。

我们可以算一下复杂度：假设样本数有N个，样本属性为M个，每个样本属性平均有K个nominal值。

1. 计算一项频繁集的时间复杂度是O(N*M*K)。

2. 假设具有最小支持度的频繁项是q个，根据它们则依次生成一项频繁集，二项频繁集，....，r项频繁集合，它们的元素数量分别是：c(q, 1), c(q,2), ...,c(q, r)。那么频繁集的数量是极大的，单机肯定不能支持，比如说，假设q=10000--其实很小，电商/零售商的数据比这大太多了--此时生成的二项频繁集合的元素数量是5千万，三项频繁集超过1000亿... 打住吧，不要再往下算了...

3. 如果transaction有100万个，这也不算多，但计算二项频繁集的关联规则就要扫描数据库100万*5千万。

所以快速算法是必须，否则搞不下去。

fp-growth就是一种快速算法，设计非常巧妙，它的流程是这样的：

1. 计算最小支持度频繁项，并按照支持度从大到小排列，形如{‘f‘:100, ‘c‘:84, ‘d‘:75, ‘a‘:43, ‘q‘:19, ...}

2. 把transaction的所有记录，都按照最小支持度频繁项进行排列，如果没有某个频繁项，就空下来，于是，transaction就是如下的形式：

{‘f‘, ‘d‘, ‘q‘, ....} //前面是频繁项，后面是非频繁项

{‘c‘, ‘d‘, ‘a‘, ...}

...

3. 然后，建立一个fp-tree，树结构：

3.1 树的根节点是null

3.2 把transaction的记录向树结构做插入：

3.2.1 第一次插入{‘f‘, ‘d‘, ‘q‘, ....}，此时null的子节点没有‘f‘，那就建立一个名为‘f‘的节点，将它的次数计为1，然后将这个transaction的id存储在节点。

3.2.2 第二次插入{‘c‘, ‘d‘, ‘a‘, ...}，此时null的子节点没有‘c‘，那就建立一个名为‘f‘的节点，将它的次数计为1，然后将这个transaction的id存储在节点。

3.2.3 以此类推，继续插入其他所有记录，如果遇到节点已经存在，把节点次数+1，再把transaction加入到节点。

3.2.4 当所有的transaction被加入到fp-tree之后，fp-tree的第一层子节点有若干个，就把所有transaction的第一个元素进行了分类。

3.2.5 再按照这个方式，再对所有transaction的第二个元素进行分类，也就是在fp-tree的根节点的子节点进行上述3.2.1~3.2.3的操作。

3.2.6 知道将所有transaction分到不在有符合最小支持度的元素为止。这样fp-tree就建成了。

3.3 计算关联规则，这就是很简单啦，凡是需要计算的频繁项集合，都在fp-tree上按照支持度列出来了，从根节点挨个往下薅就行了，而且，再也不需要遍历所有的transaction了，计算量大大减少。

3.4 fp-tree的结构，很容易拆分到并行或者分布式计算。

原文：http://blog.csdn.net/lizhe_dashuju/article/details/45948671

内容总结

以上是互联网集市为您收集整理的weka实战004：fp-growth关联规则算法全部内容，希望文章能够帮你解决weka实战004：fp-growth关联规则算法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1103001.html

来源：【匿名】

【上一篇】算法笔记_206:第五届蓝桥杯软件类决赛真题(Java语言A组)【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【weka实战004：fp-growth关联规则算法】教程文章相关的互联网学习教程文章

关联规则之FpGrowth算法【代码】【图】

Aprori算法利用频繁集的两个特性，过滤了很多无关的集合，效率提高不少，但是我们发现Apriori算法是一个候选消除算法，每一次消除都需要扫描一次所有数据记录，造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集，效率比Aprori算法高很多。　　FpGrowth算法通过构造一个树结构来压缩数据记录，使得挖掘频繁项集只需要扫描两次数据记录，而且该算法不需要生成候选集合，所以效率会比较高。我们还是以...

Python 实现关联规则分析Apriori算法【代码】【图】

# -*- coding:utf-8 -*-import sysreload(sys) sys.setdefaultencoding("utf8")def load_data_set():data_set = [[‘beer‘, ‘baby diapers‘, ‘shorts‘], [‘baby diapers‘, ‘shorts‘], [‘baby diapers‘, ‘milk‘], [‘beer‘, ‘baby diapers‘, ‘shorts‘], [‘beer‘, ‘milk‘], [‘baby diapers‘, ‘milk‘], [‘beer‘, ‘milk‘], [‘beer‘, ‘baby diapers‘, ‘milk‘, ‘shorts‘], [‘beer‘, ‘baby diap...

weka实战004：fp-growth关联规则算法

apriori算法的计算量太大，如果数据集略大一些，会比较慢，非常容易内存溢出。我们可以算一下复杂度：假设样本数有N个，样本属性为M个，每个样本属性平均有K个nominal值。1. 计算一项频繁集的时间复杂度是O(N*M*K)。2. 假设具有最小支持度的频繁项是q个，根据它们则依次生成一项频繁集，二项频繁集，....，r项频繁集合，它们的元素数量分别是：c(q, 1), c(q,2), ...,c(q, r)。那么频繁集的数量是极大的，单机肯定不能支持，比如说，...

算法问题：从数据集中按规则取指定数量的数据集合

遇到一个算法问题，一直不得求解，恳请大神指点！现有数据：29,'b' => 11,'c' => 33,'d' => 84,'e' => 46,'f' => 67,'g' => 19,'h' => 18,'i' => 88,'j' => 8,'k' => 54,'l' => 86,'m' => 88,'n' => 29,'o' => 96,'p' => 1,'q' => 4,'r' => 100,'s' => 89,'t' => 44,'u' => 53,'v' => 68,'w' => 12,'x' => 54,'y' => 23,'z' => 78, ); ?> 其中$data包含100组数据，每组数据由字母组成，数量和内容都是随机的。其中$times是每个字母...

CSS规则层叠时的优先级算法

CSS 规则的优先级是Web前端开发人员必须理解的一个概念，我们常用的添加样式的方法有4种。1、inline style 2、embeded style 3、external style 4、user style inline style是丑陋的，它们穿梭在HTML文档中，与HTML元素扭成一团，给Web前端开发人员造成了许多麻烦。它们往往以这样的面目出现： <p style="color:red;">This is a paragraph.</p>embeded style比inline style绅士一些，它们也寄宿在HTML文档中，但是它们不屑于与...

如何理解关联规则apriori算法【图】

理解关联规则apriori算法：Apriori算法是第一个关联规则挖掘算法，也是最经典的算法，它利用逐层搜索的迭代方法找出数据库中项集的关系，以形成规则，其过程由连接【类矩阵运算】与剪枝【去掉那些没必要的中间结果】组成。理解关联规则apriori算法：一、概念表1 某超市的交易数据库交易号TID顾客购买的商品交易号TID顾客购买的商品T1bread, cream, milk, teaT6bread, teaT2bread, cream, milkT7beer, milk, teaT3cake, milkT8br...

数据挖掘算法之-关联规则挖掘(AssociationRule)（购物篮分析）

在各种数据挖掘算法中，关联规则挖掘算是比较重要的一种，尤其是受购物篮分析的影响，关联规则被应用到很多实际业务中，本文对关联规则挖掘做一个小的总结。首先，和聚类算法一样，关联规则挖掘属于无监督学习方法，它描述的是在一个事物中物品间同时出现的在各种数据挖掘算法中，关联规则挖掘算是比较重要的一种，尤其是受购物篮分析的影响，关联规则被应用到很多实际业务中，本文对关联规则挖掘做一个小的总结。首先，和聚类算...

关联规则分析 Apriori 算法简介与入门【图】

关联规则的几个概念：关联规则是形如 X -> Y 的蕴含式，表示通过 X 可以推导出 Y，X称为关联规则的左部（Left Hand Side，LHS），Y 称为关联规则的右部（Right Hand Side，RHS）。关联规则有两个指标，分别是支持度（Support）和置信度（Confidence）。关联规则A -> B 的支持度（support）= P(AB)，指的是事件 A 和事件 B 同时发生的概率。置信度（confidence） = P(B|A) = P(AB) / P(A)，指的是发生事件A的基础上，发生事件B的概...

c3算法：python多继承查找规则

从python3开始，python多重继承的MRO算法开始唯一使用：C3算法。（此篇只讲c3算法，python之前版本使用的算法暂且不提） c3算法的核心内容是 merge() 合并。 L(Child(Base1，Base2))= [Child + merge(L(Base1), L(Base2), Base1Base2)] L(object)= [object] merge():merge中列表都为空，则返回[]。若列表不为空，则按顺序，依次取出列表中的首个数据 X ，和其余的列表进行对比： 1). 如其余的列表（除却每个列表中的首个数据，剩余...

结构与算法(04)：排序规则与查找算法【代码】【图】

本文源码：GitHub·点这里 || GitEE·点这里一、递归算法递归就是方法自己调用自己,每次调用时传入不同的变量,可以让代码变得简洁。递归算法在计算机科学中是指一种通过重复将问题分解为同类的子问题而解决问题的方法，递归式方法可以被用于解决很多的计算机科学问题，因此它是计算机科学中十分重要的一个概念。基础案例：通过递归打印数据； public class M01_Recursion {public static void main(String[] args) {printNum(3);...

策略模式（封装算法和规则）【图】

策略模式就是用来封装算法的，但在实践中，我们发现可以用它来封装几乎任何类型的规则，只要在分析过程中听到需要在不同时间应用不同的业务规则，就可以考虑使用策略模式处理这种变化的可能性。

一列数的规则如下 : 1 、 1 、 2 、 3 、 5 、 8 、 13 、 21 、 34…… 求第 30 位数是多少，用递归算法实现

方法定义public static int number(int i){if (i < 0){return 0;}else if (i <= 2){return 1;}else{return number(i - 1) + number(i - 2);}} 方法调用int[] aa= { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30 };foreach (var a in aa){Console.WriteLine(number(a));}Console.WriteLine(number(30));Console.ReadLine();

关联规则算法

apriori算法参考链接： https://www.cnblogs.com/pinard/p/6293298.html https://www.cnblogs.com/lsqin/p/9342926.html https://blog.csdn.net/antkillerfarm/article/details/60880477# Apriori算法 #自底向上，是否可以改进为自顶向下，先拆分，再频数统计 #首先根据支持度将各元素中低于支持度的子元素删除，再计算？ """ 由于Apriori算法假定项集中的项是按字典序排序的，而集合本身是无序的，所以我们在必要时需要进行set和...

php – 用于将数组数据准备到另一个结构以使用某些规则呈现定义的HTML输出的算法【代码】

拜托,很长一段时间我没有成功找到解决方案(对我来说非常困难)的问题,我非常感谢任何帮助： 1)我有像这样的简单数组中的数据,没有问题：$data = array(array('id => 1', 'name' => 'Some name 1'),array('id => 2', 'name' => 'Some name 2'),array('id => 3', 'name' => 'Some name 3'),... );2)但我必须在上面呈现数据到HTML结构理论上非常类似于树结构,其中每个父节点有最多4个叶子,并且每个节点可以成为接下来4个子节点的父节点...

Three.js 绘图之不规则路径 3D 墙体生成算法

HTML5 是当前最流行的 Web 前端开发技术，其中最大的改变即是 Canvas 对象在各大浏览器平台中变得通用，在 HTML5 流行之前在 Web 端显示三维图形有很多种技术，但各种技术之间存在很大区别，大多还需要安装专门的插件，给程序开发、部署都带来不少难题。Three.js 是支持 HTML5 标准的一套 JS 3D 开发库，作者近期基于 Three.js 开发了一套 3D 建筑模型设计系统，开发过程中遇到并解决了不少实际应用中的难题，本 Chat 讨论的话题是...

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / weka实战004：fp-growth关联规则算法

weka实战004：fp-growth关联规则算法

内容导读

内容图文

内容总结

内容备注

内容手机端

【weka实战004：fp-growth关联规则算法】教程文章相关的互联网学习教程文章

关联规则之FpGrowth算法【代码】【图】

Python 实现关联规则分析Apriori算法【代码】【图】

weka实战004：fp-growth关联规则算法

算法问题：从数据集中按规则取指定数量的数据集合

CSS规则层叠时的优先级算法

如何理解关联规则apriori算法【图】

数据挖掘算法之-关联规则挖掘(AssociationRule)（购物篮分析）

关联规则分析 Apriori 算法简介与入门【图】

c3算法：python多继承查找规则

结构与算法(04)：排序规则与查找算法【代码】【图】

策略模式（封装算法和规则）【图】

一列数的规则如下 : 1 、 1 、 2 、 3 、 5 、 8 、 13 、 21 、 34…… 求第 30 位数是多少，用递归算法实现

关联规则算法

php – 用于将数组数据准备到另一个结构以使用某些规则呈现定义的HTML输出的算法【代码】

Three.js 绘图之不规则路径 3D 墙体生成算法

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程