首页 / 算法 / 数据挖掘算法：关联分析二（FP-tree算法）

数据挖掘算法：关联分析二（FP-tree算法）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了数据挖掘算法：关联分析二（FP-tree算法），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1308字，纯文字阅读大概需要2分钟。

内容图文

三.FP-tree算法

　　下面介绍一种使用了与Apriori完全不同的方法来发现频繁项集的算法FP-tree。FP-tree算法在过程中没有像Apriori一样产生候选集，而是采用了更为紧凑的数据结构组织tree, 再直接从这个结构中提取频繁项集。FP-tree算法的过程为：

首先对事务中的每个项计算支持度，丢弃其中非频繁的项，每个项的支持度进行倒序排序。同时对每一条事务中的项也按照倒序进行排序。

根据每条事务中事务项的新顺序，依此插入到一棵以Null为根节点的树中。同时记录下每个事务项的支持度。这个过程完成之后，我们就得到了棵FP-tree树结构。

对构建完成的FP-tree，从树结构的上方到下方对每个项，将先前的路径转化为条件FP-tree。

根据每棵条件FP-tree，找出所有频繁项集。

这个对FP-tree算法过程的描述比较抽象，我们通过下面这个例子具体地了解一下FP-tree算法是如何找到频繁项集的。

(source: 数据挖掘：概念与技术Jiawei, Han)

首先对实务中的所有项集计算支持度，然后按照倒序排序，如下图中的绿表所示。然后对每条事务中的项也按照这个倒序，重新排列。例如，对T100这个事务，原来是无序的Ⅰ1, Ⅰ2, Ⅰ5, 但因为Ⅰ2的支持度按照倒序排列在Ⅰ1之前，因此重新排序之后的顺序为Ⅰ2,Ⅰ1,Ⅰ5。经过重新排序后的事务的项集如下表中的第三列所示。

重新扫描事务库，按照重新排序的项集的顺序依次插入以NULL为根节点的树中。对事务T100, 依次创建Ⅰ2,Ⅰ1,Ⅰ5三个结点，然后可以形成一条NULL→Ⅰ2→Ⅰ1→Ⅰ5的路径，该路径上所有结点的频度计数记为1。对事务T200，FP-tree中已经存在了结点Ⅰ2，于是形成一条NULL→Ⅰ2→Ⅰ4的路径，同时创建一个Ⅰ4的节点。此事，Ⅰ2结点上的频度计数增加1，记为2，同时结点Ⅰ4的频度计数记为1。按照相同的过程，扫描完库中的所有事务之后可以得到下图的树结构。

对于构建完成的FP-tree，从树的底部开始依次构建每个项的条件FP-tree。首先我们在上图中找到节点Ⅰ5，发现能够达到Ⅰ5的路径有两条{ Ⅰ2，Ⅰ1，Ⅰ5 :1}和{ Ⅰ2，Ⅰ1，Ⅰ3，Ⅰ5 :1}。

基于这两天路径来构造Ⅰ5的条件tree如同下图所示，其中Ⅰ3要被舍去，因为这里Ⅰ3的计数为1不能满足频繁项集的条件。然后用Ⅰ5的前缀{ Ⅰ2，Ⅰ1：2}列举所有与后缀Ⅰ5的组合，最终得到{Ⅰ2，Ⅰ5 }，{ Ⅰ2，Ⅰ1 }和{Ⅰ2，Ⅰ1，Ⅰ5 }三个频繁项集。

对所有项执行上述步骤，我们可以得到所有项产生的频繁项集。

https://www.cnblogs.com/zhengxingpeng/p/6679280.html

优缺点评价：

FP-tree算法相对于Apriori算法，时间复杂度和空间复杂都有了显著的提高。但是对海量数据集，时空复杂度仍然很高，此时需要用到数据库划分等技术。

原文：https://www.cnblogs.com/yuanninesuns/p/8022337.html

内容总结

以上是互联网集市为您收集整理的数据挖掘算法：关联分析二（FP-tree算法）全部内容，希望文章能够帮你解决数据挖掘算法：关联分析二（FP-tree算法）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1066889.html

来源：【匿名】

【上一篇】算法第三章上机实践报告【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【数据挖掘算法：关联分析二（FP-tree算法）】教程文章相关的互联网学习教程文章

数据挖掘算法：DBSCAN算法的C++实现【图】

(期末考试快到了，所以比较粗糙，请各位读者理解。。)一、概念DBSCAN是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。低密度区域中的点被视为噪声而忽略，因此DBSCAN不产生完全聚类。二、伪代码1 将所有点标记为核心点、边界点和噪声点。2 删除噪声点。3 为距离在Eps之内的所有核心点之间赋予一条边。4 每组连通的核心点形成一个簇。5 将每个边界点指派到一个与之关联的核心点的簇中。...

机器学习/数据挖掘/算法岗位面试题汇总

1、过拟合和欠拟合怎么判断，如何解决？答：主要可以通过训练误差和测试误差入手判断是否过拟合或欠拟合。一般而言训练误差很低，但是测试误差较高，过拟合的概率较大，如果训练误差和测试误差都很高，一般是欠拟合。过拟合可以从增加样本量，减少特征数，降低模型复杂度等方面入手，实际的例子比如线性回归中，对于几十个样本的数据点就没必要用几十个变量去拟合。欠拟合则反之，需要考虑模型是否收敛，特征是否过少，模型是否过于...

机器学习与数据挖掘中的十大经典算法

机器学习与数据挖掘中的十大经典算法背景：top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告，会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好，开始着手解决这个事情。找了一系列的大牛（都是数据挖掘的大牛），都觉得想法很好，但是都不愿自己干。原因估计有一下几种：1.确实很忙2.得罪人3.一系列工作很繁琐等等。最后和明尼苏达大学的Vipin Kumar教授一起把这件事情承担下来。先是请数据...

数据挖掘十大算法

大数据时代数据挖掘十大经典算法不不过选中的十大算法，事实上參加评选的18种算法。实际上随便拿出一种来都能够称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。1.C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的长处。并在下面几方面对ID3算法进行了改进：1)用信息增益率来选择属性。克服了用信息增益选择属性时偏向选择取值多的属性的不足；2)在树构造过程中进行...

K-均值算法（数据挖掘无监督学习）【代码】【图】

一、无监督学习　　1、聚类：是一个将数据集中在某些方面相似的数据成员进行分类组织的过程。因此，一个聚类就是一些数据实例的集合。聚类技术经常被称为无监督学习。二、K-均值聚类　　1、k—均值算算法：是发现给定数据集k个簇的算法　　2、步骤：　　　　1）、随机选取k个数据点作为初始的聚类中心（要求发现k个簇）。　　　　2）、把每个数据点分配给距离它最近的聚类中心（对图中的所有点求到这K个种子点的距离，假如点P离种子...

炼数_云计算_hadoop大数据挖掘_机器学习_推荐系统_算法_视频教程分享【图】

300G炼数_云计算_hadoop大数据挖掘_机器学习_推荐系统_算法_视频教程(高清)?全网炼数_云计算_hadoop大数据挖掘_机器学习_推荐系统_算法_视频教程等高端课程，最牛B的集合，基础入门到精通项目实战，带你学习大数据，带你吊炸天！1.机器人学习2.大数据的统计学基础3.大数据的矩阵基础4.SAS数据分析视频教程5.R语言全套视频教程6.Clementine视频教程7.数据挖掘教程8.数据分析与SPSS（完整）共12周9.大数据快速数据挖掘平台RapidMiner...

数据挖掘实践（37）：算法基础（九）K-Means(聚类)算法【代码】【图】

0 简介0.1 主题0.2 目标0.2.1 能掌握聚类的距离计算方式0.2.2 能够掌握聚类的各种方式1 聚类定义2 距离计算与相似度方法总结2.1 距离算法2.2 余弦相似度与Pearson相似度3 K-Means算法过程3.1 算法过程 3.2 代码实现# 导入包import numpy as np import sklearn from sklearn.datasets import make_blobs # 导入产生模拟数据的方法from sklearn.cluster import KMeans # 导入kmeans 类# 1. 产生模拟数据；random_state此参数让结果...

数据挖掘算法：关联分析二（FP-tree算法）

三.FP-tree算法　　下面介绍一种使用了与Apriori完全不同的方法来发现频繁项集的算法FP-tree。FP-tree算法在过程中没有像Apriori一样产生候选集，而是采用了更为紧凑的数据结构组织tree, 再直接从这个结构中提取频繁项集。FP-tree算法的过程为：首先对事务中的每个项计算支持度，丢弃其中非频繁的项，每个项的支持度进行倒序排序。同时对每一条事务中的项也按照倒序进行排序。根据每条事务中事务项的新顺序，依此插入到一棵以Null为...

数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

贝叶斯分类器贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。眼下研究较多的贝叶斯分类器主要有四种，各自是：Naive Bayes、TAN、BAN和GBN。　　贝叶斯网络是一个带有概率凝视的有向无环图，图中的每个结点均表示一个随机变量,图中两结点间若存在着一条弧，则表示这两结点相相应的随机变量是概率相依的，反之则说...

《数据挖掘：理论与算法》学习笔记（六）—神经网络【图】

感知机—神经网络最基本的模型感知机（perceptron）是二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别（取1和0）。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面.其中，w0? 是一个偏差值，这个条件是必要的，如果没有这个条件，切平面会经过原点。我们需要这个偏差值控制决策平面到原点的距离。下图中感知机实现了与门和或门的功能为了求得合适的超平面，我们导入了基于误分类的损...

数据挖掘之Apriori算法详解和Python实现代码分享【图】

关联规则挖掘（Association rule mining）是数据挖掘中最活跃的研究方法之一，可以用来发现事情之间的联系，最早是为了发现超市交易数据库中不同的商品之间的关系。(啤酒与尿布) 基本概念 1、支持度的定义：support(X-->Y) = |X交Y|/N=集合X与集合Y中的项在一条记录中同时出现的次数/数据记录的个数。例如：support({啤酒}-->{尿布}) = 啤酒和尿布同时出现的次数/数据记录数 = 3/5=60%。 2、自信度的定义：confidence(X-->Y) = |X交...

首页 / 算法 / 数据挖掘算法：关联分析二（FP-tree算法）

数据挖掘算法：关联分析二（FP-tree算法）

内容导读

内容图文

三.FP-tree算法

内容总结

内容备注

内容手机端

【数据挖掘算法：关联分析二（FP-tree算法）】教程文章相关的互联网学习教程文章

数据挖掘算法：DBSCAN算法的C++实现【图】

机器学习/数据挖掘/算法岗位面试题汇总

机器学习与数据挖掘中的十大经典算法

数据挖掘十大算法

K-均值算法（数据挖掘无监督学习）【代码】【图】

炼数_云计算_hadoop大数据挖掘_机器学习_推荐系统_算法_视频教程分享【图】

数据挖掘实践（37）：算法基础（九）K-Means(聚类)算法【代码】【图】

数据挖掘算法：关联分析二（FP-tree算法）

数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

《数据挖掘：理论与算法》学习笔记（六）—神经网络【图】

数据挖掘之Apriori算法详解和Python实现代码分享【图】

Thinking in SQL系列之四：数据挖掘C4.5决策树算法【图】

SQL Server 2008中的9种数据挖掘算法【图】

数据挖掘算法之-关联规则挖掘(AssociationRule)（购物篮分析）

数据挖掘决策树算法ID3通俗演绎【图】

数据挖掘 - 相关标签

分析 - 相关标签

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程