数据挖掘算法相关学习资源源码的下载及资源代码的在线浏览

数据挖掘算法

以下是为您整理出来关于【数据挖掘算法】合集内容，如果觉得还不错，请帮忙转发推荐。

【数据挖掘算法】技术教程文章

MapReduce 支持的部分数据挖掘算法【图】

MapReduce 支持的部分数据挖掘算法MapReduce 能够解决的问题有一个共同特点：任务可以被分解为多个子问题，且这些子问题相对独立，彼此之间不会有牵制，待并行处理完这些子问题后，任务便被解决。在实际应用中，这类问题非常庞大，谷歌在论文中提到了MapReduce 的一些典型应用，包括分布式grep、URL 访问频率统计、Web 连接图反转、倒排索引构建、分布式排序等，这些均是比较简单的应用。下面介绍一些比较复杂的应用。（1）TopK...

数据挖掘算法之关联规则挖掘（二）FPGrowth算法【图】

之前介绍的apriori算法中因为存在许多的缺陷，例如进行大量的全表扫描和计算量巨大的自然连接，所以现在几乎已经不再使用在mahout的算法库中使用的是PFP算法，该算法是FPGrowth算法的分布式运行方式，其内部的算法结构和FPGrowth算法相差并不是十分巨大所以这里首先介绍在单机内存中运行的FPGrowth算法还是使用apriori算法的购物车数据作为例子，如下图所示：TID为购物车项的编号，i1-i5为商品的编号FPGrowth算法的基本思想是，首先...

数据挖掘与算法第三次作业【代码】【图】

练习一：总结列表，元组，字典，集合的联系与区别列表：是Python中最基本的数据结构，序列中的每个元素都分配一个数字- 它的位置，或索引，第一个索引是0，第二个索引是1，依此类推。列表元素可以修改，允许重复项存在，它是有序的：排列顺序不同，两个列表就判定为不相等集合：1.set()为可改集合，frozenset() 是不可改集合 2.不同类型的变量组合 3.不允许重复项 4.无序的：排列顺序不同，只要包含内容相同，就判定为两集合...

数据挖掘算法：DBSCAN算法的C++实现【图】

(期末考试快到了，所以比较粗糙，请各位读者理解。。)一、概念DBSCAN是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。低密度区域中的点被视为噪声而忽略，因此DBSCAN不产生完全聚类。二、伪代码1 将所有点标记为核心点、边界点和噪声点。2 删除噪声点。3 为距离在Eps之内的所有核心点之间赋予一条边。4 每组连通的核心点形成一个簇。5 将每个边界点指派到一个与之关联的核心点的簇中。...

机器学习/数据挖掘/算法岗位面试题汇总

1、过拟合和欠拟合怎么判断，如何解决？答：主要可以通过训练误差和测试误差入手判断是否过拟合或欠拟合。一般而言训练误差很低，但是测试误差较高，过拟合的概率较大，如果训练误差和测试误差都很高，一般是欠拟合。过拟合可以从增加样本量，减少特征数，降低模型复杂度等方面入手，实际的例子比如线性回归中，对于几十个样本的数据点就没必要用几十个变量去拟合。欠拟合则反之，需要考虑模型是否收敛，特征是否过少，模型是否过于...

数据挖掘算法：关联分析二（FP-tree算法）

三.FP-tree算法　　下面介绍一种使用了与Apriori完全不同的方法来发现频繁项集的算法FP-tree。FP-tree算法在过程中没有像Apriori一样产生候选集，而是采用了更为紧凑的数据结构组织tree, 再直接从这个结构中提取频繁项集。FP-tree算法的过程为：首先对事务中的每个项计算支持度，丢弃其中非频繁的项，每个项的支持度进行倒序排序。同时对每一条事务中的项也按照倒序进行排序。根据每条事务中事务项的新顺序，依此插入到一棵以Null为...

传统的数据挖掘算法，主要有哪些？

(1)聚类，又称群分析，是研究(样品或指标)分类问题的一种统计分析方法，针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。企业通过使用聚类分析算法可以进行客户分群，在不明确客户群行为特征的情况下对客户数据从不同维度进行分群，再对分群客户进行特征提取和分析，从而抓住客户特点推荐相应的产品和服务。 (2)分类，类似于聚类，但是...

数据挖掘算法01 - NB【图】

Naive Bayes概率和统计里有哪些需要掌握的概念？随机变量（Random Variable）来描述事件所有可能出现的状态离散型随机变量（Discrete Random Variable）连续型随机变量（Continuous Random Variable）概率分布（Probability Distribution）来描述每个状态出现的可能性联合概率（Joint Probability）边缘概率（Marginal Probability）条件概率说了这么多，不知道你有没有一种感觉，其实概率论研究的就是这些概率之间相互转化的...

数据挖掘算法02 - C4.5【图】

C4.5决策树学习通常包括三个步骤特征选择。选取最优特征来划分特征空间，用信息增益或者信息增益比来选择决策树的生成。ID3、C4.5、CART 剪枝什么是信息熵？随机变量x概率P(x) 表示 x 出现的概率信息量H(x)=?log(P(x)) 信息量是信息论中的一个度量，简单来说就是，当我们观察到某个随机变量的具体值时，接收到了多少信息。而我们接收到的信息量跟发生事件的概率有关。事情发生的概率越大，产生的信息量越小；事情发生的概率越小，...

数据挖掘算法03 - CART【图】

CARTCART 算法另一种常见的决策树是 CART 算法（Classification and Regression Trees，分类与回归树）。这种算法和 ID3、C4.5 相比，主要有两处不同：在分类时，CART 不再采用信息增益或信息增益率，而是采用基尼指数（Gini）来选择最好的特征并进行数据的划分；在 ID3 和 C4.5 决策树中，算法根据特征的属性值划分数据，可能会划分出多个组。而 CART 算法采用了二叉树，每次把数据切成两份，分别进入左子树、右子树。当然，CART...

1
2
下一页
共 2 页
共 20 条