首页 / 算法 / 数据挖掘算法经典案例

数据挖掘算法经典案例

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了数据挖掘算法经典案例，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含7765字，纯文字阅读大概需要12分钟。

内容图文

一、数据挖掘定义

1.技术上的定义及含义

数据挖掘（Data Mining）就是从大量的、不全然的、有噪声的、模糊的、随机的实际应用数据中。提取隐含在当中的、人们事先不知道的、但又是潜在实用的信息和知识的过程。

这个定义包含好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。

　　与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。

　　----何为知识从广义上理解。数据、信息也是知识的表现形式，可是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉。好像从矿石中採矿或淘金一样。

原始数据能够是结构化的。如关系数据库中的数据；也能够是半结构化的，如文本、图形和图像数据。甚至是分布在网络上的异构型数据。发现知识的方法能够是数学的。也能够是非数学的；能够是演绎的，也能够是归纳的。

发现的知识能够被用于信息管理，查询优化，决策支持和过程控制等，还能够用于数据自身的维护。

因此，数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。在这样的需求牵引下，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和project技术人员，投身到数据挖掘这一新兴的研究领域。形成新的技术热点。

　　这里所说的知识发现，不是要求发现放之四海而皆准的真理。也不是要去发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明。

实际上，全部发现的知识都是相对的。是有特定前提和约束条件，面向特定领域的，同一时候还要可以易于被用户理解。最好能用自然语言表达所发现的结果。

2.商业角度的定义

数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理，从中提取辅助商业决策的关键性数据。

　　简而言之，数据挖掘事实上是一类深层次的数据分析方法。

数据分析本身已经有非常多年的历史。仅仅只是在过去数据收集和分析的目的是用于科学研究。另外，因为当时计算能力的限制，对大数据量进行分析的复杂数据分析方法受到非常大限制。如今，因为各行业业务自己主动化的实现，商业领域产生了大量的业务数据，这些数据不再是为了分析的目的而收集的，而是因为纯机会的（Opportunistic）商业运作而产生。分析这些数据也不再是单纯为了研究的须要，更主要是为商业决策提供真正有价值的信息，进而

　　获得利润。但全部企业面临的一个共同问题是：企业数据量非常大，而当中真正有价值的信息却非常少，因此从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息，就像从矿石中淘金一样，数据挖掘也因此而得名。

　　因此，数据挖掘能够描写叙述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。

二、数据挖掘十大算法详细介绍

1.C4.5算法

C4.5是做什么的？C4.5 以决策树的形式构建了一个分类器。为了做到这一点，需要给定 C4.5 表达内容已分类的数据集合。

等下，什么是分类器呢？分类器是进行数据挖掘的一个工具，它处理大量需要进行分类的数据，并尝试预测新数据所属的类别。

举个例子吧，假定一个包含很多病人信息的数据集。我们知道每个病人的各种信息，比如年龄、脉搏、血压、最大摄氧量、家族病史等。这些叫做数据属性。

2.K均值聚类算法

它是做什么的呢？K-聚类算法从一个目标集中创建多个组，每个组的成员都是比较相似的。这是个想要探索一个数据集时比较流行的聚类分析技术。

等下，什么是聚类分析呢？聚类分析属于设计构建组群的算法，这里的组成员相对于非组成员有更多的相似性。在聚类分析的世界里，类和组是相同的意思。

举个例子，假设我们定义一个病人的数据集。在聚类分析里，这些病人可以叫做观察对象。我们知道每个病人的各类信息，比如年龄、血压、血型、最大含氧量和胆固醇含量等。这是一个表达病人特性的向量。

3.支持向量机

它是做什么的呢？支持向量机（SVM）获取一个超平面将数据分成两类。以高水准要求来看，除了不会使用决策树以外，SVM与 C4.5算法是执行相似的任务的。

咦？一个超..什么？超平面（hyperplane）是个函数，类似于解析一条线的方程。实际上，对于只有两个属性的简单分类任务来说，超平面可以是一条线的。

4. Apriori 关联算法

它是做什么的？Apriori算法学习数据的关联规则(association rules)，适用于包含大量事务（transcation）的数据库。

什么是关联规则？关联规则学习是学习数据库中不同变量中的相互关系的一种数据挖掘技术。

5.EM 最大期望算法 Expectation Maximization

EM 算法是做什么的？在数据挖掘领域，最大期望算法（Expectation-Maximization,EM）一般作为聚类算法（类似 kmeans 算法）用来知识挖掘。

在统计学上，当估算带有无法观测隐藏变量的统计模型参数时,EM 算法不断迭代和优化可以观测数据的似然估计值。

6.PageRank算法

算法是做什么的？PageRank是为了决定一些对象和同网络中的其他对象之间的相对重要程度而设计的连接分析算法(link analysis algorithm)。

那么什么是连接分析算法呢？它是一类针对网络的分析算法，探寻对象间的关系（也可成为连接）。

举个例子：最流行的 PageRank 算法是 Google 的搜索引擎。尽管他们的搜索引擎不止是依靠它，但 PageRank依然是 Google 用来测算网页重要度的手段之一。

7.AdaBoost 迭代算法

AdaBoost 算法是做什么的？AdaBoost 是个构建分类器的提升算法。

也许你还记得，分类器拿走大量数据，并试图预测或者分类新数据元素的属于的类别。

但是，提升(boost) 指的什么？提升是个处理多个学习算法（比如决策树）并将他们合并联合起来的综合的学习算法。目的是将弱学习算法综合或形成一个组，把他们联合起来创造一个新的强学习器。

强弱学习器之间有什么区别呢？弱学习分类器的准确性仅仅比猜测高一点。一个比较流行的弱分类器的例子就是只有一层的决策树。

另一个，强学习分类器有更高的准确率，一个通用的强学习器的例子就是 SVM。

8.kNN：k最近邻算法

它是做什么的？kNN，或 K 最近邻(k-Nearest Neighbors), 诗歌分类算法。然而，它和我们之前描述的分类器不同，因为它是个懒散学习法。

什么是懒散学习法呢？和存储训练数据的算法不同，懒散学习法在训练过程中不需要做许多处理。只有当新的未被分类的数据输入时，这类算法才会去做分类。

但在另一方面，积极学习法则会在训练中建立一个分类模型，当新的未分类数据输入时，这类学习器会把新数据也提供给这个分类模型。

那么 C4.5，SVM 和 AdaBoost 属于哪类呢？不像 kNN算法，他们都是积极学习算法。

9. Naive Bayes 朴素贝叶斯算法

算法是做什么的？朴素贝叶斯（Naive Bayes）并不只是一个算法，而是一系列分类算法，这些算法以一个共同的假设为前提：

被分类的数据的每个属性与在这个类中它其他的属性是独立的。

独立是什么意思呢？当一个属性值对另一个属性值不产生任何影响时，就称这两个属性是独立的。

10.CART 分类算法

算法是做什么的？ CART 代表分类和回归树(classification and regression trees)。它是个决策树学习方法，同时输出分类和回归树。像 C4.5一样，CART 是个分类器。

分类树像决策树一样么？分类树是决策树的一种。分类树的输出是一个类。

三、数据挖掘经典案例详细介绍

1，啤酒与尿布

全球零售业巨头沃尔玛在对消费者购物行为分析时发现，男性顾客在购买婴儿尿片时，常常会顺便搭配几瓶啤酒来犒劳自己，于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今，“啤酒＋尿布”的数据分析成果早已成了大数据技术应用的经典案例，被人津津乐道。

2，数据新闻让英国撤军

2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件，鼠标点击红点后弹出的窗口则有详细的说明：伤亡人数、时间，造成伤亡的具体原因。密布的红点多达39万，显得格外触目惊心。一经刊出立即引起朝野震动，推动英国最终做出撤出驻伊拉克军队的决定。

数据挖掘算法经典案例 - 文章图片

3，“魔镜”预知石油市场走向

如果你对“魔镜”还停留在“魔镜魔镜，告诉我谁是世界上最美的女人”，那你就真的out了。“魔镜”不仅仅是童话中王后的宝贝，而且是真实世界中的一款神器。其实，“魔镜”是苏州国云数据科技公司的一款牛逼的大数据可视化产品，而且是国内首款喔。

在现在，“魔镜”可以通过数据的整合分析可视化不仅可以得出谁是世界上最美的女人，还能通过价量关系得出市场的走向。在不久前，“魔镜”帮助中石等企业分析数据，将数据可视化，使企业科学的判断、决策，节约成本，合理配置资源，提高了收益。

4，Google成功预测冬季流感

2009年，Google通过分析5000万条美国人最频繁检索的词汇，将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较，并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。

5，微软大数据成功预测奥斯卡21项大奖

2013年，微软纽约研究院的经济学家大卫?罗斯柴尔德（David Rothschild）利用大数据成功预测24个奥斯卡奖项中的19个，成为人们津津乐道的话题。今年罗斯柴尔德再接再厉，成功预测第86届奥斯卡金像奖颁奖典礼24个奖项中的21个，继续向人们展示现代科技的神奇魔力。

内容总结

以上是互联网集市为您收集整理的数据挖掘算法经典案例全部内容，希望文章能够帮你解决数据挖掘算法经典案例所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/600432.html

来源：【匿名】

【上一篇】数据挖掘领域十大经典算法【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【数据挖掘算法经典案例】教程文章相关的互联网学习教程文章

数据挖掘算法：DBSCAN算法的C++实现【图】

(期末考试快到了，所以比较粗糙，请各位读者理解。。)一、概念DBSCAN是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。低密度区域中的点被视为噪声而忽略，因此DBSCAN不产生完全聚类。二、伪代码1 将所有点标记为核心点、边界点和噪声点。2 删除噪声点。3 为距离在Eps之内的所有核心点之间赋予一条边。4 每组连通的核心点形成一个簇。5 将每个边界点指派到一个与之关联的核心点的簇中。...

机器学习/数据挖掘/算法岗位面试题汇总

1、过拟合和欠拟合怎么判断，如何解决？答：主要可以通过训练误差和测试误差入手判断是否过拟合或欠拟合。一般而言训练误差很低，但是测试误差较高，过拟合的概率较大，如果训练误差和测试误差都很高，一般是欠拟合。过拟合可以从增加样本量，减少特征数，降低模型复杂度等方面入手，实际的例子比如线性回归中，对于几十个样本的数据点就没必要用几十个变量去拟合。欠拟合则反之，需要考虑模型是否收敛，特征是否过少，模型是否过于...

机器学习与数据挖掘中的十大经典算法

机器学习与数据挖掘中的十大经典算法背景：top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告，会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好，开始着手解决这个事情。找了一系列的大牛（都是数据挖掘的大牛），都觉得想法很好，但是都不愿自己干。原因估计有一下几种：1.确实很忙2.得罪人3.一系列工作很繁琐等等。最后和明尼苏达大学的Vipin Kumar教授一起把这件事情承担下来。先是请数据...

数据挖掘十大算法

大数据时代数据挖掘十大经典算法不不过选中的十大算法，事实上參加评选的18种算法。实际上随便拿出一种来都能够称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。1.C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的长处。并在下面几方面对ID3算法进行了改进：1)用信息增益率来选择属性。克服了用信息增益选择属性时偏向选择取值多的属性的不足；2)在树构造过程中进行...

K-均值算法（数据挖掘无监督学习）【代码】【图】

一、无监督学习　　1、聚类：是一个将数据集中在某些方面相似的数据成员进行分类组织的过程。因此，一个聚类就是一些数据实例的集合。聚类技术经常被称为无监督学习。二、K-均值聚类　　1、k—均值算算法：是发现给定数据集k个簇的算法　　2、步骤：　　　　1）、随机选取k个数据点作为初始的聚类中心（要求发现k个簇）。　　　　2）、把每个数据点分配给距离它最近的聚类中心（对图中的所有点求到这K个种子点的距离，假如点P离种子...

炼数_云计算_hadoop大数据挖掘_机器学习_推荐系统_算法_视频教程分享【图】

300G炼数_云计算_hadoop大数据挖掘_机器学习_推荐系统_算法_视频教程(高清)?全网炼数_云计算_hadoop大数据挖掘_机器学习_推荐系统_算法_视频教程等高端课程，最牛B的集合，基础入门到精通项目实战，带你学习大数据，带你吊炸天！1.机器人学习2.大数据的统计学基础3.大数据的矩阵基础4.SAS数据分析视频教程5.R语言全套视频教程6.Clementine视频教程7.数据挖掘教程8.数据分析与SPSS（完整）共12周9.大数据快速数据挖掘平台RapidMiner...

数据挖掘实践（37）：算法基础（九）K-Means(聚类)算法【代码】【图】

0 简介0.1 主题0.2 目标0.2.1 能掌握聚类的距离计算方式0.2.2 能够掌握聚类的各种方式1 聚类定义2 距离计算与相似度方法总结2.1 距离算法2.2 余弦相似度与Pearson相似度3 K-Means算法过程3.1 算法过程 3.2 代码实现# 导入包import numpy as np import sklearn from sklearn.datasets import make_blobs # 导入产生模拟数据的方法from sklearn.cluster import KMeans # 导入kmeans 类# 1. 产生模拟数据；random_state此参数让结果...

数据挖掘算法：关联分析二（FP-tree算法）

三.FP-tree算法　　下面介绍一种使用了与Apriori完全不同的方法来发现频繁项集的算法FP-tree。FP-tree算法在过程中没有像Apriori一样产生候选集，而是采用了更为紧凑的数据结构组织tree, 再直接从这个结构中提取频繁项集。FP-tree算法的过程为：首先对事务中的每个项计算支持度，丢弃其中非频繁的项，每个项的支持度进行倒序排序。同时对每一条事务中的项也按照倒序进行排序。根据每条事务中事务项的新顺序，依此插入到一棵以Null为...

数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

贝叶斯分类器贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。眼下研究较多的贝叶斯分类器主要有四种，各自是：Naive Bayes、TAN、BAN和GBN。　　贝叶斯网络是一个带有概率凝视的有向无环图，图中的每个结点均表示一个随机变量,图中两结点间若存在着一条弧，则表示这两结点相相应的随机变量是概率相依的，反之则说...

《数据挖掘：理论与算法》学习笔记（六）—神经网络【图】

感知机—神经网络最基本的模型感知机（perceptron）是二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别（取1和0）。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面.其中，w0? 是一个偏差值，这个条件是必要的，如果没有这个条件，切平面会经过原点。我们需要这个偏差值控制决策平面到原点的距离。下图中感知机实现了与门和或门的功能为了求得合适的超平面，我们导入了基于误分类的损...

数据挖掘之Apriori算法详解和Python实现代码分享【图】

关联规则挖掘（Association rule mining）是数据挖掘中最活跃的研究方法之一，可以用来发现事情之间的联系，最早是为了发现超市交易数据库中不同的商品之间的关系。(啤酒与尿布) 基本概念 1、支持度的定义：support(X-->Y) = |X交Y|/N=集合X与集合Y中的项在一条记录中同时出现的次数/数据记录的个数。例如：support({啤酒}-->{尿布}) = 啤酒和尿布同时出现的次数/数据记录数 = 3/5=60%。 2、自信度的定义：confidence(X-->Y) = |X交...

数据挖掘 - 相关标签

数据挖掘数据挖掘导论数据挖掘的算法数据挖掘入门数据挖掘十大算法数据挖掘算法

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / 数据挖掘算法经典案例

数据挖掘算法经典案例

内容导读

内容图文

1.C4.5算法

2.K均值聚类算法

3.支持向量机

4. Apriori 关联算法

5.EM 最大期望算法 Expectation Maximization

6.PageRank算法

7.AdaBoost 迭代算法

8.kNN：k最近邻算法

9. Naive Bayes 朴素贝叶斯算法

10.CART 分类算法

内容总结

内容备注

内容手机端

【数据挖掘算法经典案例】教程文章相关的互联网学习教程文章

数据挖掘算法：DBSCAN算法的C++实现【图】

机器学习/数据挖掘/算法岗位面试题汇总

机器学习与数据挖掘中的十大经典算法

数据挖掘十大算法

K-均值算法（数据挖掘无监督学习）【代码】【图】

炼数_云计算_hadoop大数据挖掘_机器学习_推荐系统_算法_视频教程分享【图】

数据挖掘实践（37）：算法基础（九）K-Means(聚类)算法【代码】【图】

数据挖掘算法：关联分析二（FP-tree算法）

数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

《数据挖掘：理论与算法》学习笔记（六）—神经网络【图】

数据挖掘之Apriori算法详解和Python实现代码分享【图】

Thinking in SQL系列之四：数据挖掘C4.5决策树算法【图】

SQL Server 2008中的9种数据挖掘算法【图】

数据挖掘算法之-关联规则挖掘(AssociationRule)（购物篮分析）

数据挖掘决策树算法ID3通俗演绎【图】

数据挖掘 - 相关标签

算法 - 相关标签

算法 - 最新教程

算法 - 最热教程