首页 / 算法 / 数据挖掘算法经典案例
数据挖掘算法经典案例
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了数据挖掘算法经典案例,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含7765字,纯文字阅读大概需要12分钟。
内容图文
![数据挖掘算法经典案例](/upload/InfoBanner/zyjiaocheng/601/5789d89762994fd1a602195ef576299e.jpg)
一、数据挖掘定义
1.技术上的定义及含义
数据挖掘(Data Mining)就是从大量的、不全然的、有噪声的、模糊的、随机的实际应用数据中。提取隐含在当中的、人们事先不知道的、但又是潜在实用的信息和知识的过程。
这个定义包含好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。
----何为知识从广义上理解。数据、信息也是知识的表现形式,可是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉。好像从矿石中採矿或淘金一样。
原始数据能够是结构化的。如关系数据库中的数据;也能够是半结构化的,如文本、图形和图像数据。甚至是分布在网络上的异构型数据。发现知识的方法能够是数学的。也能够是非数学的;能够是演绎的,也能够是归纳的。
发现的知识能够被用于信息管理,查询优化,决策支持和过程控制等,还能够用于数据自身的维护。
因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这样的需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和project技术人员,投身到数据挖掘这一新兴的研究领域。形成新的技术热点。
这里所说的知识发现,不是要求发现放之四海而皆准的真理。也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。
实际上,全部发现的知识都是相对的。是有特定前提和约束条件,面向特定领域的,同一时候还要可以易于被用户理解。最好能用自然语言表达所发现的结果。
2.商业角度的定义
数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。
简而言之,数据挖掘事实上是一类深层次的数据分析方法。
数据分析本身已经有非常多年的历史。仅仅只是在过去数据收集和分析的目的是用于科学研究。另外,因为当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到非常大限制。如今,因为各行业业务自己主动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是因为纯机会的(Opportunistic)商业运作而产生。分析这些数据也不再是单纯为了研究的须要,更主要是为商业决策提供真正有价值的信息,进而
获得利润。但全部企业面临的一个共同问题是:企业数据量非常大,而当中真正有价值的信息却非常少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。
因此,数据挖掘能够描写叙述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
二、数据挖掘十大算法详细介绍
1.C4.5算法
C4.5是做什么的?C4.5 以决策树的形式构建了一个分类器。为了做到这一点,需要给定 C4.5 表达内容已分类的数据集合。
等下,什么是分类器呢? 分类器是进行数据挖掘的一个工具,它处理大量需要进行分类的数据,并尝试预测新数据所属的类别。
举个例子吧,假定一个包含很多病人信息的数据集。我们知道每个病人的各种信息,比如年龄、脉搏、血压、最大摄氧量、家族病史等。这些叫做数据属性。
2.K均值聚类算法
它是做什么的呢?K-聚类算法从一个目标集中创建多个组,每个组的成员都是比较相似的。这是个想要探索一个数据集时比较流行的聚类分析技术。
等下,什么是聚类分析呢?聚类分析属于设计构建组群的算法,这里的组成员相对于非组成员有更多的相似性。在聚类分析的世界里,类和组是相同的意思。
举个例子,假设我们定义一个病人的数据集。在聚类分析里,这些病人可以叫做观察对象。我们知道每个病人的各类信息,比如年龄、血压、血型、最大含氧量和胆固醇含量等。这是一个表达病人特性的向量。
3.支持向量机
它是做什么的呢?支持向量机(SVM)获取一个超平面将数据分成两类。以高水准要求来看,除了不会使用决策树以外,SVM与 C4.5算法是执行相似的任务的。
咦?一个超..什么? 超平面(hyperplane)是个函数,类似于解析一条线的方程。实际上,对于只有两个属性的简单分类任务来说,超平面可以是一条线的。
4. Apriori 关联算法
它是做什么的?Apriori算法学习数据的关联规则(association rules),适用于包含大量事务(transcation)的数据库。
什么是关联规则?关联规则学习是学习数据库中不同变量中的相互关系的一种数据挖掘技术。
5.EM 最大期望算法 Expectation Maximization
EM 算法是做什么的?在数据挖掘领域,最大期望算法(Expectation-Maximization,EM) 一般作为聚类算法(类似 kmeans 算法)用来知识挖掘。
在统计学上,当估算带有无法观测隐藏变量的统计模型参数时,EM 算法不断迭代和优化可以观测数据的似然估计值。
6.PageRank算法
算法是做什么的?PageRank是为了决定一些对象和同网络中的其他对象之间的相对重要程度而设计的连接分析算法(link analysis algorithm)。
那么什么是连接分析算法呢?它是一类针对网络的分析算法,探寻对象间的关系(也可成为连接)。
举个例子:最流行的 PageRank 算法是 Google 的搜索引擎。尽管他们的搜索引擎不止是依靠它,但 PageRank依然是 Google 用来测算网页重要度的手段之一。
7.AdaBoost 迭代算法
AdaBoost 算法是做什么的?AdaBoost 是个构建分类器的提升算法。
也许你还记得,分类器拿走大量数据,并试图预测或者分类新数据元素的属于的类别。
但是,提升(boost) 指的什么?提升是个处理多个学习算法(比如决策树)并将他们合并联合起来的综合的学习算法。目的是将弱学习算法综合或形成一个组,把他们联合起来创造一个新的强学习器。
强弱学习器之间有什么区别呢?弱学习分类器的准确性仅仅比猜测高一点。一个比较流行的弱分类器的例子就是只有一层的决策树。
另一个,强学习分类器有更高的准确率,一个通用的强学习器的例子就是 SVM。
8.kNN:k最近邻算法
它是做什么的?kNN,或 K 最近邻(k-Nearest Neighbors), 诗歌分类算法。然而,它和我们之前描述的分类器不同,因为它是个懒散学习法。
什么是懒散学习法呢?和存储训练数据的算法不同,懒散学习法在训练过程中不需要做许多处理。只有当新的未被分类的数据输入时,这类算法才会去做分类。
但在另一方面,积极学习法则会在训练中建立一个分类模型,当新的未分类数据输入时,这类学习器会把新数据也提供给这个分类模型。
那么 C4.5,SVM 和 AdaBoost 属于哪类呢?不像 kNN算法,他们都是积极学习算法。
9. Naive Bayes 朴素贝叶斯算法
算法是做什么的?朴素贝叶斯(Naive Bayes)并不只是一个算法,而是一系列分类算法,这些算法以一个共同的假设为前提:
被分类的数据的每个属性与在这个类中它其他的属性是独立的。
独立是什么意思呢?当一个属性值对另一个属性值不产生任何影响时,就称这两个属性是独立的。
10.CART 分类算法
算法是做什么的? CART 代表分类和回归树(classification and regression trees)。它是个决策树学习方法,同时输出分类和回归树。 像 C4.5一样,CART 是个分类器。
分类树像决策树一样么?分类树是决策树的一种。分类树的输出是一个类。
三、数据挖掘经典案例详细介绍
1,啤酒与尿布
全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。
2,数据新闻让英国撤军
2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。密布的红点多达39万,显得格外触目惊心。一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。
3,“魔镜”预知石油市场走向
如果你对“魔镜”还停留在“魔镜魔镜,告诉我谁是世界上最美的女人”,那你就真的out了。“魔镜”不仅仅是童话中王后的宝贝,而且是真实世界中的一款神器。其实,“魔镜”是苏州国云数据科技公司的一款牛逼的大数据可视化产品,而且是国内首款喔。
在现在,“魔镜”可以通过数据的整合分析可视化不仅可以得出谁是世界上最美的女人,还能通过价量关系得出市场的走向。在不久前,“魔镜”帮助中石等企业分析数据,将数据可视化,使企业科学的判断、决策,节约成本,合理配置资源,提高了收益。
4,Google成功预测冬季流感
2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。
5,微软大数据成功预测奥斯卡21项大奖
2013年,微软纽约研究院的经济学家大卫?罗斯柴尔德(David Rothschild)利用大数据成功预测24个奥斯卡奖项中的19个,成为人们津津乐道的话题。今年罗斯柴尔德再接再厉,成功预测第86届奥斯卡金像奖颁奖典礼24个奖项中的21个,继续向人们展示现代科技的神奇魔力。
内容总结
以上是互联网集市为您收集整理的数据挖掘算法经典案例全部内容,希望文章能够帮你解决数据挖掘算法经典案例所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。