(一)K-means提到k-means不得不说的许高建老师,他似乎比较偏爱使用这种聚类方法,在N个不同场合听到他提起过,k-means通过设置重心和移动中心两个简答的步骤,就实现了数据的聚类。下面就来介绍下k-means算法。一、 数值属性距离度量度量数值属性相似度最简单的方法就是计算不同数值间的“距离”,如果两个数值之间“距离”比较大,就可以认为他们的差异比较大,而相似度较低;换而言之,如果两数值之间“距离”较小,可认为他...
总结:量纲化(归一化,标准化)缺失值处理(补0、均值、中值、众数、自定义)编码/哑变量:忽略数字中自带数学性质(文字->数值类型)连续特征离散化(二值化/分箱处理)原文:https://www.cnblogs.com/afanti/p/10881435.html
聚类是一种无监督的学习,它将相似的对象归到同一个簇中。它有点像全自动分类(类别体系是自动构建的)。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。本文要介绍一种称为K-均值(K-means)聚类的算法。之所以称之为K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。在介绍K-均值之前,先讨论一席簇识别(cluster identification)。簇识别给出聚类结果的含义。假定有一些...
摘要:Classification And Regression Tree(CART)是一种很重要的机器学习算法,既可以用于创建分类树(Classification Tree),也可以用于创建回归树(Regression Tree),本文介绍了CART用于离散标签分类决策和连续特征回归时的原理。决策树创建过程分析了信息混乱度度量Gini指数、连续和离散特征的特殊处理、连续和离散特征共存时函数的特殊处理和后剪枝;用于回归时则介绍了回归树和模型树的原理、适用场景和创建过程。个人认为...
XGBoost原理:https://www.jianshu.com/p/7467e616f227 python实现:https://www.cnblogs.com/harekizgel/p/7683803.html 算法优势和调参:http://www.cnblogs.com/mfryf/p/6293814.html 原文:https://www.cnblogs.com/zhenpengwang/p/10898637.html
1). 扑克牌手动演练k均值聚类过程:>30张牌,3类 图1 统计表格 图2 第一轮实际情况 图3 第二轮实际情况2). *自主编写K-means算法 ,以鸢尾花花瓣长度数据做聚类,并用散点图显示。(加分题)ps:之前人工智能老师教过这个算法,所以代码基本一样。源代码: # 导入数据集
from sklearn.datasets import ...
更新:文章迁移到了这里。http://lanbing510.info/2014/11/07/Neural-Network.html,有对应的PPT链接。
注:整理自向世明老师的PPT
看不到图片的同学能够直接打开链接:https://app.yinxiang.com/shard/s31/sh/61392246-7de4-40da-b2fb-ccfd4f087242/259205da4220fae3内容提要1 发展历史
2 前馈网络(单层感知器,多层感知器。径向基函数网络RBF)
3 反馈网络(Hopfield网络。联想存储网络,SOM。Boltzman及受限的玻尔兹曼机RBM,D...
老板:来了,老弟!我:来了来了。老板:今天你要去看看KNN了,然后我给你安排一个工作!我:好嘞!就是第二章吗?老板:对!去吧!可恶的老板又给我安排任务了!《机器学习实战》这本书中的第二章为我们介绍了K-近邻算法,这是本书中第一个机器学习算法,它非常有效而且易于掌握,所以可以算是入门级算法了。那我们现在就一起去学习一下!2.1 k-近邻算法概述简单的说,k-近邻算法采用测量不同特征值之间的距离进行分类。其工作原理...
1、过拟合和欠拟合怎么判断,如何解决?答:主要可以通过训练误差和测试误差入手判断是否过拟合或欠拟合。一般而言训练误差很低,但是测试误差较高,过拟合的概率较大,如果训练误差和测试误差都很高,一般是欠拟合。过拟合可以从增加样本量,减少特征数,降低模型复杂度等方面入手,实际的例子比如线性回归中,对于几十个样本的数据点就没必要用几十个变量去拟合。欠拟合则反之,需要考虑模型是否收敛,特征是否过少,模型是否过于...
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com 前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,...
pLSA模型--基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis,概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型参数。概率潜在语义分析应用于信息检索,过滤,自然语言处理,文本的机器学习或者其他相关领域。D代表文档,Z代表主题(隐含类别),W代表单词; ?P(di)表示文档di的出现概率,? P(zk|di)表示文档di中主题zk的出现概率,? P(wj|zk)表示给定主题zk出现单词wj的概率...
C4.5由J.Ross Quinlan在ID3的基础上提出。从ID3算法中衍生出了C4.5和CART两种算法,这两种算法在数据挖掘中都非常重要。 数据集如图所示,它表示的是天气情况与去不去打高尔夫球之间的关系。 C4.5并不是一个算法,而是一组算法——C4.5,非剪枝C4.5和C4.5规则。下图中的算法给出C4.5的基本工作流程:我们可能有疑问,一个元组本身有很多属性,我们怎么知道首先要对哪个属性进行判断,接下来要对哪个属性进行判断?一般而言,随着划...
一、聚类的概念聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。我们事先并不知道数据的正确结果(类标),通过聚类算法来发现和挖掘数据本身的结构信息,对数据进行分簇(分类)。聚类算法的目标是,簇内相似度高,簇间相似度低二、基本的聚类分析算法 1. K均值(K-Means): 基于原型的、划分的距离技术,它试图发现用户指定个数(K)的簇。 2. 凝聚的层次距...
近些年来,随着大数据、云计算、移动互联网、人工智能技术的兴起,“机器学习”成为了行业内炙手可热的一个名词。从通信互联网领域的专家,到各式各样的企业,甚至到普通的老百姓,都对“机器学习”技术略知一二。那么,机器学习到底是什么,它与我们常见的“人工智能”、“神经网络”、“数据挖掘“等相似概念都有什么关系?机器学习有那些基本分支、基本方法?在本文中,我们将用最简单易懂的语言解释这些问题。问题一:“机器学...
阅读目录1. 学习方式1.1 监督式学习1.2 非监督式学习1.3 半监督式学习1.4 强化学习2. 算法分类2.1 回归算法 2.2 基于实例的算法2.3 正则化方法2.4 决策树学习 2.5 贝叶斯方法2.6 基于核的算法 2.7 聚类算法2.8 关联规则学习2.9 遗传算法(genetic algorithm)2.10 人工神经网络2.11 深度学习 2.12 降低维度算法2.13 集成算法声明:本篇博文根据http://www.ctocio.com/hotnews/15919.html整理,原作者张萌,尊重原创。 机器学习无...