后续再次学习,现在理解有些模糊。优点:可以对复杂和非线性的数据建模缺点:结果不易理解适用数据类型:数值型(转换成二值型)和标称型数据树回归的一般方法收集数据:采用任意方法收集数据。准备数据:需要数值型的数据,标称型数据应该映射成二值型数据。分析数据:绘出数据的二维可视化显示结果,以字典方式生成树。训练算法:大部分时间都花费在叶节点树模型的构建上。测试算法:使用测试数据上的R2值来分析模型的效果。使用...
- Gradient descent 梯度下降算法是一个用来求得函数最小值的算法,这里我们将使用梯度下降算法来求出代价函数的最小值。 梯度下降的思想是:开始的时候我们随机选择一个参数的组合并计算代价函数,之后我们寻找下一个能使得代价函数值下降最多的参数的组合。 我们持续如此过程直到一个局部最小值(local minimum),由于我们并没有完全尝试完所有参数的组合,所以我们不能够确定我们得到的局部最...
本文主要记录《Machine Learning In Action》中第二章的内容。书中以两个具体实例来介绍kNN(k nearest neighbors),分别是:约会对象预测手写数字识别通过“约会对象”功能,基本能够了解到kNN算法的工作原理。“手写数字识别”与“约会对象预测”使用完全一样的算法代码,仅仅是数据集有变化。约会对象预测1 约会对象预测功能需求主人公“张三”喜欢结交新朋友。“系统A”上面注册了很多类似于“张三”的用户,大家都想结交心朋友...
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和分类(四)学习算法作者: peghoty 出处: http://blog.csdn.net/itplus/article/details/4053...
看到Max Welling教授主页上有不少学习notes,收藏一下吧,其最近出版了一本书呢还,还没看过。http://www.ics.uci.edu/~welling/classnotes/classnotes.html Statistical Estimation [ps]- bayesian estimation- maximum a posteriori (MAP) estimation- maximum likelihood (ML) estimation- Bias/Variance tradeoff & minimum description length (MDL)Expectation Maximization (EM) Algorithm [ps]- detailed derivation plus ...
Uninstall any existing gnuplot on your OSXbrew uninstall gnuplotInstall gnuplot with either X or X11brew-install gnuplot --with-x11Finally, set the GNUTERM to X11setenv("GNUTERM","X11") 或者 brew install gnuplot --with-qt setenv("GNUTERM","qt")原文:http://www.cnblogs.com/turtle920/p/5197786.html
这是Coursera上比较火的一门机器学习课程,主讲教师为Andrew Ng。在自己看神经网络的过程中也的确发现自己有基础不牢、一些基本概念没搞清楚的问题,因此想借这门课程来个查漏补缺。目前的计划是先看到神经网络结束,后面的就不一定看了。当然,看的过程中还是要做笔记做作业的,否则看了也是走马观花。此笔记只针对我个人,因此不会把已经会了的内容复述一遍,相当于是写给自己的一份笔记吧。如果有兴趣,可以移步《Machine Learn...
Logistic Regression 逻辑回归ClassificationexamplesEmail: Spam/Not Spam? 电子邮件是否是垃圾邮件Online Transactions: Fraudulent(Yes / No)? 网上交易是否是诈骗Turmor: Malignant / Benign? 肿瘤是良性还是恶性\(y \in \{0, 1\}\) 要预测的变量y能够取0和1两个值0: "Negative Class" (e.g., benign tumor) 通常标记为0的类称为“负类”,如良性肿瘤1: "Positive Class" (e.g., malignant tumor) 通常标记为1的类称为“正类”...
shape函数是numpy.core.fromnumeric中的函数,它的功能是读取矩阵的长度,比如shape[0]就是读取矩阵第一维度的长度。它的输入参数可以使一个整数表示维度,也可以是一个矩阵。使用shape需要导入numpytile函数位于python模块 numpy.lib.shape_base中,他的功能是重复某个数组。比如tile(A,n),功能是将数组A重复n次,构成一个新的数组使用shape需要导入numpy 原文:http://www.cnblogs.com/wlc297984368/p/5748502.html
Machine learning system designPrioritizing what to work on: Spam classification example在设计复杂的机器学习系统时将会遇到的主要问题,以及给出一些如何巧妙构建一个复杂的机器学习系统的建议。Building a spam classifier 垃圾邮件分类器思想:通过分词,将一封邮件转化为一个向量,从而将实际生活问题转化为了数学问题。具体:\(x\)是对应单词是否出现:出现为1,不出现为0;\(y\)表示邮件是否为垃圾邮件,是为1,否为0。...
Regularization 正则化The problem of overfitting 过拟合问题什么是过拟合问题、利用正则化技术改善或者减少过拟合问题。Example: Linear regression (housing prices) 线性回归中的过拟合对5个训练集建立线性回归模型,分别进行如下图所示的三种分析。如果拟合一条直线到训练数据(图一),会出现欠拟合(underfitting)/高偏差(high bias)现象(指没有很好地拟合训练数据)。
试着拟合一个二次函数的曲线(图二),符合各项要求。...
之前开发的项目中实用到IM聊天功能。可是这块功能公司有专门的IM团队来开发,由他们开发好后。直接接入到我们APP中。我參与写IM相关功能非常地少,所以也一直想学习相关知识 。
眼下Android主要用的是XMPP协议及OPenfireserver来实现IM功能,我也从这块入手学习。也感谢全部分享资料让我有机会学习的同行们。 如今正式開始啦。 第一步:搭建Openfireserver: Openfire工具下载地址:http://www.igniterealtime.org/downloads/inde...
最近研究上了这个一个东西--极限学习机。 在很多问题中,我大多会碰到两个问题,一个是分类,另一个就是回归。简单来说,分类是给一串数打个标签,回归是把一串数变为一个数。 在这里我们需要处理的数据一般维度都比较高,在处理这两类问题时最简单的方法就是加权。使那些对最终结果影响大的维度的数据的权设大点,影响小的权设小点。其实,影响小的这些维度的数据对于我们整个建立的模型也不是完全没有用的。至少它们保证...
P.S. SVM比较复杂,代码没有研究清楚,进一步学习其他知识后再来补充。以下仅罗列了最核心的知识,来自《机器学习实战》的学习摘要。优点:泛化错误率低,计算开销不大,结果易解释。缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型:数值型和标称型数据。线性可分数据:画出一条直线将两组数据点分开。超平面(将数据集分隔开来的直线,为N-1维):分类的决策边界。如果数据点离决策边...
Part4: Linear Regression with Multiple Variables 进入多变量线性回归~在看视频的时候发现了视频里面的一个错误:在Normal Equation的第8分钟左右,那个x的上下标写反了,应该是上标为1,2,3,4,下标一直为1. 多变量线性回归其实就是在单变量线性回归的基础上进Part4: Linear Regression with Multiple Variables进入多变量线性回归~在看视频的时候发现了视频里面的一个错误:在Normal Equation的第8分钟左右,那个x的上下标写反了,应该...