【03-机器学习_(贝叶斯分类算法与应用)】教程文章相关的互联网学习教程文章

【机器学习】算法原理详细推导与实现(六):k-means算法【代码】【图】

【机器学习】算法原理详细推导与实现(六):k-means算法 之前几个章节都是介绍有监督学习,这个章节介绍无监督学习,这是一个被称为k-means的聚类算法,也叫做k均值聚类算法。 聚类算法 在讲监督学习的时候,通常会画这样一张图:这时候需要用logistic回归或者SVM将这些数据分成正负两类,这个过程称之为监督学习,是因为对于每一个训练样本都给出了正确的类标签。 在无监督学习中,经常会研究一些不同的问题。假如给定若干个点组成的...

机器学习算法总结5:决策树【图】

决策树是一种基本的分类与回归方法。在分类问题中,可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。 决策树的学习包括3个步骤:特征选择、决策树的生成及决策树的修剪,常用的算法有ID3,C4.5和CART。 决策树的定义:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成,结点有两种类型:内部结点和叶结点,内部结点表示一个特征或属性,叶结点表示一个类。 决策树...

机器学习 算法基础 六 提升 Adaboost【图】

什么是Adaboost? AdaBoost算法: 通过迭代弱分类器而产生最终的强分类器的算法,可以理解为在弱分类器之上增加了权重配置,使误差率小的分类器拥有更高的权重。文章目录提升概念提升算法Adaboost举例Adaboost误差上限AdaBoost总结 我们已经学习过决策树这种分类器,并且知道可以通过随机森林的方式完成样本加权、分类器加权,从而使得由弱分类器得到强分类器。Adaboost就是分类器加权的一种方式,即多个分类器的集成。提升概念提升算...

机器学习算法/模型——逻辑回归【代码】【图】

逻辑回归概念/术语假设函数建模过程逻辑回归模型损失函数优化算法代码实例 逻辑回归类似于多元线性回归,只是结果是二元的。它使用多种变换将问题转换成可以拟 合线性模型的问题。 概念/术语Logistic 函数 一种能将属于某个类的概率映射到 ∞ 范围上(而不是 0 到 1 之间)的函数。(注意并不是最终的比例) Logistic 函数 = 对数几率函数 几率 “成功”(1)与“不成功”(0)之间的比率。 结果变量:标签是 1 的概率 p(而不是简单二元...

机器学习——基础算法(十七)【代码】【图】

文章目录机器学习——基础算法(十七)一、Hmmlearn的安装二、隐形马尔科夫模型实践三、trainHMM 机器学习——基础算法(十七) 一、Hmmlearn的安装二、隐形马尔科夫模型实践三、trainHMM # !/usr/bin/python # -*- coding:utf-8 -*-import math import matplotlib.pyplot as plt import numpy as np import codecs import randominfinite = float(-2**31)def log_normalize(a):s = 0for x in a:s += xif s == 0:print "Error..fro...

《机器学习(周志华)》笔记--线性模型(4)--梯度解释、梯度下降法算法思想、算法原理、算法流程、代码实现【代码】【图】

四、逻辑回归 5、梯度下降法 (1)梯度解释偏导数:简单来说是对于一个多元函数,选定一个自变量并让其他自变量保持不变,只考察因变量与选定自变量的变化关系。梯度:梯度的本意是一个向量,由函数对每个参数的偏导组成,表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向变化最快,变化率最大。梯度向量的方向即为函数值增长最快的方向,沿着梯度方向可以最快地找到函数的最大值,而我们要求误差的...

《机器学习实战》笔记(十):Ch10 - 利用k-均值聚类算法对未标注数据分组

第10章 K-均值聚类算法([代码][ch10])K-均值算法的优缺点 K-均值是发现给定数据集的 K 个簇的聚类算法, 之所以称之为 K-均值 是因为它可以发现 K 个不同的簇, 且每个簇的中心采用簇中所含值的均值计算而成. 簇个数 K 是用户指定的, 每一个簇通过其质心(centroid), 即簇中所有点的中心来描述. 聚类与分类算法的最大区别在于, 分类的目标类别已知, 而聚类的目标类别是未知的.优点:容易实现缺点:可能收敛到局部最小值,在大规模数据...

《机器学习实战》笔记(十一):Ch11 - 使用Apripri算法进行关联分析【代码】

第11章 使用Apriori算法进行关联分析([代码][ch11])关联分析关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集(frequent item sets): 经常出现在一块的物品的集合。关联规则(associational rules): 暗示两种物品之间可能存在很强的关系。交易号码 商品0 豆奶草莓1 草莓,尿布,啤酒,辣椒酱2 豆奶,尿布,黄瓜,饼干3 黄瓜,饼干,尿布,啤酒4 黄瓜,啤酒,尿布,黄瓜频繁项集指的就是那些经...

《机器学习实战》笔记(十二):Ch12 - 使用FP-growth算法来高效发现频繁项集【代码】

第12章 使用FP-growth算法来高效发现频繁项集([代码][ch12])FP优点因为 FP-growth 算法只需要对数据集遍历两次,所以速度更快。FP树将集合按照支持度降序排序,不同路径如果有相同前缀路径共用存储空间,使得数据得到了压缩。不需要生成候选集。比Apriori更快。缺点FP-Tree第二次遍历会存储很多中间过程的值,会占用很多内存。构建FP-Tree是比较昂贵的。适用数据类型标称型数据(离散型数据)。FP-Tree算法全称是FrequentPattern Tre...

100天机器学习算法-Day3: 多元线性回归

多次线性回归尝试通过将一个线性方程拟合到观察数据,来表示两个或多个特征与响应之间的关系;# modified of code from 100-Days-of-ML-Code # Day3_Multiple_Linear_Regression# imporint libraries import numpy as np import pandas as pd import matplotlib.pyplot as pltnp.set_printoptions(edgeitems=50, linewidth=500)# importing dataset dataset = pd.read_csv('50_Startups.csv') X = dataset.iloc[:, :-1].values Y = d...

机器学习:感知机算法(不调库,纯Python代码)【代码】

什么是感知机 公式文字我也就不复现了,网上简直多如牛毛 (1)推荐看李航博士的《统计学习方法》 (2)或:https://www.jianshu.com/p/c91087e6e1ea(篇幅略小,简单了解) 第二篇文章篇幅较小,但基本介绍清楚了感知机的原始形式,想要进一步了解感知机的对偶形式,可自行搜索资料 以上两个推荐中,都是以两特征数据来分类的,也就是数据点和超平面可以在二维坐标系中呈现 于是我的代码也是如此,代码的可扩展性还是很大的,想要...

[机器学习算法]关联分析【图】

相关概念 1.关联分析 全球零售巨头沃尔玛分析消费者购物行为时偶然发现男性顾客同时购买啤酒和尿布的比例较高,于是通过将啤酒和尿布捆绑销售的方式提高了两者的销量。这种用于发现隐藏在大型数据集中的有意义联系的分析方法即是关联分析association analysis,所发现的规则可以用关联规则association rule或频繁项集的形式表示: {尿布}→{啤酒} \{\text{尿布}\} \rightarrow\{\text{啤酒}\} {尿布}→{啤酒} 2.购物篮数据 许多企业...

机器学习实战学习笔记(二)-KNN算法(2)-KNN算法改进约会网站的配对效果【代码】【图】

机器学习实战学习笔记(二)-KNN算法(2)-KNN算法改进约会网站的配对效果 情景概要 某个妹子交往过三种类型的人:不喜欢的人 魅力一般的人. 极具魅力的人这个妹子想要知道自己到底喜欢哪一类男人,于是提供了她收集的约会数据(1000行,吐槽一波,手动狗头),并希望能创建一种分类机制来帮她完成这件事情。 数据表格如下:实际数据集是这样的: datingTestSet.txtdatingTestSet2.txt导入数据 # 判断分类 def isWhichClass(className):if cl...

机器学习超详细实践攻略(9):手把手带你使用决策树算法与调参【图】

决策树算法在工业中本身应用并不多,但是,目前主流的比赛中的王者,包括GBDT、XGBOOST、LGBM都是以决策树为积木搭建出来的,所以理解决策树,是学习这些算法的基石,今天,我们就从模型调用到调参详细说说决策树的使用方法。 一、什么是决策树 既然要用决策树,那么我们首先要知道决策树的基本原理。 初听到决策树这个名字的时候,我觉得他是一种最不像机器学习算法的算法。因为这不就是编程里最基本的if-else选择语句嘛,还能有多...

机器学习——Canopy算法【图】

原理:先设置两个先验值r1,r2,我把他们理解为内圈外圈,大家可以跟我学。将所有样本放入一个列表,随机选一个样本拿出来作为第一个簇的簇中心点,然后从列表中剩下的所有样本中随机抽取一个,,计算其与簇中心点的距离。如果大于外圈r1,则不属于此簇,而是拿出去单独成为一簇,并作为簇中心点,从列表中删除此样本如果大于内圈r2,且小于外圈r1,则属于此簇,放入簇中。如果小于内圈r2,哎呀,了不得呀!这家伙和簇中心点很是亲近...