首页 / 更多教程 / 数据的标准化与中心化以及R语言中的scale详解(转)

数据的标准化与中心化以及R语言中的scale详解(转)

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了数据的标准化与中心化以及R语言中的scale详解(转)，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含898字，纯文字阅读大概需要2分钟。

内容图文

1.数据的中心化

所谓数据的中心化是指数据集中的各项数据减去数据集的均值。
例如有数据集1, 2, 3, 6, 3，其均值为3,那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即：-2,-1,0,3,0

2.数据的标准化
所谓数据的标准化是指中心化之后的数据在除以数据集的标准差，即数据集中的各项数据减去数据集的均值再除以数据集的标准差。
例如有数据集1, 2, 3, 6, 3，其均值为3,其标准差为1.87，那么标准化之后的数据集为(1-3)/1.87,(2-3)/1.87,(3-3)/1.87,(6-3)/1.87,(3-3)/1.87,即：-1.069,-0.535,0,1.604,0

数据中心化和标准化的意义是一样的，为了消除量纲对数据结构的影响。

在R语言中可以使用scale方法来对数据进行中心化和标准化：

#限定输出小数点后数字的位数为3位
> options(digits=3)

> data <- c(1, 2, 3, 6, 3)
#数据中心化
> scale(data, center=T,scale=F)
     [,1]
[1,]   -2
[2,]   -1
[3,]    0
[4,]    3
[5,]    0
attr(,"scaled:center")
[1] 3
#数据标准化
> scale(data, center=T,scale=T)
         [,1]
[1,] -1.06904
[2,] -0.53452
[3,]  0.00000
[4,]  1.60357
[5,]  0.00000
attr(,"scaled:center")
[1] 3
attr(,"scaled:scale")
[1] 1.8708

scale方法中的两个参数center和scale的解释：
1.center和scale默认为真,即T或者TRUE
2.center为真表示数据中心化
3.scale为真表示数据标准化

原文：http://www.cnblogs.com/gary-bao/p/4513735.html

内容总结

以上是互联网集市为您收集整理的数据的标准化与中心化以及R语言中的scale详解(转)全部内容，希望文章能够帮你解决数据的标准化与中心化以及R语言中的scale详解(转)所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1277085.html

来源：【匿名】

【上一篇】批处理设置文件访问权限的方法分享【下一篇】关于IE的RegExp.exec的问题

更多 ►

【数据的标准化与中心化以及R语言中的scale详解(转)】教程文章相关的互联网学习教程文章

数据的标准化与中心化以及R语言中的scale详解(转)【代码】

1.数据的中心化所谓数据的中心化是指数据集中的各项数据减去数据集的均值。例如有数据集1, 2, 3, 6, 3，其均值为3,那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即：-2,-1,0,3,02.数据的标准化所谓数据的标准化是指中心化之后的数据在除以数据集的标准差，即数据集中的各项数据减去数据集的均值再除以数据集的标准差。例如有数据集1, 2, 3, 6, 3，其均值为3,其标准差为1.87，那么标准化之后的数据集为(1-3)/1.87,(2-3)/1.87,(3-3)...

R语言与概率统计(六) 主成分分析因子分析【代码】【图】

超高维度分析，N*P的矩阵，N为样本个数，P为指标，N<<PPCA:抓住对y对重要的影响因素主要有三种：PCA,因子分析，回归方程+惩罚函数（如LASSO）为了降维，用更少的变量解决问题，如果是二维的，那么就是找到一条线，要使这些点再线上的投影最大，投影最大，就是越分散，就考虑方差最大。 > conomy<-data.frame( + x1=c(149.3, 161.2, 171.5, 175.5, 180.8, 190.7, + 202.1, 212.4, 226.1, 231.9, 239.0), + x2=c(4.2, 4...

使用R语言做极大似然估计实例【代码】【图】

原文链接：http://tecdat.cn/?p=18970 在普遍的理解中，最大似然估计是使用已知的样本结果信息来反向推断最有可能导致这些样本结果的模型参数值！换句话说，最大似然估计提供了一种在给定观测数据的情况下评估模型参数的方法，即“模型已确定且参数未知”。在所有双射函数的意义上，极大似然估计是不变的，如果是的极大似然估计。让，等于中的似然函数。由于是的最大似然估计，因此，是的最大似然估...

SQL Server 2016将内置R语言？【图】

（此文章同时发表在本人微信公众号“dotNET每日精华文章”，欢迎右边二维码来关注。)题记：随着大数据成为一个BuzzWord，和大数据相关的技术也变得越来越火热，其中就包括R语言。而据说SQL Server 2016将会内置R语言支持？R语言作为一个存在很久的语言，在大数据热炒之后也被大家翻出来炒冷饭。微软为了其大数据战略，也不失时机的收购了R语言的开发商Revolution Analytics。这次收购带来的一个结果就是SQL Server 2016将会把R语言...

R语言函数索引【代码】

R语言函数索引在学习R语言的途中，发现函数太多实在不好记。所以，本文记录下学习期间遇到的函数，做一个备忘，索引，方便查看函数的大致用途！学到什麽就更新什麽！str() 紧凑的显示R对象的内部结构生成随机变量 rpois() 泊松随机变量d 正态分布pnorm() 估计累计分布qnorml() 估计分位数summary()set.seed() 随机数字成成器种子，可以用来生成完全相同的随机数设置符合模型的随机变量rbinom() 二项分布sample() 从指定的一组对象集...

ggsurvplot_combine R语言一张图内画多条生存曲线【代码】【图】

library(survival) library(survminer)#age 分组画生存曲线 fit <- survfit(Surv(time, status) ~ age, data = lung) summary(fit) res.cut <- surv_cutpoint(lung, time = "time", event = "status",variables = "age") summary(res.cut) res.cat <- surv_categorize(res.cut) fit_age <- survfit(Surv(time, status) ~age, data = res.cat) ggsurvplot(fit_age,pval = TRUE, #conf.int = TRUE,risk.table = TRUE, # Add risk tab...

R语言中的数据分析函数【图】

数学类函数在求有缺失值的子集的最大值时候，需要先用na.re=TRUE去掉缺失值。求几个特定百分位数round（x,n） n表示保留的小数点位数分布类函数rnorm，密度高的数字，生成概率就高原文：https://www.cnblogs.com/Grayling/p/10968707.html

关联分析(4)：购物篮数据转换R语言【图】

适用情形我们现在有这样一份数据，记录了近173万用户的爱好情况（数据为随机生成）。数据中每行为一个用户，每列为一个爱好属性，“y”代表有此爱好，“n”代表无此爱好，我们希望通过关联分析找出用户会倾向于同时具有哪些爱好。数据保存为csv格式，并导入R中。此份数据中，绝大部分取值为“n”，“y”数量偏少，如果直接进行关联分析，会得到如下结果：可见，结果得到的是同时不具有的爱好规则，与想要结果不符。因此我们需要将数...

R语言:结构方程模型、潜变量分析【代码】【图】

原文链接：http://tecdat.cn/?p=3071结构方程模型入门介绍对于熟悉线性回归拟合结构方程模型的分析师来说，在R环境中，拟合结构方程模型涉及学习新的建模语法，新的绘图语法以及通常是新的数据输入方法。然而，拟合结构方程模型可以成为分析师工具箱中的强大工具。设置环境在R中实现SEM有许多不同的包，lavaan软件包为大多数SEM用户提供了全面的功能集，并且具有易于学习的语法来描述SEM模型。要安装lavaan，我们只需运行： ...

R语言MCMC:Metropolis-Hastings采样用于回归的贝叶斯估计【代码】【图】

原文链接：http://tecdat.cn/?p=19664 MCMC是从复杂概率模型中采样的通用技术。蒙特卡洛马尔可夫链 Metropolis-Hastings算法问题如果需要计算有复杂后验pdf p（θ| y）的随机变量θ的函数f（θ）的平均值或期望值。您可能需要计算后验概率分布p（θ）的最大值。解决期望值的一种方法是从p（θ）绘制N个随机样本，当N足够大时，我们可以通过以下公式逼近期望值或最大值将相同的策略应用于通过从p（θ| y）采样并取样本...

R语言统计字符串的字符数ncahr函数【代码】

函数计算字符数量，包括在一个字符串的空格的个数。语法nchar()函数的基本语法是：nchar(x) 以下是所使用的参数的说明：x - 向量输入。示例result <- nchar("Count the number of characters") print(result) 当我们上面的代码执行时，它产生以下结果：[1] 30原文：http://www.cnblogs.com/csguo/p/7294085.html

R语言初识

# 创建数据集&基本数据管理1、向量创建函数 c() a <- c(1,2,3,4) a[c(i,j)] :[]给定元素所处位置的数值,即向量a中第i和第j个元素，a[2]第二个元素即2 length(a):返回向量a中元素的个数2、矩阵创建函数 X<-matrix（数据，nrow=n,ncol=m） +使用下标及方括号[]来选择矩阵中的行、列或元素，X[i,],第i行 +将矩阵转化为数据框 dataframe <-as.data.frame(matircname)3、数组创建函数 <-array（）4、数据框：将不同类...

.Net调用R语言【代码】

///加载自己写的R语言算法库public List<double> GetZTFB(double[] data){List<double> par = new List<double>();try{//调用R语言算法REngine.SetEnvironmentVariables();REngine engine = REngine.GetInstance(null, true, null, null);NumericVector x = engine.CreateNumericVector(data);engine.SetSymbol("x", x);string path = System.Windows.Forms.Application.StartupPath + "\\R_File\\ztfb.R";path = "source(\"" + pa...

R语言链接数据库

转载自：http://blog.csdn.net/hongweigg/article/details/49779943 R语言连接数据库常用的方法有2种： 1、使用R数据库接口连接MySQL，使用RMySQL包，使用前RMySQL包要先安装。 library(RMySQL) 连接方式有2种：（1）使用dbConnectconn <- dbConnect(MySQL(), dbname = "rmysql", username="rmysql", password="rmysql", host="127.0.0.1", port=3306) 数据操作方法： dbWriteTable(conn, "tablename", data) #写表dbReadTable(c...

R语言stan概率编程规划简介【代码】

概率编程使我们能够实现统计模型，而无需担心技术细节。它对基于MCMC采样的贝叶斯模型特别有用。在本文中，我将研究如何通过在R 。简介 RStan是贝叶斯推理的C ++库。它基于No-U-Turn采样器（NUTS），用于根据用户指定的模型和数据估计后验分布。使用Stan执行分析涉及以下步骤：使用Stan建模语言指定统计模型。这通常通过专用的.stan文件完成。准备要输入模型的数据。使用该stan函数从后验分布中取样。分析结果。在本文中，...

R语言 - 相关标签

r语言 r语言实战

首页 / 更多教程 / 数据的标准化与中心化以及R语言中的scale详解(转)

数据的标准化与中心化以及R语言中的scale详解(转)

内容导读

内容图文

内容总结

内容备注

内容手机端

【数据的标准化与中心化以及R语言中的scale详解(转)】教程文章相关的互联网学习教程文章

数据的标准化与中心化以及R语言中的scale详解(转)【代码】

R语言与概率统计(六) 主成分分析因子分析【代码】【图】

使用R语言做极大似然估计实例【代码】【图】

SQL Server 2016将内置R语言？【图】

R语言函数索引【代码】

ggsurvplot_combine R语言一张图内画多条生存曲线【代码】【图】

R语言中的数据分析函数【图】

关联分析(4)：购物篮数据转换R语言【图】

R语言:结构方程模型、潜变量分析【代码】【图】

R语言MCMC:Metropolis-Hastings采样用于回归的贝叶斯估计【代码】【图】

R语言统计字符串的字符数ncahr函数【代码】

R语言初识

.Net调用R语言【代码】

R语言链接数据库

R语言stan概率编程规划简介【代码】

R语言 - 相关标签

数据 - 相关标签

更多教程 - 最新教程

更多教程 - 最热教程