适用情形我们现在有这样一份数据,记录了近173万用户的爱好情况(数据为随机生成)。数据中每行为一个用户,每列为一个爱好属性,“y”代表有此爱好,“n”代表无此爱好,我们希望通过关联分析找出用户会倾向于同时具有哪些爱好。数据保存为csv格式,并导入R中。此份数据中,绝大部分取值为“n”,“y”数量偏少,如果直接进行关联分析,会得到如下结果:可见,结果得到的是同时不具有的爱好规则,与想要结果不符。因此我们需要将数...
原文链接:http://tecdat.cn/?p=3071结构方程模型入门
介绍
对于熟悉线性回归拟合结构方程模型的分析师来说,在R环境中,拟合结构方程模型涉及学习新的建模语法,新的绘图语法以及通常是新的数据输入方法。然而,拟合结构方程模型可以成为分析师工具箱中的强大工具。
设置 环境
在R中实现SEM有许多不同的包,lavaan软件包为大多数SEM用户提供了全面的功能集,并且具有易于学习的语法来描述SEM模型。要安装lavaan,我们只需运行:
...
原文链接:http://tecdat.cn/?p=19664
MCMC是从复杂概率模型中采样的通用技术。蒙特卡洛 马尔可夫链 Metropolis-Hastings算法
问题
如果需要计算有复杂后验pdf p(θ| y)的随机变量θ的函数f(θ)的平均值或期望值。
您可能需要计算后验概率分布p(θ)的最大值。
解决期望值的一种方法是从p(θ)绘制N个随机样本,当N足够大时,我们可以通过以下公式逼近期望值或最大值
将相同的策略应用于通过从p(θ| y)采样并取样本...
函数计算字符数量,包括在一个字符串的空格的个数。语法nchar()函数的基本语法是:nchar(x)
以下是所使用的参数的说明:x - 向量输入。示例result <- nchar("Count the number of characters")
print(result)
当我们上面的代码执行时,它产生以下结果:[1] 30原文:http://www.cnblogs.com/csguo/p/7294085.html
# 创建数据集&基本数据管理1、向量 创建函数 c() a <- c(1,2,3,4) a[c(i,j)] :[]给定元素所处位置的数值,即向量a中第i和第j个元素,a[2]第二个元素即2 length(a):返回向量a中元素的个数2、矩阵 创建函数 X<-matrix(数据,nrow=n,ncol=m) +使用下标及方括号[]来选择矩阵中的行、列或元素,X[i,],第i行 +将矩阵转化为数据框 dataframe <-as.data.frame(matircname)3、数组 创建函数 <-array()4、数据框:将不同类...
///加载自己写的R语言算法库public List<double> GetZTFB(double[] data){List<double> par = new List<double>();try{//调用R语言算法REngine.SetEnvironmentVariables();REngine engine = REngine.GetInstance(null, true, null, null);NumericVector x = engine.CreateNumericVector(data);engine.SetSymbol("x", x);string path = System.Windows.Forms.Application.StartupPath + "\\R_File\\ztfb.R";path = "source(\"" + pa...
转载自:http://blog.csdn.net/hongweigg/article/details/49779943
R语言连接数据库常用的方法有2种:
1、使用R数据库接口
连接MySQL,使用RMySQL包,使用前RMySQL包要先安装。
library(RMySQL)
连接方式有2种:
(1)使用dbConnectconn <- dbConnect(MySQL(), dbname = "rmysql", username="rmysql", password="rmysql", host="127.0.0.1", port=3306)
数据操作方法:
dbWriteTable(conn, "tablename", data) #写表dbReadTable(c...
概率编程使我们能够实现统计模型,而无需担心技术细节。它对基于MCMC采样的贝叶斯模型特别有用。在本文中,我将研究如何通过在R 。
简介
RStan是贝叶斯推理的C ++库。它基于No-U-Turn采样器(NUTS),用于根据用户指定的模型和数据估计后验分布。使用Stan执行分析涉及以下步骤:
使用Stan建模语言指定统计模型。这通常通过专用的.stan文件完成。
准备要输入模型的数据。
使用该stan函数从后验分布中取样。
分析结果。
在本文中,...
了解r语言几个函数:dt,pt,qt,rt分别与dnorm,rnorm,pnorm,qnorm和rnorm对应 > * dt() 的返回值是正态分布概率密度函数(density)> * pt()返回值是正态分布的分布函数(probability)> * 函数qt()的返回值是给定概率p后的下百分位数(quantitle)> * rt()的返回值是n个正态分布随机数构成的向量x <- seq(-4, 4, length=200)
df <- c(3, 8, 16, 61)
require(plyr)## Loading required package: plyrget.pt <- function(x, df) {prob...
filte():仅能筛选观测
filte()第一个参数是数据框,后面的是逻辑值
x==y x !=y (x和y不等) x %in% c(“a”,“b”,“c”)(x属于右侧) x>y,x>=y,x<y,x<=y
也可以用逻辑运算符组合起来
!x x&y X|y xor(x,y) (异或)
例子
library(dplyr)
head(iris)
dplyr::filter(iris,Sepal.Length>7)#筛选花萼长度>7的观测还有就是我自己写的文章里用filter()的一个例子
library(tidyverse)
filter(txhousing,txhousing$city %in% sample(un...
下载:https://pan.baidu.com/s/123-dCrwFtFCvWeVM5O4b5w
《R语言编程艺术》中文版PDF+英文版PDF+源代码
中文和英文两版对比学习, 带目录书签;
配套源代码;
经典书籍,讲解详细。
原文链接:http://tecdat.cn/?p=18984
现在,分位数回归已被确立为重要的计量经济学工具。与均值回归(OLS)不同,目标不是给定x的均值,而是给定x的一些分位数。您可以使用它来查找具有良好上升潜力的股票。您可能会认为这与股票的beta有关,但是beta与OLS相关,并且是对称的。如果市场出现上涨,高beta股票将获得上行波动的收益,但对称地,当市场下跌时,您可能会遭受巨额亏损。
使用下图最好地理解分位数回归的用法:绘制的...
原文链接:http://tecdat.cn/?p=18661
在这篇文章中,我使用 R 建立著名的Hull-White利率模型并进行仿真。
Hull and White(1994)模型解决Vasicek模型对利率的初始期限结构的拟合不佳的问题。该模型定义为:Wt是风险中性框架下的维纳过程,模拟随机市场风险因素。σ是标准差参数,影响利率的波动,波动幅度有着瞬时随机流动的特征。参数b,a,σ和初始条件r0是完全动态的,并且瞬时变动。
该模型的另一种示形式是:假定a是非负数:...
庐州月光R语言绘图边框的单位在R语言中指定画图边框时,通常使用两种单位, lines 和 inches
当然,这两个单位之间是可以相互转换的,那么 1 inch = ? line
答案是1 inches = 5 lines
下面给出具体的分析过程:
par 函数中有两个参数,返回的是margin的宽度,只不过单位不同:
mar : 返回边框的宽度, 返回值的单位为 lines
mai: 返回边框的宽度, 返回值的单位为 inches
看下二者的返回值> par("mar")[1] 5.1 4.1 4.1 2.1> par("...
原文链接:http://tecdat.cn/?p=19469
本文将分析工业指数(DJIA)。工业指数(DIJA)是一个股市指数,表明30家大型上市公司的价值。工业指数(DIJA)的价值基于每个组成公司的每股股票价格之和。
本文将尝试回答的主要问题是:
这些年来收益率和交易量如何变化?
这些年来,收益率和交易量的波动如何变化?
我们如何建模收益率波动?
我们如何模拟交易量的波动?
为此,本文按以下内容划分:
第1部分: 获取每日和每周对数收益...