105+18.24+8+14.50+23得结果怎么算24小时制怎样列算式式

粉丝日志首页
,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。
R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。
要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领域。让我们一起动起来吧,开始R的极客理想。
关于作者:
张丹(Conan), 程序员Java,R,PHP,Javascript
weibo:@Conan_Z
转载请注明出处:
刚开始接触R语言时,会听到各种的R语言使用技巧,其中最重要的一条就是不要用循环,效率特别低,要用向量计算代替循环计算。
那么,这是为什么呢?原因在于R的循环操作for和while,都是基于R语言本身来实现的,而向量操作是基于底层的C语言函数实现的,从性能上来看,就会有比较明显的差距了。那么如何使用C的函数来实现向量计算呢,就是要用到apply的家族函数,包括apply, sapply, tapply, mapply, lapply, rapply, vapply, eapply等。
apply的家族函数
lapply函数
sapply函数
vapply函数
mapply函数
tapply函数
rapply函数
eapply函数
1. apply的家族函数
apply函数族是R语言中数据处理的一组核心函数,通过使用apply函数,我们可以实现对数据的循环、分组、过滤、类型控制等操作。但是,由于在R语言中apply函数与其他语言循环体的处理思路是完全不一样的,所以apply函数族一直是使用者玩不转一类核心函数。
很多R语言新手,写了很多的for循环代码,也不愿意多花点时间把apply函数的使用方法了解清楚,最后把R代码写的跟C似得,我严重鄙视只会写for的R程序员。
apply函数本身就是解决数据循环处理的问题,为了面向不同的数据类型,不同的返回值,apply函数组成了一个函数族,包括了8个功能类似的函数。这其中有些函数很相似,有些也不是太一样的。
我一般最常用的函数为apply和sapply,下面将分别介绍这8个函数的定义和使用方法。
2. apply函数
apply函数是最常用的代替for循环的函数。apply函数可以对矩阵、数据框、数组(二维、多维),按行或列进行循环计算,对子元素进行迭代,并把子元素以参数传递的形式给自定义的FUN函数中,并以返回计算结果。
函数定义:
apply(X, MARGIN, FUN, ...)
参数列表:
X:数组、矩阵、数据框
MARGIN: 按行计算或按按列计算,1表示按行,2表示按列
FUN: 自定义的调用函数
…: 更多参数,可选
比如,对一个矩阵的每一行求和,下面就要用到apply做循环了。
> x apply(x,1,sum)
[1] 15 18 21 24
下面计算一个稍微复杂点的例子,按行循环,让数据框的x1列加1,并计算出x1,x2列的均值。
# 生成data.frame
myFUN apply(x,1,myFUN,c1='x1',c2=c('x1','x2'))
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
通过这个上面的自定义函数myFUN就实现了,一个常用的循环计算。
如果直接用for循环来实现,那么代码如下:
# 定义一个结果的数据框
> df for(i in 1:nrow(x)){
row<-x[i,]
# 每行的值
通过for循环的方式,也可以很容易的实现上面计算过程,但是这里还有一些额外的操作需要自己处理,比如构建循环体、定义结果数据集、并合每次循环的结果到结果数据集。
对于上面的需求,还有第三种实现方法,那就是完成利用了R的特性,通过向量化计算来完成的。
> data.frame(x1=x[,1]+1,x2=rowMeans(x))
那么,一行就可以完成整个计算过程了。
接下来,我们需要再比较一下3种操作上面性能上的消耗。
# 清空环境变量
> rm(list=ls())
# 封装fun1
> fun1<-function(x){
myFUN fun2<-function(x){
df<-data.frame()
for(i in 1:nrow(x)){
row<-x[i,]
system.time(fun1(x))
用户 系统 流逝
0.01 0.00 0.02
> system.time(fun2(x))
用户 系统 流逝
0.19 0.00 0.18
> system.time(fun3(x))
用户 系统 流逝
从CPU的耗时来看,用for循环实现的计算是耗时最长的,apply实现的循环耗时很短,而直接使用R语言内置的向量计算的操作几乎不耗时。通过上面的测试,对同一个计算来说,优先考虑R语言内置的向量计算,必须要用到循环时则使用apply函数,应该尽量避免显示的使用for,while等操作方法。
3. lapply函数
lapply函数是一个最基础循环操作函数之一,用来对list、data.frame数据集进行循环,并返回和X长度同样的list结构作为结果集,通过lapply的开头的第一个字母&#8217;l&#8217;就可以判断返回结果集的类型。
函数定义:
lapply(X, FUN, ...)
参数列表:
X:list、data.frame数据
FUN: 自定义的调用函数
&#8230;: 更多参数,可选
比如,计算list中的每个KEY对应该的数据的分位数。
# 构建一个list数据集x,分别包括a,b,c 三个KEY值。
lapply(x,fivenum)
0.....5321427
[1] 0.0 0.0 0.5 1.0 1.0
lapply就可以很方便地把list数据集进行循环操作了,还可以用data.frame数据集按列进行循环,但如果传入的数据集是一个向量或矩阵对象,那么直接使用lapply就不能达到想要的效果了。
比如,对矩阵的列求和。
# 生成一个矩阵
[1] "matrix"
> lapply(x, sum)
lapply会分别循环矩阵中的每个值,而不是按行或按列进行分组计算。
如果对数据框的列求和。
> lapply(data.frame(x), sum)
lapply会自动把数据框按列进行分组,再进行计算。
4. sapply函数
sapply函数是一个简化版的lapply,sapply增加了2个参数simplify和USE.NAMES,主要就是让输出看起来更友好,返回值为向量,而不是list对象。
函数定义:
sapply(X, FUN, ..., simplify=TRUE, USE.NAMES = TRUE)
参数列表:
X:数组、矩阵、数据框
FUN: 自定义的调用函数
&#8230;: 更多参数,可选
simplify: 是否数组化,当值array时,输出结果按数组进行分组
USE.NAMES: 如果X为字符串,TRUE设置字符串为数据名,FALSE不设置
我们还用上面lapply的计算需求进行说明。
sapply(x, sum)
[1] 3 3 3 3 2 1 4 5
# 对数据框计算
> sapply(data.frame(x), sum)
# 检查结果类型,sapply返回类型为向量,而lapply的返回类型为list
> class(lapply(x, sum))
[1] "list"
> class(sapply(x, sum))
[1] "numeric"
如果simplify=FALSE和USE.NAMES=FALSE,那么完全sapply函数就等于lapply函数了。
> lapply(data.frame(x), sum)
> sapply(data.frame(x), sum, simplify=FALSE, USE.NAMES=FALSE)
对于simplify为array时,我们可以参考下面的例子,构建一个三维数组,其中二个维度为方阵。
> a sapply(a,function(x) matrix(x,2,2), simplify='array')
# 默认情况,则自动合并分组
> sapply(a,function(x) matrix(x,2,2))
对于字符串的向量,还可以自动生成数据名。
> val sapply(val,paste,USE.NAMES=TRUE)
"a" "b" "c" "d" "e" "f"
# USE.NAMES=FALSE,则不设置数据名
> sapply(val,paste,USE.NAMES=FALSE)
[1] "a" "b" "c" "d" "e" "f"
5. vapply函数
vapply类似于sapply,提供了FUN.VALUE参数,用来控制返回值的行名,这样可以让程序更健壮。
函数定义:
vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE)
参数列表:
X:数组、矩阵、数据框
FUN: 自定义的调用函数
FUN.VALUE: 定义返回值的行名row.names
&#8230;: 更多参数,可选
USE.NAMES: 如果X为字符串,TRUE设置字符串为数据名,FALSE不设置
比如,对数据框的数据进行累计求和,并对每一行设置行名row.names
# 生成数据集
vapply(x,cumsum,FUN.VALUE=c('a'=0,'b'=0,'c'=0,'d'=0))
# 当不设置时,为默认的索引值
> a row.names(a) a
通过使用vapply可以直接设置返回值的行名,这样子做其实可以节省一行的代码,让代码看起来更顺畅,当然如果不愿意多记一个函数,那么也可以直接忽略它,只用sapply就够了。
6. mapply函数
mapply也是sapply的变形函数,类似多变量的sapply,但是参数定义有些变化。第一参数为自定义的FUN函数,第二个参数&#8217;&#8230;&#8217;可以接收多个数据,作为FUN函数的参数调用。
函数定义:
mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE,USE.NAMES = TRUE)
参数列表:
FUN: 自定义的调用函数
&#8230;: 接收多个数据
MoreArgs: 参数列表
SIMPLIFY: 是否数组化,当值array时,输出结果按数组进行分组
USE.NAMES: 如果X为字符串,TRUE设置字符串为数据名,FALSE不设置
比如,比较3个向量大小,按索引顺序取较大的值。
> set.seed(1)
# 定义3个向量
> x y z mapply(max,x,y,z)
再看一个例子,生成4个符合正态分布的数据集,分别对应的均值和方差为c(1,10,100,1000)。
> set.seed(1)
> n m<-v mapply(rnorm,n,m,v)
[1,] 0...57814
[2,] 1...4.6999
[3,] 0...1.9309
[4,] 2...98432
由于mapply是可以接收多个参数的,所以我们在做数据操作的时候,就不需要把数据先合并为data.frame了,直接一次操作就能计算出结果了。
7. tapply函数
tapply用于分组的循环计算,通过INDEX参数可以把数据集X进行分组,相当于group by的操作。
函数定义:
tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)
参数列表:
INDEX: 用于分组的索引
FUN: 自定义的调用函数
&#8230;: 接收多个数据
simplify : 是否数组化,当值array时,输出结果按数组进行分组
比如,计算不同品种的鸢尾花的花瓣(iris)长度的均值。
# 通过iris$Species品种进行分组
> tapply(iris$Petal.Length,iris$Species,mean)
setosa versicolor
对向量x和y进行计算,并以向量t为索引进行分组,求和。
> set.seed(1)
# 定义x,y向量
> x<-y t tapply(x,t,sum)
由于tapply只接收一个向量参考,通过&#8217;&#8230;&#8217;可以把再传给你FUN其他的参数,那么我们想去y向量也进行求和,把y作为tapply的第4个参数进行计算。
> tapply(x,t,sum,y)
得到的结果并不符合我们的预期,结果不是把x和y对应的t分组后求和,而是得到了其他的结果。第4个参数y传入sum时,并不是按照循环一个一个传进去的,而是每次传了完整的向量数据,那么再执行sum时sum(y)=55,所以对于t=0时,x=8 再加上y=55,最后计算结果为63。那么,我们在使用&#8217;&#8230;&#8217;去传入其他的参数的时候,一定要看清楚传递过程的描述,才不会出现的算法上的错误。
8. rapply函数
rapply是一个递归版本的lapply,它只处理list类型数据,对list的每个元素进行递归遍历,如果list包括子元素则继续遍历。
函数定义:
rapply(object, f, classes = "ANY", deflt = NULL, how = c("unlist", "replace", "list"), ...)
参数列表:
object:list数据
f: 自定义的调用函数
classes : 匹配类型, ANY为所有类型
deflt: 非匹配类型的默认值
how: 3种操作方式,当为replace时,则用调用f后的结果替换原list中原来的元素;当为list时,新建一个list,类型匹配调用f函数,不匹配赋值为deflt;当为unlist时,会执行一次unlist(recursive = TRUE)的操作
&#8230;: 更多参数,可选
比如,对一个list的数据进行过滤,把所有数字型numeric的数据进行从小到大的排序。
> x=list(a=12,b=1:4,c=c('b','a'))
> z=data.frame(a=rnorm(10),b=1:10)
rapply(a,sort, classes='numeric',how='replace')
[1] 4 3 2 1
[1] "b" "a"
[1] 3.141593
[1] -0......3295078
0....5952808
> class(a$z$b)
[1] "integer"
从结果发现,只有$z$a的数据进行了排序,检查$z$b的类型,发现是integer,是不等于numeric的,所以没有进行排序。
接下来,对字符串类型的数据进行操作,把所有的字符串型加一个字符串&#8217;++++&#8217;,非字符串类型数据设置为NA。
> rapply(a,function(x) paste(x,'++++'),classes="character",deflt=NA, how = "list")
[1] "b ++++" "a ++++"
只有$x$c为字符串向量,都合并了一个新字符串。那么,有了rapply就可以对list类型的数据进行方便的数据过滤了。
9. eapply函数
对一个环境空间中的所有变量进行遍历。如果我们有好的习惯,把自定义的变量都按一定的规则存储到自定义的环境空间中,那么这个函数将会让你的操作变得非常方便。当然,可能很多人都不熟悉空间的操作,那么请参考文章 ,。
函数定义:
eapply(env, FUN, ..., all.names = FALSE, USE.NAMES = TRUE)
参数列表:
env: 环境空间
FUN: 自定义的调用函数
&#8230;: 更多参数,可选
all.names: 匹配类型, ANY为所有类型
USE.NAMES: 如果X为字符串,TRUE设置字符串为数据名,FALSE不设置
下面我们定义一个环境空间,然后对环境空间的变量进行循环处理。
# 定义一个环境空间
# 向这个环境空间中存入3个变量
# 查看env空间中的变量
# 查看env空间中的变量字符串结构
> ls.str(env)
int [1:10] 1 2 3 4 5 6 7 8 9 10
num [1:7] 0.3 0..7183 ...
logi [1:4] TRUE FALSE FALSE TRUE
计算env环境空间中所有变量的均值。
> eapply(env, mean)
[1] 4.535125
再计算中当前环境空间中的所有变量的占用内存大小。
# 查看当前环境空间中的变量
# 查看所有变量的占用内存大小
> eapply(environment(), object.size)
2056 bytes
1576 bytes
1088 bytes
eapply函数平时很难被用到,但对于R包开发来说,环境空间的使用是必须要掌握的。特别是当R要做为工业化的工具时,对变量的精确控制和管理是非常必要的。
本文全面地介绍了,R语言中的数据循环处理的apply函数族,基本已经可以应对所有的循环处理的情况了。同时,在apply一节中也比较了,3种数据处理方面的性能,R的内置向量计算,要优于apply循环,大幅优于for循环。那么我们在以后的R的开发和使用过程中,应该更多地把apply函数使用好。
忘掉程序员的思维,换成数据的思维,也许你就一下子开朗了。
转载请注明出处:
,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。
R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。
要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领域。让我们一起动起来吧,开始R的极客理想。
关于作者:
张丹(Conan), 程序员Java,R,PHP,Javascript
weibo:@Conan_Z
转载请注明出处:
使用R语言进行数据处理是非常方便的,几行代码就可以完成很复杂的操作。但是,对于数据的连续处理,还是有人觉得代码不好看,要么是长长的函数嵌套调用,有点像Lisp感觉,括号包一切;要么就是每次操作赋值一个临时变量,啰嗦。为什么就不能像Linux的管道一样优雅呢?
magrittr包在这样场景中被开发出来,通过管道的方式让连续复杂数据的处理操作,代码更短,更容易读,甚至一行代码可以搞定原来10行代码的事情。
magrittr介绍
magrittr安装
magrittr包的基本使用
magrittr包的扩展功能
1. magrittr介绍
magrittr包被定义为一个高效的管道操作工具包,通过管道的连接方式,让数据或表达式的传递更高效,使用操作符%>%,可以直接把数据传递给下一个函数调用或表达式。magrittr包的主要目标有2个,第一是减少代码开发时间,提高代码的可读性和维护性;第二是让你的代码更短,再短,短短短&#8230;
magrittr包,主要定义了4个管道操作符,分另是%>%, %T>%, %$% 和 %%。其中,操作符%>%是最常用的,其他3个操作符,与%>%类似,在特殊的使用场景会起到更好的作用。当正确掌握这几个操作符后,你一定会爱不释手的,快去把所有的代码都重构吧,砍掉原来大段冗长的代码是一件多么令人激动的事情啊。
magrittr的项目主页:
2. magrittr安装
本文所使用的系统环境
Win10 64bit
R: 3.2.3 x86_64-w64-mingw32/x64 b4bit
magrittr是在CRAN发布的标准库,安装起来非常简单,2条命令就可以了。
> install.packages('magrittr')
> library(magrittr)
3. magrittr包的使用
对于magrittr包的使用,其实就是掌握这4个操作符的用法,向右操作符%>%, 向左操作符%T>%, 解释操作符%$% 和 复合赋值操作符%%。
3.1 %>% 向右操作符(forward-pipe operator)
%>%是最常用的一个操作符,就是把左侧准备的数据或表达式,传递给右侧的函数调用或表达式进行运行,可以连续操作就像一个链条一样。
现实原理如下图所示,使用%>%把左侧的程序的数据集A传递右侧程序的B函数,B函数的结果数据集再向右侧传递给C函数,最后完成数据计算。
比如,我们要做下面的事情。(这是一个YY的需求。)
取10000个随机数符合,符合正态分布。
求这个10000个数的绝对值,同时乘以50。
把结果组成一个100*100列的方阵。
计算方阵中每行的均值,并四舍五入保留到整数。
把结果除以7求余数,并话出余数的直方图。
我们发现上面的5个过程是连续的,正常的代码我要怎么实现呢。
# 设置随机种子
> set.seed(1)
> n1 n2 n3 n4 hist(n4%%7)
输出的直方图:
上面的代码写法是,每一行实现一个条件,但中间多了不少的临时变量。再看另外一种的写法,括号包一切。
# 设置随机种子
> set.seed(1)
> hist(round(rowMeans(matrix(abs(rnorm(10000))*50,ncol=100)))%%7)
输出的直方图:
我分别用两种常见的代码风格,实现了我们的需求。再看看%>%的方式,有多么的不一样。
# 设置随机种子
> set.seed(1)
> rnorm(10000) %>%
abs %>% `*` (50)
matrix(ncol=100)
rowMeans %>% round %>%
`%%`(7) %>% hist
输出的直方图:
一行代码,不仅搞定所有的事情,而且结构清楚,可读性非常强。这就是管道代码风格,带来的优雅和简约。
3.2 %T>% 向左操作符(tee operator)
%T>%向左操作符,其实功能和 %>% 基本是一样的,只不过它是把左边的值做为传递的值,而不是右边的值。这种情况的使用场景也是很多的,比如,你在数据处理的中间过程,需要打印输出或图片输出,这时整个过程就会被中断,用向左操作符,就可以解决这样的问题。
现实原理如下图所示,使用%T>%把左侧的程序的数据集A传递右侧程序的B函数,,B函数的结果数据集不再向右侧传递,而是把B左侧的A数据集再次向右传递给C函数,最后完成数据计算。
我们把上面的需求稍微进行调整,在最后增加一个要求,就会用到向左操作符。
取10000个随机数符合,符合正态分布。
求这个10000个数的绝对值,同时乘以50。
把结果组成一个100*100列的方阵。
计算方阵中每行的均值,并四舍五入保留到整数。
把结果除以7求余数,并话出余数的直方图。
对余数求和
由于输出直方图后,返回值为空,那么再继续管道,就会把空值向右进行传递,这样计算最后一步时就会出错。这时我们需求的是,把除以7的余数向右传递给最后一步求和,那么就可以用到 %T>% 了
直接使用%>%向右传值,出现异常。
> set.seed(1)
> rnorm(10000) %>%
abs %>% `*` (50)
matrix(ncol=100)
rowMeans %>% round %>%
`%%`(7) %>% hist %>% sum
Error in sum(.) : invalid 'type' (list) of argument
使用 %T>% 把左边的值,再向右传值,则结果正确。
> rnorm(10000) %>%
abs %>% `*` (50)
matrix(ncol=100)
rowMeans %>% round %>%
`%%`(7) %T>% hist %>% sum
3.3 %$% 解释操作符(exposition pipe-operator)
%$% 的作用是把左侧数据的属性名传给右侧,让右侧的调用函数直接通过名字,就可以获取左侧的数据。比如,我们获得一个data.frame类型的数据集,通过使用 %$%,在右侧的函数中可以直接使用列名操作数据。
现实原理如下图所示,使用%$%把左侧的程序的数据集A传递右侧程序的B函数,同时传递数据集A的属性名,作为B函数的内部变量方便对A数据集进行处理,最后完成数据计算。
下面定义一个3列10行的data.frame,列名分别为x,y,z,或缺x列大于5的数据集。使用 %$% 把列名x直接传到右侧进行判断。这里.代表左侧的完整数据对象。一行代码就实现了需求,而且这里不需要显示的定义中间变量。
> set.seed(1)
> data.frame(x=1:10,y=rnorm(10),z=letters[1:10]) %$% .[which(x>5),]
6 -0.8204684 f
0.4874291 g
0.7383247 h
0.5757814 i
10 10 -0.3053884 j
如果不使用%$%,我们通常的代码写法为:
> set.seed(1)
> df df[which(df$x>5),]
6 -0.8204684 f
0.4874291 g
0.7383247 h
0.5757814 i
10 10 -0.3053884 j
从代码中可以发现,通常的写法是需要定义变量df的,df一共要被显示的使用3次,就是这一点点的改进,会让代码看起来更干净。
3.4 %% 复合赋值操作符(compound assignment pipe-operator)
%%复合赋值操作符, 功能与 %>% 基本是一样的,对了一项额外的操作,就是把结果写到左侧对象。比如,我们需要对一个数据集进行排序,那么需要获得排序的结果,用%%就是非常方便的。
现实原理如下图所示,使用%%把左侧的程序的数据集A传递右侧程序的B函数,B函数的结果数据集再向右侧传递给C函数,C函数结果的数据集再重新赋值给A,完成整个过程。
定义一个符合正态分布的100个随机数,计算绝对值,并按从小到大的顺序排序,获得并取前10个数字赋值给x。
> set.seed(1)
> x<-rnorm(100) %% abs %>% sort %>% head(10)
[1] 0.......
是不是太方便了,一行就实现了一连串的操作。但是这里同时有一个陷阱,需要注意一下 %% 必须要用在第一个管道的对象处,才能完成赋值的操作,如果不是左侧第一个位置,那么赋值将不起作用。
> set.seed(1)
> x x %% abs %>% sort %>% head(10)
[1] 0.......
# 左侧第二个位置,结果被直接打印出来,但是x的值没有变
> x %>% abs %% sort %>% head(10)
[1] 0.......
> length(x)
# 左侧第三个位置,结果被直接打印出来,但是x的值没有变
> x %>% abs %>% sort %% head(10)
[1] 0.......
> length(x)
4. magrittr包的扩展功能
我们已经了解了magrittr包的4个操作符的使用,除了操作符,我们再看一下magrittr还有哪些功能。
符号操作符定义
%>%对代码块的传递
%>%对函数的传递
4.1 符号操作符定义
为了让链条传递看起来更友好,magrittr对于常见的计算符号操作符进行的重新定义,让每个操作都对应用一个函数,这样所有的传递调用代码都是风格统一的。比如,add()函数和`+`是等价的。
下面列出对应的列表:
is_weakly_greater_than
is_less_than
is_weakly_less_than
not (`n'est pas`)
set_colnames
`colnames<-`
set_rownames
`rownames<-`
我们来看一下使用的效果。对一个包括10个随机数的向量的先*5再+5。
# 使用符号的写法
> set.seed(1)
> rnorm(10) %>% `*`(5) %>% `+`(5)
1........6916235
7..4730581
# 使用函数的写法
> set.seed(1)
> rnorm(10) %>% multiply_by(5) %>% add(5)
1........6916235
7..4730581
上面计算结果是完全一样的,用函数替换了符号。其实,这种转换的操作在面向对象的封装时是非常有用的,像hibernate封装了所有的SQL,XFire封装了WebServices协议等。
4.2 %>%传递到代码块
有些时候,我们对同一个数据块的要进行次行的处理,一条语句是很难完成的,这些就需要一个代码块也进行处理。把数据集传递到{}代码块中,传入的数据集以.来表示,通过一段代码来完成操作,而不是一句话完成操作。
比如,对一个包括10个随机数的向量的先*5再+5,求出向量的均值和标准差,并从小到大排序后返回前5条。
> set.seed(1)
> rnorm(10)
multiply_by(5) %>%
cat("Mean:", mean(.),
"Var:", var(.), "\n")
sort(.) %>% head
Mean: 5.661014 Var: 15.23286
[1] 0......6475389
通过{}包装的代码块,就可以很方便的完成多少处理的复杂操作。
4.3 %>%传递到函数
传递到函数和传递到代码块设计是类似的,是把一个数据集传给一个匿名函数,进行复杂的数据数据的操作。在这里,我们会显示的定义数据集的名字作为匿名函数的参数。
比如,对鸢尾花数据集进行处理,只保留第一行和最后一行作为结果。
> iris %>%
(function(x) {
if (nrow(x) > 2)
rbind(head(x, 1), tail(x, 1))
Sepal.Length Sepal.Width Petal.Length Petal.Width
1.8 virginica
这里x就是iris数据集,作为了函数的显示参数,被应用于后续的数据处理过程。
通过对magrittr的学习,我们掌握了一些特殊的R语言代码的编程技巧,用magrittr包写出的R语言程序,与传统的R语言代码是有区别,可以你的程序很简单、很高效。
天性“懒惰”的程序员总是会想各种办法,来减少自己的代码,让代码变得优雅,同时还能让程序更可靠。什么时候能把代码写得越来越少,那么你就越来越接近高手!
转载请注明出处:
,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。
R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。
要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领域。让我们一起动起来吧,开始R的极客理想。
关于作者:
张丹(Conan), 程序员Java,R,PHP,Javascript
weibo:@Conan_Z
转载请注明出处:
用R语言处理字符串,总觉得很麻烦,即不能用向量的方法进行分割,也不能用循环遍历索引。grep()家族函数常常记不住,paste()函数默认以空格分割,各种不顺手啊!随着使用R语言的场景越来越多,字符串处理是必不可少的。给大家推荐一个由 Hadley Wickham 开发的一个灵活的字符串处理包stringr。
stringr介绍
stringr安装
stringr的API介绍
1. stringr介绍
stringr包被定义为一致的、简单易用的字符串工具集。所有的函数和参数定义都具有一致性,比如,用相同的方法进行NA处理和0长度的向量处理。
字符串处理虽然不是R语言中最主要的功能,却也是必不可少的,数据清洗、可视化等的操作都会用到。对于R语言本身的base包提供的字符串基础函数,随着时间的积累,已经变得很多地方不一致,不规范的命名,不标准的参数定义,很难看一眼就上手使用。字符串处理在其他语言中都是非常方便的事情,R语言在这方面确实落后了。stringr包就是为了解决这个问题,让字符串处理变得简单易用,提供友好的字符串操作接口。
stringr的项目主页:
2. stringr安装
本文所使用的系统环境
Win10 64bit
R: 3.2.3 x86_64-w64-mingw32/x64 b4bit
stringr是在CRAN发布的标准库,安装起来非常简单,2条命令就可以了。
> install.packages('stringr')
> library(stringr)
3. stringr的API介绍
stringr包1.0.0版本,一共提供了30个函数,方便我们对字符串处理。常用的字符串的处理以str_开头来命名,方便更直观理解函数的定义。我们可以根据使用习惯对函数进行分类:
字符串拼接函数
str_c: 字符串拼接。
str_join: 字符串拼接,同str_c。
str_trim: 去掉字符串的空格和TAB(\t)
str_pad: 补充字符串的长度
str_dup: 复制字符串
str_wrap: 控制字符串输出格式
str_sub: 截取字符串
str_sub<- 截取字符串,并赋值,同str_sub
字符串计算函数
str_count: 字符串计数
str_length: 字符串长度
str_sort: 字符串值排序
str_order: 字符串索引排序,规则同str_sort
字符串匹配函数
str_split: 字符串分割
str_split_fixed: 字符串分割,同str_split
str_subset: 返回匹配的字符串
word: 从文本中提取单词
str_detect: 检查匹配字符串的字符
str_match: 从字符串中提取匹配组。
str_match_all: 从字符串中提取匹配组,同str_match
str_replace: 字符串替换
str_replace_all: 字符串替换,同str_replace
str_replace_na:把NA替换为NA字符串
str_locate: 找到匹配的字符串的位置。
str_locate_all: 找到匹配的字符串的位置,同str_locate
str_extract: 从字符串中提取匹配字符
str_extract_all: 从字符串中提取匹配字符,同str_extract
字符串变换函数
str_conv: 字符编码转换
str_to_upper: 字符串转成大写
str_to_lower: 字符串转成小写,规则同str_to_upper
str_to_title: 字符串转成首字母大写,规则同str_to_upper
参数控制函数,仅用于构造功能的参数,不能独立使用。
boundary: 定义使用边界
coll: 定义字符串标准排序规则。
fixed: 定义用于匹配的字符,包括正则表达式中的转义符
regex: 定义正则表达式
3.1 字符串拼接函数
3.1.1 str_c,字符串拼接操作,与str_join完全相同,与paste()行为不完全一致。
函数定义:
str_c(..., sep = "", collapse = NULL)
str_join(..., sep = "", collapse = NULL)
参数列表:
&#8230;: 多参数的输入
sep: 把多个字符串拼接为一个大的字符串,用于字符串的分割符。
collapse: 把多个向量参数拼接为一个大的字符串,用于字符串的分割符。
把多个字符串拼接为一个大的字符串。
> str_c('a','b')
> str_c('a','b',sep='-')
> str_c(c('a','a1'),c('b','b1'),sep='-')
把多个向量参数拼接为一个大的字符串。
> str_c(head(letters), collapse = "")
[1] "abcdef"
> str_c(head(letters), collapse = ", ")
[1] "a, b, c, d, e, f"
# collapse参数,对多个字符串无效
> str_c('a','b',collapse = "-")
> str_c(c('a','a1'),c('b','b1'),collapse='-')
[1] "ab-a1b1"
拼接有NA值的字符串向量时,NA还是NA
> str_c(c("a", NA, "b"), "-d")
[1] "a-d" NA
对比str_c()函数和paste()函数之间的不同点。
# 多字符串拼接,默认的sep参数行为不一致
> str_c('a','b')
> paste('a','b')
# 向量拼接字符串,collapse参数的行为一致
> str_c(head(letters), collapse = "")
[1] "abcdef"
> paste(head(letters), collapse = "")
[1] "abcdef"
#拼接有NA值的字符串向量,对NA的处理行为不一致
> str_c(c("a", NA, "b"), "-d")
[1] "a-d" NA
> paste(c("a", NA, "b"), "-d")
[1] "a -d"
"NA -d" "b -d"
3.1.2 str_trim:去掉字符串的空格和TAB(\t)
函数定义:
str_trim(string, side = c("both", "left", "right"))
参数列表:
string: 字符串,字符串向量。
side: 过滤方式,both两边都过滤,left左边过滤,right右边过滤
去掉字符串的空格和TAB(\t)
#只过滤左边的空格
> str_trim("
left space\t\n",side='left')
[1] "left space\t\n"
#只过滤右边的空格
> str_trim("
left space\t\n",side='right')
left space"
#过滤两边的空格
> str_trim("
left space\t\n",side='both')
[1] "left space"
#过滤两边的空格
> str_trim("\nno space\n\t")
[1] "no space"
3.1.3 str_pad:补充字符串的长度
函数定义:
str_pad(string, width, side = c("left", "right", "both"), pad = " ")
参数列表:
string: 字符串,字符串向量。
width: 字符串填充后的长度
side: 填充方向,both两边都填充,left左边填充,right右边填充
pad: 用于填充的字符
补充字符串的长度。
# 从左边补充空格,直到字符串长度为20
> str_pad("conan", 20, "left")
# 从右边补充空格,直到字符串长度为20
> str_pad("conan", 20, "right")
[1] "conan
# 从左右两边各补充空格,直到字符串长度为20
> str_pad("conan", 20, "both")
# 从左右两边各补充x字符,直到字符串长度为20
> str_pad("conan", 20, "both",'x')
[1] "xxxxxxxconanxxxxxxxx"
3.1.4 str_dup: 复制字符串
函数定义:
str_dup(string, times)
参数列表:
string: 字符串,字符串向量。
times: 复制数量
复制一个字符串向量。
str_dup(val, 2)
[1] "abca4abca4" "123123"
"cba2cba2"
# 按位置复制
> str_dup(val, 1:3)
[1] "abca4"
"cba2cba2cba2"
3.1.5 str_wrap,控制字符串输出格式
函数定义:
str_wrap(string, width = 80, indent = 0, exdent = 0)
参数列表:
string: 字符串,字符串向量。
width: 设置一行所占的宽度。
indent: 段落首行的缩进值
exdent: 段落非首行的缩进值
txt cat(str_wrap(txt, width = 40), "\n")
R语言作为统计学一门语言,一直在小众领域
闪耀着光芒。直到大数据的爆发,R语言变成
了一门炙手可热的数据分析的利器。随着越来
越多的工程背景的人的加入,R语言的社区在
迅速扩大成长。现在已不仅仅是统计领域,教
育,银行,电商,互联网….都在使用R语言。
# 设置宽度为60字符,首行缩进2字符
> cat(str_wrap(txt, width = 60, indent = 2), "\n")
R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数
据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来
越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已
不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。
# 设置宽度为10字符,非首行缩进4字符
> cat(str_wrap(txt, width = 10, exdent = 4), "\n")
耀着光芒。
直到大数据
语言变成了
一门炙手可
热的数据分
析的利器。
越多的工程
背景的人的
言的社区在
迅速扩大成
长。现在已
不仅仅是统
计领域,教
育,银行,
电商,互联
网….都在使
3.1.6 str_sub,截取字符串
函数定义:
str_sub(string, start = 1L, end = -1L)
参数列表:
string: 字符串,字符串向量。
start : 开始位置
end : 结束位置
截取字符串。
str_sub(txt, 1, 4)
[1] "I am"
# 截取1-6的索引位置的字符串
> str_sub(txt, end=6)
[1] "I am C"
# 截取6到结束的索引位置的字符串
> str_sub(txt, 6)
[1] "Conan."
# 分2段截取字符串
> str_sub(txt, c(1, 4), c(6, 8))
[1] "I am C" "m Con"
# 通过负坐标截取字符串
> str_sub(txt, -3)
> str_sub(txt, end = -3)
[1] "I am Cona"
对截取的字符串进行赋值。
str_sub(x, 1, 1)
str_sub(x, 2, -2) <- "2345"; x
[1] "12345C"
3.2 字符串计算函数
3.2.1 str_count, 字符串计数
函数定义:
str_count(string, pattern = "")
参数列表:
string: 字符串,字符串向量。
pattern: 匹配的字符。
对字符串中匹配的字符计数
> str_count('aaa444sssddd', "a")
对字符串向量中匹配的字符计数
str_count(fruit, "a")
[1] 1 3 1 1
> str_count(fruit, "p")
[1] 2 0 1 3
对字符串中的'.'字符计数,由于.是正则表达式的匹配符,直接判断计数的结果是不对的。
> str_count(c("a.", ".", ".a.",NA), ".")
# 用fixed匹配字符
> str_count(c("a.", ".", ".a.",NA), fixed("."))
# 用\\匹配字符
> str_count(c("a.", ".", ".a.",NA), "\\.")
3.2.2 str_length,字符串长度
函数定义:
str_length(string)
参数列表:
string: 字符串,字符串向量。
计算字符串的长度:
> str_length(c("I", "am", "张丹", NA))
3.2.3 str_sort, 字符串值排序,同str_order索引排序
函数定义:
str_sort(x, decreasing = FALSE, na_last = TRUE, locale = "", ...)
str_order(x, decreasing = FALSE, na_last = TRUE, locale = "", ...)
参数列表:
x: 字符串,字符串向量。
decreasing: 排序方向。
na_last:NA值的存放位置,一共3个值,TRUE放到最后,FALSE放到最前,NA过滤处理
locale:按哪种语言习惯排序
对字符串值进行排序。
# 按ASCII字母排序
> str_sort(c('a',1,2,'11'), locale = "en")
# 倒序排序
> str_sort(letters,decreasing=TRUE)
[1] "z" "y" "x" "w" "v" "u" "t" "s" "r" "q" "p" "o" "n" "m" "l" "k" "j" "i" "h"
[20] "g" "f" "e" "d" "c" "b" "a"
# 按拼音排序
> str_sort(c('你','好','粉','丝','日','志'),locale = "zh")
[1] "粉" "好" "你" "日" "丝" "志"
对NA值的排序处理
#把NA放最后面
> str_sort(c(NA,'1',NA),na_last=TRUE)
[1] "1" NA
#把NA放最前面
> str_sort(c(NA,'1',NA),na_last=FALSE)
> str_sort(c(NA,'1',NA),na_last=NA)
3.3 字符串匹配函数
3.3.1 str_split,字符串分割,同str_split_fixed
函数定义:
str_split(string, pattern, n = Inf)
str_split_fixed(string, pattern, n)
参数列表:
string: 字符串,字符串向量。
pattern: 匹配的字符。
n: 分割个数
对字符串进行分割。
s1 s2 class(s1)
[1] "list"
# 用str_split_fixed()函数分割,结果类型是matrix
> s3 class(s3)
[1] "matrix"
3.3.2 str_subset:返回的匹配字符串
函数定义:
str_subset(string, pattern)
参数列表:
string: 字符串,字符串向量。
pattern: 匹配的字符。
str_subset(val, "a")
[1] "abc" "cba"
# 开头匹配
> str_subset(val, "^a")
# 结尾匹配
> str_subset(val, "a$")
3.3.3 word, 从文本中提取单词
函数定义:
word(string, start = 1L, end = start, sep = fixed(" "))
参数列表:
string: 字符串,字符串向量。
start: 开始位置。
end: 结束位置。
sep: 匹配字符。
word(val, 1)
"http://fens.me,"
> word(val, -1)
[1] "Conan." "ok"
> word(val, 2, -1)
[1] "am Conan." "ok"
# 以,分割,取第一个位置的字符串
> val word(val, 1, sep = fixed(','))
> word(val, 3, sep = fixed(','))
3.3.4 str_detect匹配字符串的字符
函数定义:
str_detect(string, pattern)
参数列表:
string: 字符串,字符串向量。
pattern: 匹配字符。
str_detect(val, "a")
TRUE FALSE
# 检查字符串向量,是否以a为开头
> str_detect(val, "^a")
TRUE FALSE FALSE
# 检查字符串向量,是否以a为结尾
> str_detect(val, "a$")
[1] FALSE FALSE FALSE
3.3.6 str_match,从字符串中提取匹配组
函数定义:
str_match(string, pattern)
str_match_all(string, pattern)
参数列表:
string: 字符串,字符串向量。
pattern: 匹配字符。
从字符串中提取匹配组
str_match(val, "a")
# 匹配字符0-9,限1个,并返回对应的字符
> str_match(val, "[0-9]")
# 匹配字符0-9,不限数量,并返回对应的字符
> str_match(val, "[0-9]*")
[2,] "123"
从字符串中提取匹配组,以字符串matrix格式返回
> str_match_all(val, "a")
> str_match_all(val, "[0-9]")
3.3.7 str_replace,字符串替换
函数定义:
str_replace(string, pattern, replacement)
参数列表:
string: 字符串,字符串向量。
pattern: 匹配字符。
replacement: 用于替换的字符。
str_replace(val, "[ab]", "-")
[1] "-bc" "123" "c-a"
# 把目标字符串所有出现的a或b,替换为-
> str_replace_all(val, "[ab]", "-")
[1] "--c" "123" "c--"
# 把目标字符串所有出现的a,替换为被转义的字符
> str_replace_all(val, "[a]", "\1\1")
[1] "\001\001bc" "123"
"cb\001\001"
3.3.8 str_replace_na把NA替换为NA字符串
函数定义:
str_replace_na(string, replacement = "NA")
参数列表:
string: 字符串,字符串向量。
replacement : 用于替换的字符。
把NA替换为字符串
> str_replace_na(c(NA,'NA',"abc"),'x')
3.3.9 str_locate,找到的模式在字符串中的位置。
函数定义:
str_locate(string, pattern)
str_locate_all(string, pattern)
参数列表:
string: 字符串,字符串向量。
pattern: 匹配字符。
str_locate(val, "a")
# 用向量匹配
> str_locate(val, c("a", 12, "b"))
# 以字符串matrix格式返回
> str_locate_all(val, "a")
# 匹配a或b字符,以字符串matrix格式返回
> str_locate_all(val, "[ab]")
3.3.10 str_extract从字符串中提取匹配模式
函数定义:
str_extract(string, pattern)
str_extract_all(string, pattern, simplify = FALSE)
参数列表:
string: 字符串,字符串向量。
pattern: 匹配字符。
simplify: 返回值,TRUE返回matrix,FALSE返回字符串向量
str_extract(val, "\\d")
[1] "4" "1" "2"
# 返回匹配的字符
> str_extract(val, "[a-z]+")
[1] "abca" NA
str_extract_all(val, "\\d")
[1] "1" "2" "3"
> str_extract_all(val, "[a-z]+")
[1] "abca"
character(0)
3.4 字符串变换函数
3.4.1 str_conv:字符编码转换
函数定义:
str_conv(string, encoding)
参数列表:
string: 字符串,字符串向量。
encoding: 编码名。
对中文进行转码处理。
# 把中文字符字节化
str_conv(x, "GBK")
[1] "你好"
> str_conv(x, "GB2312")
[1] "你好"
# 转UTF-8失败
> str_conv(x, "UTF-8")
Warning messages:
1: In stri_conv(string, encoding, "UTF-8") :
input data \xffffffc4 in current source encoding could not be converted to Unicode
2: In stri_conv(string, encoding, "UTF-8") :
input data \xffffffe3\xffffffba in current source encoding could not be converted to Unicode
3: In stri_conv(string, encoding, "UTF-8") :
input data \xffffffc3 in current source encoding could not be converted to Unicode
把unicode转UTF-8
str_conv(x1, "UTF-8")
[1] "北京"
3.4.2 str_to_upper,字符串大写转换。
函数定义:
str_to_upper(string, locale = "")
str_to_lower(string, locale = "")
str_to_title(string, locale = "")
参数列表:
string: 字符串。
locale:按哪种语言习惯排序
字符串大写转换:
str_to_upper(val)
[1] "I AM CONAN. WELCOME TO MY BLOG! HTTP://FENS.ME"
> str_to_lower(val)
[1] "i am conan. welcome to my blog! http://fens.me"
# 首字母大写
> str_to_title(val)
[1] "I Am Conan. Welcome To My Blog! Http://Fens.Me"
字符串在平常的数据处理中经常用过,需要对字符串进行分割、连接、转换等操作,本篇中通过介绍stringr,灵活的字符串处理库,可以有效地提高代码的编写效率。有了好的工具,在用R语言处理字符串就顺手了。
转载请注明出处:
,将介绍如何使用IT技术,处理金融大数据。在互联网混迹多年,已经熟练掌握一些IT技术。单纯地在互联网做开发,总觉得使劲的方式不对。要想靠技术养活自己,就要把技术变现。通过“跨界”可以寻找新的机会,创造技术的壁垒。
金融是离钱最近的市场,也是变现的好渠道!今天就开始踏上“用IT技术玩金融”之旅!
关于作者:
张丹(Conan), 程序员Java,R,Javascript
weibo:@Conan_Z
转载请注明出处:
散户每天都在经历中国股市的上蹿下跳,赚到钱是运气,赔钱是常态。那么是否有方法可以让赚钱变成常态呢?
我们可以通过“统计套利”的方法,发现市场的无效性。配对交易,就统计套利策略的一种,通过对冲掉绝大部分的市场风险,抓住套利机会,积累小盈利汇聚大收益。
什么是配对交易?
配对交易的模型
用R语言实现配对交易
1. 什么是配对交易?
配对交易(Pairs Trading)的理念最早来源于上世纪20年代华尔街传奇交易员Jesse Livermore 的姐妹股票对交易策略。配对交易的基本原理是找到两个相关性较高具备均衡关系的股票或其他金融产品,做空近期相对强势的金融产品,同时做多相对弱势金融产品,等待两者价格重返均衡值时进行平仓,赚取两者的价差变动的收益。
假设两个金融产品在未来的时期会保持良好的均衡关系,一旦两者之间的价格走势出现背离,同时这种背离在未来会被进行修复,那么就可能产生套利的机会。对于配对交易来说,就是找到这样的机会,进行统计套利。
配对交易的特点
配对交易与传统股票交易最大的不同之处在于,它的投资标的是两只股票的价差,是一种相对价值而非绝对价值。由于它在股票多头和空头方同时建仓,对冲掉了绝大部分的市场风险,所以它是一种市场的中性策略。无论大盘上涨还是下跌,配对交易策略收益都是相对平稳的,与大盘走势的相关性很低。
在市场无趋势性机会时,可以通过配对交易避免股市系统风险,获取Alpha绝对收益。趋势性的交易策略,可以参考文章 。
配对交易操作方法
组合筛选:在市场上寻找用于配对的金融产品或者组合,检查历史价格的走势,判断是否可以用来进行配对。主要用下面几个指标来筛选配对组合:相关系数、模型计算的均值回复速度、协整检验、基本面因素等。通过这些因素来寻找出具有稳定相关关系的组合。
风险衡量和动态组合的构建:计算配对组合各自的预期收益、预期风险、交易成本;判断两个组合之间的价差服从何种分布;判断是具有长期均衡特性还是短期均衡特性;价差发生跳跃的频率等。
确定交易规则:根据价差的特性,确定交易的频率(高频交易还是低频交易),交易的触发条件和平仓规则等。
执行交易及风险控制:除了按照交易规则执行外,还必须动态跟踪价差走势,如果发现突变,应该及时调整套利模式和交易频率。
配对交易缺点
统计套利的规则都是基于历史数据计算的,但历史不能代表未来,当市场发生变化模型也会失效
市场对价格进行修复的时间难以准确判断,只能根据历史大致估计。如果回归的时间过长,对套利者的资金使用成本是个考验,也有可能导致套利失败。
2. 构建配对交易的模型
根据配对交易的原理,我们就可以自己设计配对交易的模型了。首先,需要把配对交易涉及的指标都进行量化,比如如何选择不同的两个具备均衡关系金融产品,什么时候做多,什么时候做空,什么时候平仓等。
根据概念,我们生成两个虚拟的金融产品X,Y,包括时间和价格字段。让X和Y的两个产品都价格符合正态分布,生成100个日期的数据。由于是测试程序,日期字段是包括了自然日,暂时理解为连续的日期。
R语言实现的代码如下:
> set.seed(1)
#设置随机种子
> dates x y df df
17.18 120.69
37.78 117.29
25.15 107.29
81.29 103.72
47.85 -10.74
33.40 -11.46
43.42 -26.57
77.88 -16.60
64.58 133.49
85.24 -15.62
44.60 124.77
57.55 138.24
69.02 142.32
50.04 133.01
92.52 108.58
-1.06 107.65
把数据进行可视化,可以更直观地理解数据本身。
# 加载R语言类库
> library(ggplot2)
> library(scales)
> library(reshape2)
# 数据转型
> df2 g g g g g
上图中,X轴为时间,Y轴是价格,红色线为X的产品的价格,蓝色线为Y产品的价格。我们可以直观的看出,X,Y两个产品无任何关系。
根据配对交易的假设条件,如果两个金融产品的价差是收敛的。我们用X的产品价格减去Y产品的价格,当差值为正的时候,我们认为X的价格过高,则做空X,同时Y的价格过低,则做多Y;当差值为负的时候,我们认为X的价格过低,则做多X,同时Y的价格过高,则做空Y;当差值为0时,则价格被市场所修复,则全部平仓。
为了让差异更明显,我们定义的计算公式如下。
价差Z = X价格-Y价格
10时,做空X,做多Y ;Z<0时,平仓
Z 0时,平仓
计算差价,然后计算交易统计。
# 计算差价
> df$diff idx10)
4 11 15 23 25 30 34 36 38 43 48 53 55 59 61 68 76 81 83 86 88 92 95 98
接下来,我们进行模拟交易,取第一个索引值的点,在时做空X,做多Y。当差价小于0在时,进行平仓。
# 打印前20个数据
> head(df,20)
17.18 120.69 -103.51
37.78 117.29
25.15 107.29
# 当差价大于10时,做空X,当差价小于0时,平仓。
# 第4行做空,第6行平仓
> xprofit yprofit<- df$y[6]-df$y[4];yprofit
从交易结果来看,我们第一笔配对交易就是赚钱的。
这是为什么呢?
根据配对交易的假设条件,如果两个金融产品的价差是收敛的,通过协整性检验的方法,我们可验证数据的收敛性。那么如果数据是收敛的,他还会具备均值回归的特性,请参考文章 。
画出X,Y的价差图,我们可以明显的看出,价差一直围绕着0上下波动,这是明显收敛的,同时符合均值回归的特性。
> plot(df$diff,type='l')
这就是市场的规则,通过配对交易的方法,我们找到市场无效性,从而可以赚去套利的收益。
3. 用R语言实现配对交易
看到上面的赚钱方法,也许大家会很兴奋!但是大部分市场的数据,都不会像我们的假设条件一样,轻而易举就能实现赚钱的目标。我们可以用计算机程序进行全市场的扫描发现交易机会,当然你也可以通过肉眼的方式来观察。
市场上有一些天生就具备均衡关系的金融产品,可以作为我们套利的入手对象。
股票类,同行业、市值和基本面相似的个股,比如,中国银行(601988)和农业银行(601288)。
基金类,以相同指数作为标的的不同基金,比如,证券B(150172),券商B(150201)。
期货类,同一期货品种的不同合约,比如,铜(cu1605, cu1606)。
混合类,跨市场为标的的金融产品,比如,沪深300指数,IF的期货合约
接下来,以相同品种不同合约的期货为例,我们把配对交易用在cu1605和cu1606的两个合约上,试试效果如何。由于期货是支持的T+0日内的交易的,而对于套利的操作,通常都不会持仓过夜,所以我们在尽量的短周期上进行操作,而且日内平仓。下面我将以1分钟做为交易周期。
3.1 数据准备
R语言本身提供了丰富的金融函数工具包,时间序列包zoo和xts,指标计算包TTR,可视包ggplot2等,我们会一起使用这些工具包来完成建模、计算和可视化的工作。关于zoo包和xts包的详细使用可以参考文章,,。
本文用到的数据,是铜的1分钟线的数据,从2016年日2月1日到2016年日2月29日,日盘的交易数据,以CSV格式保存到本地文件cu1605.csv,cu1606.csv。商品期货的日盘交易时间分为3段:09:00:00-10:14:59,10:30:00-11:29:59,13:30:00-14:59:59。当前测试,不考虑夜盘的数据。
数据格式如下:
09:00:00,,
09:01:00,,
09:02:00,,
09:03:00,,
09:04:00,,
09:05:00,,
09:06:00,,
第1列,交易时间,date, 09:00:00
第2列,开盘价,Open,35870
第3列,最高价,High,35900
第4列,最低价,Low,35860
第5列,收盘价,Close,35880
通过R语言加载铜的1分钟线数据,因为我们进行日内交易,所以在加载时我就进行了转换,按日期进行分组,生成R语言的list对象,同时把每日的data.frame类型对象转成XTS时间序列类型对象,方便后续的数据处理。
#加载工具包
> library(xts)
> library(TTR)
# 读取CSV数据文件
> read<-function(file){
df<-read.table(file=file,header=FALSE,sep = ",", na.strings = "NULL")
names(df)<-c("date","Open","High","Low","Close")
# 设置列名
dl cu1605 cu1606 class(cu1605)
[1] "list"
# 查看数据的日期索引值
> names(cu1605)
[1] "" "" "" "" ""
[6] "" "" "" "" ""
[11] "" "" "" "" ""
# 查看每日的数据量
> nrow(cu1605[[1]])
# 查看cu1605合约的数据
> head(cu1605[['']])
把数据准备好了,我们就可以来建立模型了。
3.2 配对交易模型
以日为例进行交易,以1分钟线的close价格来计算cu1605和cu1606的两个合约的价差。下面我们对数据进行操作,合并2个合约在日的数据,并对空值进行处理,最后计算出两个合约的价差。
# 合并数据
> xdf names(xdf) xdf xdf$diff head(xdf,20)
数据解释:
x1列,为第一腿对应cu1605合约
x2列,为第二腿对应cu1606合约。
diff列,为cu1605-cu1606
从价差的结果看,每1分钟cu1605合约都小于cu1606合约,从-110到-20价差不等,并且以-63为均值上下反复震荡。
# 计算价差范围
> range(xdf$diff)
# 计算价差均值
> mean(xdf$diff)
[1] -63.90135
# 画出价差分布柱状图
> hist(xdf$diff,10)
画出价差分布柱状图
我们假设以-63为均值回归点,当差值为大于-45的时候,认为X的价格过高做空X,同时Y的价格过低做多Y;当差值小于-75的时候,我们认为X的价格过低做多X,同时Y的价格过高做空Y;当差值为-63时,价格被市场所修复,则全部平仓。以cu1605和cu1606的两个合约按照1:1持仓进行配比,1手多单对1手空单。
定义模型指标,计算价值列为diff,均值回归列为mid,最大阈值列为top,最小阈值列为bottom。
target.pair<-function(xdf){
xdf$diff<-xdf$x1-xdf$x2
xdf$mid<- -63
#均值回归点
xdf$top<- -45
xdf$bottom<- -75
return(xdf)
完成指标的定义后,我们创建配对交易模型,并对合同数据进行回测,产生交易信号后,模拟交易输出清单,并可视化交易结果。
回测过程代码省略,产生的交易信号如下所示。
x2 diff mid top bottom op
-20 -63 -45
-70 -63 -45
-40 -63 -45
-70 -63 -45
-80 -63 -45
-50 -63 -45
-40 -63 -45
-70 -63 -45
-80 -63 -45
-50 -63 -45
-80 -63 -45
-40 -63 -45
-40 -63 -45
-70 -63 -45
-80 -63 -45
-60 -63 -45
-80 -63 -45
-60 -63 -45
-80 -63 -45
-60 -63 -45
-80 -63 -45
-60 -63 -45
-90 -63 -45
-80 -63 -45
数据解释:
date列,为交易时间
x1列,为第一腿对应cu1605合约
x2列,为第二腿对应cu1606合约。
diff列,为cu1605-cu1606
mid列,为均值回归点
top列,为最大阈值
bottom列,为最小阈值
op列,为交易信号
交易信号一共有4种。
ks, 开仓, 做空(卖),对应反向操作为pb。
kb, 开仓, 做多(买),对应反向操作为ps。
ps, 平仓, 做空(卖),对应反向操作为kb。
pb,平仓, 做多(买),对应反向操作为ks。
一共出现了24个交易信号,由于我们进行的是配对交易,所以当出现ks(开仓做空)信号时,实际上会进行2笔操作,开仓做空第一腿,开仓做多第二腿。
接下来,进行模拟交易,计算出交易清单。
code op price pos
margin balance
cu1605 ks 35880
1 8. 26910.0
cu1605 pb 35740
cu1605 ks 35690
1 8. 26767.5
cu1605 pb 35700
cu1605 kb 35690
1 8. 26767.5
cu1605 ps 35710
cu1605 ks 35710
1 8. 26782.5
cu1605 pb 35680
cu1605 kb 35720
1 8. 26790.0
cu1605 ps 35740
cu1605 kb 35700
1 8. 26775.0
cu1605 ps 35710
11:21:001 cu1605 ks 35710
1 8. 26782.5
cu1605 pb 35690
cu1605 kb 35690
1 8. 26767.5
cu1605 ps 35660
cu1605 kb 35660
1 8. 26745.0
cu1605 ps 35670
cu1605 kb 35650
1 8. 26737.5
cu1605 ps 35650
cu1605 kb 35640
1 8. 26730.0
cu1605 ps 35600
cu1605 kb 35610
1 8. 26707.5
cu1605 ps 35610
code op price pos
margin balance
cu1606 kb 35900
1 8. 26925.0
cu1606 ps 35810
cu1606 kb 35730
1 8. 26797.5
cu1606 ps 35770
cu1606 ks 35770
1 8. 26827.5
cu1606 pb 35760
cu1606 kb 35750
1 8. 26812.5
cu1606 ps 35750
cu1606 ks 35800
1 8. 26850.0
cu1606 pb 35790
cu1606 ks 35780
1 8. 26835.0
cu1606 pb 35750
11:21:001 cu1606 kb 35750
1 8. 26812.5
cu1606 ps 35760
cu1606 ks 35770
1 8. 26827.5
cu1606 pb 35720
cu1606 ks 35740
1 8. 26805.0
cu1606 pb 35730
cu1606 ks 35730
1 8. 26797.5
cu1606 pb 35710
cu1606 ks 35720
1 8. 26790.0
cu1606 pb 35660
cu1606 ks 35700
1 8. 26775.0
cu1606 pb 35690
数据解释:
$x1部分,为第一腿的交易清单。
$x2部分,为第二腿的交易清单。
code,合约代码
op,交易信号
price,成交价格
pos,成交数量
fee,手续费
value,对应价值
margin,保证金
balance,平仓盈亏
cash,账号资金
我通过交易清单,统计交易结果。
# 交易日期
# 初始资金
# 账户余额
# 交易信号数
# 配对交易平仓盈亏
x2 balance
13:36:00 -150
14:49:00 -200
# 汇总平仓盈亏,第一腿盈亏,第二腿盈亏
# 汇总手费费,第一腿手续费,第二腿手续费
[1] 429 214 215
# 账户净收益,收益率(占保证金)
# 胜率,胜数,败数
最后,通过可视化输出交易信号。
棕色线,为价差diff
紫色线,为最大阈值top
红色线,为最小阈值bottom
蓝色线,为均值线mid,平行于top和bottom
浅蓝线,为ks开仓做空的交易
绿色线,为kb开仓做多的交易
从图中看就更直观了,我们进行了12次交易,每次4笔,胜率100%。
最后,我们对2月份整个的数据进行回测。回测结果如下。
date profit
ret balance fee winRate win fail maxProfit maxLoss avgProfit avgLoss
-36 -0.001
数据解释:
date,交易日期
profit,净收益
ret,每日收益率
balance,平仓盈亏
fee,手续费
winRate,胜率
fail,败数
maxProfit,单笔最大盈利
maxLoss,单笔最大亏损
avgProfit,平均盈利
avgLoss,平均亏损
从结果来看,多么开心啊,几乎每天都是赚钱的!!
cu1605和cu1606两个合同是完美地具备均衡关系的两个金融产品,大家常常所说的跨期套利就是基于这个思路实现的。本文介绍的配对交易模型,是统计套利的一个基本模型,原理很简单,当大家都掌握后拼的就是交易速度了。
利用市场的无效性来获取利润,是每个套利策略都在寻找的目标。通过统计方法,我们可以发现市场的无效性,再以对冲的操作方式,规避绝大部分的市场风险,等待市场的自我修复后来赚钱利润。说起来很简单,但市场的无效性,可能会在极短时间内就被修复。
“天下武功为快不破”,通过量化的手段,让计算机来发现机会,进行交易,实现收益。一切就和谐了!!
转载请注明出处:
,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。
张丹(Conan), 程序员Java,R,Javascript
weibo:@Conan_Z
转载请注明出处:
投资分析师一直是大家眼中光鲜耀眼的职业,通常受雇于银行,保险公司,投资公司,制造公司,信托公司,基金管理公司等。他们不仅需要了解国内国际的宏观经济形势,还要为公司和客户提供财政和投资融资建议,是一向非常有挑战性工作。
这次非常高兴,能与深度合作,开发“投资分析师”的课程,帮助学生了解职场,提高动手和实战的能力。本次合作项目一经推出,就吸引了外经贸的230位从本科到博士的同学报名,其中170位同学参加了笔试,60位同学入围了面试,最后30位精英同学入选参加第一期的况客训练营。
网站也使用了本次题目,拿这次笔试的试卷搞个竞答的活动!尚书视频网站以知识积累,聚集各路跨学科的大侠,经常一边讨论R,一边讨论Node,一会儿聊聊金融量化模型,一会儿又说到了Hadoop大数据的开发,一个跨学科的交流平台。本次的题目也是多种学科知识综合的问题,正巧可以看看大侠们思路,到底有多不一样。
1. 活动介绍
作为一名优秀的投资分析师,不仅要具备金融的基础知识,还要理解市场,冷静的思考,逻辑思维,并有一定的数据处理能力。那么,本次况客训练营,为了选拔出优秀的同学,我们在笔试题上面,确实下了一番功夫,包括了3道金融题,1道IT基础题,1道算法题,1道综合建模题。题目都是况客公司各种精英鬼才想出的,其实都是非常有意思题目。
想知道自己的技术到底在一个什么段位?
快来答题吧~~~\(^o^)/~
下面引用活动规则:。
张丹老师所在的与对外经济贸易大学联合推出的“”已于日正式启动了。并于10月26日进行了第一轮的笔试考试。管理员我有幸看到了考试试卷,觉着有点儿意思,所以一拍大腿,决定拿这次笔试的试卷搞个竞答的活动!
这次使用的题目,都是张丹老师公司第一轮笔试的考试题啦。当天笔试规定的时间是2个小时,开卷笔试,可以上网。我琢磨着,咱们群里时间给宽松点儿吧,一周吧!依旧是开卷,可以上网,随便查,群内的兄弟姐妹老少爷们儿们都可以参加,没门槛限制!答完了就发送到我邮箱里,其中一定要包括“姓名”、“QQ号”、“群名片”呦!张丹老师统一阅卷,得分最高的前三名送张丹老师写的一本!!
活动时间:—
活动范围: QQ群 内所有成员
活动方式:开卷笔试,可以上网,随便查!!!
答案提交方式:邮件提交
答案提交截止日期:
邮箱地址:
活动奖品:
活动咨询:尚书视频 QQ群内 助理-管理员
还没有加群的朋友,快来申请吧,QQ群:。
非常感谢 华章公司-机械工业出版社 为本次活动提供图书奖品!!
2. 笔试题目
“UIBE-况客投资分析师发展计划”:旨在通过对外经济贸易大学重点金融实验室的优秀资源和况客公司的金融技术优势,在金融建模、量化编程、投研报告撰写等方面对学员进行系统的培训,使得学员的投资实战能力大大提高。作为投资分析师的摇篮计划,该项目不仅培养学生的投资研究实战能力,并将优秀学员推荐至国内外著名金融机构进行实习和工作。
接下来,就是本次的题目的,全都是简答题。祝大家好运!
1. 阐述个人选择股票的逻辑,并介绍在实际操作中如何实现。
2. 假设作为FOF的基金经理,你管理着1000万人民币的投资组合,可投资范围包括A和B两个指数增强型基金,此外可以投资于IC、IF和IH等股指期货合约。A基金的参考基准为沪深300指数,预计基金超额业绩为年化2%;B基金的参考投资基准为中证500指数, 预计基金超额业绩为年化5%。在要求组合业绩相对于沪深300指数的beta不能显著偏离1的情况下,尽可能地提高投资组合的业绩。请阐述你如何构建投资组合。
3. 资产管理是个竞争非常激烈的行业,对于大部分的基金管理人来说都会面临与同行进行排名的压力。国内一般采用年度考核的方式来评估一个基金经理的能力,现在假设你管理的同类型基金有N个同行业竞争者,目前距离年度结束只有T天,而你所管理的基金的最新排名在m,而你的目标是尽量在年度结束的时候获得尽量靠前的排名。假设市场是完全有效的市场,金融资产的收益率服从均值为0的正态分布,但是基金经理可以选择所配置金融资产的波动率d(也就是正态分布的标准差)。根据基金经理的从业经验,如果排名越落后的情况下,在剩下的时间T里,一般会选择提高所配置资产的风险水平d。请设计一套量化分析的方法验证该经验是否合理(本题目为开放型题目,没有标准答案; 可以从数学角度或者计算机程序设计的角度出发回答这个问题)。
4. 列出你所熟悉的编程或建模工具,并描述工具的特点,以及你的使用场景。
5. 实现一个回字形矩阵,内圈比外圈每一圈小1,最内圈为数字1。要求给定初始值,画出整个矩阵,请提供思路和伪代码。比如,初始值为3的回字形矩阵,如下所示:
&#8220;月上柳梢头,人约黄昏后&#8221;,出自北宋文学家欧阳修的《生查子》,全词富于诗情画意,此句更是唯美,被广为传唱。 请查阅天文学资料,建立模型,实现如下要求:
定义画面中的时间;
定义模型的各个因子,选用文字、图表、算法等形式描述模型;
运用模型,推算北京今年有几次这样的时间;
3年后,去国外哪个城市,什么时间去才能满足上述画面?
嘿嘿,一共6道题,记得发邮件!
3. 现场照片
笔试的考场
火爆的笔试现场
3个严肃的面试官
面试过程中的小组讨论环节
转载请注明出处:
Designed by}

我要回帖

更多关于 24点算式 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信