如何使用R语言中的内置数据集
最近在学习PSM分析方法时,找了许久也找不到相应的案例数据, 就想到了使用R语言中内置的数据集来进行学习。R语言内置数据集有两个优点: 一是,数据源真实可靠,多数是研究者贡献的真实研究数据,数据共享不涉及版权问题;二是,使用方便,不需要费力的全网搜索。如何使用R语言中的内置数据集?
- 查看R语言的内置数据集
R的内置数据集一共有两种:R内部 datasets 包中的数据集以及安装的其他 package 中包含的数据集,这些数据集的查看方法如下:
data(package = .packages(all.available = TRUE)) #查看所有数据集
data()#查看 R 内存中 datasets 包中的数据集,datasets 包提供了 100 个可以使用的数据集
data(package="MatchIt")#查看 MatchIt 包中的数据集
help("lalonde") #查看 lalonde 数据集的信息文档
?lalonde #查看 lalonde 数据集的信息文档
- 使用内置数据集
str(lalonde)#显示 lalonde 的 数据基本信息
'data.frame': 614 obs. of 10 variables:
$ treat : int 1 1 1 1 1 1 1 1 1 1 ...
$ age : int 37 22 30 27 33 22 23 32 22 33 ...
$ educ : int 11 9 12 11 8 9 12 11 16 12 ...
$ black : int 1 0 1 1 1 1 1 1 1 0 ...
$ hispan : int 0 1 0 0 0 0 0 0 0 0 ...
$ married : int 1 0 0 0 0 0 0 0 0 1 ...
$ nodegree: int 1 1 0 1 1 1 0 1 0 0 ...
$ re74 : num 0 0 0 0 0 0 0 0 0 0 ...
$ re75 : num 0 0 0 0 0 0 0 0 0 0 ...
$ re78 : num 9930 3596 24909 7506 290 ...
lalonde 数据集为最传统的倾向值匹配分析所用到的数据集.数据如下所示, 共有 10 个变量, 614 个观测,试验组 185 例, 对照组 429 例. treat 变量为分组变量 (是否参加就业培训) , “1” = 试验组, “0” = 对照组. age (年龄), educ (教育年限), black (是否为黑人), hispan (是否为拉丁族), married (是否结婚), nodegree (是否受过教育), re74 (1974 年实际收入), re75 (1975 年实际收入) 等为协变量, re78 (1978 年实际收入) 为结局变量.
summary(lalonde)# lalonde 数据的简单统计描述
treat age educ black
Min. :0.0000 Min. :16.00 Min. : 0.00 Min. :0.0000
1st Qu.:0.0000 1st Qu.:20.00 1st Qu.: 9.00 1st Qu.:0.0000
Median :0.0000 Median :25.00 Median :11.00 Median :0.0000
Mean :0.3013 Mean :27.36 Mean :10.27 Mean :0.3958
3rd Qu.:1.0000 3rd Qu.:32.00 3rd Qu.:12.00 3rd Qu.:1.0000
Max. :1.0000 Max. :55.00 Max. :18.00 Max. :1.0000
hispan married nodegree re74
Min. :0.0000 Min. :0.0000 Min. :0.0000 Min. : 0
1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.: 0
Median :0.0000 Median :0.0000 Median :1.0000 Median : 1042
Mean :0.1173 Mean :0.4153 Mean :0.6303 Mean : 4558
3rd Qu.:0.0000 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.: 7888
Max. :1.0000 Max. :1.0000 Max. :1.0000 Max. :35040
re75 re78
Min. : 0.0 Min. : 0.0
1st Qu.: 0.0 1st Qu.: 238.3
Median : 601.5 Median : 4759.0
Mean : 2184.9 Mean : 6792.8
3rd Qu.: 3249.0 3rd Qu.:10893.6
Max. :25142.2 Max. :60307.9
结果显示了所有变量的简单描述性统计指标包括:最小值(Min), 25%分位数(1st Qu.), 50%分位数(Median), 均值(Mean), 75%分位数( 3rd Qu.), 最大值(Max).
版权声明:本文为sinat_41059397原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。