1.抽样
简单随机抽样
分层抽样:先依据特征将总体划分为多个部分,然后在各个子部分进行抽样
等距抽样:先将总体按照某一标准排列,然后按照固定的间隔进行抽取
整群抽样:先将总体按单位划分为多个群,然后在各个群中进行抽取
多阶段抽样:先按总体的层次关系进行划分,再随机抽取高层次的群,然后依次按层次抽取
2.描述性统计方法
在统计学中,数据表与数据图是最常用最有效的展示数据的方法
2.1 频数、频率相关
可视化方法:频数表、频率表、频数柱状图、频率柱状图、频率扇形图、茎叶图、频数分布直方图、频率分布直方图、累积频率曲线
下图为累积频率分布直方图
下图为茎叶图,左侧为十位数,右侧为个位数
2.2 集中趋势、离散趋势
平均数、中位数、众数(集中趋势)
方差、标准差(离散趋势)
平均数易受极端值影响,中位数不受极端值影响
可视化方法:箱线图
箱线图展示了一组数据的最小值、最大值、四分位数、中位数,与直方图相比,箱线图并不能表示出分布情况
3.切比雪夫不等式
切比雪夫不等式描述了样本分布中极值比例的最大值
S k = ( i , 1 ≤ i ≤ n : ∣ x i − x ˉ ∣ < k s ) S_k = ( i, 1 \le i \le n:|x_i - \bar x| < ks)Sk=(i,1≤i≤n:∣xi−xˉ∣<ks)
∣ S k ∣ n ≥ 1 − 1 k 2 \frac{|S_k|}{n} \ge 1-\frac{1}{k^2}n∣Sk∣≥1−k21
例如:若取k等于2,则在均值两倍标准差之外的离群值比例最大为25%
单侧切比雪夫不等式:
S k = ( i , 1 ≤ i ≤ n : x i − x ˉ < k s ) S_k = ( i, 1 \le i \le n:x_i - \bar x< ks)Sk=(i,1≤i≤n:xi−xˉ<ks)
S k n ≥ 1 − 1 1 + k 2 \frac{S_k}{n} \ge 1-\frac{1}{1+k^2}nSk≥1−1+k21
例如:若取k等于2,则大于均值两倍标准差之外的离群值比例最大为20%
4.常见样本分布
正态分布(normal):钟形曲线、对称分布于中位数(平均数、众数)两侧
左拖尾分布(left-skewed):数据于峰值左侧分布多,众数>中位数>平均数
右拖尾分布(right-skewed):数据于峰值右侧分布多,众数<中位数<平均数
双峰分布(bimodal):类似于两个正态分布叠加
下图依次为正态分布、左拖尾分布、右拖尾分布和双峰分布



5. 配对样本
皮尔逊相关系数:
r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ( ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 ) r = \frac{\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sqrt(\sum_{i=1}^n(x_i-\bar x)^2\sum_{i=1}^n(y_i-\bar y)^2)}r=(∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2)∑i=1n(xi−xˉ)(yi−yˉ)
r>0表示样本正相关,r<0表示样本负相关
皮尔逊相关系数的物理意义:
分子表示x在均值周围的分布情况乘y在均值周围的分布情况,表示x与y的相关性
分母为自由度(n-1)乘x与y的标准差,为分子标准化
注:相关性并不代表因果性,无法进行因果推断