不同分析问题需要使用的分析方法
集合之间平均值校验 | 集合之间平均值校验 | 变量关系比较 | 变量关系比较 | 变量关系比较 |
1 ~ 2 个的集合 | 多个集合(2个以上) | 范畴型变量独立性校验 | 数值型变量间线性关系 | 一种数值型变量与N个变量间的关系 |
T-test(2个group,比如男女身高差) | ANOVA(eg.比较大学学科间考试成绩差的情况) | Chi Square | 相关分析 | 回归分析 |
One sample T-test(e.g.肉的重量是否1kg) Paired T-test(比如减肥前后,特定集合的前后比较) Two sample T-test(比如比较男女身高的求两个集团的平均) | One way ANOVA (ANOVA有一个独立类型要素时使用一元分析,如求出家庭收入对食品消费程度的差异时使用) Two way ANOVA(有两个独立要素时使用,比如考虑跟学历及性别有关的消费金额的差异;不在ds级别范围) |
求一个因素的双侧检验 | One Sample T Test | H0:体温等于97.7 H1:体温不等于97.7 |
统计某一列的均值等 | Statistic Summary | |
对应的两个(同样/类似)集合差异比较,有before-after关系的验证 | Paired T Test | 如 各州10年间增加的犯罪平均是否是170(即10年后的数据-10年前的数据=170) |
比较两个相互不同的独立group间的平均差异。 | Two Sample T Test For Stacked Data | 如 男女体温的平均是否有差异。 对立假设: •男性平均体温与女性平均体温有差异 |
集合之间平均值校验,独立变量只有一个- | One Way ANOVA |
T检验
T分布
用于根据小样本来估计呈正态分布且方差未知的总体均值。
t分布特征
(1)单峰分布,以0为中心,左右对称;
(2)自由度越小,峰部越矮,而尾翘得越高;
(3)当自由度增大时,t分布逼近u分布(标准正态分布),当自由度无穷大时,t分布就是标准正态分布;
(4)t分布是一簇曲线,自由度不同,曲线的形状不同
T-test
用于小样本的两个平均值差异程度的检验方法,是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。
T统计量(T-statistic)和T检验(T-test)
t-test是指用T-statistic来做假设检验(hypothesis testing),而T-statistic是根据model计算的,用来做检验的统计量.
正常T-statistic应该在0假设(null hypothesis)为真时,服从T分布(T-distribution).
T-test时根据T-statistic值的大小计算p-value,决定是接受还是拒绝假设.
参考:http://blog.sina.com.cn/s/blog_6cb445270102ymkq.html
One Sample T-test
在知道样本均值时验证平均差的时候使用。
具体体现为:比较平均值与特定数字相同/大/小时使用
Paired T-test
对应的两个(同样/类似)集合差异比较。
对立假设:
- 减肥前后的体重变化不是0
- 使用心得学习方法后成绩差异不是0
- 同一时间段内A代理店与竞争B代理店的卖出额差异不是0
例如 两个集团,各8个a资料,自由度是8-1=7
Two Sample T-test
比较两个相互不同的独立group间的平均差异。
对立假设:
- 男性平均体温与女性平均体温有差异
- A品牌轮胎与B品牌轮胎寿命有差异
t=group间平均差异/group内变动
group间平均差异比gourp内变动明显很大的话,验证统计量就会更大,P值变小,就能驳回H0假设。
Two Sample t-test 从下面三个基本假设出发:
1.独立性(Independency) ←各观测值不会互相影响,比如男子group和女子group互相独立
2.正态性(Normality) ← 根据独立变数的从属变数满足正态分布的正态性,只要样本量增加就能自然的解决
3.等分散性(Equal Variance) ←根据独立变数的从属变数分布的分散在各group相同( 因等分散与否,分析方法不一样)
分散:反应在统计里变量的平均的距离;分散相同的情况叫等分散,这种情况使用学生t分布;分散不同的情况叫E分散,使用E验证。
学生t表格
学生t表格,行为d.f.(自由度),列为1-α
(个人理解:服从t分布的对应自由度和概率下的t临界值)
例如:n=5,自由度为4,第5列值为2.132,对应的单侧值是95%,双侧值5%,
表示T<2.132的概率是95%(单侧),
记为Pr(−∞ < T < 2.132) = 0.95;T介于-2.132和2.132之间的概率为90%(双侧),记为
Pr(−2.132 < T < 2.132) = 0.9
参考 <https://baike.baidu.com/item/t%E5%88%86%E5%B8%83/299142?fr=aladdin#3>
ANOVA
Analysis of Variance 方差分析/分散分析:同时判断多个正态总体均值是否相等的统计方法。
F分布假设验证的方法。
例如:可以比较三个集团以上的平均,性别、年龄段SNS使用时间的两个以上变量的比较
- 独立变量只有一个----一元分散分析
- 独立变量有两个以上-----二元分散分析
ANOVA有下面三个基本假设:
- 独立性(Independency)
- 正态性(Normality)
- 等分散性(Equal Variance)(方差相同)
等分散性验证方法(Bartlett’s test)。
方差:(各个值-平均值)的平方和/样本个数
零假设和对立假设
零假设: 所有集合的平均一样,
对立假设:集合中至少有一个以上的平均不一样.
事后校验
采纳对立假设的情况下,接着有些group的平均相同与否要进行多重比较,这个叫事后验证。
事后校验:两两校验,有名的方法是Duncan, Tukey, Scheffe。
Ex: { G1, G2, G3, G4 } 4个集合事后校验=> 组合数: 4个里面选两个nC2=6
Tukey是把group组成对即pairwise检查。
SSA:如果各group的样本平均值相同时没有差异,SSA会为0.
SST=SSE+SSA
MSA=SSA/(k-1) 平均平方
MSE:误差平方
残差error : 所以是SSE
SST中T表示total
MSE=SSE/(n-k)
F=MSA/MSE ~F(k-1,n-k)
分散分析表/方差分析表
方差来源 | 平方和 | 自由度 | 均方 | F值 |
因素A | SSA | s-1 | MSA=SSA/(s-1) | F=MSA/MSE |
误差 | SSE | n-s | MSE=SSE/(n-1) | |
总和 | SST | n-1 |
离差平方和与其自由度的壁纸,称为该离差平方和的均方,记为MS.
组内均方(组内方差):MSE=SSE/(n-s)
组间均方(组间方差):MSA=SSA/(s-1)