二维随机变量期望公式_统计概率思维(一):随机变量与概率分布详解

前言

4ab37aaf0661d0ff8e4e9627dd1794ec.png

一、随机变量

(一)概念

在统计概率中,用事件来表示某件事情,在一定条件下,可能发生也可能不发生的事件,我们称为随机事件。随机变量是用来量化随机事件的函数,它将随机事件每一个可能的试验结果赋于一个数值。随机变量通常用X、Y等大写字母表示。

例如:明天是否下雨这个随机事件,则可定义随机变量。下雨就等于1,不下雨就等于0(根据需要定义函数值,不一定是0、1),这样,随机变量即将随机事件的结果映射到定义好的数值。又因为明天是否下雨是随机的,即随机变量可取定义好的一个值。

(二)分类

随机变量可分为:离散随机变量连续随机变量

离散随机变量:即 结果可一一列举出来,也可以说是从一个数字到另一个数字,中间有一定间隔。例:明天是否下雨,结果不是1就是0。

连续随机变量:即 事件有无数个结果,将这些数字可以用一条光滑的曲线连起来。例如:明天下雨毫米数,可能是1.1、1.11、1.111等数字。

可知:离散随机变量与连续随机变量的概率分布是有差别的。

二、概率分布

数据在统计图中的形状叫做它的分布

概率分布,将随机变量、概率、分布这三个东西组合起来的一种表现手段。用统计图来表示随机变量的所有可能结果和对应结果发生的概率。 横轴是随机变量的数字,也就是随机事件的所有可能结果,纵轴是横轴上对应结果发生的概率。

根据随机变量类型的不同,概率分布也分为离散概率分布和连续概率分布。

计算离散随机变量的概率公式:概率质量函数(PMF)。本文讨论 4种 常见的离散概率分布:伯努利分布、二项分布、几何分布、泊松分布

计算连续随机变量的概率公式:概率密度函数(PDF)。本文讨论 2种 常见的连续概率分布:正态分布、幂律分布

(一)离散概率分布

1、离散概率分布:伯努利分布

1.1 概念:在同样的条件下,重复地进行相互独立的随机试验。其特点为这个随机试验只有2个可能结果(例如抛硬币试验,要么正面、要么反面)。

1.2 检验是否符合伯努利分布:若某事件符合伯努利试验,则服从伯努利分布,如抛硬币。

1.3 用Python实现伯努利分布

#统计计算包的统计模块
import scipy.stats as stats
import numpy as np
import matplotlib.pyplot as plt

# 第 1 步:定义随机变量为 1 次,抛硬币。正面朝上即为 1,反面朝上即为 0。
# 用 arange() 方法生成等差数列,表示:0为起点,不超过 2,步长为 1。
X = np.arange(0,2,1)
print(X) # [0 1]

# 第 2 步:计算对应分布的概率:概率质量函数(PMF)
# 它返回一个列表,列表中每个元素表示随机变量中对应值的概率
p = 0.5   #硬币朝上的概率
pList = stats.bernoulli.pmf(X,p)
print(pList) # [0.5 0.5]

# 第 3 步:画图
'''
plot默认绘制折线图,本例中只绘制点(下面输入的参数不画线,只画点),
marker:点的形状,值为“o”,表示点为圆圈标记(circle marker)
linestyle:线条的形状,值None表示不显示连接各个点的折线
'''
# 3.1 设置成微软雅黑,支持中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']

# 3.2 创建画布
plt.figure(figsize=(20,8),dpi=80)

# 3.3 绘制图形
plt.plot(X,pList,marker='o',linestyle='None')

'''
vlines用于绘制竖直线(vertical lines),
参数说明:
vlines(x坐标值,y坐标最小值,y坐标最大值)
传入的 X 是一个数组,是给数组中的每个 X坐标 值绘制竖直线,竖直线 y坐标 最小值是0;
y坐标 值最大值是对应pList中的值;
'''

plt.vlines(X,0,pList)

#x轴文本
plt.xlabel('随机变量:抛硬币1次')

#y轴文本
plt.ylabel('概率')

#标题
plt.title('伯努利分布:p=%.1f'% p)

#显示图形
plt.show()

ec04897123e9b90a7b2dd3f0d3cf000a.png
伯努利分布

2、离散概率分布:二项分布

2.1 概念:二项分布是求做重复n次独立的伯努利试验中成功k次的概率。

若某件事发生次数固定,我们感兴趣的是成功次数的概率,即可用二项分布计算其概率。例如:抛硬币5次,其中3次正面朝上的概率是多少?

2.2 检验是否符合二项分布

  • 做某件事的次数是固定的,次数用 n 表示,n 次某件事是相互独立的;
  • 每一次事件都有两个可能的结果(成功,或者失败);
  • 每一次成功的概率都相等,成功的概率用 p 表示;
  • 想知道成功 k 次的概率是多少?

2.3 如何计算二项分布的概率

例如:抛5次硬币有3次正面朝上的概率,即做了5次伯努利试验,符合二项分布

9af9212f5c2f397a51e98024fc50b509.png

cae600bbeb4591255a7905d7233e2f59.png

73e7f34c1fefebf9cdc0dd5db4e9a40a.png

有时候,用逆向思维求概率会更方便,如:求出抛100次硬币有95次正面朝上的概率 = 1 - 5次反面朝上的概率 即可。

42494381939bd0b2b395c3366462f6e4.png
逆向求解

2.4 二项分布的应用:期望与方差

8dccbb9a7860f42ae7616296e1775edb.png
二项分布的应用

用“期望E”来表示:做某件事,预期能成功多少次 ?

E(k)= n*p=尝试n次 * 每次成功的概率 ,抛5次硬币能正面朝上的次数预期=5 *0.5=2.5次

方差=n*p *(1-p) ,抛5次硬币能正面朝上的次数方差=2.5 * (1-0.5)=1.25

2.5 用 Python 实现二项分布(Binomial Distribution)

# 统计计算包的统计模块
import scipy.stats as stats
import numpy as np
import matplotlib.pyplot as plt

# 第一步,定义随机变量:5次抛硬币,正面朝上的次数
n = 5    # 做某件事情的次数
p = 0.5  # 做某件事情成功的概率(抛一次硬币,正面朝上的概率)
X = np.arange(0,n+1,1)
print(X)

a6c97cd2b93e57988335742aec924a6c.png
定义随机变量
# 第二步,求对应分布的概率,概率质量函数(PMF)
# 它返回一个列表,列表中每个元素表示随机变量中对应值的概率
pList = stats.binom.pmf(X,n,p)
print(pList)

f85577873dbd845f9bc4975c8b5b9516.png
求分布概率
# 第三步,绘图
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.figure(figsize=(20,8),dpi=80)
plt.plot(X,pList,marker='o',linestyle='None')

'''
vlines用于绘制竖直线(vertical lines),
参数说明:
vlines(x坐标值,y坐标最小值,y坐标最大值)
传入的 X 是一个数组,是给数组中的每个 X坐标 值绘制竖直线,竖直线 y坐标 最小值是0;
y坐标 值最大值是对应pList中的值;
'''

plt.vlines(X,0,pList)

plt.xlabel('随机变量:抛硬币1次')
plt.ylabel('概率')
plt.title('二项分布:n=%i,p=%.2f' % (n,p))
plt.show()

650e91002e5fa68387741048c3c98291.png
二项分布结果展示

3、离散概率分布:几何分布

3.1 概念:几何分布是求在重复n次伯努利试验中,试验k次才得到第一次成功的概率。想知道尝试某事多次第一次取得成功的概率,可用几何分布计算其概率。

3.2 检验是否符合几何分布

  • 做某件事的次数是固定的,次数用 n 表示,n 次某件事是相互独立的;
  • 每一次事件都有两个可能的结果(成功,或者失败);
  • 每一次成功的概率都相等,成功的概率用 p 表示;
  • 想知道第 k 次做某件事情,才取得第1次成功的概率是多少?

3.3 如何计算几何分布的概率

此处,为方便计算,假设一个前提,60%是每个单次表白的成功率。

1f069570998540233b9d13253353e0d1.png

7463a38b3616648b07f110d930205c3f.png

ea9e93bdefcbb4558394eaf439f5d68f.png

72c2308dc036e86335bf1f2ca8e2fef4.png

3.4 几何分布的应用:期望与方差

08b0ad045a0ef4fc2bc2cb4bc0a4290c.png

期望E(预期尝试多少次可取得第1次成功) :E(k)=1/p =1/60%=1.67次 (以单次表白成功率为60%计算)--从期望E值可以看出,通过提升自我,让自已变得更强,提高单次成功率p,当p达到100%时,期望E=1。

方差(数据波动大小)=(1-p)/p*p = (1-60%)/(60% * 60%)=1.1111

3.5 用 Python 实现几何分布(Geometric Distribution)

# 统计计算包的统计模块
import scipy.stats as stats
import numpy as np
import matplotlib.pyplot as plt

# 第一步,定义随机变量:首次表白成功的次数,可能是1次,2次,3次。。。(不会是0次)
# 第 k 次做某件事情,才取得第 1 次成功
# 这里我们想知道5次表白成功的概率
k = 5
# 做某件事情成功的概率,这里假设每次表白成功概率都是60%
p = 0.6
X=np.arange(1,k+1,1)
print(X)

489de98b8f9188584a3428157dee30dc.png
# 第二步,求对应分布的概率,概率质量函数(PMF)
# 它返回一个列表,列表中每个元素表示随机变量中对应值的概率
pList=stats.geom.pmf(X,p)
print(pList)

3f4ed1f5fa69a75d198188b1f6056542.png
# 第三步,绘图
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.figure(figsize=(20,8),dpi=80)
plt.plot(X,pList,marker='o',linestyle='None')

'''
vlines用于绘制竖直线(vertical lines),
参数说明:
vlines(x坐标值,y坐标最小值,y坐标最大值)
传入的 X 是一个数组,是给数组中的每个 X坐标 值绘制竖直线,竖直线 y坐标 最小值是0;
y坐标 值最大值是对应pList中的值;
'''

plt.vlines(X,0,pList)

plt.xlabel('随机变量:表白第k次才首次成功')
plt.ylabel('概率')
plt.title('几何分布:p=%.2f' % p)
plt.show()

e2abbbe92248a3ecc599e6cda79a1d5a.png

4、离散概率分布:泊松分布

4.1 概念:想知道某个时间范围内发生某件事k次的概率,即用泊松分布计算其概率。例如:一段时间内机器坏的次数

泊松分布的形状会随着平均值的变化而变化。

4.2 检验是否符合泊松分布

  • 事件是独立事件
  • 在任意相同的时间范围内,事件发生的概率相同
  • 你想知道某个时间范围内,发生 k 次的概率是多大

4.3 泊松分布的应用:期望和方差

13b9a0c35c940c12bc8646362c028a90.png

4.4 用 Python 实现泊松分布(Poisson Distribution)

# 统计计算包的统计模块
import scipy.stats as stats
import numpy as np
import matplotlib.pyplot as plt

# 第一步,定义随机变量:已知某路口发生事故的比率是每天2次,那么在此处一天内发生k次事故的概率是多少?

mu = 2  # 平均值:每天发生2次事故
k = 4   # 次数,现在想知道每天发生4次事故的概率。包含了发生0次、1次、2次、3次、4次事故
X = np.arange(0,k+1,1)
print(X)

# 第二步,求对应分布的概率,概率质量函数(PMF)
# 它返回一个列表,列表中每个元素表示随机变量中对应值的概率
#分别表示发生1次、2次、3次、4次事故的概率
pList = stats.poisson.pmf(X,mu)
print(pList)

23b48f80bd8b8452eee0a851e84cd8df.png
展示图
# 第三步,绘图
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.figure(figsize=(20,8),dpi=80)
plt.plot(X,pList,marker='o',linestyle='None')

'''
vlines用于绘制竖直线(vertical lines),
参数说明:
vlines(x坐标值,y坐标最小值,y坐标最大值)
传入的 X 是一个数组,是给数组中的每个 X坐标 值绘制竖直线,竖直线 y坐标 最小值是0;
y坐标 值最大值是对应pList中的值;
'''

plt.vlines(X,0,pList)

plt.xlabel('随机变量:某路口发生k次事故')
plt.ylabel('概率')
plt.title('泊松分布:平均值mu=%i' % mu)
plt.show()

9a35f7745f496a54c2f2de8645873262.png
泊松分布展示

总结一下,每种离散分布,调用不同的方法实现而已。

  • 伯努利分布:pList = stats.bernoulli.pmf(X,p)
  • 二项分布:pList = stats.binom.pmf(X,n,p)
  • 几何分布:pList=stats.geom.pmf(X,p)
  • 泊松分布:pList = stats.poisson.pmf(X,mu)

(二)随机概率分布

1、正态分布

1.1 概念:

正态分布(The Normal Distribution),由被称为:拉普拉斯分布、高斯分布

正态分布是连续随机变量,其概率为正态分布曲线下方一定数字范围的面积

正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形。

1.2 案例:

c6f1faf0c7909c0fd0cb8e878b378dd5.png
  • 人的身高、手臂长度、肺活量等都符合正态分布。
  • 正态分布案例1:员工绩效的活力曲线--末位淘汰制
  • 正态分布案例2:产品质量--质量管理领域会用6个标准差来排除掉不合格的产品
  • 正态分布案例3:快速找到停车位--远离商场大门口的位置,更容易找到车位。
  • 正态分布案例4:智商
  • 理想的社会财富分配也符合正态分布
  • 现实的社会财富分配是符合幂律分布

d181eade29c0acb13d5d017709c1e58f.png

1.3 正态分布的概率计算

正态分布是连续随机变量分布图,它的概率是正态分布曲线下方一定数字范围内的面积。

微信公众号的每篇文章点赞数服从正态分布,现在计算低于1.05的占的概率是多少?即k<1.05的概率=p (k<1.05)

1)第1步:确定概率范围 p (k<1.05)

b83a6bcf4a4723180c7b83c2b942e62e.png

2)第2步:求标准分 z p (k<1.05)

标准分z = ( 1.05-平均值)/ 标准差 ,根据平均值和标准差就可以计算出标准分,这里假设计算出来的标准分是-3,代表1.05这个数值距离平均值3个标准差,因为是负数,所以在平均值的左边。

8115f0ff580f0d1c55193533fe85bb1f.png

3)查找z表格-标准正态分布表(是标准正态分布中标准分与概率数值对应关系的表)

根据标准正态分布表,在已知标准分z的情况下,可以快速地查找到对应的概率数值。

标准分z,可拆分为:整数和第一个小数位构成的数、第二个小数位的数,在z表格的第一列查找到标准分“整数和第一个小数位构成的数”所在位置,再到z表格第一行查找到标准分“第二个小数位的数”所在位置,在查找到的行位置和列位置的交叉处的数值,即是对应的概率值。

dd15361711bd80052345326e00ce5812.png

4)推广应用:计算大于标准分的概率 和 计算两个标准分之间的区间概率

计算大于标准分的概率:p(Z>z)=1-p(Z<z)

计算两个标准分之间的区间概率:p(a<Z<b)=p(Z<b)-p(Z<a)

1214ec0499d815e2303b94dabf026fb6.png

5)正态分布-实际应用

项目:一项轮胎质量保证承诺的服务,如果轮胎的行驶里程没有达到质量保证的行驶里程,公司将以折扣价提供更换轮胎的服务,同时从公司的角度出发,又要考虑这项服务的成本。

条件:公司希望,达到折扣质量保证条件的轮胎数(满足以折扣价更换的轮胎数量)不要超过出售轮胎总数的10%。

问题:出售的轮胎质量保证行驶的里程数应设置在多少呢?

c6d941ef1bddda9b46354aefc4af5949.png
  • 从数据库中得到:该款轮胎可行驶里程的相关信息:平均值为36500公里、标准差为5000、数据集成正态分布(绘制:横轴-轮胎行驶里程数、纵轴-对应的轮胎数)
  • 从问题中得到:想要在这项目服务中控制住成本,只能允许10%的轮胎满足以折扣价更换的条件,即只允许10%以下概率的轮胎可行驶里程数低于质保,对应到上图正态分布曲线图,是左侧红色的值为10%的面积。
  • 查找z表格得到,概率为10%对应的标准分为:-1.28。
  • 通过公式:标准分z=(k-平均值)/标准差=-1.28 =(k-36500)/5000=-1.28 ,k= 30100公里。
  • 测算结果:若希望满足以折扣价更换的轮胎数量不要超过出售轮胎总数的10%,轮胎的质保里程数应设置在30100公里。

概率分布在提供数据分析决策所需信息方面,起到非常重要的作用。一旦对某一特大应用问题的特点和概率分布有所了解,就可以取得有关问题的概率信息。概率虽然不能直接给出决策建议,但可以帮助决策者更好地了解与问题相关的风险和不确定的信息,最终这些信息可以辅助决策都更好地做出正确的决策。

2、幂律分布

又被称为:长尾理论。语言学家Zipf、经济学家帕累托(Pareto)

常见的幂律分布有:马太效应、二八法则。

48567c4da110ac274c8f26ad9115ef8c.png
  • 网络效应:某产品对一名用户的价值取决于这产品的用户数量,用户数量增加,产品价值就提升,反过来,产品价值就提升,用户数量增加,当用户总数突破一个临界点后,会进入一个赢家通吃的状态,如:腾讯的微信。
  • 英文单词的使用数量符合幂律分布
  • 互联网上微博的粉丝数量符合幂律分布,少量的大V聚集着大量的粉丝。
  • 国内前50个城市GDP总值排名呈现幂律分布

ed56f9f2e1a0587795612b12a390c2a4.png

三、知识点总结

c814ee4494ab36dc79452540081db993.png
总结图

版权声明:本文为weixin_28314575原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。