中心极限定理
从一个非正态总体中取出一个样本,且样本很大(比如大于30),则样本均值的分布近似服从正态分布。
换句话说,每次取出的样本的样本均值是一个随机变量,重复多组实验,观察得到这个随机变量近似服从正态分布。
实验
import numpy as np
import matplotlib.pyplot as plt
# 模拟投掷硬币,0为正面,1为反面,总体服从二项分布
sample_mean=[]
for i in range(100000): # 进行100000组实验,每组抛掷50次
sample=[] #每组一个列表
for j in range(50): #模拟抛50次
sample.append(np.random.randint(0,2))
sample = np.array(sample) #转化为array数组,便于处理
sample_mean.append(sample.mean())
sample_mean_np = np.array(sample_mean)
print(sample_mean_np)
[0.6 0.44 0.62 ... 0.54 0.5 0.6 ]
# 验证每组实验抛硬币的均值服从正态分布
plt.figure(figsize=(20,10),dpi=80)
d =0.001
num_bins = int((max(sample_mean_np)-min(sample_mean_np))/d)
plt.hist(sample_mean_np,num_bins) #绘制频率分布图
观察上图,有明显的近似于均值为0.5的正态分布。