我们先从单总体的情况开始讲起,建立假设为
H0:μ=0vsH1:μ=0
假设方差已知,样本均值为x,为了控制犯第一类错误的概率,由于P(∣u∣≥u1−α/2)=α,因此
∣u∣=σ/n∣x−μ∣≥u1−α/2⇒∣x∣≥nσu1−α/2
注意,这里我们讨论的是第一类错误,因此μ=0
满足上述条件可以控制第一类错误,在此基础上,我们还需要控制犯第二类错误的概率。需要注意到,在双侧检验中讨论第二类错误时,由于μ不可能同时大于0及小于0,因此,我们需要分类讨论。当μ>0时,记其为μ1,也就是说x∼N(μ1,σ2/n),对于第二类错误,我们一般会考虑正确率,也就是1−β,即
P(x≥nσu1−α/2)≥1−β⇒P(σ/nx−μ1≥σ/nnσu1−α/2−μ1)≥1−β
由于σ/nx−μ1∼N(0,1),结合正态分布图像,可得
σ/nnσu1−α/2−μ1≤−u1−β⇒n≥μ12σ2(u1−α/2+u1−β)2
当μ<0时,P(x≤−nσu1−α/2)=P(x≥nσu1−α/2),因此与上述情况相同。至此我们可以得到单总体的最小样本量公式为
μ12σ2(u1−α/2+u1−β)2
接着,我们来推导双总体的情况,其假设改写为
H0:μ1−μ2=0vsH1:μ1−μ2=0
假设样本均值为x与y,样本量为m与n,样本方差为σ12与σ22,为了控制犯第一类错误的概率,由于P(∣u∣≥u1−α/2)=α,因此
∣u∣=mσ12+nσ22∣x−y∣≥u1−α/2⇒∣x−y∣≥mσ12+nσ22u1−α/2
在此基础上我们控制第二类错误,假设Δ=μ1−μ2>0,则x−y∼N(Δ,mσ12+nσ22)
P(x−y≥mσ12+nσ22u1−α/2)≥1−β⇒P(mσ12+nσ22x−y−Δ≥mσ12+nσ22mσ12+nσ22u1−α/2−Δ)≥1−β
由于mσ12+nσ22x−y−Δ∼N(0,1),结合正态分布图像,记k1m=n及k2σ12=σ22,可得
mσ12+nσ22mσ12+nσ22u1−α/2−Δ≤−u1−β⇒n≥(k1k1+k2)Δ2σ22(u1−α/2+u1−β)2
由于A/B测试是要在测试之前就确定最小样本量的,因此,我们无法计算样本方差用于代替方差,对此,我们一般会对现有数据计算方差,并用其代替实验组与对照组的方差。且考虑到,一般A/B测试中的实验组与对照组的样本数是相同的。综上,可得k1=1且k2=1,上述公式可简化为
Δ2σ2(u1−α/2+u1−β)2
这也就是我们熟知的最小样本量公式。