《二项分布》之实例引入

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《二项分布》之实例引入
二项分布是在一系列重复的独立实验中,成功的概率不变,每次实验只有成功或者失
败两种结果的概率分布。

最常见的应用是在二分类问题中,如硬币投掷、赌博、投资等。

下面举一个实例引入二项分布,帮助读者更好地理解这个概念。

某购物网站为了提高用户的购买率,进行了一次AB测试。

具体地,他们将网站的商
品页面分为A、B两组,A组采用原来的布局,B组采用新的布局。

他们希望知道,采用新
的布局后用户购买的概率是否有所提高。

为了回答这个问题,他们选择了1000位用户,对每位用户采用相同的方式:随机选
择一组,显示相应的页面。

然后记录用户是否购买,结果如表1所示。

表1:AB测试结果
| 组别 | 总数 | 购买数 | 购买率 |
| ---- | ---- | ------ | ------ |
| A | 500 | 100 | 20.0% |
| B | 500 | 120 | 24.0% |
可以看出,B组用户的购买率比A组高,但是这些数据是否足以表明新的布局确实可
以提高购买率呢?实际上,即使这些数据非常可信,仍然有一定的误差。

如果我们想知道
这个误差的大小,需要用到统计学的方法。

我们定义B组用户购买比A组用户购买率的增量为:
$$
\text{增量} = \text{B组的购买率} - \text{A组的购买率}
$$
在本例中,增量是 24.0% - 20.0% = 4.0%。

我们希望知道这个增量的真实值,但是我们只能通过样本数据来估计。

这是因为,如
果重复进行一次AB测试,得到的结果可能是不同的。

因此,我们必须考虑到误差的存在。

误差的来源有很多,例如样本中存在偏差(如,B组用户恰好是更有购买欲望的用户),或者我们的样本数太小,不能代表整个人群的偏好。

为了考虑这些误差,我们需要
用到一种概率分布,那就是二项分布。

在本例中,我们可以将每个用户的购买结果看作一次独立的二项试验,每次试验的成
功概率为该组用户的购买率。

因为每个用户的购买结果是独立的,因此我们可以将所有试
验的结果看做一个二项分布。

具体地,B组的购买人数 $X$ 服从参数为 $(n,p_B)$ 的二
项分布,其中 $n=500$ 是样本数,$p_B=0.24$ 是B组的购买率。

同理,A组的购买人数$Y$ 服从参数为 $(n,p_A)$ 的二项分布,其中 $p_A=0.2$。

在这个框架下,我们可以计算出任意一个增量 $d=p_B-p_A$ 的概率,表示这个增量
在该假设下出现的可能性大小。

具体地,我们可以用以下公式计算:
$$
P(X-Y=k) = \binom{n}{\frac{n+k}{2}} p^{(n+k)/2}(1-p)^{(n-k)/2}
$$
其中,$\binom{n}{\frac{n+k}{2}}$ 是组合数,$p$ 是A、B两组的购买率的平均值,也就是 $(p_A+p_B)/2$。

这个公式的意义是:在假设增量为 $k$ 的情况下,同时有 $X$ 个B组用户购买商品,$Y$ 个A组用户购买商品的概率是多少。

举个例子,如果我们希望知道增量为2.0%之下,出现任意的增量的概率,可以将公式中的 $k$ 取遍 $-4,-3,-2,-1,0,1,2,3,4$,然后将
结果相加。

到这里,我们已经介绍了二项分布的相关内容,能帮助我们更好地估计AB测试结果
中的误差和概率。

在统计学中,这种应用非常广泛,涉及到制药、金融、电子商务等领域。

了解和掌握二项分布的基本概念,可以帮助我们更好地理解这些领域中的数据分析和统计
推断。

相关文档
最新文档