人口老龄化加剧的背景下,我国先后颁布了一系列生育政策,根据不同政策要求,分为两个时期 $T_1$ 和 $ T_2$.根据部分调查数据总结出如下规律:对于同一个家庭,在 $T_1$ 时期内生孩 $X$ 人,在 $T_2$ 时期生孩 $Y$ 人,(不考虑多胞胎)生男生女的概率相等.$X$ 服从 $ 0-1$ 分布且 $P(X=0)=\dfrac{1}{5} $.$ Y$ 分布列如下图: \[\begin{array}{c|c|c|c} \hline Y & 0 & 1 & 2 \\ \hline P & p & p+q & p-q \\ \hline \end{array}\] 现已知一个家庭在 $T_1$ 时期没生孩子,则在 $T_2$ 时期生 $ 2 $ 个孩子概率为 $\dfrac{1}{24}$;若在 $T_1$ 时期生了 $ 1$ 个女孩,则在 $T_2$ 时期生 $2 $ 个孩子概率为 $\dfrac{1}{6}$;若在 $T_1$ 时期生了 $1 $ 个男孩,则在 $T_2$ 时期生 $2 $ 个孩子概率为 $\dfrac{1}{12}$,样本点中 $T_1$ 时期生孩人数与 $T_2$ 时期生孩人数之比为 $2: 5$(针对普遍家庭).
1、求 $Y$ 的期望与方差.
2、由数据 $z_{i}$($i=1,2, \cdots, n$)组成的样本空间根据分层随机抽样分为两层,样本点之比为 $a: b$,分别为 $x_{i}$($i=1,2, \cdots, k$)与 $y_{i}$($i=1,2, \cdots, m$,$k+m=n$,总体样本点与两个分层样本点均值分别为 $\overline{z}, \overline{x}, \overline{y}$,方差分别为 $S_{0}^{2}, S_{1}^{2}, S_{2}^{2}$,证明:\[S_{0}^{2}=\frac{a}{a+b}\left(S_{1}^{2}+(\overline{x}-\overline{z})^{2}\right)+\frac{b}{a+b}\left(S_{2}^{2}+(\overline{y}-\overline{z})^{2}\right),\]并利用该公式估算题设样本总体的方差.
解析
1、根据题意,有 $X$ 的分布列为\[\begin{array}{c|c|c}\hline X&0&1\\ \hline P&\dfrac 15&\dfrac 45\\ \hline\end{array}\] 根据 $Y$ 的分布列,可得\[p+(p+q)+(p-q)=1\implies p=\dfrac13,\]而根据全概率公式,一个家庭在 $T_2$ 时期升 $2$ 个孩子的概率为\[\dfrac 15\cdot \dfrac{1}{24}+\dfrac 25\cdot \dfrac 16+\dfrac 25\cdot \dfrac{1}{12}=\dfrac{13}{120},\]从而\[p-q=\dfrac{13}{120}\implies q=\dfrac{27}{120},\]这样就有 $Y$ 的分布列为\[\begin{array}{c|c|c|c}\hline Y&0&1&2\\ \hline P&\dfrac13&\dfrac{67}{120}&\dfrac{13}{120}\\ \hline \end{array}\]进而可计算得 $Y$ 的期望为 $\dfrac{31}{40}$,方差为 $\dfrac{1877}{4800}$.
2、根据题意,有\[\begin{split} RHS&=\dfrac{1}{n}\cdot \left(\sum_{i=1}^k(x_i-\overline x)^2+k\left(\overline x-\overline z\right)^2+ \sum_{i=1}^m(y_i-\overline y)^2+m\left(\overline y-\overline z\right)^2\right)\\ &=\dfrac{1}{n}\cdot \left(\sum_{i=1}^kx_i^2-k\overline x^2+k\overline x^2-2k\cdot\overline x\cdot\overline z+k\overline z^2+\sum_{i=1}^my_i^2-m\overline y^2+m\overline y^2-2m\cdot\overline y\cdot \overline z+m\overline z^2\right)\\ &=\dfrac 1n\cdot \left(\sum_{i=1}^nz_i^2+(k+m)\overline z^2-2\overline z\cdot \left(k\overline x+m\overline y\right)\right)\\ &=\dfrac 1n\cdot\left(\sum_{i=1}^nz_i^2-n\overline z^2\right)\\ &=LHS ,\end{split}\]命题得证.根据题意,有\[E(X)=\frac{4}{5}, \quad D(X)=\frac{4}{25},\quad E(Y)=\frac{31}{40},\quad D(Y)=\frac{1877}{4800},\]于是总体均值\[\overline{z}=\frac{2}{7} \cdot \frac{4}{5}+\frac{5}{7} \cdot \frac{31}{40}=\frac{219}{280},\]题设样本总体的方差为\[\frac{2}{7} \cdot\left(\frac{4}{25}+\left(\frac{4}{5}-\frac{219}{280}\right)^{2}\right)+\frac{5}{7} \cdot\left(\frac{1877}{4800}+\left(\frac{31}{40}-\frac{219}{280}\right)^{2}\right) \approx 0.3252.\]