参数区间估计

统计
Author

Pigking

Published

March 17, 2025

一个参数

总体均值

  1. 正态总体, 方差已知. 或非正态总体, 大样本

    • 样本均值的分布为正态分布, 即\(\overline{X} \sim N(\mu, \sigma^2/n)\)
    • 标准化后的随机变量服从标准正态分布: \(z = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \sim N(0,1)\)
    • 总体均值\(\mu\)\(1-\alpha\)置信水平下的置信区间为\(\overline{x} \pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\)
    • 如果总体方差\(\sigma^2\)未知, 只要总体符合正态分布或是大样本, 总体均值\(\mu\)\(1-\alpha\)置信水平下的置信区间可以写成:\(\overline{x} \pm z_{\alpha/2}\frac{s}{\sqrt{n}}\)
  2. 正态总体, 方差未知, 小样本

    • 样本均值标准化后的随机变量服从自由度为(n-1)的t分布, \(t = \frac{\overline{x}-\mu}{s/\sqrt{n}} \sim t(n-1)\)
library(tidyverse)

# 自由度
df <- 10   

# 生成数据
x <- seq(-3, 3, length.out = 1000)
data <- tibble(
  x = x,
  normal = dnorm(x),  # 正态分布密度
  t_dist = dt(x, df = df)
)

ggplot(data, aes(x = x)) +
  geom_line(aes(y = normal, color = "正态分布"), linewidth = 1) +
  geom_line(aes(y = t_dist, color = "t分布"), linewidth = 1) +
  labs(
    title = "正态分布和t分布(自由度=10)",
    x = "x",
    y = "密度",
    color = "分布"
  )

总体方差

  • 正态总体下, \(\frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)\)
  • 总体方差\(\sigma^2\)\(1-\alpha\)的置信区间为\([\frac{(n-1)s^2}{\chi^2_{\alpha/2}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}]\)

两个参数

两个总体均值之差

独立样本

设两个总体均值为\(\mu_1,\mu_2\), 样本量为\(n_1,n_2\), 样本均值为\(\overline{x_1},\overline{x_2}\) 1. 两个总体都为正态分布, 或都为大样本 \[z=\frac{(\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1)\] 两个总体均值之差\(\mu_1-\mu_2\)\(1-\alpha\)置信水平下的置信区间为 \[ (\overline{x_1}-\overline{x_2}) \pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}) \] 若总体方差\(\sigma_1^2\)\(\sigma_2^2\)未知, 可用样本方差\(s_1^2\)\(s_2^2\)代替.

  1. 小样本 前提:
  • 两个总体都服从正态分布
  • 两个随机样本独立抽自各样本
  • \(\sigma_1^2\)\(\sigma_2^2\)未知但相等 \[ t = \frac{(\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2) \] 其中\(s_p\)为总体标准差的合并估计量 \[ s_p^2 = \frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} \] \(\mu_1-\mu_2\)\(1-\alpha\)置信水平下的置信区间为 \[ (\overline{x_1}-\overline{x_2}) \pm t_{\alpha/2}(n_1+n_2-2)s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}} \]
  • \(\sigma_1^2\)\(\sigma_2^2\)未知且不相等 两个样本均值之差标准化后近似服从自由度为v的t分布 \[ t = \frac{(\overline{x_1}-\overline{x_1}) - (\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \sim t_{\alpha/2}(v) \] v的计算公式为: \[ v = \frac{(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2})^2}{\frac{(s_1^2/n_1)^2}{n_1-1} + \frac{(s_2^2/n_2)^2}{n_2-1}} \] 两个总体均值之差在\[1-a\]置信水平下的置信区间为: \[ (\overline{x_1}-\overline{x_2}) \pm t_{\alpha/2}(v)\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}} \] #### 匹配样本 匹配样本通常用于在不同条件下测量同一批受试者的实验
  1. 大样本 \(\mu_1-\mu_2\)\(1-\alpha\)置信水平下置信区间为\(\overline{d}\pm z_{\alpha/2}\frac{\sigma_d}{\sqrt{n}}\)

通常, 各差值的标准差\(\sigma_d\)未知, 此时, 用样本标准差\(s_d\)代替

  1. 小样本 若两个总体各个对应的观察值的差值符合正态分布 则\(\mu_1-\mu_2\)\(1-\alpha\)置信水平下的置信区间为\(\overline{d}\pm t_{\alpha/2}(n-1)\frac{s_d}{\sqrt{n}}\) ### 两个总体方差比 \[ \frac{s_1^2}{s_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \sim F(n_1-1, n_2-1) \] 总体方差比在置信水平\(1-\alpha\)下有 \[ F_{1-\alpha/2} \leq \frac{s_1^2}{s_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \leq F_{\alpha/2} \] 置信区间为\([\frac{s_1^2/s_2^2}{F_{\alpha/2}}, \frac{s_1^2/s_2^2}{F_{1-\alpha/2}}]\) \(F_{1-\alpha/2}(n_1,n_2)\)可以由下面公式求得: \[ F_{1-\alpha/2}(n_1,n_2)=\frac{1}{F_\alpha(n_2, n_1)} \] \(n_1\)\(n_2\)分别为分子自由度和分母自由度

样本量的确定

估计总体均值时样本量的确定

设估计误差\(E = z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\)

可接受的估计误差\(E\)和置信水平\(1-\alpha\)确定后, 样本量\(n = \frac{(z_{\alpha/2})^2\sigma^2}{E^2}\)就确定了, \(\sigma\)不知道时, 可用相似样本的标准差代替

Back to top