线性回归

统计
Author

Pigking

Published

March 19, 2025

简单线性回归

  • 模型: \(Y = \beta_0 + \beta_1X\)
  • 参数: \(\beta_0, \beta_1\)

估计系数

残差平方和:
\[ RSS = (y_1 - \hat{\beta}_0 - \hat{\beta}_1x_1)^2 + (y_2 - \hat{\beta}_0 - \hat{\beta}_1x_2)^2 + \cdots + (y_n - \hat{\beta}_0 - \hat{\beta}_1x_n)^2 \] 最小二乘法选择\(\beta_0, \beta_1\)使\(RSS\)最小的参数估计为:
\[ \hat{\beta}_1 = \frac{\sum_{i = 1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i = 1}^{n} (x_i - \bar{x})^2} \] \[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1\bar{x} \]

评价系数估计值的准确性

总体回归直线(X和Y之间真实关系的最佳线性近似): \(Y = \beta_0 + \beta_1X + \varepsilon\)
\(\hat{\beta_0}, \hat{\beta_1}\)的标准误差: \[ \mathrm{SE}(\hat{\beta}_0)^2 = \sigma^2\left[\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i = 1}^{n}(x_i - \bar{x})^2}\right],\quad \mathrm{SE}(\hat{\beta}_1)^2 = \frac{\sigma^2}{\sum_{i = 1}^{n}(x_i - \bar{x})^2} \] 其中\(\sigma^2=Var(\varepsilon)\)

估计\(\sigma^2\): 残差标准误\(RSE=\sqrt{RSS/(n-2)}\)
\(\beta_1\)的95%置信区间为: \(\hat{\beta}_1 \pm t(n-2)_{0.25}\cdot \mathrm{SE}(\hat{\beta}_1)\)
\(\beta_0\)的95%置信区间为: \(\hat{\beta}_0 \pm t(n-2)_{0.25}\cdot \mathrm{SE}(\hat{\beta}_0)\)
假设检验:
- \(H_0: X和Y之间没有关系\)
- \(H_a: X和Y之间有一定关系\)
相当于检验: \(H_0:\beta_1=0和H_a:\beta_1\neq0\)
计算t统计量: \(t = \frac{\hat{\beta}_1 - 0}{\mathrm{SE}(\hat{\beta}_1)}\)

评价模型的准确性

一旦接受备择假设: X和Y之间有一定关系, 很自然的想到量化模型拟合数据的程度

残差标准误

由模型\(Y = \beta_0 + \beta_1X + \varepsilon\)可知, 每个观测都有误差\(\varepsilon\), 就算知道真正的回归线, 也不可能由X对Y做出完美预测, RSE是对\(\varepsilon\)的标准偏差的估计
\[ \mathrm{RSE} = \sqrt{\frac{1}{n - 2}\mathrm{RSS}}= \sqrt{\frac{1}{n - 2}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2} \]
RSE是对模型失拟的度量, 是每个观测值平均偏离程度

\(R^2\)统计量

RSE提供了一个数据失拟的绝对测量, 与Y的量级有关, \(R^2\)统计量与Y的量级无关
\[ R^{2}=\frac{\mathrm{TSS}-\mathrm{RSS}}{\mathrm{TSS}} = 1-\frac{\mathrm{RSS}}{\mathrm{TSS}} \]
- \(\mathrm{TSS}=\sum (y_i - \bar{y})^2\)测量Y的总方差, 是执行回归之前Y的固有变异性
- \(\mathrm{RSS}=\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2\), 是执行回归之后仍无法解释的变异性
因此\(R^2\)测量的是Y的变异中能被X解释的部分, 范围为0~1
\(R^2\)接近1说明回归可以解释Y的大部分变异
\(R^2\)接近0说明回归没有解释太多Y的变异, 或者固有误差项\(\sigma^2\)太大

\(R^2\)统计量相似的相关性也衡量了X和Y之间的线性关系:
\[ r = \mathrm{Cor}(X, Y)=\frac{\sum_{i = 1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i = 1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i = 1}^{n}(y_i - \bar{y})^2}} \]
在简单线性回归模型中, \(R^2=r^2\), 但相关性并没有拓展到多元回归中, 因为相关性描述的是一对一的相关关系

\(R^2\)统计量不适用非线性回归的观点:https://statisticsbyjim.com/regression/r-squared-invalid-nonlinear-regression

多元线性回归

假设由p个预测变量:
模型: \(Y = \beta_0+\beta_1X_1 + \beta_2X_2+\cdots+\beta_pX_p+\varepsilon\)

估计回归系数

几个问题

响应变量和预测变量之间是否有关系

在多元线性回归中, 需要验证的是回归系数是否都为0
- $H_0: $

Back to top