简单线性回归
- 模型: \(Y = \beta_0 + \beta_1X\)
- 参数: \(\beta_0, \beta_1\)
估计系数
残差平方和:
\[
RSS = (y_1 - \hat{\beta}_0 - \hat{\beta}_1x_1)^2 + (y_2 - \hat{\beta}_0 - \hat{\beta}_1x_2)^2 + \cdots + (y_n - \hat{\beta}_0 - \hat{\beta}_1x_n)^2
\] 最小二乘法选择\(\beta_0, \beta_1\)使\(RSS\)最小的参数估计为:
\[
\hat{\beta}_1 = \frac{\sum_{i = 1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i = 1}^{n} (x_i - \bar{x})^2}
\] \[
\hat{\beta}_0 = \bar{y} - \hat{\beta}_1\bar{x}
\]
评价系数估计值的准确性
总体回归直线(X和Y之间真实关系的最佳线性近似): \(Y = \beta_0 + \beta_1X + \varepsilon\)
\(\hat{\beta_0}, \hat{\beta_1}\)的标准误差: \[
\mathrm{SE}(\hat{\beta}_0)^2 = \sigma^2\left[\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i = 1}^{n}(x_i - \bar{x})^2}\right],\quad
\mathrm{SE}(\hat{\beta}_1)^2 = \frac{\sigma^2}{\sum_{i = 1}^{n}(x_i - \bar{x})^2}
\] 其中\(\sigma^2=Var(\varepsilon)\)
估计\(\sigma^2\): 残差标准误\(RSE=\sqrt{RSS/(n-2)}\)
\(\beta_1\)的95%置信区间为: \(\hat{\beta}_1 \pm t(n-2)_{0.25}\cdot \mathrm{SE}(\hat{\beta}_1)\)
\(\beta_0\)的95%置信区间为: \(\hat{\beta}_0 \pm t(n-2)_{0.25}\cdot \mathrm{SE}(\hat{\beta}_0)\)
假设检验:
- \(H_0: X和Y之间没有关系\)
- \(H_a: X和Y之间有一定关系\)
相当于检验: \(H_0:\beta_1=0和H_a:\beta_1\neq0\)
计算t统计量: \(t = \frac{\hat{\beta}_1 - 0}{\mathrm{SE}(\hat{\beta}_1)}\)
评价模型的准确性
一旦接受备择假设: X和Y之间有一定关系, 很自然的想到量化模型拟合数据的程度
残差标准误
由模型\(Y = \beta_0 + \beta_1X + \varepsilon\)可知, 每个观测都有误差\(\varepsilon\), 就算知道真正的回归线, 也不可能由X对Y做出完美预测, RSE是对\(\varepsilon\)的标准偏差的估计
\[
\mathrm{RSE} = \sqrt{\frac{1}{n - 2}\mathrm{RSS}}= \sqrt{\frac{1}{n - 2}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2}
\]
RSE是对模型失拟的度量, 是每个观测值平均偏离程度
\(R^2\)统计量
RSE提供了一个数据失拟的绝对测量, 与Y的量级有关, \(R^2\)统计量与Y的量级无关
\[
R^{2}=\frac{\mathrm{TSS}-\mathrm{RSS}}{\mathrm{TSS}} = 1-\frac{\mathrm{RSS}}{\mathrm{TSS}}
\]
- \(\mathrm{TSS}=\sum (y_i - \bar{y})^2\)测量Y的总方差, 是执行回归之前Y的固有变异性
- \(\mathrm{RSS}=\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2\), 是执行回归之后仍无法解释的变异性
因此\(R^2\)测量的是Y的变异中能被X解释的部分, 范围为0~1
\(R^2\)接近1说明回归可以解释Y的大部分变异
\(R^2\)接近0说明回归没有解释太多Y的变异, 或者固有误差项\(\sigma^2\)太大
与\(R^2\)统计量相似的相关性也衡量了X和Y之间的线性关系:
\[
r = \mathrm{Cor}(X, Y)=\frac{\sum_{i = 1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i = 1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i = 1}^{n}(y_i - \bar{y})^2}}
\]
在简单线性回归模型中, \(R^2=r^2\), 但相关性并没有拓展到多元回归中, 因为相关性描述的是一对一的相关关系
\(R^2\)统计量不适用非线性回归的观点:https://statisticsbyjim.com/regression/r-squared-invalid-nonlinear-regression
多元线性回归
假设由p个预测变量:
模型: \(Y = \beta_0+\beta_1X_1 + \beta_2X_2+\cdots+\beta_pX_p+\varepsilon\)
估计回归系数
几个问题
响应变量和预测变量之间是否有关系
在多元线性回归中, 需要验证的是回归系数是否都为0
- $H_0: $