Lecture Notes on Linear Regression
455.98 KB
6 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .pdf | 3 |
摘要 | ||
本文档系统讲解了线性回归的基本概念与方法。首先介绍了线性回归问题,定义了假设函数h(θ)(x) = θ^T x,并提出了成本函数J(θ) = 1/2 Σ(h(θ)(x(i)) - y(i))^2,用于衡量预测值与真实值之间的误差。随后,详细推导了梯度下降法(GD)的优化过程,包括梯度计算和参数更新规则。文档还探讨了线性回归的概率解释,假设目标值y来自线性模型加上服从高斯分布的噪声。进一步,推导了线性回归的闭式解θ = (X^T X)^-1 X^T Y,并讨论了其适用条件。最后,比较了批量梯度下降(GD)与随机梯度下降(SGD)的优缺点及适用场景。 | ||
AI总结 | ||
《线性回归讲义》总结
1. **线性回归问题**
- 目标:给定输入特征向量,预测连续目标值。假设n维特征向量为 \( x \in \mathbb{R}^n \),输出变量为 \( y \in \mathbb{R} \)。
- 假设函数:线性回归模型的假设函数为 \( h_\theta(x) = \theta^T x \),其中 \(\theta \in \mathbb{R}^{n+1}\) 是参数向量。
- 几何意义:当 \( n=1 \) 时,假设函数是一条直线;当 \( n=2 \) 时,是一个平面;在高维空间中是“超平面”。
2. **成本函数与优化目标**
- 成本函数 \( J(\theta) \) 定义为:
\[
J(\theta) = \frac{1}{2} \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2
\]
- 目标:通过最小化 \( J(\theta) \) 找到最优参数 \(\theta\)。
3. **梯度下降法 (Gradient Descent, GD)**
- GD 是一种迭代优化算法,沿负梯度方向更新参数:
\[
\theta \leftarrow \theta - \alpha \nabla J(\theta)
\]
其中 \(\alpha\) 是学习率,\(\nabla J(\theta)\) 是成本函数的梯度。
- 梯度计算:
\[
\frac{\partial J(\theta)}{\partial \theta_j} = \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)}) x^{(i)}_j
\]
4. **随机梯度下降法 (Stochastic Gradient Descent, SGD)**
- SGD 每次仅使用一个样本计算梯度:
\[
\frac{\partial J(\theta)}{\partial \theta_j} = (h_\theta(x^{(i)}) - y^{(i)}) x^{(i)}_j
\]
- 更新规则:
\[
\theta_j \leftarrow \theta_j - \alpha (h_\theta(x^{(i)}) - y^{(i)}) x^{(i)}_j
\]
- 优点:计算量小,但收敛速度可能不如 GD稳定。
5. **闭式解**
- 矩阵形式的线性回归模型:
\[
X \in \mathbb{R}^{m \times (n+1)}, \quad Y \in \mathbb{R}^m
\]
成本函数为:
\[
J(\theta) = \frac{1}{2} \|X\theta - Y\|^2
\]
- 最优解:
\[
\theta = (X^T X)^{-1} X^T Y
\]
前提是 \( X^T X \) 可逆。
6. **概率解释**
- 假设目标值 \( y \) 从线性模型 \( y = x^T \theta + \epsilon \) 中抽样,其中噪声 \(\epsilon \sim \mathcal{N}(0, \sigma^2)\)。
- 条件概率密度函数:
\[
p(y | x; \theta) = \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{(y - x^T \theta)^2}{2\sigma^2}\right)
\]
- 最大似然估计对应于最小化平方误差,即最小二乘问题。 |
P1
P2
P3
P4
P5
P6
下载文档到本地,方便使用
文档评分