pdf文档 Lecture Notes on Linear Regression

455.98 KB 6 页 0 评论
语言 格式 评分
英语
.pdf
3
摘要
本文档系统讲解了线性回归的基本概念与方法。首先介绍了线性回归问题,定义了假设函数h(θ)(x) = θ^T x,并提出了成本函数J(θ) = 1/2 Σ(h(θ)(x(i)) - y(i))^2,用于衡量预测值与真实值之间的误差。随后,详细推导了梯度下降法(GD)的优化过程,包括梯度计算和参数更新规则。文档还探讨了线性回归的概率解释,假设目标值y来自线性模型加上服从高斯分布的噪声。进一步,推导了线性回归的闭式解θ = (X^T X)^-1 X^T Y,并讨论了其适用条件。最后,比较了批量梯度下降(GD)与随机梯度下降(SGD)的优缺点及适用场景。
AI总结
《线性回归讲义》总结 1. **线性回归问题** - 目标:给定输入特征向量,预测连续目标值。假设n维特征向量为 \( x \in \mathbb{R}^n \),输出变量为 \( y \in \mathbb{R} \)。 - 假设函数:线性回归模型的假设函数为 \( h_\theta(x) = \theta^T x \),其中 \(\theta \in \mathbb{R}^{n+1}\) 是参数向量。 - 几何意义:当 \( n=1 \) 时,假设函数是一条直线;当 \( n=2 \) 时,是一个平面;在高维空间中是“超平面”。 2. **成本函数与优化目标** - 成本函数 \( J(\theta) \) 定义为: \[ J(\theta) = \frac{1}{2} \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2 \] - 目标:通过最小化 \( J(\theta) \) 找到最优参数 \(\theta\)。 3. **梯度下降法 (Gradient Descent, GD)** - GD 是一种迭代优化算法,沿负梯度方向更新参数: \[ \theta \leftarrow \theta - \alpha \nabla J(\theta) \] 其中 \(\alpha\) 是学习率,\(\nabla J(\theta)\) 是成本函数的梯度。 - 梯度计算: \[ \frac{\partial J(\theta)}{\partial \theta_j} = \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)}) x^{(i)}_j \] 4. **随机梯度下降法 (Stochastic Gradient Descent, SGD)** - SGD 每次仅使用一个样本计算梯度: \[ \frac{\partial J(\theta)}{\partial \theta_j} = (h_\theta(x^{(i)}) - y^{(i)}) x^{(i)}_j \] - 更新规则: \[ \theta_j \leftarrow \theta_j - \alpha (h_\theta(x^{(i)}) - y^{(i)}) x^{(i)}_j \] - 优点:计算量小,但收敛速度可能不如 GD稳定。 5. **闭式解** - 矩阵形式的线性回归模型: \[ X \in \mathbb{R}^{m \times (n+1)}, \quad Y \in \mathbb{R}^m \] 成本函数为: \[ J(\theta) = \frac{1}{2} \|X\theta - Y\|^2 \] - 最优解: \[ \theta = (X^T X)^{-1} X^T Y \] 前提是 \( X^T X \) 可逆。 6. **概率解释** - 假设目标值 \( y \) 从线性模型 \( y = x^T \theta + \epsilon \) 中抽样,其中噪声 \(\epsilon \sim \mathcal{N}(0, \sigma^2)\)。 - 条件概率密度函数: \[ p(y | x; \theta) = \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{(y - x^T \theta)^2}{2\sigma^2}\right) \] - 最大似然估计对应于最小化平方误差,即最小二乘问题。
P1
P2
P3
P4
P5
P6
下载文档到本地,方便使用
文档评分
请文明评论,理性发言.