Lecture Notes on Linear Regression - IT文库

语言	格式	评分
英语	.pdf	3
摘要
本文档系统讲解了线性回归的基本概念与方法。首先介绍了线性回归问题，定义了假设函数h(θ)(x) = θ^T x，并提出了成本函数J(θ) = 1/2 Σ(h(θ)(x(i)) - y(i))^2，用于衡量预测值与真实值之间的误差。随后，详细推导了梯度下降法（GD）的优化过程，包括梯度计算和参数更新规则。文档还探讨了线性回归的概率解释，假设目标值y来自线性模型加上服从高斯分布的噪声。进一步，推导了线性回归的闭式解θ = (X^T X)^-1 X^T Y，并讨论了其适用条件。最后，比较了批量梯度下降（GD）与随机梯度下降（SGD）的优缺点及适用场景。
AI总结
《线性回归讲义》总结 1. 线性回归问题 - 目标：给定输入特征向量，预测连续目标值。假设n维特征向量为 \( x \in \mathbb{R}^n \)，输出变量为 \( y \in \mathbb{R} \)。 - 假设函数：线性回归模型的假设函数为 \( h_\theta(x) = \theta^T x \)，其中 \(\theta \in \mathbb{R}^{n+1}\) 是参数向量。 - 几何意义：当 \( n=1 \) 时，假设函数是一条直线；当 \( n=2 \) 时，是一个平面；在高维空间中是“超平面”。 2. 成本函数与优化目标 - 成本函数 \( J(\theta) \) 定义为： \[ J(\theta) = \frac{1}{2} \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2 \] - 目标：通过最小化 \( J(\theta) \) 找到最优参数 \(\theta\)。 3. 梯度下降法 (Gradient Descent, GD) - GD 是一种迭代优化算法，沿负梯度方向更新参数： \[ \theta \leftarrow \theta - \alpha \nabla J(\theta) \] 其中 \(\alpha\) 是学习率，\(\nabla J(\theta)\) 是成本函数的梯度。 - 梯度计算： \[ \frac{\partial J(\theta)}{\partial \theta_j} = \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)}) x^{(i)}_j \] 4. 随机梯度下降法 (Stochastic Gradient Descent, SGD) - SGD 每次仅使用一个样本计算梯度： \[ \frac{\partial J(\theta)}{\partial \theta_j} = (h_\theta(x^{(i)}) - y^{(i)}) x^{(i)}_j \] - 更新规则： \[ \theta_j \leftarrow \theta_j - \alpha (h_\theta(x^{(i)}) - y^{(i)}) x^{(i)}_j \] - 优点：计算量小，但收敛速度可能不如 GD稳定。 5. 闭式解 - 矩阵形式的线性回归模型： \[ X \in \mathbb{R}^{m \times (n+1)}, \quad Y \in \mathbb{R}^m \] 成本函数为： \[ J(\theta) = \frac{1}{2} \\|X\theta - Y\\|^2 \] - 最优解： \[ \theta = (X^T X)^{-1} X^T Y \] 前提是 \( X^T X \) 可逆。 6. 概率解释 - 假设目标值 \( y \) 从线性模型 \( y = x^T \theta + \epsilon \) 中抽样，其中噪声 \(\epsilon \sim \mathcal{N}(0, \sigma^2)\)。 - 条件概率密度函数： \[ p(y \| x; \theta) = \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{(y - x^T \theta)^2}{2\sigma^2}\right) \] - 最大似然估计对应于最小化平方误差，即最小二乘问题。

来源	funglee.github.io

P1

P2

P3

P4

P5

P6

下载文档到本地，方便使用

文档评分

helloworld

文档

1176

文章

0

码力

318

个性签名

暂无个性签名