Machine Learning

Gradient Descent （梯度下降）梯度下降（Gradient Descent）是一种用于优化目标函数的迭代算法，广泛应用于机器学习和深度学习中，用于训练模型以最小化损失函数。推荐先阅读机器学习基础文章以对梯度下降的背景有大概的了解。目标函数目标函数 (Objective Function)：有时也称作准则(criterion)、代价函数(cost function)或损失函数(loss function)，是我们希望最小化的函数，通常表示为 $J(\theta)$，其中 $\theta$ 是模型的参数。例如，在线性回归中使用的均方误差 (Mean Squared Error, MSE) 就是一个常见的目标函数。一般来说，定义 $x^* = \arg\min_{x} J(x)$ 导数记现在需要优化的函数为 $y = f(x)$，这个函数的导数 $f'(x)$ 表示函数在点 $x$ 处的变化率，或者说是函数图像在该点的切线斜率。利用导数的定义，发现导数实际指示了函数在该点的变化趋势，我们可以很容易的判断出函数下降的方向取一个小的正数 $\epsilon$，如果 $f'(x) > 0$，则 $f(x - \epsilon) < f(x)$，否则 $f(x + \epsilon) < f(x)$，也就是说： $$ f(x -\epsilon\cdot \text{sign}(f'(x))) < f(x) $$因此，导数的负方向是函数下降最快的方向。梯度下面，将上面所述的过程扩展到多维空间中，假设现在有一个多变量函数 $f: \mathbb{R}^n \to \mathbb{R}$，其输入为一个 $n$ 维向量 $x = [x_1, x_2, \ldots, x_n]^T$，输出为一个标量 $y = f(x)$。我们希望找到使得 $f(x)$ 最小化的 $x$。 ...

Machine Learning Basics 这篇文章基于Deep Learning [@Goodfellow-et-al-2016] 一书 Chapt5，介绍机器学习的一些基本概念和方法。 Supervised Learning 本文主要讨论监督学习算法。首先，介绍一些基本概念：训练集 (Training Set)：用于训练模型的数据集，包含输入数据 (sample, $X$)和对应的标签（label，$y$）。样本 (Sample)：训练集中的每一个数据点，通常表示为一个向量 $x^{(i)}$，其中 $i$ 是样本的索引。测试集 (Test Set)：用于评估模型性能的数据集，包含不被用在训练中，未见过的输入数据和对应的标签。输入 (Input)：模型的输入数据，通常表示为一个向量 $x \in \mathbb{R}^n$，其中 $n$ 是输入的维度。输出 (Output)：模型的输出结果，通常表示为一个标量 $y$，可以是连续值（回归问题）或离散值（分类问题）。特征 (Feature)：输入数据的各个维度，表示为 $x_1, x_2, \ldots, x_n$。标签 (Label)：输入数据对应的真实输出值，一般表示为 $y$。监督学习算法的主要目的是，从一个训练集中学习 $P(y|x)$ ，得到一个模型，来获得近似值 $\hat{P}(y|x)$，使得对于新的输入 $x$，可以预测出对应的输出 $y$。表示数据集的常用方法是将所有样本的输入和标签分别存储在矩阵和向量中，例如 28*28 的灰度图像可以表示为一个 (1,28,28) 的张量，包含 $m$ 个样本的训练集可以表示为一个 (m,1,28,28) 的张量，标签可以表示为一个 (m,) 的向量。 Example: Linear Regression Model 线性回归是最简单的监督学习算法之一，假设输入 $x$ 和输出 $y$ 之间存在线性关系，可以表示为(这里先不考虑截距项)： ...