机器学习基础
Machine Learning Basics 这篇文章基于Deep Learning [@Goodfellow-et-al-2016] 一书 Chapt5,介绍机器学习的一些基本概念和方法。 Supervised Learning 本文主要讨论监督学习算法。 首先,介绍一些基本概念: 训练集 (Training Set):用于训练模型的数据集,包含输入数据 (sample, $X$)和对应的标签(label,$y$)。 样本 (Sample):训练集中的每一个数据点,通常表示为一个向量 $x^{(i)}$,其中 $i$ 是样本的索引。 测试集 (Test Set):用于评估模型性能的数据集,包含不被用在训练中,未见过的输入数据和对应的标签。 输入 (Input):模型的输入数据,通常表示为一个向量 $x \in \mathbb{R}^n$,其中 $n$ 是输入的维度。 输出 (Output):模型的输出结果,通常表示为一个标量 $y$,可以是连续值(回归问题)或离散值(分类问题)。 特征 (Feature):输入数据的各个维度,表示为 $x_1, x_2, \ldots, x_n$。 标签 (Label):输入数据对应的真实输出值,一般表示为 $y$。 监督学习算法的主要目的是,从一个训练集中学习 $P(y|x)$ ,得到一个模型,来获得近似值 $\hat{P}(y|x)$,使得对于新的输入 $x$,可以预测出对应的输出 $y$。 表示数据集的常用方法是将所有样本的输入和标签分别存储在矩阵和向量中,例如 28*28 的灰度图像可以表示为一个 (1,28,28) 的张量,包含 $m$ 个样本的训练集可以表示为一个 (m,1,28,28) 的张量,标签可以表示为一个 (m,) 的向量。 Example: Linear Regression Model 线性回归是最简单的监督学习算法之一,假设输入 $x$ 和输出 $y$ 之间存在线性关系,可以表示为(这里先不考虑截距项): ...