xiaruize's Blog

Hello World

Hi there! 👋 I’m Ruize Xia (xiaruize0911), a student at Nanjing Foreign Language School in Nanjing, Jiangsu, China. I am passionate about learning and exploring new technologies and ideas. 🌍 Location 📍 Nanjing, Jiangsu, China 📫 Contact Me Email: xiaruize0911@gmail.com QQ: 2188298460 WeChat: xiaruize0911 Thank you for visiting! Feel free to explore my blog and connect with me. 🚀

Gradient Descent

Gradient Descent （梯度下降）梯度下降（Gradient Descent）是一种用于优化目标函数的迭代算法，广泛应用于机器学习和深度学习中，用于训练模型以最小化损失函数。推荐先阅读机器学习基础文章以对梯度下降的背景有大概的了解。目标函数目标函数 (Objective Function)：有时也称作准则(criterion)、代价函数(cost function)或损失函数(loss function)，是我们希望最小化的函数，通常表示为 $J(\theta)$，其中 $\theta$ 是模型的参数。例如，在线性回归中使用的均方误差 (Mean Squared Error, MSE) 就是一个常见的目标函数。一般来说，定义 $x^* = \arg\min_{x} J(x)$ 导数记现在需要优化的函数为 $y = f(x)$，这个函数的导数 $f'(x)$ 表示函数在点 $x$ 处的变化率，或者说是函数图像在该点的切线斜率。利用导数的定义，发现导数实际指示了函数在该点的变化趋势，我们可以很容易的判断出函数下降的方向取一个小的正数 $\epsilon$，如果 $f'(x) > 0$，则 $f(x - \epsilon) < f(x)$，否则 $f(x + \epsilon) < f(x)$，也就是说： $$ f(x -\epsilon\cdot \text{sign}(f'(x))) < f(x) $$因此，导数的负方向是函数下降最快的方向。梯度下面，将上面所述的过程扩展到多维空间中，假设现在有一个多变量函数 $f: \mathbb{R}^n \to \mathbb{R}$，其输入为一个 $n$ 维向量 $x = [x_1, x_2, \ldots, x_n]^T$，输出为一个标量 $y = f(x)$。我们希望找到使得 $f(x)$ 最小化的 $x$。 ...

机器学习基础

Machine Learning Basics 这篇文章基于Deep Learning [@Goodfellow-et-al-2016] 一书 Chapt5，介绍机器学习的一些基本概念和方法。 Supervised Learning 本文主要讨论监督学习算法。首先，介绍一些基本概念：训练集 (Training Set)：用于训练模型的数据集，包含输入数据 (sample, $X$)和对应的标签（label，$y$）。样本 (Sample)：训练集中的每一个数据点，通常表示为一个向量 $x^{(i)}$，其中 $i$ 是样本的索引。测试集 (Test Set)：用于评估模型性能的数据集，包含不被用在训练中，未见过的输入数据和对应的标签。输入 (Input)：模型的输入数据，通常表示为一个向量 $x \in \mathbb{R}^n$，其中 $n$ 是输入的维度。输出 (Output)：模型的输出结果，通常表示为一个标量 $y$，可以是连续值（回归问题）或离散值（分类问题）。特征 (Feature)：输入数据的各个维度，表示为 $x_1, x_2, \ldots, x_n$。标签 (Label)：输入数据对应的真实输出值，一般表示为 $y$。监督学习算法的主要目的是，从一个训练集中学习 $P(y|x)$ ，得到一个模型，来获得近似值 $\hat{P}(y|x)$，使得对于新的输入 $x$，可以预测出对应的输出 $y$。表示数据集的常用方法是将所有样本的输入和标签分别存储在矩阵和向量中，例如 28*28 的灰度图像可以表示为一个 (1,28,28) 的张量，包含 $m$ 个样本的训练集可以表示为一个 (m,1,28,28) 的张量，标签可以表示为一个 (m,) 的向量。 Example: Linear Regression Model 线性回归是最简单的监督学习算法之一，假设输入 $x$ 和输出 $y$ 之间存在线性关系，可以表示为(这里先不考虑截距项)： ...

deep-feedforward-neural-networks

Deep Feedforward Neural Networks 本文是对Deep Learning一书中第6章内容的学习笔记。 Introduction 深度前馈网络 (Deep Feedforward Networks)，也称为多层感知机 (Multilayer Perceptrons, MLPs)，是最经典的神经网络模型。从图论角度出发，深度前馈网络是一个有向无环图 (Directed Acyclic Graph, DAG)，其中每个节点表示一个neuron（神经元），每条边表示一个连接权重 (weight)。节点之间的连接是有方向的，信息只能沿着边的方向流动。因此，深度前馈网络没有循环 (cycles) 或反馈 (feedback) 连接。这里简单给出几个概念：神经元 (Neuron)：神经网络中的基本计算单元，接收输入并生成输出。这里可以将每个Neuron看作一个函数，接收输入向量并输出一个标量。层 (Layer)：神经网络中的一组神经元，通常按功能划分为输入层、隐藏层和输出层。输入层 (Input Layer)：网络的第一层，接收外部输入数据。隐藏层 (Hidden Layers)：位于输入层和输出层之间的中间层。隐藏层的数量和每层的神经元数量是网络设计的重要参数。输出层 (Output Layer)：网络的最后一层，生成最终的输出结果。权重 (Weights)：神经元的参数，决定了输入数据对输出的影响程度。权重是通过训练过程学习得到的。偏置 (Biases)：神经元的另一个参数，允许模型更灵活地拟合数据。偏置也是通过训练过程学习得到的。

Deep Learning 学习小记

Deep Learning 学习小记前言本文是一些关于DL方向的学习笔记和项目记录的汇总目录。感谢读者的阅读，如果有任何问题欢迎留言或者联系我 email 谢谢目录 Machine Learning Basics Deep Feedforward Neural Networks