机器学习学习笔记-20240927

文章目录

- - 一些简单的指令
  - 数据操作
  - - 广播机制
  - 标量，向量，矩阵的相互求导
  - - 1. 标量对标量的求导
    - 2. 标量对向量的求导
    - 3. 向量对标量的求导
    - 4. 向量对向量的求导
    - 5. 矩阵对标量的求导
    - 6. 矩阵对向量的求导
  - 链式求导法则YYDS
  - 求出损失函数偏导为0时的最优解w*
  - - 1. 损失函数的定义
    - 2. 对参数 $w$ 求偏导
    - 3. 设置梯度为 0
    - 4. 解方程求 $w^*$
    - 5. 数值优化方法
  - Softmax回归的损失函数梯度推导
  - 4. 最终梯度公式

本人跟着B站李沐进行学习，卧槽，就感觉教的真的很好，相见恨晚，感觉之前都白学了。

一些简单的指令

nvidia-smi 查看CPU状态
pip install torch1.8.1+cu111 torchvision0.9.1+cu111 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html 我用的是这个安装 pytorch，
python --version 查看python版本
conda env list 查看虚拟环境列表
conda create -n study python=3.8 创建名为study的环境
cd g: 打开G盘
jupyter notebook

数据操作

广播机制

在这里插入图片描述
把张量不一样的也进行相加处理，挺牛的。
如果数组的维度不同，较小的数组会在较大数组的前面添加维度，直到两者维度相同。
如果某个维度的大小不相同，且其中一个数组的大小为 1，较小数组会沿着该维度重复。
如果某个维度的大小不相同且都不为 1，则无法进行广播，会引发错误。

标量，向量，矩阵的相互求导

在这里插入图片描述

1. 标量对标量的求导

定义：如果有两个标量函数 $f (x)$ 和 $g (x)$ ，则 $f$ 关于 $g$ 的导数为：
$\frac{df}{dg}$

2. 标量对向量的求导

定义：如果 $f(\mathbf{x})$ 是标量函数， $\mathbf{x}$ 是 $n$ -维向量，则 $f$ 相对于 $\mathbf{x}$ 的导数为梯度向量：
$\nabla_{\mathbf{x}} f = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \ldots, \frac{\partial f}{\partial x_n} \right)$

3. 向量对标量的求导

定义：如果一个向量函数 $\mathbf{F}(x)$ 的每个分量都是标量 $x$ 的函数，则其导数为：
$\frac{d\mathbf{F}}{dx} = \left( \frac{dF_1}{dx}, \frac{dF_2}{dx}, \ldots, \frac{dF_n}{dx} \right)$

4. 向量对向量的求导

定义：如果 $\mathbf{F}(\mathbf{x})$ 是一个从 $n$ -维向量到 $m$ -维向量的函数，则导数为雅可比矩阵：
$\left[ \frac{\partial \mathbf{F}}{\partial \mathbf{x}} \right] = \begin{bmatrix} \frac{\partial F_1}{\partial x_1} & \cdots & \frac{\partial F_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial F_m}{\partial x_1} & \cdots & \frac{\partial F_m}{\partial x_n} \end{bmatrix}$

5. 矩阵对标量的求导

定义：如果一个矩阵 $\mathbf{M}(x)$ 的每个元素都是标量 $x$ 的函数，则其导数是一个相同维度的矩阵：
$\frac{d\mathbf{M}}{dx} = \begin{bmatrix} \frac{dM_{11}}{dx} & \cdots & \frac{dM_{1n}}{dx} \\ \vdots & \ddots & \vdots \\ \frac{dM_{m1}}{dx} & \cdots & \frac{dM_{mn}}{dx} \end{bmatrix}$

6. 矩阵对向量的求导

定义：当矩阵 $\mathbf{M}(\mathbf{x})$ 的每个元素都是向量 $\mathbf{x}$ 的函数时，求导结果是一个由雅可比矩阵组成的三维张量。

这些求导关系是理解多变量函数变化和优化算法的基础，广泛应用于解析力学、量子力学和学习>机器学习等领域。

链式求导法则YYDS

在这里插入图片描述

求出损失函数偏导为0时的最优解w*

在学习>机器学习中，求解最优参数 $w^*$ 通常是通过使损失函数对参数的偏导数为 0 来实现的，这意味着我们需要找到损失函数的最小值或极小值点

1. 损失函数的定义

设损失函数为 $L (w)$ ，它表示模型预测与实际值之间的差异。最常见的损失函数包括平方损失（用于回归）和交叉熵损失（用于分类）。

例如，对于线性回归中的平方损失函数：
$L(\mathbf{x},y ,w) = \frac{1}{2} \sum_{i=1}^n (y_i - \mathbf{x}_i^T w)^2$
其中， $\mathbf{x}_i$ 是第 $i$ 个样本的输入， $y_i$ 是第 $i$ 个样本的真实输出， $w$ 是模型的参数。

2. 对参数 $w$ 求偏导

我们对损失函数 $L (w)$ 关于参数 $w$ 求偏导数，得到梯度 $\nabla_w L(w)$ 。例如，对于平方损失函数，其梯度为：
$\nabla_w L(w) = -\sum_{i=1}^n (y_i - \mathbf{x}_i^T w) \mathbf{x}_i$

3. 设置梯度为 0

为了找到损失函数的极小值点，我们需要让梯度为 0：
$\nabla_w L(w) = 0$
将上面的梯度公式代入，得到：
$\sum_{i=1}^n (y_i - \mathbf{x}_i^T w) \mathbf{x}_i = 0$

4. 解方程求 $w^*$

通过解上面的方程，我们可以得到最优解 $w^*$ 。

我们来详细求解方程：
$\sum_{i=1}^n (y_i - \mathbf{x}_i^T w) \mathbf{x}_i = 0$

将方程展开
将括号展开，可以得到：
$\sum_{i=1}^n y_i \mathbf{x}_i - \sum_{i=1}^n (\mathbf{x}_i^T w) \mathbf{x}_i = 0$

其中， $\mathbf{x}_i^T w$ 是标量， $\mathbf{x}_i$ 是向量。因此，我们可以重写第二项为：
$\sum_{i=1}^n y_i \mathbf{x}_i - \sum_{i=1}^n \mathbf{x}_i \mathbf{x}_i^T w = 0$
2. 移项
$\sum_{i=1}^n y_i \mathbf{x}_i = \sum_{i=1}^n \mathbf{x}_i \mathbf{x}_i^T w$
3. 将求和写为矩阵形式
设 $\mathbf{X}$ 是输入数据矩阵，其每一行为 $\mathbf{x}_i^T$ ，即：
$\mathbf{X} = \begin{bmatrix} \mathbf{x}_1^T \\ \mathbf{x}_2^T \\ \vdots \\ \mathbf{x}_n^T \end{bmatrix}$

此时，向量 $\mathbf{y}$ 表示输出：
$\mathbf{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}$

所以， $\sum_{i=1}^n y_i \mathbf{x}_i$ 可以写作 $\mathbf{X}^T \mathbf{y}$ ，而 $\sum_{i=1}^n \mathbf{x}_i \mathbf{x}_i^T$ 可以写作 $\mathbf{X}^T \mathbf{X}$ 。方程变为：
$\mathbf{X}^T \mathbf{y} = \mathbf{X}^T \mathbf{X} w$

求解 $w$
假设 $\mathbf{X}^T \mathbf{X}$ 是可逆的，我们可以两边同时乘以 $(\mathbf{X}^T \mathbf{X})^{-1}$ ，得到：
$(\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}$

这就是线性回归中通过最小二乘法求解得到的最优解 $w^*$ 。
如果 $\mathbf{X}^T \mathbf{X}$ 不可逆，可能需要使用正则化等方法来处理。
$w^* = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}$

5. 数值优化方法

当损失函数不能直接求解闭式解时，可以使用数值优化算法，比如梯度下降法或牛顿法。梯度下降法通过反复更新参数 $w$ 来逼近最优解，更新公式为：
$w_{t+1} = w_t - \eta \nabla_w L(w_t)$
其中 $\eta$ 是学习率。

Softmax回归的损失函数梯度推导

在这里插入图片描述
来源:B站https://www.bilibili.com/video/BV1K64y1Q7wu/?p=2&spm_id_from=pageDriver&vd_source=591a381cfce5c2eccb909df0428d1ee4评论sudo_rm_-rf

Softmax函数的定义
假设我们有一个输入向量 $\mathbf{z} = [z_1, z_2, \dots, z_n]$ ，经过Softmax变换后的输出是：
$\hat{y}_i = \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}}$
其中， $\hat{y}_i$ 表示输入 $z_i$ 对应的Softmax输出， $\sum_{j=1}^{n} e^{z_j}$ 是所有输入的指数和，用来归一化概率。
交叉熵损失函数的定义
假设我们有一个真实标签向量 $\mathbf{y} = [y_1, y_2, \dots, y_n]$ ，其中每个 $y_i$ 是 $0$ 或 $1$ ，表示该样本属于第 $i$ 类。交叉熵损失函数的定义为：
$-\sum_{i=1}^{n} y_i \log(\hat{y}_i)$
这个损失函数用于衡量预测概率分布 $\hat{\mathbf{y}}$ 和真实标签分布 $\mathbf{y}$ 之间的差异。
交叉熵损失函数（Cross-Entropy Loss）是学习>机器学习和深度学习中用于分类任务的一种常用损失函数，特别是在多分类任务中常与Softmax函数一起使用。它用来衡量模型的输出概率分布和真实标签之间的差异。其本质是计算两个概率分布之间的距离，距离越小，模型的预测越接近真实结果。

对于单个样本，假设真实标签为 $y_i$ ，模型的预测概率为 $\hat{y}_i$ ，其中 $y_i$ 表示样本所属的真实类别， $\hat{y}_i$ 表示模型预测的该类别的概率。那么，二分类问题的交叉熵损失函数定义为：

$\left[ y \log(\hat{y}) + (1 - y) \log(1 - \hat{y}) \right]$

这个公式表达了当真实类别为 $y = 1$ 和 $y = 0$ 时的损失。其含义是：

如果样本的真实标签是 $y = 1$ ，我们希望模型预测的 $\hat{y}$ 越接近 1 损失越小。
如果样本的真实标签是 $y = 0$ ，我们希望模型预测的 $\hat{y}$ 越接近 0 损失越小。

举个例子：假设我们有一个 3 类分类问题，模型的预测概率输出为：
$\hat{\mathbf{y}} = [0.7, 0.2, 0.1]$

真实的标签为第二类，也就是说真实标签的 one-hot 编码为：（原来独热编码就是这么简单的东西）
$\mathbf{y} = [0, 1, 0]$

交叉熵损失计算为：
$\sum_{i=1}^{3} y_i \log(\hat{y}_i) = -[0 \cdot \log(0.7) + 1 \cdot \log(0.2) + 0 \cdot \log(0.1)] = -\log(0.2) = 1.609$

在这种情况下，由于模型对真实类别的概率预测较低（ $0.2$ ），所以交叉熵损失较大。模型需要通过优化减少这个损失，使得预测更接近真实标签。

梯度推导
为了推导损失函数关于输入 $\mathbf{z}$ 的梯度，我们需要分别求 $L$ 关于 $\mathbf{z}$ 的偏导数。
好的，我们来逐步推导Softmax回归损失函数的梯度公式。首先，我们先理解Softmax回归的基本概念和损失函数。

3.1. 损失函数的展开

将损失函数 ( L(y, z) ) 展开为：

$-\sum_{i=1}^{K} y_i \log\left(\frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}\right)$

可以化简为：

$-\sum_{i=1}^{K} y_i z_i + \log\left(\sum_{j=1}^{K} e^{z_j}\right)$

3.2. 计算梯度

现在我们需要计算：

对第一项求导：
$\frac{\partial}{\partial z_i} \left(-\sum_{k=1}^{K} y_k z_k\right) = -y_i$
对第二项求导：
$\frac{\partial}{\partial z_i} \log\left(\sum_{j=1}^{K} e^{z_j}\right) = \frac{1}{\sum_{j=1}^{K} e^{z_j}} \cdot \frac{\partial}{\partial z_i}\left(\sum_{j=1}^{K} e^{z_j}\right) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}} = \sigma(z_i)$
合并结果：
将两部分结合起来，得到损失函数的梯度：
$\frac{\partial L}{\partial z_i} = -y_i + \sigma(z_i)$

4. 最终梯度公式

因此，Softmax回归损失函数关于 logits ( z_i ) 的梯度为：

$\frac{\partial L}{\partial z_i} = \sigma(z_i) - y_i$
只勉强看懂思路，整体看不太懂。害就这样吧。
补充说明

这个推导中使用的交叉熵损失是基于离散的类别标签，因此每个 $y_j$ 只有一个值为 $1$ ，其余均为 $0$ 。