重要!!! 什么是梯度方差 ; AdaLoRA中的Fisher信息矩阵:核心作用与通俗举例 Source 什么是梯度方差(Fisher信息近似) AdaLoRA中的Fisher信息矩阵:核心作用与通俗举例 目录 什么是梯度方差(Fisher信息近似) AdaLoRA中的Fisher信息矩阵:核心作用与通俗举例 一句话总结 🍉 通俗例子:炒菜放盐的“重要性” 🧠 具体原理与示例(文本分类任务) 🔍 为什么有效? 🌰 玩具数据演示 通过梯度方差量化参数重要性:一个玩具级计算示例 步骤1:定义数据与损失 步骤2:计算每个样本的梯度(以 w 1 w_1 w1为例) 1. **Z的含义与公式参数** 2. **L(损失值)的含义与公式参数** 步骤3:计算梯度方差(Fisher信息近似) 步骤4:对比参数重要性 步骤5:AdaLoRA如何利用方差? 关键结论:为什么方差=重要性? 真实场景类比:考试复习 Fisher矩阵的本质:通过参数梯度的方差,量化参数对任务的敏感程度(方差越大,参数越重要)。 一句话总结 Fisher信息矩阵是衡量模型参数对任务重要性的“温度计”,AdaLoRA用它识别哪些参数需要**“小心保护”(避免过度更新)**,哪些可以“大胆调整”。 🍉 通俗例子:炒菜放盐的“重要性” 假设你要炒一盘菜,盐的用量(对应模型参数)对味道影响极大(高Fisher值)&#x