大模型
PreTraining 预训练
预训练(pre-training)是指在一个较小的、特定任务的数据集上进行微调(fine-tuning)之前,在一个大数据集上训练一个模型的过程。这个初始训练阶段允许模型从数据中学习一般的特征和表征,然后可以针对具体任务进行微调。
微调方法
SFT 监督微调
在一个预训练的基础上,通过提供标注好的数据进行进一步训练,以使模型在特定任务或领域表现得更好。
PEFT-lora 轻量化微调
全量微调需要数据很大,所以需要轻量化微调,即只微调模型的一部分,以使模型在特定任务或领域表现得更好。
实际是通过低秩矩阵相乘,减少微调参数量。(低秩:参数的相关性小,低秩矩阵相乘后,参数量减少很多)
数据冗余:当矩阵的行或列之间存在高度冗余时,比如在一些数据集中,多个特征(列)可能高度相关,或者多个观测(行)几乎相同。
信息重复:在某些情况下,矩阵的不同部分可能包含重复的信息,导致整个矩阵可以通过较少的数据来描述。
固有维度低:在许多实际问题中,尽管数据在表面上看似高维(例如图像、文本数据),其真实的“固有维度”却可能相对较低,因为数据点可能聚集在低维的流形上。
缺失或不完整的数据:在处理不完整或缺失数据时,通过低秩矩阵近似可以是恢复或估计缺失条目的一种有效方法。
RLHF-DPO
教会大模型语法格式
RLHF:使用强化学习技术,需要训练奖励模型,然后通过策略梯度等方法优化语言模型。
DPO:直接使用静态离线数据集优化模型参数,无需单独的奖励模型。
模型蒸馏
模型蒸馏是一种将大型模型的知识迁移到小型模型的技术,在不损失有效性的情况下实现模型压缩。以下是模型蒸馏的一些优化技术: