Ubuntu 服务器Llama Factory 搭建DeepSeek-R1微调训练环境

1.首先了解一下什么是LLM微调

LLM 微调指的是在已经预训练好的大型语言模型基础上，使用特定的任务数据或领域数据，通过进一步的训练来调整模型的参数，使其在特定任务或领域上能够表现得更好。简单来说，就是对一个已经具备了丰富语言知识的通用大模型进行 “个性化” 调整，以适应更具体的应用场景和需求。

提高特定任务性能：对于像文本生成、机器翻译、问答系统等具体任务，通过微调可以让模型在这些任务上的准确性、流畅性等指标得到显著提升。例如在机器翻译中，微调能使模型更好地处理特定语言对之间的语法、词汇差异，提高翻译质量。
适配特定领域：不同领域有其独特的术语、语言风格和知识体系，如医疗、法律领域等。微调可以让模型学习并适应这些领域特点，生成更符合领域规范和需求的文本。比如在医疗领域，经过微调的模型能够准确理解和处理医学术语，为医疗诊断、病历生成等任务提供更专业的支持。
减少计算资源消耗：相比从头训练一个大型语言模型，微调通常只需要较少的计算资源和时间成本。因为预训练模型已经学习到了大量的通用语言知识，微调只需在其基础上进行局部调整，就能快速得到一个适用于特定任务或领域的高性能模型。

基于特定任务数据微调
- 有监督微调：收集大量标注好的特定任务数据，这些数据包含了输入文本和对应的正确输出。例如在情感分类任务中，输入是各种文本内容，标注的输出是积极、消极或中性等情感类别。将这些数据输入到预训练模型中，通过调整模型参数，使模型的输出尽可能接近标注的正确答案，从而让模型学习到特定任务的模式和规律。
- 无监督微调：利用大量未标注的特定任务数据进行微调。例如在文本生成任务中，虽然没有明确的输出标注，但可以通过让模型学习文本的概率分布，如预测下一个单词或句子，使模型在特定任务的文本风格和语义上更符合要求。
基于领域数据微调
- 领域自适应微调：收集目标领域的文本数据，这些数据具有该领域独特的词汇、句式和语义特点。将预训练模型在这些领域数据上进行微调，使模型能够适应领域语言风格，例如法律领域中频繁出现的法律条文、法律术语等，让模型在处理法律文本时更加准确和专业。
- 多领域混合微调：有时一个应用可能涉及多个领域，这时可以将多个领域的数据混合起来对模型进行微调，使模型具备处理多领域知识的能力，能够根据输入文本的特点自动切换到相应的领域模式进行处理。