跳转到内容

📖大模型训练课程

📕简介

本课程以大模型实践为主,涵盖了LLM训练的整个流程,包括预训练、微调以及强化学习等内容,下面是我们整理出来的LLM的文章列表,方便读者查阅👇。

📝文章列表

第一章 传统模型

教程名称描述地址代码
1.1 Bert文本分类微调BERT模型,实现IMDB电影评论进行情感分类任务教程🚧
1.2 LSTM股票预测LSTM是一种特殊的RNN,教程使用Google的股票标注数据训练LSTM模型教程🚧
1.3 RNN教程分为上下两部,分别对应RNN原理以及RNN模型构建实战原理实战代码

第二章 预训练

教程名称描述地址代码
2.1 LLM预训练使用wiki数据集进行一个简单的从零预训练工作,并附上使用swanlab launch白嫖显卡的方法教程代码

第三章 微调

教程名称描述地址代码
3.1 Qwen文本分类在这个任务中我们会使用Qwen-1.5-7b模型在zh_cls_fudan_news数据集上进行指令微调任务教程🚧
3.2 Qwen命名体识别使用 Qwen2-1.5b-Instruct 模型在中文NER数据集上做指令微调训练教程代码
3.3 GLM4指令微调使用指令遵从微调GLM4模型,为了便于实现,减少代码量,本文使用了🤗HuggingFace的TRL框架实现教程代码
3.4 Qwen3医学模型微调以Qwen3作为基座大模型,通过全参数微调的方式,实现医学专业领域聊天,甚至支持DeepSeek R1 / QwQ式的带推理过程的对话教程代码
3.5 Mac上微调Qwen3模型本篇教程基于MLX-LM(Mac)教程给大家介绍下如何使用Macbook微调Qwen3模型教程代码
3.6 llamafactory框架QLoRA微调用llama-factory框架来实现大模型的lora和qlora的教程,并且对比分析运行的结果原理实战🚧
3.7 deepseek模型lora微调对deepseek模型的全流程lora多轮对话微调实战教程代码
3.8 其他框架微调除了基础的Transformers框架,还有些国内其他框架可以实现模型微调paddlems-swift代码代码

第四章 强化学习

教程名称描述地址代码
4.1 Qwen复现R1-Zero对deepseek-r1-zero进行复现实验,简单介绍了从r1原理到代码实现,再到结果观测的整个过程教程🚧
4.2 数独游戏GRPO训练使用GRPO的方法,用lora来做微调,分别在GPU、NPU的AI训练卡上训练数独游戏任务教程代码

第五章 评估

教程名称描述地址代码
5.1 EvalScope使用基于魔搭社区的官方模型评估和基准测试框架EvalScope做微调后模型的评估测试教程代码

第六章 视觉大模型

教程名称描述地址代码
6.1 Qwen2-VL微调Qwen2-VL-2B-Instruct模型在COCO2014图像描述上进行Lora微调训练教程代码
6.2 Qwen3-smVL模型拼接微调使用沐曦GPU芯片,把Qwen3与SmolVLM2直接拼接后微调教程代码
6.3 Qwen2.5-VL目标检测微调对Qwen2.5-VL模型进行单目标检测任务微调教程代码

第七章 音频大模型

教程名称描述地址
7.1 音频模型微调待补充🚧