第六章 合成数据
为什么需要合成数据?
在了解为什么需要合成数据前,我们先简单了解下何为“合成数据”。
合成数据(Synthetic Data)是指用算法、生成模型或仿真程序“造”出来的数据,它模仿真实世界数据的统计分布和结构,但并不直接来源于真实观测,在此教程里,合成数据是由大模型根据不同的提示词生成的数据。
为什么需要合成数据,其实核心的核心是数据的质量问题
,我们知道,对于大模型来说,优秀的大模型往往需要经过预训练、后训练,后训练包含微调、强化训练等,关于每个阶段训练使用的数据,其数据质量
对于每个阶段来说有些微的不同,不过每个阶段的共同点是都需要数据的丰富度
。
课程导航
本节我们将分别详细探讨各个阶段为何需要合成数据,并举例开源的一些合成的数据的例子,最后我们会对如何实现合成数据做出详细的教程,每一个模块都根据预训练、微调、推理数据分类讨论,下面是我们每一个章节的链接👇:
教程章节 | 状态 |
---|---|
6.1.预训练合成数据 | ✅ |
6.2.微调合成数据 | ✅ |
6.3.推理合成数据 | ✅ |