大模型学习之数据集
数据集
预训练数据集和指令微调数据集的比较
1. 预训练数据集
- 目的:学习通用的语言模式和特征,建立一个强大的语言理解和生成能力的模型
- 格式:
- 文本连续性:预训练数据集通常是由大量的连续文本组成的。这些文本可以来自书籍、文章、对话等
- 无明确标签:预训练数据集不需要显式的输入-输出对。例如,GPT类模型通常只需要大量的未标注文本来预测下一词或填补掩盖词
2. 指令微调数据集
- 目的:使模型能够理解和执行特定的任务指令,如回答问题,生成特定格式的文本等
- 格式:
- 明确的输入-输出对:指令微调数据集通常包含明确的输入(指令)和期望的输出(响应)。这些数据旨在训练模型根据特定的任务或指令生成准确的输出
- 指令和响应的对话结构:通常以对话形式,包括“指令”与回应
LLaMA-Factory支持 alpaca 格式和 sharegpt 格式的数据集
指令微调数据集的制作
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 廾匸!