数据集

预训练数据集和指令微调数据集的比较

1. 预训练数据集

  • 目的:学习通用的语言模式和特征,建立一个强大的语言理解和生成能力的模型
  • 格式:
    • 文本连续性:预训练数据集通常是由大量的连续文本组成的。这些文本可以来自书籍、文章、对话等
    • 无明确标签:预训练数据集不需要显式的输入-输出对。例如,GPT类模型通常只需要大量的未标注文本来预测下一词或填补掩盖词

2. 指令微调数据集

  • 目的:使模型能够理解和执行特定的任务指令,如回答问题,生成特定格式的文本等
  • 格式:
    • 明确的输入-输出对:指令微调数据集通常包含明确的输入(指令)和期望的输出(响应)。这些数据旨在训练模型根据特定的任务或指令生成准确的输出
    • 指令和响应的对话结构:通常以对话形式,包括“指令”与回应

LLaMA-Factory支持 alpaca 格式和 sharegpt 格式的数据集

指令微调数据集的制作