大模型学习之数据集

发表于2024-09-10|更新于2024-10-01

|浏览量:

数据集

预训练数据集和指令微调数据集的比较

1. 预训练数据集

目的：学习通用的语言模式和特征，建立一个强大的语言理解和生成能力的模型
格式：
- 文本连续性：预训练数据集通常是由大量的连续文本组成的。这些文本可以来自书籍、文章、对话等
- 无明确标签：预训练数据集不需要显式的输入-输出对。例如，GPT类模型通常只需要大量的未标注文本来预测下一词或填补掩盖词

2. 指令微调数据集

目的：使模型能够理解和执行特定的任务指令，如回答问题，生成特定格式的文本等
格式：
- 明确的输入-输出对：指令微调数据集通常包含明确的输入(指令)和期望的输出(响应)。这些数据旨在训练模型根据特定的任务或指令生成准确的输出
- 指令和响应的对话结构：通常以对话形式，包括“指令”与回应

LLaMA-Factory支持 alpaca 格式和 sharegpt 格式的数据集

指令微调数据集的制作

文章作者: Dummy

文章链接: https://dummyv07.github.io/2024/09/10/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%AD%A6%E4%B9%A0%E4%B9%8B%E6%95%B0%E6%8D%AE%E9%9B%86/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源廾匸！

相关推荐

LlamaFactory参数详解

LlamaFactory参数详解Link LlamaFactory是一个简单易上手的大模型训练工具微调的概念微调是指在一个已经预训练的模型基础上进行进一步的训练。预训练模型通常是在大规模数据集(如imageNet或大型文本语料库)上训练的，因此已经捕获了丰富的特征和知识。微调的目标是利用预训练模型的知识，在较小的数据集砂锅进行特定任务的优化。主要特点1.预训练模型：基于已经训练好的模型进行 2.较少数据：通常只需要较小的数据集 3.较短时间：训练时间相对较短，因为模型已经有了良好的初始化 4.目标：适应特定任务或领域，优化模型性能 1.微调方法LORALoRA(低秩微调，Low-Rank Adaption)是一种通过低秩近似方法来减少模型参数数量和计算量的技术。它的主要目标是通过将原始的高纬参数矩阵分解成两个低秩矩阵的乘积(W ≈ A · B)，从而实现模型的参数压缩和计算加速。其中： W 是原始的高维参数矩阵。 A 和 B 是低秩矩阵，其秩（rank）远小于 W 的维度。 A的维度为 m x r 。 B的维度为 r x n 。通过这种分解，我们可以将参数数量从 m...

OpenAILink OpenAI最核心的功能，就是它所提供的文本生成模型。模型经过训练可以理解自然语言、代码和图像。模型可以接受任意类型的输入，最终输出文本。使用模型，你可以构建任意你所需要的AI应用程序，比如： 1.编写文案 2.编写编程代码 3.回答知识库问题 4.分析文本 5.日常助手 6.语言翻译 01第一个聊天程序ChatCompletion的输入是一个message list，返回是一个chatCompletion对象，示例代码如下： 123456789101112131415161718192021222324#openai默认的声明方式，注册openai后在对应的控制台获取api_keyfrom openai import OpenAIclient = OpenAI(api_key="sk-")# 通常我会把自己的API-KEY放在.env文件里，然后gitignore掉。# .env文件可以通过 dotenv库来读取，然后放进系统变量里，这样OpenAI就可以直接识别from dotenv import load_dotenv,...

Tokenizer 作用：将文本序列转化为数字(token)序列，作为transformer的输入分词粒度：word；character；subword Word Tokenizer按照词进行分词，如：”I love you” -> [“I”, “love”, “you”]优点：简单，容易理解，便于理解模型输出结果缺点：每个word分配一个id，所需的vocabulary根据语料大小而不同，会将意思一致的词分成两个不同的id Character Tokenizer按照字符进行分词，如：”I love you” -> [“I”, “ “, “l”, “o”, “v”, “e”, “ “, “y”, “o”, “u”]优点：vocabulary相对小的多，适合中文缺点：对于英语来说，分词后的每个字符是毫无意义的，且输入的长度会变长 Subword Tokenizer按照词的子词进行分词，常用于英语，如‘today is...

大模型学习之DeepSeek

个人学习笔记，如有错误欢迎指正参考链接🔗： B站视频 DeepSeek LLM: Scaling Open-Source Language Models with Longtermism DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 引言因为要看DeepSeek的优化的部分，绕不开的就是MoE 再然后就是COT MoE 混合专家模型混合专家模型详解 MoE发展历史Jacobs et al 1991 每个专家都是独立的FFN，Gating是FFN，由Gating来决定输出那一个专家的结果 2017...

大模型学习之多模态

参考多模态简述1. 多模态学习的概念模态(Modality)：食物表达或感知的方式多模态(multimodal)：研究异构(heterogeneous)和相互链接数据(interconnected data)的科学多模态的行为和信号： 2.多模态学习六大挑战及经典工作挑战一：Representation Learning 表式学习学习不同模态之间交叉交互，包括融合，协调和分裂等子挑战。挑战二：Aligment 对齐连接，对齐表示，分割，将不同模态之间的信息进行关联对齐挑战三：Reasoning 推理结构中间概念，外部范式，知识建模，不仅要求理解单个模态的信息，还要要求理解不同模态之间的信息如何进行交互，影响最终推理决策挑战四：Generation 生成摘要，翻译和生成，创造性的理解和生成信息一致的信息挑战五：Transference 迁移在模态之间转换知识，通过用一个模态的知识来提高另一个模态的能力挑战六：Quantification 量化更好的理解异构性，交叉模态交互，以及多模态学习的过程

大模型学习之大模型文件结构

下载途径不一样是否文件构成也不一样？以下内容以Xinference加载的Qwen2_5-InstructionAWQ-14B模型为例。 config.json configuration.json generation_config.json LIENSE merges.txt model.safetensors.index.json .safeatensors README.md tokenizer.json tokenizer_config.json vocab.json 1. config.json 配置文件描述模型的架构、超参数和训练时的设置。包括模型的层数、隐藏单元数、激活函数等信息。 {“architectures”: [ “Qwen2ForCausalLM”],“attention_dropout”: 0.0,“bos_token_id”: 151643,“eos_token_id”: 151645,“hidden_act”: “silu”,“hidden_size”: 5120,“initializer_range”:...