LLMBook 大模型数据集下载地址完整收集

本文针对《LLMBook》https://llmbook-zh.github.io/ 中的56个数据集进行完整下载地址整理收集。
具体整理部分关于第三章大型语言模型资源
1、常用预训练24个数据集下载地址整理收集
2、指令微调24个数据集下载地址整理收集
3、人类对齐8个数据集下载地址整理收集

《大语言模型》由作者赵鑫，李军毅，周昆，唐天一，文继荣等作者编写，全面介绍了大型语言模型的技术背景、发展过程、关键技术、资源、预训练方法、微调与对齐技术、使用方法、评测以及应用等多个方面。本书主要面向希望系统学习大语言模型技术的读者，将重点突出核心概念与算法，并且配以示例与代码(伪代码)帮助读者理解特定算法的实现逻辑。

第三章：大语言模型资源

3.1 公开可用的模型检查点或API

本节介绍了多种公开可用的大语言模型检查点和API，这些资源允许用户无需从头开始训练模型，即可利用预训练模型进行研究或开发。

公开可用的通用大语言模型检查点：包括LLaMA、ChatGLM、Falcon、Baichuan、InternLM、Qwen、Mistral、DeepSeek LLM、Mixtral、Gemma、MiniCPM和YuLan-Chat等模型，这些模型在参数规模、训练数据和性能上各有特点，适用于不同的应用场景。
LLaMA变体系列：基于LLaMA模型的多种变体，通过指令微调或继续预训练等方法扩展了LLaMA的功能和应用范围，如Stanford Alpaca、Vicuna等。
大语言模型的公共API：主要介绍了OpenAI提供的GPT系列模型API，包括GPT-3.5 Turbo、GPT-4和GPT-4 Turbo，以及文本表征API，如text-embedding-ada-002等。

3.2 常用的预训练数据集预训练数据集是大语言模型训练的基础，本节介绍了多种常用的预训练数据集，涵盖了网页、书籍、维基百科、代码和混合型数据集。

语料库：Common Crawl

数据集地址：<Common Crawl>

语料库：RedPajama-Data

数据集地址:<RedPajama-Data>

语料库：RefinedWeb

数据集地址:<RefinedWeb|网络数据数据集>

语料库：WanJuan-CC

数据集地址:<WanJuan-CC|自然语言处理数据集>

语料库：OpenWebText

数据集地址:<OpenWebText|网络文本分析数据集>

语料库：ChineseWebText

数据集地址:<ChineseWebText|自然语言处理数据集>

语料库：WanJuan 1.0 Text

数据集地址:<WanJuan 1.0 Text|多模态学习数据集>

语料库：WuDaoCorpora Text

数据集地址:<WuDaoCorpora Text文本预训练数据集>

语料库：SkyPile-150B

数据集地址：<Skywork/SkyPile-150B|自然语言处理数据集>

语料库：BookCorpus

数据集地址：<BookCorpus|文本分析数据集>

语料库：Project Gutenberg

数据集地址：<Project-Gutenberg|自然语言处理数据集>

语料库：arXiv dataset

数据集地址：<arXiv Dataset|学术研究数据集>

语料库：S2ORC

数据集地址：<S2ORC|学术研究数据集>

语料库：peS2o

数据集地址：<allenai/peS2o|学术文本预训练数据集>

语料库：BigQuery

数据集地址：<BigQuery Public Datasets|公共数据集数据集>

语料库：The Stack

数据集地址：<The-Stack|编程语言数据集>

语料库：StarCoder

数据集地址：<starcoderdata|编程语言分析数据集>

语料库：The Pile

数据集地址：<EleutherAI/pile>

语料库：ROOTS

数据集地址：<ROOTS Corpus|多语言数据集数据集>

语料库：Dolma

数据集地址：<allenai/dolma|自然语言处理数据集>

3.3 常用微调数据集

微调数据集用于增强模型的任务解决能力，本节介绍了指令微调数据集和人类对齐数据集。

集合：Nat. Inst.

数据集地址：<Natural Instructions|自然语言处理数据集>

集合：FLAN

数据集地址：<SirNeural/flan_v2>

集合：P3

数据集地址：<bigscience/P3|自然语言处理数据集>

集合：Super Nat. Inst.

数据集地址：<Natural Instructions|自然语言处理数据集>

集合：MVPCorpus

数据集地址：<MVPCorpus>

集合：xP3

数据集地址：<bigscience/xP3>

集合：OIG

数据集地址：<OIG>

集合：UnifedSKG

数据集地址：<UnifedSKG>

集合：HH-RLHF

数据集地址：<Anthropic/hh-rlhf>

集合：HC3

数据集地址：<Hello-SimpleAI/HC3|自然语言处理数据集>

集合：ShareGPT

数据集地址：<ShareGPT-Chinese-English-90k|自然语言处理数据集>

集合：Dolly

数据集地址：<databricks-dolly-15k|自然语言处理数据集>

集合：OpenAssistant

数据集地址：<OpenAssistant/oasst1|自然语言处理数据集>

集合：InstructWild v2

数据集地址：<InstructWild|自然语言处理数据集>

集合：LIMA

数据集地址：<lima>

集合：Self-Instruct

数据集地址：<Self-Instruct>

集合：Alpaca

数据集地址：(alpaca>

集合：Guanaco

数据集地址:<GuanacoDataset>

集合：Baize

数据集地址：linkanjarad/baize-chat-data|聊天机器人数据集>

集合：Belle

数据集地址：<Belle 数据集|自然语言处理数据集>

集合：Alpaca-GPT4

数据集地址：<Alpaca-GPT4|自然语言处理数据集|机器学习数据集>

集合：Evol-Instruct

数据集地址：<SurgeGlobal/Evol-Instruct|指令进化数据集>

集合：UltraChat

数据集地址：<[ultrachat|自然语言处理数据集]
(https://www.selectdataset.com/dataset/52320ef3f51bf32aee49931...)>

数据集：Summarize from Feedback
数据集地址：<summarize_from_feedback|自然语言处理数据集>

数据集：SHP
数据集地址：<stanfordnlp/SHP|机器学习数据集>

数据集：WebGPT Comparisons
数据集地址：<webgpt_comparisons|自然语言处理数据集>

数据集：Stack Exchange Preferences
数据集地址：<stack-exchange-preferences|用户偏好分析数据集>

数据集：HH-RLHF
数据集地址：<Anthropic/hh-rlhf>

数据集：Sandbox Alignment Data
数据集地址：<Sandbox Alignment Data>

数据集：CValues
数据集地址：<CValues-Comparison|价值观评估数据集>

数据集：PKU-SafeRLHF
数据集地址：<PKU-SafeRLHF|人工智能伦理数据>

3.4 代码库资源

代码库资源为开发大语言模型提供了技术支持，本节介绍了几个重要的代码库。

Hugging Face开源社区：提供了Transformers、Datasets和Accelerate等代码库，这些工具简化了模型的训练、数据处理和分布式训练过程。
DeepSpeed：微软开发的高性能库，提供了内存优化、数据并行、混合精度训练等优化技术支持，适用于大语言模型的分布式训练。
Megatron-LM：NVIDIA开发的代码库，专门用于训练大语言模型，支持数据并行、模型并行和混合精度训练，提高了训练效率和速度。