一、从 Hugging Face 获取公共数据集¶

地址：

https://huggingface.co/datasets

1.1 安装命令行工具¶

默认前提是机器已经装好 Python 和 pip。

pip install huggingface_hub

1.2 获取 Token¶

https://huggingface.co/settings/tokens

如果不方便直接访问官方站点，可以先设置镜像：

# Windows PowerShell
$env:HF_ENDPOINT = "https://hf-mirror.com"

# Linux
export HF_ENDPOINT=https://hf-mirror.com

1.3 下载数据集¶

huggingface-cli login

huggingface-cli download Conard/fortune-telling \
  --repo-type dataset \
  --local-dir C:\Users\Administrator\datasets\fortune-telling\

下载后常见会得到一个类似 all_details.json 的文件。

二、从魔搭社区获取数据集¶

地址：

https://modelscope.cn/datasets

2.1 安装 Git¶

Windows 可从下面地址下载：

https://git-scm.com/downloads/win

2.2 下载数据集¶

git lfs install
git clone https://www.modelscope.cn/datasets/josonfan/jinyong.git

三、制作自己的微调数据集¶

3.1 一个实用操作思路¶

先确定目标格式，例如 Alpaca。
准备原始资料，例如 Word、PDF、TXT、CSV。
借助大模型或专用工具，把资料转换成结构化训练样本。

四、借助 AI 生成 Alpaca 数据集¶

可以直接把原始文档交给大模型，让它输出适合微调的数据格式。笔记里的示例提示词大意如下：

分析和汇总该文档内容，整理出一个适合做大模型微调的数据集，输出格式为 alpaca 格式。

如果希望直接生成更大的可训练数据集，还可以进一步要求：

不少于 100 条；
最终输出为 jsonl；
保留思维链或解释字段。

image/png

五、用 Easy Dataset 制作数据集¶

地址：

https://github.com/ConardLi/easy-dataset

5.1 下载客户端¶

Windows 下载页：

https://github.com/ConardLi/easy-dataset/releases/latest

5.2 配置模型服务¶

笔记里示例使用的是 DeepSeek 平台：

https://platform.deepseek.com/

在平台申请 API Key 后，即可在 Easy Dataset 中配置使用。

image/png

5.3 典型流程¶

上传文献

image/png

生成问题

image/png

生成数据集

image/png

导出数据集

image/png

六、数据集制作时最容易忽略的事¶

格式统一比条数更重要。
先做几十条高质量样本，比一开始就追求几千条更有效。
生成后的数据一定要人工抽查，否则模型很容易学到噪声和错误风格。

如何获取并制作大模型微调数据集

一、从 Hugging Face 获取公共数据集¶

1.1 安装命令行工具¶

1.2 获取 Token¶

1.3 下载数据集¶

二、从魔搭社区获取数据集¶

2.1 安装 Git¶

2.2 下载数据集¶

三、制作自己的微调数据集¶

3.1 一个实用操作思路¶

四、借助 AI 生成 Alpaca 数据集¶

五、用 Easy Dataset 制作数据集¶

5.1 下载客户端¶

5.2 配置模型服务¶

5.3 典型流程¶

六、数据集制作时最容易忽略的事¶

评论区