MaxCompute x Dataworks × DeepSeek，实现使用自定义数据集微调DeepSeek-R1蒸馏模型

一、整体概要

基于阿里云云原生大数据计算服务MaxCompute以及大数据治理开发平台Dataworks实现使用自定义数据集微调DeepSeek-R1蒸馏模型主要分为两大部分，一部分是基于人工智能平台PAI的微调训练，第二部分是通过如何构建自有数据集，并进行接入，下面我们以MaxCompute+Dataworks+PAI为基础，快速微调DeepSeek-R1蒸馏模型。

二、如何微调DeepSeek

进入人工智能平台PAI控制台，左侧导航栏进入快速开始 > Model Gallery，选择模型。下面我们以DeepSeek-R1-Distill-Qwen-7B为例，进行微调训练。（其他模型微调也可以基于这个流程）

进入 DeepSeek-R1-Distill-Qwen-7B 模型页面后，点击“训练”按钮，核心是基于自有数据集进行模型调优，自有数据集可以选择存在对象存储OSS的数据，也可以选择存在MaxCompute的数据，下面我们以存在MaxCompute的数据的自有数据集为例进行DEMO演示。

训练数据集选择自定义数据集-新建数据集。

存储类型选择云原生大数据计算服务 MaxCompute。

导入MaxCcompute的项目名和表名进行关联，进行挂在路径配置。

然后再选择模型输出路径。

最后选择相应的资源配置，及参数配置，点击“训练”就可以基于自有数据集进行微调了，一起试试吧。

三、如何构建自有数据集，接入DeepSeek进行微调

在人工智能平台PAI上使用自定义数据集，主要需要关联MaxCompute的项目和数据表。首先创建MaxCompute项目：打开MaxCompute控制台，点击左侧导航栏【工作区】-【项目管理】，选择【新建项目】

创建MaxCompute表：打开Dataworks控制台，左侧导航栏选择【表管理】新建表，详细建表过程可参考文档。

自定义数据集写入

表结构新建好并提交发布后，您可以使用DataWorks通过数据集成任务、MaxCompute节点任务向MaxCompute表中写入数据，DataWorks深度适配数十种大数据及AI计算引擎进行数据集成，支持自定义数据集的开发与调度。此外，DataWorks还支持通过上传数据功能将本地数据导入MaxCompute表中。当然，也可以使用DataWorks对写入的数据进行二次开发。

四、微调DeepSeek R1 蒸馏模型部署及应用

通过MaxCompute和Dataworks创建完项目和表后，即可开始使用PAI平台开始使用自定义数据集微调DeepSeek-R1蒸馏模型，更多模型微调参考教程可参考人工智能平台 PAI 的部署及应用实践。

部署DeepSeek-V3、DeepSeek-R1模型_人工智能平台 PAI(PAI)-阿里云帮助中使用PAI一键部署通义千问模型_人工智能平台 PAI(PAI)-阿里云帮助中心通过EAS一键部署MLLM多模态大语言模型应用_人工智能平台 PAI(PAI)-阿里云帮助中心

欢迎各位开发者前来体验，如有需求，可扫描下方二维码加入用户交流群进行交流。

MaxCompute x Dataworks × DeepSeek，实现使用自定义数据集微调DeepSeek-R1蒸馏模型

一、整体概要

二、如何微调DeepSeek

三、如何构建自有数据集，接入DeepSeek进行微调

自定义数据集写入

四、微调DeepSeek R1 蒸馏模型部署及应用

阿里云大数据AI

引用和评论

Cosmos on PAI系列一：PAI-Model Gallery云上一键部署NVIDIA Cosmos Reason-1

基于阿里百炼的DeepSeek-R1满血版模型调用【零门槛保姆级2084小游戏开发实战】

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

微信小程序接入DeepSeek｜实现智能对话