阿里云大数据AI技术 - SegmentFault 思否

随着 DeepSeek-R1 和 QwQ-32B 等面向深度推理的大语言模型的开源，“大模型+慢思考”已成为拓展大语言模型智能边界的标准配置。然而，这些模型在资源受限的移动设备和边缘计算场景中的普及仍面临巨大挑战。因此，学术界和工业界迫切需要解决如何有效利用知识蒸馏技术，将这些超大规模深度推理模型的知识迁移到小模型中，从...

阿里云 AI 搜索开放平台新发布：增加 QwQ 模型

阿里云大数据AI

4 月 2 日

阅读 1 分钟

510

为了满足用户对更高效、更智能搜索功能的需求，阿里云 AI 搜索开放平台新增加 QwQ 模型，这一全新模型的加入将为企业和开发者带来更强大的搜索解决方案。

百观科技基于阿里云 EMR 的数据湖实践分享

阿里云大数据AI

4 月 2 日

阅读 4 分钟

451

百观科技成立于 2016 年，是以数据为核心驱动力的市场研究和信息服务公司。百观以全域数据为基础，通过客观科学的数据分析，解锁数据价值，为客户提供具有现实指导意义的洞察和解决方案。

DataWorks数据集成同步至Hologres能力介绍

阿里云大数据AI

4 月 1 日

阅读 5 分钟

419

摘要：本次分享的主题是DataWorks数据集成同步至Hologres能力，由计算平台的产品经理喆别（王喆）分享。介绍DataWorks将多个数据源的数据集成并同步到Hologres的能力。DataWorks数据集成是一个稳定高效、弹性伸缩的数据同步平台，致力于提供在复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力，提供低...

高效向量检索实践：阿里云百炼生成+Milvus存储技术方案解析

阿里云大数据AI

3 月 31 日

阅读 3 分钟

459

凌晨1点，某电商平台的推荐系统突然告急——每秒涌入的10万次用户点击，让原本精准的搜索推荐陷入混乱。商品库中上亿张图片和描述文本，如何在毫秒内找到与用户行为最匹配的商品？另一边，一家汽车公司的自动驾驶团队正为如何用千万份单日PB级的仿真驾驶多模态数据的预训练发愁；同时还有更多企业在思考如何进一步提高智能...

MaxCompute MaxFrame正式推出AI Function功能，一键调用大模型处理海量数据！

阿里云大数据AI

3 月 28 日

阅读 13 分钟

571

当下，以大语言模型为代表的人工智能（AI）正在快速演进，这将深刻改变我们分析、处理与使用数据的方式，推动各行各业迎来新的发展机遇。但另一方面，选取、部署和使用好大模型具备一定的技术要求和开发成本，限制了用户利用AI批量处理和分析海量数据的能力。

谁是 AI 搜索先锋？阿里云携手 Elastic 正式启动先锋者招募！

阿里云大数据AI

3 月 28 日

阅读 3 分钟

404

在人工智能（正文简称“AI”）技术深刻重构全球产业生态的当下，AI 搜索技术正以革新性力量驱动千行万业智能化跃迁。值此技术变革关键节点，业界领先的搜索分析引擎 Elasticsearch 也迎来了 15 年的里程碑，阿里云携手 Elastic 于 3 月 26 日在中国市场正式启动“Elastic Pioneer” 先锋者计划。这一计划，是精心筹备的 Elas...

快速使用Milvus MCP Server，0代码搭建智能搜索Agent

阿里云大数据AI

3 月 27 日

阅读 5 分钟

603

在AI时代，搜索场景已从传统的关键词匹配过渡到语义化、向量化的智能深度搜索。一个高效的智能搜索Agent能通过自然语言理解、语义表示和向量检索，实现更精准的信息匹配。然而想要搭建这样一个Agent往往需要面临和解决很多问题，如产品技术选型、模型的选择与部署、向量数据的存储和处理以及返回结果的实时性保障等。

【新模型速递】PAI一键云上零门槛部署DeepSeek-V3-0324、Qwen2.5-VL-32B

阿里云大数据AI

3 月 27 日

阅读 2 分钟

450

DeepSeek近期推出了 “DeepSeek-V3-0324” 版本，据测试在数学推理和前端开发方面的表现已优于 Claude 3.5 和 Claude 3.7 Sonnet。

Hologres诊断与优化快速入门

阿里云大数据AI

3 月 27 日

阅读 5 分钟

509

我的介绍将分为五个部分：首先，在事前阶段，讲解如何利用监控指标实现实时监控和预防措施。其次，事中探讨团队如何通过活跃日志发现运行中的问题，并及时采取措施止损，以避免业务问题的恶化。接下来，在事后阶段介绍如何通过深入分析和结合可视化工具来诊断当前的性能瓶颈。此外展示如何通过表管理工具实现成本治理，...

爱橙科技基于 MaxCompute 智能物化视图最佳实践

阿里云大数据AI

3 月 27 日

阅读 5 分钟

409

今天，从三个角度分享爱橙科技如何基于 MaxCompute 智能物化视图进行计算成本优化。首先，是弹内 MaxCompute 物化视图实践；其次，我将介绍物化视图帮助我们在数据模型层进行的优化，也就是公共层挖掘；最后是物化视图如何与 Quick BI 等产品进行联动。

DistilQwen2.5-R1发布：知识蒸馏助推小模型深度思考

阿里云大数据AI

3 月 26 日

阅读 10 分钟

470

最佳实践 | 在 EMR Serverless Spark 中实现 Doris 读写操作

阿里云大数据AI

3 月 25 日

阅读 6 分钟

465

EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理和模型训练的全流程。同时，它100%兼容开源 Spark 生态，能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark，企业可以更专注于数据处理分析...

MCP+Hologres+LLM 搭建数据分析 Agent

阿里云大数据AI

3 月 24 日

阅读 5 分钟

844

如果使用静态文件交换，难以做数据审计，即使数据实时更新，但是也只能进行 T+1 的离线分析，且需经历数据清洗（占比 28%）、格式转换（占比 22%）、版本核对（占比 15%）等冗长环节

使用DataWorks Notebook实现智能图片标注，给你的图片加个“注释”

阿里云大数据AI

3 月 21 日

阅读 9 分钟

547

DataWorks作为一站式智能数据开发治理平台，积累和沉淀了阿里巴巴十余年大数据建设方法论和最佳实践，为数仓、数据湖、OpenLake湖仓一体数据架构提供智能化ETL开发、数据分析与主动式数据资产治理服务，助力“Data+AI”全生命周期的数据管理。面向大数据&AI协同开发场景，DataWorks提供了交互式开发和分析工具Notebook。Da...

如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介

阿里云大数据AI

3 月 21 日

阅读 4 分钟

515

随着大模型（LLM）技术的爆发式应用，如何快速、客观评估模型回复质量成为行业痛点。对于回答客观问题的LLM，目前业内已经有比较成熟的数据集进行效果评测与模型打榜。但是如何对一个开放式生成LLM进行效果评估，尤其在知识问答、客服对话、内容合规、RAG（检索增强生成）等场景中，目前主流的评测方式仍存在一定的局限性：

最佳实践 | 在 EMR Serverless Spark 中实现 StarRocks 读写操作

阿里云大数据AI

3 月 20 日

阅读 8 分钟

459

EMR Serverless Spark 是一款兼容开源 Spark 的高性能 Lakehouse 产品。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务，显著简化了大数据计算的工作流程，使用户能更专注于数据分析和价值提炼。

Hologres Dynamic Table快速入门

阿里云大数据AI

3 月 20 日

阅读 7 分钟

449

本次分享的主题是Dynamic Table快速入门，由Hologres PD 赵红梅分享。今天的分享分为三个部分。首先，第一部分介绍Dynamic Table；第二部分进行Dynamic Table的实操；第三部分为一些使用DynamicTable的建议和最佳实践。

DataWorks ：Data+AI 一体化开发实战图谱

阿里云大数据AI

3 月 19 日

阅读 4 分钟

515

在数字经济时代，企业正面临数据规模指数级增长与AI应用场景爆发式增长的双重挑战，企业数据工程师也面临着双重挑战：既要应对PB级数据处理需求，又要驾驭AI工程化落地的复杂性。

阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024

阿里云大数据AI

3 月 19 日

阅读 4 分钟

457

阿里云AI搜索产品荣获Elastic Innovation Award 2024，该奖项于近日在新加坡ElasticON 2025的Elastic合作伙伴峰会上颁发，旨在表彰基于Elastic平台开发企业级生成式人工智能（GenAI）应用的顶尖合作伙伴，这些应用有效帮助客户优化搜索、安全和可观测性领域的工作流程。

Hologres实时湖仓能力入门实践

阿里云大数据AI

3 月 18 日

阅读 8 分钟

523

2024年云栖大会，Hologres发布3.0版本，全面升级为一体化实时湖仓平台，通过统一数据平台实现湖仓存储一体、多模式计算一体、分析服务一体、Data+AI 一体，实现一份数据、一份计算、一份服务，极大提高数据开发及应用效率。其中，湖仓存储一体是其重要部分。本文将为您介绍Hologres湖仓存储一体核心能力及使用实践。

Flink CDC+Hologres高性能数据同步优化实践

阿里云大数据AI

3 月 18 日

阅读 10 分钟

443

摘要：本次分享的主题是 Flink CDC + Hologres 高性能数据同步优化实践，由阿里云高级技术专家胡一博分享。主要分为三个部分：

演讲实录|分布式 Python 计算服务 MaxFrame 介绍及场景应用方案

阿里云大数据AI

3 月 17 日

阅读 9 分钟

521

近年来，随着人工智能的快速发展，Python 已经成为 AI 开发的首选语言，MaxCompute 也进行了大量与 AI 相关的优化。今天，我想跟大家分享 MaxCompute 基于 Python 生态开发的分布式 Python 计算服务 MaxFrame。今天的分享将围绕四个主题展开：分布式计算服务 MaxFrame 介绍、MaxCompute Python 开发生态、MaxFrame 主要...

AI大模型运维开发探索第四篇：智能体分阶段演进路线

阿里云大数据AI

3 月 13 日

阅读 7 分钟

623

在第三篇关于智能体的文章发布后，许多同学纷纷前来咨询智能体相关的落地细节。经过几轮工程迭代，智能体工程与最初的架构相比，已经有了显著的区别。

查询队列（Query Queue）快速入门

阿里云大数据AI

3 月 13 日

阅读 5 分钟

463

摘要：本次分享的主题为介绍 Hologres 3.0 推出的新功能 Hologres 查询队列（Query Queue）的使用场景、基本用法以及入门的实践，分为以下四个部分，第一部分是查询队列的基本介绍，为什么需要查询队列以及查询队列的基本架构。第二部分和第三部分分别介绍查询队列的四个基本功能：并发控制，排队能力，查询隔离和查询熔...

Hologres 计算组实例&分时弹性入门实践

阿里云大数据AI

3 月 12 日

阅读 9 分钟

568

本次主题是 Hologres 的计算组实例和分时弹性的入门实践。分三个部分介绍。第一部分介绍 Hologres 计算组实例的原理、架构等，第二部分展示计算组实例的入门实践，第三部分具体演示分时弹性的相关使用实践。

DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

阿里云大数据AI

3 月 12 日

阅读 6 分钟

580

Qwen2.5（通义千问2.5）是阿里云推出的开源大型语言模型系列，具有很强的代码、数学、推理、指令遵循、多语言理解等能力。DistilQwen2.5是阿里云人工智能平台PAI基于Qwen2.5大模型推出的、通过黑盒化知识蒸馏和白盒化Logits蒸馏结合，进行指令遵循效果增强的、参数较小的语言模型（这里）。这一系列模型在移动设备、边缘...