SF
阿里云大数据AI技术
阿里云大数据AI技术
注册登录
关注博客
注册登录
主页
关于
RSS
MCP+Hologres+LLM 搭建数据分析 Agent
阿里云大数据AI
3 月 24 日
阅读 5 分钟
107
如果使用静态文件交换,难以做数据审计,即使数据实时更新,但是也只能进行 T+1 的离线分析,且需经历数据清洗(占比 28%)、格式转换(占比 22%)、版本核对(占比 15%)等冗长环节
使用DataWorks Notebook实现智能图片标注,给你的图片加个“注释”
阿里云大数据AI
3 月 21 日
阅读 9 分钟
230
DataWorks作为一站式智能数据开发治理平台,积累和沉淀了阿里巴巴十余年大数据建设方法论和最佳实践,为数仓、数据湖、OpenLake湖仓一体数据架构提供智能化ETL开发、数据分析与主动式数据资产治理服务,助力“Data+AI”全生命周期的数据管理。面向大数据&AI协同开发场景,DataWorks提供了交互式开发和分析工具Notebook。Da...
如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介
阿里云大数据AI
3 月 21 日
阅读 4 分钟
166
随着大模型(LLM)技术的爆发式应用,如何快速、客观评估模型回复质量成为行业痛点。对于回答客观问题的LLM,目前业内已经有比较成熟的数据集进行效果评测与模型打榜。但是如何对一个开放式生成LLM进行效果评估,尤其在知识问答、客服对话、内容合规、RAG(检索增强生成)等场景中,目前主流的评测方式仍存在一定的局限性:
最佳实践 | 在 EMR Serverless Spark 中实现 StarRocks 读写操作
阿里云大数据AI
3 月 20 日
阅读 8 分钟
194
EMR Serverless Spark 是一款兼容开源 Spark 的高性能 Lakehouse 产品。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,使用户能更专注于数据分析和价值提炼。
Hologres Dynamic Table快速入门
阿里云大数据AI
3 月 20 日
阅读 7 分钟
178
本次分享的主题是Dynamic Table快速入门,由Hologres PD 赵红梅分享。今天的分享分为三个部分。首先,第一部分介绍Dynamic Table;第二部分进行Dynamic Table的实操;第三部分为一些使用DynamicTable的建议和最佳实践。
DataWorks :Data+AI 一体化开发实战图谱
阿里云大数据AI
3 月 19 日
阅读 4 分钟
188
在数字经济时代,企业正面临数据规模指数级增长与AI应用场景爆发式增长的双重挑战,企业数据工程师也面临着双重挑战:既要应对PB级数据处理需求,又要驾驭AI工程化落地的复杂性。
阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024
阿里云大数据AI
3 月 19 日
阅读 4 分钟
200
阿里云AI搜索产品荣获Elastic Innovation Award 2024,该奖项于近日在新加坡ElasticON 2025的Elastic合作伙伴峰会上颁发,旨在表彰基于Elastic平台开发企业级生成式人工智能(GenAI)应用的顶尖合作伙伴,这些应用有效帮助客户优化搜索、安全和可观测性领域的工作流程。
Hologres实时湖仓能力入门实践
阿里云大数据AI
3 月 18 日
阅读 8 分钟
249
2024年云栖大会,Hologres发布3.0版本,全面升级为一体化实时湖仓平台,通过统一数据平台实现湖仓存储一体、多模式计算一体、分析服务一体、Data+AI 一体,实现一份数据、一份计算、一份服务,极大提高数据开发及应用效率。其中,湖仓存储一体是其重要部分。本文将为您介绍Hologres湖仓存储一体核心能力及使用实践。
Flink CDC+Hologres高性能数据同步优化实践
阿里云大数据AI
3 月 18 日
阅读 10 分钟
193
摘要: 本次分享的主题是 Flink CDC + Hologres 高性能数据同步优化实践,由阿里云高级技术专家胡一博分享。主要分为三个部分:
演讲实录|分布式 Python 计算服务 MaxFrame 介绍及场景应用方案
阿里云大数据AI
3 月 17 日
阅读 9 分钟
307
近年来,随着人工智能的快速发展,Python 已经成为 AI 开发的首选语言,MaxCompute 也进行了大量与 AI 相关的优化。今天,我想跟大家分享 MaxCompute 基于 Python 生态开发的分布式 Python 计算服务 MaxFrame。今天的分享将围绕四个主题展开:分布式计算服务 MaxFrame 介绍、MaxCompute Python 开发生态、MaxFrame 主要...
AI大模型运维开发探索第四篇:智能体分阶段演进路线
阿里云大数据AI
3 月 13 日
阅读 7 分钟
399
在第三篇关于智能体的文章发布后,许多同学纷纷前来咨询智能体相关的落地细节。经过几轮工程迭代,智能体工程与最初的架构相比,已经有了显著的区别。
查询队列(Query Queue)快速入门
阿里云大数据AI
3 月 13 日
阅读 5 分钟
325
摘要:本次分享的主题为介绍 Hologres 3.0 推出的新功能 Hologres 查询队列(Query Queue)的使用场景、基本用法以及入门的实践,分为以下四个部分,第一部分是查询队列的基本介绍,为什么需要查询队列以及查询队列的基本架构。第二部分和第三部分分别介绍查询队列的四个基本功能:并发控制,排队能力,查询隔离和查询熔...
Hologres 计算组实例&分时弹性入门实践
阿里云大数据AI
3 月 12 日
阅读 9 分钟
388
本次主题是 Hologres 的计算组实例和分时弹性的入门实践。分三个部分介绍。第一部分介绍 Hologres 计算组实例的原理、架构等,第二部分展示计算组实例的入门实践,第三部分具体演示分时弹性的相关使用实践。
DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
阿里云大数据AI
3 月 12 日
阅读 6 分钟
389
Qwen2.5(通义千问2.5)是阿里云推出的开源大型语言模型系列,具有很强的代码、数学、推理、指令遵循、多语言理解等能力。DistilQwen2.5是阿里云人工智能平台PAI基于Qwen2.5大模型推出的、通过黑盒化知识蒸馏和白盒化Logits蒸馏结合,进行指令遵循效果增强的、参数较小的语言模型(这里)。这一系列模型在移动设备、边缘...
中免日上使用阿里云向量检索服务 Milvus 版搭建在线推荐系统
阿里云大数据AI
3 月 11 日
阅读 2 分钟
309
中免日上互联科技有限公司(简称:中免日上)是中国免税品集团携手日上免税行打造的品质电商平台。中免日上正成为国内外顶级品牌开拓中国市场的重要合作伙伴,平台商品涵盖护肤、彩妆、香水、时尚精品、电子数码等众多品类,积累了大批忠实优质用户。中免日上将进一步利用人工智能、大数据、供应链等核心能力以及前沿新...
基于 Megatron 的多模态大模型训练加速技术解析
阿里云大数据AI
3 月 11 日
阅读 12 分钟
341
多模态大模型是近期业界关注的热点,OpenAI 的 GPT4O 以及谷歌 Gemini 等多模态大模型的出现让人机交互变得更加简单和自然。这种模型在多种下游任务上表现优异,比如图文检索、视觉问答等。通过结合语言理解和视觉感知能力,它能为用户提供更加丰富和自然的人机交互体验。Pai-Megatron-Patch 是一款由阿里云人工智能平台...
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
阿里云大数据AI
3 月 11 日
阅读 2 分钟
358
3月6日,阿里云发布并开源了全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QWQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩Deepseek-R1。在保持强劲性能的同时,千问QwQ-32B还大幅降低了部署使用成本。
降价46%,Hologres Serverless Computing 快速入门
阿里云大数据AI
3 月 11 日
阅读 10 分钟
304
Hologres Serverless Computing 可以通过按量付费的形式稳定执行大规模ETL与查询,实现资源负载隔离,同时提高查询速度,降低成本,针对北京、上海、杭州、深圳四个地域,Hologres Serverless Computing 已于2025年 1月20日 10:00 起调价,由 0.66元/CUH 降至 0.3542元/CUH(与独享资源按量付费单价相同)。
通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统
阿里云大数据AI
3 月 5 日
阅读 10 分钟
396
随着大数据时代的到来,信息检索技术在各个领域中扮演着越来越重要的角色。阿里云向量检索服务 Milvus 版作为一款高性能的向量检索引擎,100%兼容开源 Milvus,凭借其开箱即用、灵活扩展和全链路告警能力,成为企业大规模 AI 向量数据相似性检索服务的理想选择。其最新版本 2.5 在全文检索、关键词匹配以及混合检索(Hyb...
Hologres × PAI × DeepSeek 搭建 RAG 检索增强对话系统
阿里云大数据AI
3 月 4 日
阅读 5 分钟
269
Hologres 与达摩院自研高性能向量计算软件库 Proxima 深度整合,支持高性能、低延时、简单易用的向量计算能力。本文将介绍如何使用 PAI-EAS 部署基于 DeepSeek 大模型的 RAG 服务,并关联 Hologres 引擎实例,以及对 RAG 对话系统的基础功能和 Hologres 高性能向量的功能进行说明。
阿里云Milvus 2.5:支持全文检索,1次查询实现文本+向量双精度匹配
阿里云大数据AI
3 月 3 日
阅读 4 分钟
413
随着大模型时代带来的各种新型应用探索,结合传统基于文本匹配的精确检索与语义检索所带来的增益日益显著,尤其在一些深度依赖关键字词匹配的场景中,这种需求变得尤为关键。目前,阿里云向量检索服务 Milvus 版(简称阿里云 Milvus)集成开源 Milvus2.5版本内核,在支持向量检索的基础上,新增支持原生全文检索、基于特...
演讲实录 | MaxCompute 智能物化视图
阿里云大数据AI
2 月 28 日
阅读 9 分钟
381
MaxCompute 智能数仓本质上是一个具备自我学习能力且开箱即用的优化功能集合。尽管 MaxCompute 智能数仓的优化功能针对的是相对独立的场景,但它们遵循一致的逻辑和思路。我们可以通过架构图来解析一下。
Elasticsearch:使用阿里云 AI 服务进行向量化和重新排名
阿里云大数据AI
2 月 28 日
阅读 19 分钟
272
阿里云人工智能搜索是一种将高级人工智能功能与 Elasticsearch 工具相结合的解决方案,利用 Qwen LLM/DeepSeek-R1 系列提供高级推理和分类模型。在本文中,我们将使用同一作者撰写的小说和戏剧的描述来测试阿里巴巴重新排名和稀疏嵌入端点。
MaxCompute x DataWorks × DeepSeek,实现使用自定义数据集微调DeepSeek-R1蒸馏模型
阿里云大数据AI
2 月 28 日
阅读 3 分钟
297
基于阿里云云原生大数据计算服务MaxCompute以及大数据开发治理平台DataWorks实现使用自定义数据集微调DeepSeek-R1蒸馏模型主要分为两大部分,一部分是基于人工智能平台PAI的微调训练,第二部分是通过如何构建自有数据集,并进行接入,下面我们以MaxCompute+DataWorks+PAI为基础,快速微调DeepSeek-R1蒸馏模型。
AI 搜索开放平台 × DeepSeek,面向企业及开发者的首选解决方案
阿里云大数据AI
2 月 27 日
阅读 2 分钟
410
阿里云 AI 搜索开放平台面向企业及开发者提供丰富的 AI 搜索组件化服务,用户可灵活调用多模态数据解析、大语言模型、效果测评等数十个服务。自发布以来,已有1千多个企业及开发者开通使用,实现智能搜索、检索增强生成(RAG)、多模态搜索等场景的搭建。
阿里万相重磅开源,人工智能平台PAI一键部署教程来啦
阿里云大数据AI
2 月 27 日
阅读 2 分钟
583
2月25日晚,阿里巴巴开源了火爆业界的视频生成模型——万相2.1(Wan)。本次一共开源了4个模型,包括2个文生视频模型 Wan2.1-T2V-14B、Wan2.1-T2V-1.3B,以及2个图生视频模型 Wan2.1-I2V-14B-720P、Wan2.1-I2V-14B-480P。
云上玩转DeepSeek系列之五:实测优化16%, 体验FlashMLA加速DeepSeek-V2-Lite推理
阿里云大数据AI
2 月 26 日
阅读 12 分钟
518
2月25日,DeepSeek-AI 面向社区开源了其技术成果 FlashMLA([链接]),这是一个面向推理优化的高效多层注意力(Multi-Head Latent Attention)解码内核。该技术通过优化多头潜在注意力机制和分页 KV 缓存系统,显著提升了大语言模型的长序列处理能力与推理效率。
DistilQwen2.5发布:通义千问蒸馏小模型再升级
阿里云大数据AI
2 月 26 日
阅读 16 分钟
366
因高计算成本和复杂性,在例如移动设备和边缘计算场景等资源有限的环境中,限制了大语言模型的普及。如何在保留模型性能的同时提高计算效率并降低部署成本,已成为研究和工业界必须面对的关键挑战。
Milvus x DeepSeek 搭建低成本高精度 RAG 实战
阿里云大数据AI
2 月 25 日
阅读 5 分钟
500
为什么手握海量数据,却用不出真正的“智能”?要么 AI 模型学艺不精,答非所问;要么技术门槛太高,让普通开发者望而却步。现在,使用阿里云 Milvus 向量检索服务、DeepSeek 大模型和 PAI LangStudio 开发工具,只需像搭积木一样,将其进行简易拼接,就能轻松搭建一套‘能查会想’的 RAG 系统。接下来将基于阿里云的人工智...
MaxCompute x Dataworks × DeepSeek,实现使用自定义数据集微调DeepSeek-R1蒸馏模型
阿里云大数据AI
2 月 24 日
阅读 2 分钟
477
基于阿里云云原生大数据计算服务MaxCompute以及大数据治理开发平台Dataworks实现使用自定义数据集微调DeepSeek-R1蒸馏模型主要分为两大部分,一部分是基于人工智能平台PAI的微调训练,第二部分是通过如何构建自有数据集,并进行接入,下面我们以MaxCompute+Dataworks+PAI为基础,快速微调DeepSeek-R1蒸馏模型。
1
(current)
2
下一页
1
(current)
下一页