既快又准!Cohere 发布开源转录模型;复杂场景精准解析:Chandra-ocr-2 视觉语言模型实现精准 OCR

4 月 10 日
阅读 5 分钟
146
在当前全球数字化转型加速的浪潮下,语音数据已成为企业挖掘商业价值的新矿藏,但如何在保证转录高精度的同时,突破推理成本与处理速度的瓶颈,一直是一道悬而未决的难题。 Cohere 公司于 2026 年 3 月发布了一款开源语音识别模型 Cohere-transcribe-03-2026 。这款拥有 20 亿参数规模的专用转录模型,其轻量级、高产出...
封面图

康奈尔大学开发多智能体平台 EMSeek,仅需 2-5 分钟即可将电子显微镜图像转化为材料学见解

4 月 9 日
阅读 6 分钟
165
电子显微技术(EM)为人类提供了一扇前所未有的窗口,使人们能够深入原子世界,直接观测决定催化剂、电池与半导体性能的缺陷、晶格畸变以及化学非均一性。虽然电子显微数据量呈现爆发式增长,但一个不容忽视的问题是大多数数据集仍未得到充分分析:这并非因为其缺乏科学价值,而是由于专家解读过程缓慢、割裂且难以复现。
封面图

一键部署 Gemma 4 31B,最高 256K 上下文,能力媲美 Qwen3.5 397B

4 月 8 日
阅读 2 分钟
210
近期,Google DeepMind 开源了 Gemma 4 系列模型,依托与 Gemini 3 同源的技术体系,其不仅在 Arena AI 排行榜中跻身全球前三,更以远小于同级竞品的参数规模,实现了接近甚至超越更大尺寸模型的能力表现。同时,基于 Apache 2.0 许可证的开源策略,也进一步降低了应用门槛,使其在实际生产环境中的落地潜力大幅提升。
封面图

仅需 3 秒音频实现「配音自由」,Mistral 开源语音大模型 Voxtral-4B-TTS-2603;数据质量新标杆:Sutra 10B Pretraini

4 月 8 日
阅读 6 分钟
152
当前,轻量级语音模型在处理多语言复杂语境及长篇内容配音时,往往难以兼顾自然度与部署效率。在实际应用中,语音智能体和内容播报不仅需要极高的语言理解力,还要求模型能在本地环境低延迟运行,并支持多语种的无缝切换。这些高要求的落地场景对现有开源模型的参数规模和工程化能力提出了挑战。
封面图

实现1.4—3.7倍推理加速,MIT提出DRiffusion破解扩散模型采样延迟瓶颈

4 月 7 日
阅读 5 分钟
127
在生成式AI领域,扩散模型凭借其独特的迭代去噪机制,有效克服了传统模型在生成质量与多样性上的局限,已广泛应用于图像、视频、音频、分子设计等多个前沿方向。然而,这种「以时间换质量」的精炼过程通常需要数十甚至上百次迭代才能输出高保真结果,导致采样速度极慢、推理成本高昂,成为扩散模型迈向实时应用与规模化...
封面图

【TVM教程】理解 Relax 抽象层

4 月 7 日
阅读 6 分钟
158
Relax 是 Apache TVM Unity 策略中使用的一种图抽象方式,用于对机器学习模型进行端到端的优化。Relax 的主要目标是描述机器学习模型的结构与数据流,包括模型不同部分之间的依赖关系与连接方式,以及如何在硬件上执行该模型。
封面图

【Triton 教程】triton-ops

4 月 7 日
阅读 3 分钟
148
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。
封面图

【vLLM 学习】Helm 图表

4 月 7 日
阅读 25 分钟
195
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →go.hyper.ai/Wa62f本目录包含用于部署 vLLM 应用程序的 Helm 图表。该图表包含部署配置、自动扩缩容、资源管理及其他相关配置项。Files​Chart.yaml:定义图表元数据,包括名称...
封面图

在线教程丨 Qwen3.5 27B 蒸馏 Claude 4.6 Opus 推理能力,兼顾高质量输出与低门槛部署

4 月 3 日
阅读 3 分钟
195
近年来,大模型不断向更强推理能力与更高推理效率演进,如何在保持模型表达能力的同时提升复杂问题求解质量,已经成为行业关注的核心方向。在这一趋势下,融合高质量推理蒸馏与结构化思维优化的新一代模型,逐渐成为主流探索路径。
封面图

基于 2 千种半导体材料的模拟光谱数据,MIT 团队提出 DefectNet,可解析 6 种共存的取代型缺陷

4 月 2 日
阅读 5 分钟
160
在生物学中,缺陷通常是有害的。但在材料科学中,缺陷可以被有意地调控,从而赋予材料有用的新特性。如今,在钢铁、半导体和太阳能电池等产品的制造过程中,人们会精心引入原子级缺陷,以提高强度、控制导电性、优化性能等等。例如,通过在硅中进行可控掺杂,可以调节载流子浓度;同样,在超宽禁带半导体中进行缺陷工程...
封面图

在线教程丨中科大与小红书 hi lab 开源 dots.mocr,SOTA 级 OCR 模型完美还原文档结构

4 月 1 日
阅读 2 分钟
153
面对海量文档中的复杂图表、表格和多语言内容,传统 OCR 常常力不从心,主要原因是其核心能力集中于文本识别,往往将图表、公式、 UI 布局等复杂视觉元素简单裁剪为图像,导致文档结构被破坏、语义关系丢失,难以满足高质量信息提取与重建需求。
封面图

【Triton 教程】math-ops

3 月 31 日
阅读 3 分钟
168
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。
封面图

【vLLM 学习】Api Client

3 月 31 日
阅读 3 分钟
161
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →go.hyper.ai/Wa62f*在线运行 vLLM 入门教程:零基础分步指南源码 examples/online_serving/api_client.py {代码...}
封面图

【TVM教程】面向机器学习模型的图抽象

3 月 31 日
阅读 1 分钟
165
图抽象是机器学习(ML)编译器中用于表示和分析模型结构与数据流的关键技术。通过将模型抽象为图结构,编译器可以执行各种优化,以提升性能和效率。本教程将介绍图抽象的基础知识、Relax IR 的关键元素,以及它在机器学习编译器中如何启用优化能力。
封面图

AI 发现 118 颗新系外行星!华威大学团队提出 RAVEN,实现行星情景与每一种假阳性情景的逐一对比

3 月 31 日
阅读 7 分钟
152
随着天文学研究的不断深入,系外行星的发现进入了快速发展阶段。尤其是由 NASA 的凌星系外行星巡天卫星(TESS)任务提供的光变曲线数据,使得科学家每天都能获取大量凌日信号候选。
封面图

MIT 提出首个端到端动力学蛋白质生成模型 VibeGen,实现序列与振动的双向映射

3 月 30 日
阅读 4 分钟
156
蛋白质是生命体系中核心的功能分子,但其功能并非由静态结构单独决定,而源于持续变化的构象动态。在复杂能量景观的框架下,蛋白质在生理条件下于飞秒至毫秒的多尺度运动中维持动态平衡,使之成为真正的分子机器。
封面图

数据集汇总丨英伟达/OpenAI 及多所科研机构开源推理数据集,覆盖数学/全景空间/Wiki 问答/科研任务/视觉常识等

3 月 27 日
阅读 3 分钟
227
过去,海量通用语料支撑了语言模型的表达能力;而今天,真正决定模型上限的关隘,正在逐步过渡为结构清晰、逻辑严密、具备多步推演过程的推理数据。无论是复杂数学问题、跨领域知识问答,还是多步骤决策与工具调用能力,背后都离不开高质量推理数据集的支撑。
封面图

高精度重建完全遮挡物体,MIT 团队利用生成式 AI 改进无线视觉系统,最高精度达 85%

3 月 26 日
阅读 5 分钟
273
在计算机视觉与智能感知领域,如何重建完全遮挡物体一直是行业研究的难题。想象一下,物流仓库中被堆叠的包裹、生产线上的复杂设备,或者增强现实场景中需要识别隐藏物体的应用,传统光学传感器如摄像头或激光雷达往往无能为力。它们依赖可见光或激光线的反射,而这些信号在遇到障碍物时会被阻挡,导致物体不可观测。
封面图

在线教程丨低门槛部署英伟达最新 Physical AI 模型,覆盖人形机器人/人体运动生成/扩散模型微调等

3 月 25 日
阅读 3 分钟
313
在刚刚结束的 GTC 2026 上,除了万众瞩目的 GPU 新品外,NVIDIA 还将不少笔墨放在了一个更具体、更落地的方向上:Physical AI 。
封面图

【vLLM 学习】Vision Language Multi Image

3 月 24 日
阅读 20 分钟
352
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →go.hyper.ai/Wa62f*在线运行 vLLM 入门教程:零基础分步指南源码 examples/offline_inference/vision_language_multi_image.py {代码...}
封面图

【Triton 教程】triton_language.erf

3 月 24 日
阅读 1 分钟
259
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。
封面图

【TVM教程】Relax

3 月 24 日
阅读 1 分钟
344
Relax 是 Apache TVM 栈中用于图优化和转换的高级抽象层。此外,Apache TVM 将 Relax 和 TensorIR 结合在一起,作为跨层优化的统一策略。因此,Relax 通常与 TensorIR 紧密协作,用于表示和优化整个 IRModule。
封面图

洪水预报性能堪比美国国家气象局,知识引导型机器学习模型 FHNN 结合实时观测数据改进预测效果

3 月 24 日
阅读 7 分钟
310
洪水是全球最常见、影响范围最广的自然灾害之一,对社会经济和公共安全造成长期威胁。随着气候变化导致极端降雨事件频率增加,洪水风险在许多地区呈现出明显上升趋势。准确、及时的洪水预报不仅能够为防灾减灾提供重要依据,也能为水资源调度、城市管理以及农业生产提供关键决策支持。
封面图

ICLR 2026 丨英伟达/牛津大学等提出原子级蛋白质结合剂生成方法,性能达 SOTA 级别

3 月 23 日
阅读 5 分钟
368
在计算生物学领域,设计能够与特定靶点精准结合的蛋白质,是最核心也最具挑战的问题之一。它不仅直接关系到药物研发、生物治疗与酶工程等关键方向,也决定了人类在复杂疾病干预与生物制造效率上的上限。
封面图

在线教程丨基于免费 CPU 部署 OpenClaw,轻松接入飞书/Discord 等社交软件

3 月 20 日
阅读 5 分钟
492
在 NVIDIA GTC 2026 期间,黄仁勋对 OpenClaw 的高度评价为其热度又添了一把柴——OpenClaw 现在是人类历史上最大、最受欢迎、最成功的开源项目,这绝对是下一个 ChatGPT 。他认为,每家公司都需要制定自己的 OpenClaw 战略,其未来的重要性将与 Linux 、 Kubernetes 、 HTML 等基础软件设施相提并论。
封面图

在线教程丨狂揽 7.7 万 stars,LLM Course 覆盖从入门到进阶的干货知识与实战课程

3 月 19 日
阅读 2 分钟
553
当「大模型」成为街头巷尾、乃至老人孩童都在谈论的话题时,这一轮技术浪潮早已不再局限于研究论文之上,亦或是资本谈资之间,这项仍在奔涌向前的创新技术牵引了无数切实落地的变革。随之而来的是,围绕 LLM 的产业与应用生态迅速膨胀,越来越多的人抱着不同的目的涌入其中——有人希望跟上技术前沿,有人试图寻找新的商业...
封面图

基于 Gemini 处理 150 国新闻,谷歌开源洪水数据集 Groundsource,覆盖超 260 万历史记录

3 月 18 日
阅读 4 分钟
583
在全球各类自然灾害中,洪水是少数兼具高发生频率与巨大破坏力的灾害类型之一,因此长期以来始终是水文学、气候科学与灾害管理领域关注的核心议题。从改进水文预报模型、分析气候变化对洪水演变的影响,到评估未来洪水风险、完善防灾减灾体系,几乎所有相关研究都依赖于同一个基础条件——高质量的历史洪水数据。这些数据...
封面图

【TVM教程】转换

3 月 17 日
阅读 10 分钟
541
TVM 现已更新到 0.21.0 版本,TVM 中文文档已经和新版本对齐。Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。在线运行 TVM 学习教程→[链接]在本节中,我们将深入编译流程的核心内容 —— 原始张量函数的转换(Transformation)。在上一节中,我们展示了如何使用 TensorIR 编写 mm_re...
封面图

【Triton 教程】triton_language.div_rn

3 月 17 日
阅读 1 分钟
548
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。
封面图

【vLLM 学习】Vision Language Embedding

3 月 17 日
阅读 6 分钟
482
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →[链接]*在线运行 vLLM 入门教程:零基础分步指南源码 examples/offline_inference/vision_language_embedding.py {代码...}
封面图