突破万字长文输出瓶颈！清华大学开源 LongWriter-6k 数据集；7 个 CCF A 类顶会即将截稿

MedTrinity-25M 包含了超过 2,500 万张医学图像，涵盖了 10 种成像模式，还标注了 65 种以上的疾病。此数据集不仅包含丰富的全局及局部注释，同时还在多种模态（如 CT 、 MRI、 X 光等）中整合了多层次的信息注释。该数据集将为医学图像处理、报告生成、分类和分割等多模态任务提供巨大的支持，同时推动基于医学的人工智能模型的预训练。

直接使用：https://go.hyper.ai/JCSJP

8. 1920 raider waite tarot 塔罗牌图像数据集

这个数据集包含了原始 Rider-Waite Tarot Deck 中 78 张牌的图像和相关文本描述，为研究者和艺术家提供了丰富的资源进行塔罗牌艺术和象征意义的探索，可用于训练模型生成塔罗牌风格的图像。

直接使用：https://go.hyper.ai/8bd2R

9. Waterloo Exploration 大规模图像质量评估数据库
该数据库包含 4,744 张原始自然图像和 94,880 张由这些原始图像创建的失真图像，可用于测试图像质量评估模型的泛化能力。
直接使用：https://go.hyper.ai/m5mhN

10. SWE-bench Verified 代码生成评估基准数据集

该基准是对现有 SWE-bench 的改进版本（子集），旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。

直接使用：https://go.hyper.ai/oxOBY

更多公共数据集，请访问：

https://hyper.ai/datasets

公共教程精选

1. ComfyUl AuraFlow 文生图工作流 Demo

这个模型在 GenEval 上实现了最先进的结果，在文生图任务上拥有更高的处理效率，更好的细节呈现。该教程为使用 ComfyUI 部署 AuraFlow 文生图模型，模型和相关环境配置已经搭建完毕，一键克隆即可进行推理使用。

直接使用：https://go.hyper.ai/KpI4B

2. Whisper Web 在线语音识别工具

Whisper 基于 ML 进行语音识别，并可通过 WebGPU 进行运行加速。支持 100 多种语言的线上/本地音频文件上传和即时录音，识别到的文本支持导出 TXT 和 JSON 两种文件格式，还可以直接翻译为英文。该教程是基于 GitHub 上的开源项目 Whisper Web，直接在浏览器中运行使用 Whisper。

直接使用：https://go.hyper.ai/N3iwm

社区文章精选

1. 抗击化疗耐药性与肿瘤复发！山东大学研究团队用 AI 构筑乳腺癌干细胞的有力防线

近日，山东大学吕海泉、孙蓉、张凯及山西医科大学梅齐，联合螺旋矩阵公司等研究团队，取得了突破性进展，运用机器学习技术，基于 mRNA 的分析，成功开发了一种评估原发性乳腺癌患者样本中癌症干细胞特性的新方法 BCSC signature。本文是对研究论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/SPAjK

2. 上海交大周冰心博士：锚定稀缺生物数据挑战，图神经网络重塑蛋白质理解与生成

在上海交通大学 AI for Bioengineering 暑期学校中，上海交通大学周冰心博士以「图神经网络与蛋白质结构表征」为主题，向大家分享了图神经网络的定义、优势、及其在蛋白质预测与生成等领域的前沿应用。本文是周冰心博士分享的精华实录。

查看完整报道：https://go.hyper.ai/GjXi5

3. 入选 ACL2024 主会 | InstructProtein：利用知识指令对齐蛋白质语言与人类语言

浙江大学研究团队提出 InstructProtein，利用知识指令对齐蛋白质语言与人类语言，展示了将生物序列整合到大型语言模型的能力。本文是对研究论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/GjXi5

热门百科词条精选

1. 配对 t 检验 Paired t-Test

2. 倒数排序融合 RRF

3. 帕累托前沿 Pareto Front

4. 变分自编码器 VAE

5. 数据增强 Data Augmentation

这里汇编了数百条 AI 相关词条，让你在这里读懂「人工智能」：

https://go.hyper.ai/wiki

在这里插入图片描述

一站式追踪人工智能学术顶会：https://go.hyper.ai/event

以上就是本周编辑精选的全部内容，如果你有想要收录 hyper.ai 官方网站的资源，也欢迎留言或投稿告诉我们哦！

下周再见！

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区， 致力于成为国内数据科学领域的基础设施，为国内开发者提供丰富、优质的公共资源，截至目前已经：

为 1300+ 公开数据集提供国内加速下载节点
收录 400+ 经典及流行在线教程
解读 100+ AI4Science 论文案例
支持 500+ 相关词条查询
托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅：

https://hyper.ai/

突破万字长文输出瓶颈！清华大学开源 LongWriter-6k 数据集；7 个 CCF A 类顶会即将截稿

超神经HyperAI

引用和评论

基于 8.6 万蛋白质结构数据，融合量子力学计算的机器学习方法挖掘 69 个全新氮-氧-硫键

一文掌握 MCP 上下文协议：从理论到实践

开放创新，昇腾 CANN 再向深处

被 Manus 带火的 MCP 是什么｜一文看懂

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！