头图

为了填补高质量中文数据集的空白,中国科学院、零一万物、北京大学等 10 家机构联合开发出了 COIG-CQIA 数据集。令人惊讶的是,该数据集中「弱智贴吧」的数据质量,居然大幅度超过知乎、豆瓣、思否等知识社区。 COIG-CQIA 数据集现已上线 hyper.ai 官网,快来一探究竟吧!

4 月 8 日-4 月 12 日,hyper.ai 官网更新速览:

  • 优质公共数据集:10 个
  • 优质教程精选:2 个
  • 社区文章精选:5 篇
  • 热门百科词条:5 条

访问官网:hyper.ai

公共数据集精选

1. COIG-CQIA 高质量中文指令微调数据集

COIG-CQIA 全称为 Chinese Open Instruction Generalist – Quality is All You Need,是一个开源的高质量指令微调数据集,旨在为中文 NLP 社区提供高质量且符合人类交互行为的指令微调数据。

直接使用: https://go.hyper.ai/Pg37L

2. EgoExoLearn 跨视角技能学习数据集

EgoExoLearn 数据集包含了 120 小时的视频数据,这些数据是从日常生活场景和专业实验室中采集的。数据集中的视频不仅包括示范视频,还包括执行者在观看示范后,使用自己的第一人称视角 (egocentric) 录制的视频。

直接使用: https://go.hyper.ai/cYsPM

3. S2S-SIM 船舶协同感知模拟数据集

S2S-Sim 数据集是上海大学开发的第一个船舶协同感知模拟数据集。该数据集共包含 7,000 帧数据,其中有 96,881 个船舶边界框的精确标注。它的目的是支持船舶之间的有效协同感知,特别关注于自动驾驶系统与船舶协同感知领域的研究。 

直接使用:https://go.hyper.ai/AVWp2

4. Common Corpus-zh 中文公共领域数据集

Common Corpus 是由 Pleias 、 HuggingFace 等机构联合创建的,是目前规模最大的公共领域数据集,专门用于训练大型语言模型 (LLMs)。该数据集汇集了来自全球多样文化遗产项目的 5,000 亿词汇,包括英语、法语、中文、西班牙语、德语和意大利语等多种语言,是目前为止最全面的语言资源库。

直接使用:https://go.hyper.ai/hvuV5

5. TriviaQA 用于阅读理解和问答的大型数据集

TriviaQA 是一个阅读理解数据集,包含超过 65 万个问答证据三元组。TriviaQA 包括来自维基百科和网络的 662K 文档中的 95K 问答对。

直接使用:https://go.hyper.ai/aant8

6. HalluQA 中文大模型幻觉评估数据集

HalluQA 数据集包含 450 个对抗性问题,跨越多个领域,并涉及到中国历史文化、习俗和社会现象。

直接使用:https://go.hyper.ai/pWyqe

7. AI 模型生成的洪水分析和预测数据集

该数据集为论文 「Global prediction of extreme floods in ungauged watersheds」的研究数据,主要内容为 AI 模型生成的洪水重新分析 (1984-2021) 和重新预测 (2014-2021) 数据以及相应的 GloFAS 基准数据。

直接使用:https://go.hyper.ai/bpsG3

8. MASSTAR 多模态大型场景数据集

MASSTAR 是一个由中山大学、香港科技大学等机构联合提出的多模态大规模场景数据集,包含超过 1,000 个场景级别的 3D 网格模型,其中一部分模型来自真实世界。

直接使用: https://go.hyper.ai/eLZUy

9. VideoBadminton 羽毛球视频动作识别数据集

VideoBadminton 是由奥本大学与国立中央大学共同创建的羽毛球运动的高质量视频数据集。该数据集包含了来自国立中央大学校队的 19 名男女运动员的羽毛球视频数据,涵盖了 18 种羽毛球动作,共 7,822 个视频片段,总时长达 145 分钟。

直接使用: https://go.hyper.ai/w5ToD

10. FineFake 细粒度多领域假新闻检测数据集

FineFake 是一个用于细粒度多领域假新闻检测的数据集,由北京航空航天大学和北京邮电大学联合创建。该数据集共有 16,909 个数据样本,覆盖了 6 个语义主题和 8 个不同的平台。每个新闻样本都包含了多种形式的内容,包括文本、图片和潜在的社交环境信息。

直接使用: https://go.hyper.ai/CNWIn

更多公共数据集,请访问

https://hyper.ai/datasets

公共教程精选

1. 最高可降低 16 倍成本,ComfyUI Stable Cascade 教程已上线,一键部署!

该教程为 AI 绘画 ComfyUI Stable Casecade 工作流使用教程,教程已经搭建了好环境,内置了 Stable Cascade 默认文生图工作流,直接将节点连接完成,简化使用流程,2 秒即可出图。

在线运行: https://go.hyper.ai/lJGLF

2. 农作物病害图像分类教程

该教程为使用 PyTorch 进行农作物病害图像分类,有助于训练机器学习模型来检测植物疾病,或开发自动植物诊断算法学习。

在线运行: https://go.hyper.ai/

社区文章精选

1. 超全大模型资源汇总|30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!

本文汇总了大模型相关资源,包括 15 个数据集、15 个模型和 8 个大模型demo,内含下载和使用链接。

查看完整文章: https://go.hyper.ai/sYC6h

2. 有效识别 63 万个三维空间构型,清华大学牵头发布 Uni-MOF 模型,预测 MOF 吸附能力

清华大学化工系卢滇楠教授团队牵头提出了一种三维 MOF 材料吸附行为预测的机器学习模型 Uni-MOF,该模型不仅可以通过预训练识别和恢复纳米多孔材料的三维结构,还进一步考虑了温度、压力和不同气体分子等操作条件,既适用于科学研究又适用于实际应用。相关成果已发表于「Nature」期刊。

查看完整报道: https://go.hyper.ai/VWFVo

3. 血常规、尿检等指标就能识别卵巢癌!中山大学刘继红团队牵头,四大医学院联合构建 AI 融合模型

中山大学、南方医科大学、华中科技大学和浙江大学联合构建了卵巢癌诊断人工智能融合模型 MCF,输入常规实验室检验数据和年龄即可计算卵巢癌的患病风险。模型准确率优于 CA125 和 HE4** 等传统生物标志物。相关成果已发表于《柳叶刀·数字健康》(The Lancet Digital Health) 。

查看完整报道: https://go.hyper.ai/prEbC

4. 透视 Insilico 英矽智能:AI 制药明星企业的飞跃、困境与破局

已融资 4.075 亿美元的英矽智能,在今年 1 月冲击港股未果,并在 3 月 27 日第二次递交上市申请。中美科技博弈之下,「美国创业、中国联合 CEO,美国股东、中国总部……」的处境,令其压力倍增,如何破局、能否成功摘下「AI 制药第一股」仍未可知。本文从技术发展、团队组成、商业发展等几方面深度介绍了这家 AI 制药明星企业。

查看完整报道: https://go.hyper.ai/llREq

热门百科词条精选

1. 浪链 Lang Chain

2. 混合专家模型 MoE

3. 分组查询注意力 GQA

4. 倒数排名融合 RRF

5. 召回率 Recall Rate

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki

B 站直播预告

日期时间内容
4 月 15 日 星期一10:00谷歌历年 I-O 发布会
4 月 16 日星期二10:00MIT 深度学习课程 2020
4 月 17 日星期三10:00MIT 深度学习课程 2021
4 月 18 日星期四10:00Python API 开发初学者综合课程
4 月 19 日星期五10:00面向初学者的Flutter 课程
4 月 20 日星期六10:00哈佛 CS50Python 人工智能课程
4 月 21 日星期日10:00斯坦福 HAI 研讨会

超神经电视台 7×24h 不间断直播,点击即可收获 AI 领域的「电子榨菜」:

http://live.bilibili.com/26483094

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1200+ 公开数据集提供国内加速下载节点
  • 收录 300+ 经典及流行在线教程
  • 解读 100+ AI4Science 论文案例
  • 支持 500+ 相关词条查询
  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/


超神经HyperAI
1.3k 声望8.8k 粉丝