在声音克隆快速发展的浪潮中,AI 已经能够模拟出越来越逼真的人声效果,但对零样本学习和多情感控制方面依然挑战重重。
今年年初,E2 TTS 就实现了简化文本到语音的生成方法,只需用填充标记将文本输入填充到与输入语音相同的长度,再进行去噪处理即可生成语音。近期,F5 TTS 参考了这种方法,并基于流匹配的非自回归生成方法,进一步提高了模型的性能,使其不仅支持多语言合成,还能根据文本内容调节情感和语速,让长文本语音合成更加细腻流畅。
为了方便大家体验 F5 TTS 和 E2 TTS 的声音生成效果,hyper.ai 官网现已上线 F5/E2 TTS 集成教程,一键克隆即可体验~
在线运行:https://go.hyper.ai/SZxqv
11 月 4 日-11 月 8 日,hyper.ai 官网更新速览:
- 优质公共数据集:10 个
- 优质教程精选:3 个
- 社区文章精选:4 篇
- 热门百科词条:5 条
- 11 月截稿顶会:6 个
访问官网: hyper.ai
公共数据集精选
1. Hair Type Dataset 发型数据集
Hair Type Dataset 是一个用于对各种发型进行分类的图像数据集,包含 4 种发型的高质量图像:直发 (Straight)、大波浪卷 (Wavy)、小卷发 (Curly)、脏辫 (Dreadlocks),共 1,992 张图像。该数据集有助于训练机器学习模型来识别和分类头发类型。
直接使用:https://go.hyper.ai/aXYcj
数据集图像示例
2. AllClear 公共云层去除数据集
AllClear 数据集是目前最大的公共云层去除数据集,包含 23,742 个全球分布的兴趣区域 (ROIs),覆盖了多样的土地利用模式,总共 400 万张图像。它解决了云层去除研究中缺乏基准测试和多样化训练数据的问题。
直接使用:https://go.hyper.ai/e2BYC
数据分布示意图
3. Muharaf 手写阿拉伯文数据集
Muharaf 数据集是一个专注于手写阿拉伯文识别的机器学习数据集。这个数据集包含了超过 1.6k 张历史手写页面图像,这些图像由阿拉伯语专家转录。每张文档图像都伴随着其文本行的空间多边形坐标以及基本页面元素的信息。
直接使用:https://go.hyper.ai/NN2UR
Muharaf 数据集示例
4. Multimodal Spectroscopic 化学多模光谱数据集
该数据集包含了从专利数据中的化学反应中提取的 79 万种分子的模拟 1H-NMR、13C-NMR、HSQC-NMR、红外和质谱(正负离子模式)光谱数据。它能够整合多种光谱模态的信息,模拟人类专家分析分子结构的方法,从而有望自动化结构解析,简化从合成到结构确定的分子发现流程。
直接使用:https://go.hyper.ai/Z7zlr
数据概览
5. GMAI-MMBench 医疗多模态评估基准数据集
GMAI-MMBench 是一个为推动通用医疗人工智能领域发展而设计的多模态评估基准。它包含了 284 个不同来源的数据集,涉及 38 种医学图像模态和 18 个临床相关任务,覆盖了 18 个不同的医学部门,并在 4 种不同的感知粒度上进行了评估,从而从多个维度对 LVLMs 的性能进行考量。
直接使用:https://go.hyper.ai/FL799
数据集结构示意图
6. PsyDTCorpus 心理咨询师数字孪生数据集
PsyDTCorpus 数据集的核心目标是模拟特定心理咨询师的语言风格和咨询技术,以支持心理咨询师数字孪生大模型 SoulChat2.0 的开发和训练。该数据集包含 5k 个具有该咨询师语言风格与疗法技术应用方式的高质量心理健康对话数据。
直接使用:https://go.hyper.ai/hGi4O
数据话题分布
7. GTSinger 歌声音频数据集
该数据集是一个大型开源高质量歌声数据集,包含了 80.59 小时的专业录音棚录制的歌声,这些歌声由 20 位专业歌手演唱,覆盖了 9 种不同的语言,包括汉语、英语、日语、韩语等,为研究者提供了一个音色和风格极为丰富的资源库。
直接使用:https://go.hyper.ai/wBcBz
8. OC22 催化剂模拟数据集
该数据集是一个催化剂模拟数据集,即 Open Catalyst 2022 (OC22) Dataset,该数据集在 OC20 数据集的基础上做了扩展补充,包含了更多复杂的催化剂结构和新的反应类型,提供了更丰富的数据用于 AI 模型的训练和测试。
直接使用:https://go.hyper.ai/M8Cpn
9. OQMD 开源量子材料数据集
OQMD 数据集包含了通过密度泛函理论 (DFT) 计算得到的超过 122 万种材料的热力学和结构性质。数据集中的数据来源于无机晶体结构数据库 (ICSD),包括了近 30 万种化合物的 DFT 总能量计算以及常见晶体结构的修饰。
直接使用:https://go.hyper.ai/dGOKs
10. Materials Project 在线材料数据库
Materials Project 数据库中的数据包含了晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息。这个数据集旨在利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。
直接使用:https://go.hyper.ai/tGIVs
更多公共数据集,请访问:
公共教程精选
1. AnyText 多语言视觉文字生成与编辑
AnyText 是一个多语言视觉文字生成与编辑模型。它可以支持中文、英语、日语、韩语等多语言的文字生成,还支持对输入图片中的文字内容进行编辑。本模型所涉及的文字生成技术为电商海报、Logo设计、创意涂鸦、表情包等新型 AIGC 应用提供了可能性。
点击下方链接,按教程步骤克隆启动容器,即可施展才思,进行图像设计。
在线运行:https://go.hyper.ai/uMcNa
模型界面示例
2. F5/E2 TTS 只需 3 秒克隆任何音色
该教程包含了 F5 TTS 和 E2 TTS 两个模型的 Demo 使用。F5 TTS 能够在没有额外监督的情况下,通过零样本学习快速生成自然、流畅且忠实于原文的语音。E2 TTS 可以一次性生成整个语音序列,显著提高了生成速度并保持了高质量的语音输出。
该项目通过 Gradio 接口可以生成前端交互界面,相关模型和依赖已经部署完毕,一键启动即可体验声音克隆。
在线运行:https://go.hyper.ai/SZxqv
教程界面示例
3. Stable-Diffusion-3.5-Large 图像生成 Demo
Stable Diffusion 3.5 Large 模型是一个多模态扩散生成器 (MMDiT) 文本生成图像模型,其特点是图像质量、排版、复杂提示理解和资源效率的显著提升,其 80 亿参数的庞大规模,提供了专业级别的图像生成能力,特别适合高分辨率的图像生成需求。
本教程已将环境部署完毕,大家可以根据教程指引直接生成高分辨率图像。
在线运行:https://go.hyper.ai/w5k5V
Stable Diffusion 3.5 Large 模型生成图像示例
💡我们还建立了 Stable Diffusion 教程交流群,欢迎小伙伴们添加神经星星微信(微信号:Hyperai01)备注【SD教程】,入群探讨各类技术问题、分享应用效果~
社区文章精选
近日,Meta 发布了 Open Materials 2024 大规模开源数据集和一组配套的预训练模型。其中,OMat24 数据集包含超过 1.1 亿次以结构和成分多样性为重点的密度泛函理论计算结果。数据集现已上线 HyperAI超神经官网。本文是对研究论文的详细解读与分享。
查看完整报道:https://go.hyper.ai/3wP7R
2. 活动回顾丨上海交大/浙江大学/清华大学/OpenBayes 多位专家,覆盖医疗/地理信息/城市复杂系统/科研新范式
在 COSCon’24 期间,HyperAI超神经作为联合出品社区,举办了 AI for Science 方向的开源 AI 论坛。来自上海交大、浙江大学、清华大学、OpenBayes贝式计算的专家学者,围绕医疗人工智能、地理信息人工智能、科研智算云平台以及 AI 驱动的城市复杂系统等方向,从多个方面进行了深度分享。本文为论坛精彩内容回顾,点击了解详细报道。
查看活动回顾:https://go.hyper.ai/s2RQU
3. 获英伟达二次投资!AI 制药公司 Terray 完成 1.2 亿美元融资,构建全球最大化学数据集
AI 制药公司 Terray Therapeutics 完成 1.2 亿美元 B 轮融资,本轮融资由英伟达风险投资部门 NVentures 和新投资者 Bedford Ridge Capital 领投,而这也是英伟达对于 Terray 的第二次投资。该公司还构建了世界上最大的化学数据集,并将 AI 与湿实验结合,在数据侧形成了闭环。点击了解详细解读。
查看完整报道:https://go.hyper.ai/AWojF
4. 助力抑郁症初筛!上海交大团队构建 Agent 心理诊所,论文一作在线展示 demo,分享技术亮点
在「Meet AI4S」系列直播第四期中,上海交通大学跨媒体语言智能实验室博士兰焜耀,以「基于大模型 Agent 的精神健康问诊和咨询平台」为题,详细介绍了该心理诊所的使用步骤、技术亮点、以及未来规划等,本文为演讲精华实录,内含智能体心理诊所 demo 演示,点击速看。
查看完整报道:https://go.hyper.ai/CHhKC
热门百科词条精选
- Transformer 模型
- 变分自编码器 VAE
- 人工神经网络 NNs
- 帕累托前沿 Pareto Front
- 大规模多任务语言理解 MMLU
这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:
一站式追踪人工智能学术顶会:https://go.hyper.ai/event
以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!
下周再见!
关于 HyperAI超神经 (hyper.ai)
HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:
- 为 1300+ 公开数据集提供国内加速下载节点
- 收录 400+ 经典及流行在线教程
- 解读 100+ AI4Science 论文案例
- 支持 500+ 相关词条查询
- 托管国内首个完整的 Apache TVM 中文文档
访问官网开启学习之旅:
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。