公共资源速递
This Weekly Snapshots !
5 个数据集:
- SESYD 合成文档数据库
- DeepGlobe18 道路提取数据集
- MMLU-Pro 大规模多任务理解数据集
- DeepfakeTIMIT 深度伪造检测数据集
- EEG Eye State Dataset 眼部状态脑电图数据集
2 个模型:
- Parler-TTS
- Phi-3.5-vision-instruct
2 个教程:
- 一键部署 Parler-TTS
- 一键部署 ChemVLM-26B
访问官网立即使用:http://openbayes.com
公共数据集
SESYD 数据库由 11 个集合组成,用于性能评估,包含 284k 图像、190k 符号和 284k 字符。这个数据库主要针对文档图像分析领域的两个主要研究问题:(1) 在线绘图图像(如平面图和电路图)中的象征识别和定位;(2) 地理地图中字符的分割和识别。
直接使用:
https://go.openbayes.com/Hx1JP
该数据集包含 6,226 张 RGB 卫星图像,尺寸为 1024×1024。图像分辨率为 50 厘米像素,由 DigitalGlobe 的卫星收集。
直接使用:
https://go.openbayes.com/Byq7P
MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。
直接使用:
https://go.openbayes.com/7Aso3
该数据集包含了使用开源的基于生成对抗网络 (GAN) 的方法交换面孔的视频。这些视频基于原始的自动编码器基础的 Deepfake 算法创建。该数据集旨在支持深度伪造检测技术的研究,并可用于训练和测试相关的深度学习模型。
直接使用:
https://go.openbayes.com/LVix8
5. EEG Eye State Dataset 眼部状态脑电图数据集
这个数据集由一个连续的 EEG 测量组成,使用了 Emotiv EEG Neuroheadset 设备,测量持续了 117 秒。通过在 EEG 测量过程中使用摄像头检测眼睛状态,并在分析视频帧后手动添加到文件中。数据集中的值按时间顺序排列,其中 0 表示眼睛睁开状态,1 表示眼睛闭合状态。
直接使用:
https://go.openbayes.com/p0KBI
公共模型
Parler-TTS 是一个由 Hugging Face 推出的轻量级文本到语音 (Text-to-Speech, TTS) 技术,可以选择多种语音和口音风格,模仿特定说话者的风格,包括性别、音高、说话风格等,满足个性化需求。
直接使用:
https://go.openbayes.com/tzj66
Phi-3.5-vision-instruct 是微软发布的 Phi-3.5 系列中的多模态模型,专为处理文本和视觉输入的应用而设计。该模型支持 128K 的上下文长度,并经过严格的微调和优化过程,适合在内存或计算资源有限、低延迟要求高的环境中广泛用于商业和研究领域。
直接使用:
https://go.openbayes.com/eX5mu
公共教程
Parler-TTS 是一种轻量级的文本转语音 (TTS) 模型,可以生成具有给定说话者风格的高质量、自然语音,自由度及创新性非常高,并且可以通过 Prompt 控制说话者的性别、音色、语调以及所处的场景(室内、室外、马路上、音乐厅等)。只需克隆并启动该容器,直接复制生成的 API 地址,即可对模型进行推理体验。
在线运行:
https://go.openbayes.com/tKCzH
该模型旨在解决化学图像理解与文本分析之间的不兼容问题,通过结合视觉 Transformer (ViT)、多层感知机 (MLP) 和大型语言模型 (LLM) 的优势,实现了对化学图像和文本的全面推理。模型与环境已经部署完毕,大家可根据教程指引直接使用大模型进行推理生成。
在线运行:
https://go.openbayes.com/duzMV
以上就是小贝上周在 OpenBayes 的全部更新内容啦~
小贝还建立了「Stable Diffusion 教程交流群」,欢迎小伙伴们入群探讨各类技术问题、分享应用效果~扫描下方二维码添加小贝总微信(微信号:OpenBayes001),备注「SD 教程交流」,即可加入群聊。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。