活动背景

GPT-4o Realtime API 发布,语音 AI 正在进入一场新的爆发。AI 的实时语音和视觉互动能力将为我们带来更多全新创意和应用场景。

  • 实时音频交互:允许应用程序实时接收并响应语音和文本输入。
  • 自然语音生成:减少 AI 语音的机械感,使对话更加人性化。
  • 多语言能力:促进多语言之间的无缝对话,特别适合全球企业的需求。
  • 更快的响应时间:显著降低延迟,提高语音交互的速度。

现在让我们快速动手来实现一种想法。

在这场工作坊,你会接触到 TEN Framework,其兼容了 Realtime API 和 RTC 的实时多模态 AI Agent 框架!以及使用 TEN 开发的多模态 AI Agent — TEN Agent,它能够立即响应你的语音指令,基于视频进行图像理解,并且还能进行网页和天气检索,让你感受到更自然的人机互动体验。

同时,作为全球领先的企业级公有云平台,Azure 依托 Azure OpenAI(海外版)提供了先进的模型服务,并且全面推动了企业数字化转型的进程,开启了全新的业务模式与应用场景。无论是在客户服务、教育培训,还是娱乐等领域,实时语音和视觉交互能力都将为各行各业带来前所未有的创新机会。

现在报名参与工作坊,使用 TEN framework 与 Azure,尝试自定义一个实时多模态 Agent,即刻探索自己的语音、视频交互的新场景。

现场有来自 TEN Framework 与微软的答疑指导,还为大家准备了精美茶歇与开发者礼品。

即刻报名

此处跳转第三方平台报名活动!

活动时间:12月5日(周四)13:30-17:30

活动地点:北京微软大厦(具体场地审核通过后入群通知)

活动流程:

完成挑战将获得主办方提供的开发者礼品~

建议报名参与者提前做好如下软硬件配置:

  • 知识:会用命令行、git 和 Docker;
  • 提前下载:Docker and Docker compose;
  • 自备电脑一台。
    报名并审核通过后,将会邀请大家进入工作坊专属答疑群,搞定前序工作,现场专注探索你的实时 AI 场景!

资料推荐

智能 GitHub Copilot 副驾驶® 提示和技巧

Azure OpenAI 生成式人工智能白皮书

利用 AI 和 DevOps 重新定义开发人员体验

SAP on Microsoft Cloud


微软技术栈
418 声望995 粉丝

微软技术生态官方平台。予力众生,成就不凡!微软致力于用技术改变世界,助力企业实现数字化转型。