「专题速递」多媒体内容理解、视频云大模型算法实践、AI算力云的探索、FreeSWITCH对接人工智能

AI在多媒体领域的应用日益广泛。通过深度学习和神经网络等技术，人工智能可以提高视频图像的清晰度，降低噪声，改善色彩，使得用户可以观看更加真实、清晰的影像。通过模型和算法的训练，人工智能可以进行内容的识别和理解，使得多媒体内容更易于搜索和管理。

在本次大会中，我们将深入探讨AI与多媒体的融合，分享最新的技术进展和应用案例。同时，我们还将讨论人工智能的大模型和边缘计算等实践，展望AI在多媒体领域的未来发展。

01 芒果TV长视频内容理解检索与应用创新

郑孝直

芒果TV 算法产品经理

如何在芒果TV海量媒体资源中快速且精准的理解或定位目标内容以提升效率并催生丰富的内容应用产品，如：会员定点互动、广告精准投放、内容制作、节目运营等，是芒果实际业务生产中面临的难点与关键。为提升海量库存内容复用率、在保证服务效率与精度的基础上实现业务侧高质量需求的快速响应，需要长视频内容理解与检索技术的发展与创新来保驾护航。

本次分享将分为四个部分，第一部分介绍长视频内容理解与检索需求产生的业务场景和具体原因，第二部分介绍技术实践中的难点与挑战，包括多模态信息表征及融合问题、时序信息检索融合、高精度或高召回检索标准、准确率保证下的大模型高速响应等，第三部分介绍核心技术解决方案，包括分镜级片段关键特征抽取、多模态视觉语言模型训练、常用时序信息结构化分析等方法。第四部分展示在实际芒果TV实际业务生产中的应用案例和效果。通过以上四个部分系统性为大家介绍长视频内容理解与检索技术在芒果的创新实践。

02 AI新范式下阿里云视频云大模型算法实践

刘国栋

阿里云智能高级算法专家

人工智能时代，AI技术已全面渗入音视频行业各个领域，覆盖采集、生产、处理、传输、分发、消费的音视频全链路，但行业始终面临着更好体验、更智能、更普惠的要求。以ChatGPT、Midjourney为代表的颠覆性大模型技术在视频理解、生成等方面的优秀表现，让业界看到满足这些更高需求的希望。阿里云视频云通过探索、实践大模型创新技术，探讨AI新范式下的视频云新可能。

本次将分享阿里云视频云大模型算法系统架构及实操中的关键技术，展现大模型算法典型实践案例，并探索大模型落地的更多可能性。

03 异构融合未来就绪——

网心科技AI算力云的探索

曲鑫

网心科技副总裁

大模型正在重新定义千行百业，企业如何突破算力瓶颈和封锁？本次演讲将基于全球大模型上下游产业最新动态，探讨推理算力成本持续高企以及现有资源难以满足日益增长需求的挑战。网心科技依托分布式边缘推理平台，通过整合多样化算力资源，运用云原生和虚拟化技术优化资源分配，显著降低AI推理的成本，助力各行各业加速拥抱AGI时代。

04 FreeSWITCH对接SIP、RTC及人工智能

杜金房

小樱桃 CTO

ChatGPT和各种大模型的出现将人工智能推向了巅峰，各种AI工具和聊天应用层出不穷。本次分享通过FreeSWITCH开源项目，对接各种大模型及人工智能接口，让RTC以及传统的SIP设备（视频会议终端、PSTN电话等）与大模型畅谈人生。

内容涉及RTC与大模型通信的特点、技术要点、视频演示等，分享实现方案以及踩坑经验。

LiveVideoStackCon 2023音视频技术大会深圳站，诚邀您参与。

时间：2023年11月24日-25日

地点：深圳圣淘沙酒店（翡翠店）

咨询：13520771810（微信同号），ticket@livevideostack.com

「专题速递」多媒体内容理解、视频云大模型算法实践、AI算力云的探索、FreeSWITCH对接人工智能

01

芒果TV长视频内容理解检索与应用创新

02

AI新范式下阿里云视频云大模型算法实践

03

异构融合未来就绪——

网心科技AI算力云的探索

04

FreeSWITCH对接SIP、RTC及人工智能

LiveVideoStack

引用和评论

AIGC时代下阿里云视频云媒体内容生产技术实践

为什么音量设置最大是100，却还有许多音量增强300%的插件？

三分钟掌握视频剪辑 | 在 Rust 中优雅地集成 FFmpeg

2025版 RTC、直播、点播技术对比｜腾讯云/即构/声网如何选型

三分钟掌握音视频处理 | 在 Rust 中优雅地集成 FFmpeg

三分钟掌握视频分辨率修改 | 在 Rust 中优雅地使用 FFmpeg

三分钟掌握音视频信息查询 | 在 Rust 中优雅地集成 FFmpeg

「专题速递」多媒体内容理解、视频云大模型算法实践、AI算力云的探索、FreeSWITCH对接人工智能

01

芒果TV长视频内容理解检索与应用创新

02

AI新范式下阿里云视频云大模型算法实践

03

异构融合 未来就绪——

网心科技AI算力云的探索

04

FreeSWITCH对接SIP、RTC及人工智能

LiveVideoStack

引用和评论

AIGC时代下阿里云视频云媒体内容生产技术实践

为什么音量设置最大是100，却还有许多音量增强300%的插件？

三分钟掌握视频剪辑 | 在 Rust 中优雅地集成 FFmpeg

2025版 RTC、直播、点播技术对比｜腾讯云/即构/声网如何选型

三分钟掌握音视频处理 | 在 Rust 中优雅地集成 FFmpeg

三分钟掌握视频分辨率修改 | 在 Rust 中优雅地使用 FFmpeg

三分钟掌握音视频信息查询 | 在 Rust 中优雅地集成 FFmpeg

异构融合未来就绪——