头图

作为AI的应用场景之一,数字人在市场上的普及度比大模型高很多。可以作为智能客服,解答业务问题或者办理业务,推荐产品。
交互型数字人是指能与人类进行实时交互对话的数字人,可以作为智能客服,解答业务问题或者办理业务,推荐产品。中国电信app首页的AI筱翼,是一种常见的数字人智能客服,电信掌上营业厅功能很多,部分功能不容易找到,通过数字人语音交互可以直达业务页面。talkie对话界面也有一个形象,但是形象在对话中一直是静态的,不属于交互型数字人。
一、交互型数字人基本原理
可交互的数字人,主要原理是先通过真人拍摄视频使用青否数字人克隆端生成数字人,对话时通过asr识别用户输入的问题,然后问题被发送给数字人大脑(传统bot知识库或大模型)获取答案,再通过tts将答案转换成音频,通过音频驱动数字人的唇部和面部,形成数字人说话视频,实现真人与数字人的对话。
数字人的驱动能力包括唇部,面部表情和肢体动作。通过音频驱动数字人唇部和面部变化,唇形准确率现在都比较高,数字人说话时口型和音频能对上,口型不细看基本没有破绽。数字人的肢体动作来源于提前制作好的动作库。制作数字人形象时,可以定制常用的动作,比如点赞、比心、手势引导等动作,将动作和数字人说话内容做好关联,数字人说话时就会触发这些动作,肢体动作和面部表情使数字人说话时更接近人类,更自然。2D真人数字人可以实现实时对话,但两者在数字人制作渲染、推理方面,是完全不同的技术路径。
二、客户群体
整个交互型数字人行业的服务对象,目前还是to B大客户,主要为银行/证券/保险/运营商/政务行业等客户提供解决方案,最终的落地形式有嵌入手机app,或线下大屏。目前数字人客服的渗透率还不高,即便金融行业大公司也还处于数字人应用的探索和试点阶段。
在生活中我们能体验到的,有中国电信app上的AI筱翼,部分城市比如深圳的一些地铁站有数字人大屏,承担真人客服的功能,银行线下网点的大屏数字人大堂经理。项目价格一般可达百万级,市场上有数字人制作/驱动/NLP和语音全链路能力的厂商不多,落地一般由多家厂商参与完成。
三、交互式数字人的功能有哪些?(源码:zhibo175)
1.数字人克隆
拍摄真人出镜,正视镜头说话的5-8分钟绿幕视频,即可复刻出口型、动作、神态等1:1的数字人形象,行业高精度中文唇形驱动技术,性能优势与性价比处于全国领先水平。
作为AI的应用场景之一,数字人在市场上的普及度比大模型高很多。可以作为智能客服,解答业务问题或者办理业务,推荐产品。
交互型数字人是指能与人类进行实时交互对话的数字人,可以作为智能客服,解答业务问题或者办理业务,推荐产品。中国电信app首页的AI筱翼,是一种常见的数字人智能客服,电信掌上营业厅功能很多,部分功能不容易找到,通过数字人语音交互可以直达业务页面。talkie对话界面也有一个形象,但是形象在对话中一直是静态的,不属于交互型数字人。
一、交互型数字人基本原理
可交互的数字人,主要原理是先通过真人拍摄视频使用青否数字人克隆端生成数字人,对话时通过asr识别用户输入的问题,然后问题被发送给数字人大脑(传统bot知识库或大模型)获取答案,再通过tts将答案转换成音频,通过音频驱动数字人的唇部和面部,形成数字人说话视频,实现真人与数字人的对话。
数字人的驱动能力包括唇部,面部表情和肢体动作。通过音频驱动数字人唇部和面部变化,唇形准确率现在都比较高,数字人说话时口型和音频能对上,口型不细看基本没有破绽。数字人的肢体动作来源于提前制作好的动作库。制作数字人形象时,可以定制常用的动作,比如点赞、比心、手势引导等动作,将动作和数字人说话内容做好关联,数字人说话时就会触发这些动作,肢体动作和面部表情使数字人说话时更接近人类,更自然。2D真人数字人可以实现实时对话,但两者在数字人制作渲染、推理方面,是完全不同的技术路径。
二、客户群体
整个交互型数字人行业的服务对象,目前还是to B大客户,主要为银行/证券/保险/运营商/政务行业等客户提供解决方案,最终的落地形式有嵌入手机app,或线下大屏。目前数字人客服的渗透率还不高,即便金融行业大公司也还处于数字人应用的探索和试点阶段。
在生活中我们能体验到的,有中国电信app上的AI筱翼,部分城市比如深圳的一些地铁站有数字人大屏,承担真人客服的功能,银行线下网点的大屏数字人大堂经理。项目价格一般可达百万级,市场上有数字人制作/驱动/NLP和语音全链路能力的厂商不多,落地一般由多家厂商参与完成。
三、交互式数字人的功能有哪些?(源码:zhibo175)
1.数字人克隆
拍摄真人出镜,正视镜头说话的5-8分钟绿幕视频,即可复刻出口型、动作、神态等1:1的数字人形象,行业高精度中文唇形驱动技术,性能优势与性价比处于全国领先水平。
image.png
2.声音克隆:支持中文和多种外语声音克隆,系统可以输出最多140种语言,服务全球用户,可选择301种音色,还可以克隆出来你的专属音色,满足不同类型的定制需求,您还可以上传录音进行输出。
3.“Al大脑”模型
接入“讯飞星火认知大模型”,拥有跨领域的知识和语言理解能力,还可以上传企业专属的知识库,持续从海量文本数据和大规模语法知识中学习进化,实现基于知识库问答、多轮对话能力。
“数字人”和“AI大脑”构建好后,通过多种技术手段,让数字人理解用户说的话,并把大脑内容传输出去。
image.png
4.音频采集
自研回声消除、声源定位,波束成形、去混响噪声抑制等核心算法用于远场语音交互场景。
5.显示终端
集合知识、看、听、说等多模态人机交互数字人,展现在大屏、移动设备、台式机或平板电脑等多个终端上,实现不同场景的真人模拟对话。
image.png
交互数字人源码独立部署能够多场景应用,功能完善,2024年时数字人垂直应用的一年,数字人将逐渐占据人们的生活,看完本文分享希望你对交互型数字人有所了解!


已注销
24 声望8 粉丝