讯飞发布新交互大模型：数字人语音视觉三合一，智能体验再升级！-关于我们-虎科技

讯飞发布新交互大模型：数字人语音视觉三合一，智能体验再升级！

时间：2024-11-14 19:17 来源：ITBEAR作者：朱天宇

讯飞开放平台今日宣布重大进展，其全新研发的讯飞星火多模态交互大模型已正式上线。这一技术突破实现了从单一的语音交互到音视频流实时多模态交互的跨越，为用户带来更为丰富和自然的交互体验。

讯飞星火多模态交互大模型首次引入了超拟人数字人技术，该技术使得数字人的躯干和四肢动作能够与语音内容精准匹配，快速生成相应的表情和动作，从而让AI形象更加栩栩如生。通过统一文本、语音和表情的表达，该模型在跨模态的语义一致性上取得了显著成效，使得大模型的情感表达更为真实和连贯。

在交互速度方面，该模型同样表现出色。它采用了统一的神经网络，直接实现了语音到语音的端到端建模，从而大大提升了响应速度和流畅性。该模型还能够敏锐地感知用户的情绪变化，并根据指令自由调整声音的节奏、大小和人设，为用户提供更加个性化的交互体验。

讯飞星火多模态交互大模型还支持多模态视觉交互。它不仅能够“听懂世界”，更能“认清万物”，通过全面感知具体的背景场景、物流状态等信息，对任务的理解更加精准。同时，该模型还能够综合判断语音、手势、行为和情绪等多种信息，作出更为合适的响应。

据此前报道，用户已经可以与数字人进行自然的语音和视频通话。在通话过程中，数字人不仅能够实现与用户的自然语音对话，其人物表情等也能够与说话语句相匹配。星火超拟人数字人还支持多模态交互功能，这使得数字人能够识别摄像头中的内容，如识别孙悟空和奥特曼站在一起、识别面霜的品牌和作用以及花的品类等。

更多>同类内容