文小言上新了!支持多模型调度,升级全新语音大模型、图片问答能力(调度.语音.上新)

文小言ai助手焕新升级,开启多模型融合新时代!百度于3月31日ai开发者大会上宣布,文小言完成品牌焕新和功能升级,并着重强调模型开放与功能创新。此次升级不仅带来全新的视觉形象,更重要的是支持多模型融合调度,并强化了语音大模型、图片问答、ai图像及视频生成等功能,为用户提供更智能、更高效的ai体验。

百度AI产品创新业务负责人薛苏表示,AI的未来并非简单的技术参数竞争,而是通过多模型协同,为用户创造真正价值。文小言致力于打造开放生态,整合顶尖模型能力,最终目标是提供更强大、更易用的AI产品。

多模型融合:构建AI“超级大脑”,重塑用户体验

文小言此次的核心升级在于“多模型融合调度”。它整合了百度自研的“文心X1”、“文心4.5”等顶级模型,并接入了DeepSeek-R1、可灵等第三方优质模型,实现了模型间的智能协作。用户只需启用“自动模式”,即可一键调用最佳模型组合,或根据需求选择特定模型完成任务,显著提升响应速度和任务处理效率。

文小言上新了!支持多模型调度,升级全新语音大模型、图片问答能力

例如,用户要求“设计三种风格不同的南偏东客厅效果图”,文小言能够准确识别不同装修风格的差异,调用“文心X1”进行深度推理,生成三幅风格各异但视角一致的效果图。又例如,拍摄一张茅台镇的照片,文小言便能利用“文心4.5”的多模态分析能力,精准识别地理位置、当地产业、建筑风格等详细信息。

功能升级:全新语音大模型、图片问答,拓展AI应用新场景

此次升级还显著提升了语音大模型、图片问答、AI图像及视频生成等功能,全面优化用户体验。

全新语音大模型支持方言对话、复杂知识问答和随时打断等功能,用户可以进行语音知识问答或趣味角色扮演。

文小言上新了!支持多模型调度,升级全新语音大模型、图片问答能力

百度语音首席架构师贾磊介绍,该模型是业界首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型。在满足特定交互指标的语音场景下,大模型调用成本比行业平均降低50%-90%,推理响应速度极快,将语音交互等待时间压缩至约1秒,极大提升了交互流畅性。此外,大模型的加持实现了流式逐字的LLM驱动的多情感语音合成,情感表达饱满、逼真、拟人化,交互听感也得到显著提升。

文小言上新了!支持多模型调度,升级全新语音大模型、图片问答能力

图片问答功能允许用户通过拍摄或上传图片,使用文字或语音提问并获得深度解析。例如,拍摄数学题可实时获得解题思路和视频解析;上传多款商品图片可对比参数和价格,辅助购物决策;拍摄杯子设计图后,AI可自动解析设计风格并生成同款手机壳、支架等衍生产品或包装设计。

此外,新增的“图个冷知识”功能更具趣味性,用户可以预设“历史学者”、“科技达人”等角色视角,为同一张图片提供多维度解读。例如,用户提问“猫窗探秘,为何猫爱窗边的科学真相?”,文小言就能从狩猎本能、能量获取、领地意识等角度给出独特的解释。

以上就是文小言上新了!支持多模型调度,升级全新语音大模型、图片问答能力的详细内容,更多请关注资源网之家其它相关文章!

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。