
没思到开云kaiyun.com,文小言接入推理模子的大更新背后,百度还藏了一手"质变"级时间大招???

Talk is cheap,径直来看 Demo:
士别三日,文小言不仅能讲重庆话了,照旧成了哄娃的一把好手,被神气打断照样哓哓不停:
实测下来,Demo 不虚。这个全新语音对话功能,如实更有东说念主味儿了,照旧能紧贴当下实事的那种——
只是让 Ta 推选周末缩小去向,Ta 我方就能主动联接现时 4、5 月份的履行时刻,给出愈加合理的建议。
划重心,这是免费的。面前你也雷同不错翻开手机里的文小言,径直体验这一全新升级的及时语音对话功能。
但!是!
如若单说语音体验,那还真不是这个"大招"的重心。裂缝是,这回百度还裸露了更多时间细节。
我们仔细一看,还果然故原理了。

领先,上来即是一个行业始创:以上及时语音对话成果,由百度全新推出的端到端语音言语大模子达成,这是行业首个基于 Cross-Attention 的跨模态语音言语大模子。
有何不同?站在用户体验的角度来说,即是语音合成蔓延更低,对话更真实有样貌。
而更伏击的少许是,这样个新模上线,文小言在语音尘答场景中的调用老本,最高能镌汰 90%!径直打掉了工业级落地的门槛。
(再也不怕模子厂流量大到挂我做事 .jpg)
我们驻防到,百度语音首席架构师贾磊,其实用到了"质变"这个词:
百度端到端语音言语大模子是有质变的,不是单纯把文本大模子用到语音畛域。
语音场景有其独到之处。此前,各人莫得充分挖掘这个应用场景的不同,照旧按照把文本大模子用到语音场景的道路,把速率加速一下,工程优化一下。
我们的编削架构,让大模子在语音场景中的应用达成了极低老本,更故意于大模子普及。
即是说,这一次语音时间的更新,不单是是工程上的手段,百度正在通逾期间编削,买通大模子落地语音场景的工业级应用新范式。
行业首个基于 Cross-Attention 的端到端语音言语模子
话说到这了,我们就来一齐仔细扒一扒背后时间决策,望望究竟是若何一趟事。
先给各人划个重心:
熟悉大模子的小伙伴都知说念,KV cache 或者加速自总结推理,但其在存储和视察上的支出,也会跟着序列长度和模子限度增大而爆炸式增长。
因此在保证模子性能的前提下,镌汰 KV cache,关于大模子应用来说,是擢升推理遵守、镌汰老本的一大裂缝。
百度这次推出的基于 Cross-Attention 的端到端语音言语模子,重心就在于此。
具体来说,百度作念了以下编削:
业内始创的基于 Cross-Attention 的跨模态语音言语大模子
Encoder 和语音识别历程交融,镌汰 KV 估计
Decoder 和语音合成模子交融
编削建议基于 Cross-Attention 的高效全查询驻防力时间(EALLQA),镌汰 KV cache
我们一项一项张开来看。
基于 Cross-Attention 的跨模态语音言语大模子
合座上,这个端到端语音言语大模子是基于 Self-Attention 的文心预练习大模子,收受自蒸馏的样式进行后练习得到。练习数据为文本和语音合成数据的羼杂。统共模子收受 MoE 结构。
裂缝点在于,在端到端语音识别中,声学模子亦然言语模子,因此在整合语音识别和大言语模子的历程中,或者通过将大言语模子中的 Encoder 和语音识别的历程交融分享,达到镌汰语音交互硬蔓延的想法。
而在语音畛域,Cross-Attention 自然具有跨模态上风:Decoder 会显式地将 Encoder 输出纳入驻防力估计,使得 Decoder 在每一个解码挨次都能动态视察最关连的输入向量,从而充分地对王人和控制跨模态信息。

基于 Cross-Attention 的高效全查询驻防力时间(EALLQA)
不外,Cross-Attention 的引入带来了另一个问题:MLA 的位置编码时间,在 Cross-Attention 中容易出现不沉稳的表象。
为此,百度语音团队建议了高效全查询驻防力时间(EALLQA):
收受编削的隐式 RNN 两级位置编码,练习时是在 128 空间上的 MHA,推理时是在模子各层分享的 512 空间上的 MQA(AllQA)。既充分控制了有限的练习资源,也极地面镌汰了推理老本。

从具体成果上来说,EALLQA 时间能使 KV cache 降至原来的几十分之一,并将 Cross-Attention 的最近上一个问题的 KV 估计降至原来的十分之一,极大镌汰了语音交互时用户的恭候时刻和模子推理老本。

镌汰老本的另一个裂缝,则是 Encoder 和语音识别系统的交融:对 Query 相关的模子较小,能极大减少 KV 估计。
流式逐字的 LLM 驱动的多样貌语音合成
练习、推理老本的镌汰以外,端到端语音言语大模子还通过语音模子和言语模子的交融,达成了体裁稳健、样貌契合、当然通顺的合成音频的生成。

一方面,研发团队通过大限度文本 - 语音数据自监督预练习,构建语义 + 韵律的梗阻化特征空间,通过双层 GPT-like Transformer,达成了韵律、音色双 Prompt 截止机制。
另一方面,在此基础之上,研发团队推出了语音言语大模子与合成一体化流式逐字合成。
有别于传统语音合成的整句输出,流式逐字相等于一个字一个字地合成。在这个历程中,言语大模子或者教训语音模子去生成样貌、停顿,识别多音字等等,达成更为拟东说念主、当然的语音合成成果。
需要驻防的是,东说念主耳禁受信息本色上是一个字一个字地禁受,但关于 AI 而言,如若 1 个 token 接 1 个 token 的输出,就需要处置并发的问题,以使 MoE 架构最猛进度推崇作用。
流式逐字合成要处置的中枢问题,即是在适配东说念主听力的基础上,达成高并发。
通过引入流式逐字合成,百度端到端语音言语大模子有用擢升了语音交互的反映速率,同期镌汰了语音交互畛域使用大模子老本。与大模子交融的 TTS 文身体调心境截止,还不错阐述文本输出自适配的情况,样貌隐讳达到 17 种。

简便总结一下,百度的端到端语音言语大模子,一方面是重心处置了大模子应用于语音交互场景老本高、速率慢的问题。
另一方面,大言语模子带来的语义相关等才智,也处置了传统语音交互中,同音字识别、打断、真实样貌等痛点。
贾磊裸露,面前,统共端到端语音言语大模子在 L20 卡上即可部署,在中意语音交互硬蔓延条目的情况下,双 L20 卡并发不错作念到数百以上。
极低老本是裂缝
说了这样多,最主要的裂缝词其实即是:低老本。
在与贾磊的进一步疏通中,他向我们强调了镌汰老本的伏击性:
极低老本就意味着大限度工业化变得相等容易。
2025 年,大模子的中枢并不在于展示什么新功能,而是能以多快速率确实应用到民生国计中去。
在不沟通估计资源的情况下,及时语音交互有其他旅途不错达成,但"我们今天是第一个作念到跨模态端到端极低老本处置语音尘题的"。

贾磊还默示,但愿语音畛域的这一打破编削能被行业更多地关爱到。
我们思要把中枢时间分享出去,告诉各人我们是若何作念的,以此推动统共畛域的爆发。
事实上,不仅是百度,在包含语音的大模子才智对外输出上,国表里厂商都将价钱视作打破口。
OpenAI 就专门从性价比起程,推出了 GPT-4o mini audio,但愿以更便宜的价钱打入语音应用市集。
2025 年,基础模子方面,模子厂商在推理模子上争相竞逐,而其带来的最径直的影响之一,是东说念主们关于大模子应用加速爆发预期的执续升温。在这个历程中,我们不错看到,站在模子厂商的角度,更多的模子在被开源,更多的做事在免费通达,用户融会、关爱的争夺之中,老本自身正在变得愈加明锐。
更毋庸提老本即是大限度应用的裂缝:不仅是在模子厂商们的 APP 上,还要进一步走进手机、汽车……
正如 DeepSeek 在基础模子畛域搅拌池水,面前,百度也在语音畛域迈出裂缝一步。
老本,正在成为现时阶段模子厂商获取主动权的伏击打破口。
One More Thing
从文小言的语音交互架构图中还不错看到,它像是个语音版百度搜索。

正如著作开篇我们体验到的,文小言能联接现时的季节对用户问题给出更合理的回复。本色上,在语音功能中,文小言还是相沿多垂类助手才智,包括天气、日期查询、单元换算、股价股票等信息查询内容,估计 38 个垂类。
还相沿 DeepQA RAG 问答,包含百度查询等时效性问答内容,能联接检索放手,作念到更精确的教唆奴隶;相沿 DeepQA 非 RAG 问答,包含知识问答等非时效性问答内容。
"有问题,问小言"的这个"问"字,如实是越来越接近东说念主类底本的交互民俗了。
这本色亦然产业趋势的一种映射——
之前都是大模子时间探索,需要不断适配才能落地家具、变成应用,临了被用户感知。
面前这是大模子时间和家具应用,险些在同期对王人,时间激动的时候就对准了应用场景,应用场景也能催生更相宜的时间,不是锤子找钉子,而是锤子钉子同期对王人。
大模子依然是 AI 寰宇的中枢,但寰宇却正在变成应用为王的寰宇。
百度,或者说中国 AI 玩家,运转找到我方的节律了。
一键三连「点赞」「转发」「防御心」
迎接在计划区留住你的思法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见开云kaiyun.com
