思必驰2025技术进展报告：践行“0-1-N-0”创新范式

导语

0-1的自主研发

2025年，在大模型技术重构产业格局的关键节点，思必驰坚定走自主大模型技术路线，率先构建可靠性优先的1+N分布式智能体系统——以1个中枢大模型统筹认知，协同N个垂直领域模型准适配场景，叠加全链路交互组件，形成软硬一体、端-边-云协同的综合解决方案，打造面向智能终端交互的完整智能体系统。

1-N的产业落地

依托思必驰在智能终端的市场优势，深度融合语音与语言技术，持续推动跨模态融合创新，将多年行业洞察转化为对智能座舱、智慧办公、智能家居、消费电子等核心场景的精准理解。技术指标、客户价值、产品竞争力、用户体验等多维度同步跃升，不仅为当前业务创造实效，更为中国品牌出海等战略场景预留了高可靠、可扩展的技术路径。

N-0有组织科研

围绕智能终端产业生态，思必驰牵头组建江苏省语言计算及应用重点实验室。作为江苏省第一个以企业牵头的人工智能重点实验室，体现了江苏对人工智能产业发展和以企业为主体开展科技创新的高度重视。2025 年实验室与上海交通大学、苏州大学、南京大学、中国科学技术大学、哈尔滨工业大学等多所国内一流高校开展 16 项专项技术攻关和开放课题合作，让技术创新精准锚定于真实业务场景的深层痛点。

未来，思必驰将持续深化“产业需求驱动的有组织科研”模式，聚焦核心技术攻关，持续以AI技术赋能实体经济，为产业高质量发展注入源源不断的创新动能！

江苏省语言计算及应用重点实验室核心技术突破

实验室紧扣“可靠性优先”的跨模态通用语言计算智能方向，围绕以下三大前沿领域攻关，多项成果实现行业领跑。自2025年3月正式获批建设以来，实验室在前沿领域发表高水平学术论文20余篇。其中，SCI Q1期刊论文与CCF A类顶级会议论文9篇，新增发明专利申请70余项，展现了在原始创新领域的深厚底蕴。

方向一：通用语音及多模态感知生成

——重新定义听觉感知

（1）极致语音识别：发布涵盖泰语、印尼语等3万小时的“一带一路”多语言数据集，实现零人工标注。模型识别率较Whisper Large-v3提升约30%，尺寸仅为1/10，数据集总下载量超7万次。

（2）超拟人合成：情感化表达和语音自然度达行业一流水平，具备口语化、悄悄话、多情感等丰富的拟人化特性，首帧响应仅200ms，单卡支持8并发。

（3）低资源语种识别：仅使用50小时标注数据可实现工业级识别模型，有效解决越南语、泰语等小语种数据稀缺问题，数据成本降低超 80%。

（4）多方言混合识别：攻克上海话、合肥话等12种普通话+方言混合识别难题，错误率（WER）低于12%。

（5）多说话人语音分离：在复杂会议场景下，基于麦克风阵列的人声分离SDR提升3.4dB，声源定位准确率提升23%。

（6）通用音频感知：发布面向音乐信号的通用语义表征模型MuQ，该模型在主流开源平台HuggingFace累计下载量近200万次，在音频分类赛道排名第4（国内第1），逐渐发展成为音乐生成领域具有代表性的主流语义表征模型之一。

方向二：跨模态语言大模型及智能体系统

——构建可信认知基座

（1）自研大模型跃迁式升级：继2024年发布AISPEECH DFM2和AISPEECH DFM2-Pro后，2025 年持续升级底座。

2025年5月：发布AISPEECH DFM3，支持混合推理，推理速度大幅提升，兼容MCP及A2A协议。

2025年6月：发布AISPEECH DFM3-Turbo，支持混合推理，强化IOT领域指令控制能力，兼容MCP及A2A协议，支持InterLeaved Thinking。

2025年9月：发布AISPEECH DFM3-Pro，超长上下文理解。

（2）面向可解释的模型内部机制探索：深入探究了大模型内部的功能模块化机制与多语言语义对齐过程，揭示了注意力头形成“功能通路”以及多语言信息向统一“通用语”语义空间收敛的规律，为实现模型行为的透明化与可控化提供了理论基础。

（3）大模型可靠性对齐框架：基于认知科学提出“双重交互不确定性”理论，让模型学会”知道自己不知道”。通过显式知识边界建模，显著减少了错误回答和工具误调用。

（4）助力AI+科学：构建跨模态化学材料大模型ChemDFM-X和推理型大模型ChemDFM-R，ChemDFM系列大模型下载超过22万次，成果入选苏州实验室首届“十大科技进展”，支撑上海交大材料学院获批教育部“首批生成式人工智能教育专用大模型”专项建设项目，相关工作被Cell物质科学子刊编辑推荐为AI赋能化学研究的典型代表，获得Cell子刊Patterns专文评论。

方向三：智能体及人机高效交互协作关键技术

——1+N 架构，重塑人机交互范式

（1）云-边-端协同：端云协同架构和智能路由机制，针对端侧算力有限的痛点，简单指令端侧秒回，复杂推理云端接管。且端侧具备以“神经元激活状态”为基础的自学习能力，离线可用性得到保障。

（2）全双工交互：支持全双工大模型交互，支持实时语音打断，交流节奏进一步贴近人类自然对话。上线业内首款端到端全双工智能客服大模型，端到端响应速度业内Top1。

（3）全链路多语言覆盖：构建40+语种全链路能力，云端识别性能对标业界主流开源方案，语音合成自然度达行业一流水平。

（4）数据竞争力：升级企业级数据与模型生产力引擎，实现百万小时、100+语种高质量训练数据全流程管理。凭借在语音领域的技术积累，牵头研制的 IEEE P3746《用于语音大模型构建的数据与知识处理框架》标准提案正式获批立项。

客户与行业认可

推动人工智能从“数字世界”走向“物理世界”，解决真实场景下的核心痛点与复杂难题，赋能千行百业。

智慧办公：大模型时代的“超级助理”

——效率革命、硬件联动、千人千面

（1）全球首发软硬一体的“麦摄联动”与无感扩声技术：2025年12月发布MA600D矩阵麦克风，率先解锁高端圆桌论坛及超400平米超大空间的“无感扩声”体验，深度融合AI算法达成全场景“零啸叫”，全球首次突破30人以上复杂会议的精准区分，确保多人发言互不干扰。

利用空间声源表征与声纹融合，即使在多人会议中也能精准实现说话人分离，声纹说话人混淆率<10%。

在3米扩声半径内实现 <15ms 端到端低延迟，无感扩声增益达 18dB（超行业平均水平12dB以上），2m拾音达到传统鹅颈麦30cm的音质体验。

性能全面超越国际竞品，凭借卓越的无感扩声性能赢得150余家高校及5000余家企业信任，不仅实现高端吸顶麦的国产化替代，更带动国内无感扩声市场规模实现2倍以上增长。同时，技术实力反向输出海外，业务版图成功辐射欧美、中东、东南亚等地区，力证产品国际竞争力。

（2）重新定义“会议纪要”：一键生成会议总结、纪要与待办，支持高精度角色分离和“千人千面”总结。

基于用户职业的纪要生成技术，例如为产品经理生成需求列表，为工程师生成技术Todo，真正做到“因人而异”。

提出了双向证据建模技术，大幅提升了机器对会议内容的理解与归纳能力。

端侧大模型吞吐量达15字/秒（领先行业标杆2.5倍），热词加持下会议转写字错率相对降低41%，可读性达行业一流。

依托以上核心技术，思必驰推出了全球首款端侧大模型彩屏AI办公本、高端矩阵麦克风 MA600D、AI声像追踪系统等重磅产品，重新定义了AI时代的商务办公体验。

智能座舱：从“语音助手”进化为“懂你的安全副驾”

——安全护航、情感共鸣、生态融合

（1）”智能聆听”技术全面落地：“智能聆听”技术全面落地：支持动态拼句、智能反问与实时标点，准确率超95%。实现自然表达、流畅交互、智能触发、无损打扰。该技术已广泛应用于梅赛德斯-奔驰、奥迪、保时捷、长城、北汽、上汽通用五菱等知名车企的多款量产车型，覆盖从国民车型到豪华车型的多元市场。

（2）首发“车外语音拦截”，筑牢交互安全防线：针对车外人员喊话导致车窗误开、误操作等安全隐患，研发了独家的车外指令拦截技术，结合多通道信号分离与声源定位，精准剔除车外干扰。

（3）车载端云一体化：针对智能汽车场景，部署了云端百亿/千亿参数中枢模型和车端十亿参数端侧模型的协同架构。云端负责复杂推理与调度，车端基于蒸馏小模型实现无网环境下的高可靠响应，实现车载交互无网、弱信号下的可用。

（4）超级天琴2.0打造全模态全域AI：焕新升级10+亮点功能，端侧中枢大模型实现多模态数据离线模糊意图理解及场景化主动服务；云端聚合行业顶流智能体生态，将AI从“真懂事”升级至“会办事”。同时支持端到端情感陪伴、多人设及捏音功能，重塑座舱交互范式。

（5）海外版语音助手规模化商用：因地制宜打造当地专属AI助手，系统支持40余种全球语言、口音定制优化与文化习俗适配。基于大模型提升泛化理解，引入多媒体、生活服务等高频智能体专业能力，助力长城、比亚迪、上汽智己、上汽通用五菱、阿维塔、速豹汽车等车企打造高质量的全球化智能座舱。

（6）座舱硬件全球交付：座舱智能硬件合作车厂达8家，仪表方案全系通过 GB-44495 & ECE R155 海内外双重安全认证，支持33国语音，助力奇瑞、上汽大通、雅迪等车企客户出海。

智能家居：打造智能便捷新生活

——实境锤炼、极致能效、万物互联

（1）全真环境严苛测试：新增2个IOT实验室，高度还原真实家庭光照与噪音环境，为扫地机器人等智能硬件提供从唤醒率到交互时长的全方位“魔鬼测试”。

（2）高效唤醒与超低功耗：研发MFA-KWS技术，利用多头帧异步解码将推理速度提升47%-63%，在电视声、油烟机等高噪环境下依然保持极低误唤醒率；创新提出TFC变帧率语音编码技术，大幅降低设备全天候待机的功耗与存储占用。

（3）大模型降噪与场景极致体验：利用云端降噪大模型对扫地机、电视、空调等高噪设备进行专项优化，同向低信噪比场景识别率相对提升100%；支持普通话+N方言混合全链路交互，精准适配复杂家庭语言环境。

（4）全球市场覆盖与生态融合：不仅深度赋能联想、学而思等智能终端，更在核心家电领域占据主导地位，实现从单品智能到全屋智能的渗透。

在空调领域，客户覆盖率超70%（囊括美的、奥克斯、海信、海尔、飞利浦等）；在扫地机器人领域，全球客户份额约50%（覆盖科沃斯、石头、追觅等头部品牌），助力合作伙伴业务版图强势辐射欧洲、东南亚、北美、俄罗斯等核心地区，让中国AI服务全球家庭。

具身智能：赋予机器人“类人”的交互智慧

——高端制造、多模感知、场景破壁

（1）强强联手，场景破壁：思必驰语音交互技术深度赋能头部机器人企业，打破工业与商用界限：

智元精灵G2：在2025年全运会完成引导任务，承担地铁安全设施巡检，逆行通道阻拦等职责；并深入汽车零部件制造场景，以精密操作助力产业升级。

多形态机器人落地：携手洛必德进驻钓鱼台大酒店提供国宾级智能服务，赋能魔法原子通用人形及仿生四足机器人，实现从高端商用到工程作业的全场景自然交互。

（2）高能软硬件模组：定制针对具身机器人场景的多模态交互模组，集成离散型环四麦克风阵列和高性能扬声器，密切贴合具身机器人声学结构，支持360°高精度声源定位，确保在嘈杂和运动场景依然“听得清、判得准、回复快”。

（3）多模态语音交互：针对展会等嘈杂环境，通过将视觉与语音深度融合，动态跟踪与分离人声，实现嘈杂环境主交互人语音识别准确率≥95%，同时结合人脸，手势，眼神等多模态信息主动触发个性化交互，免唤醒词交互，给机器人赋予生命力。

（4）分布式智能体定制平台：针对具身机器人落地不同场景，不同客户的需求，思必驰搭建一套分布式智能体定制平台，支持快速进行智能体个性化定制与优化，助力机器人厂商在终端场景落地中实现快速量产交付，实现接近100%的任务执行准确率，真正做到“听的懂，执行准”。

技术影响力提升

双Fellow领衔，多维创新成果获权威认可，技术影响力持续跃升。

领军人物国际认可：思必驰首席科学家、上海交通大学俞凯教授本年度接连斩获ISCA Fellow（国际语音通讯学会会士）与IEEE Fellow（国际电气与电子工程师协会会士）双重荣誉，成为国际语音通讯学会2007年设立会士制度以来的中国内地首位入选者。

– 新增3项深度合成算法备案，累计8项算法通过备案

– 累计授权发明专利700余项，软件著作权近500项，获得23项国家级产品认证

– 获评“广西科技合作奖”

– 获评“苏州市标杆创新联合体”

– 入选工信部等五部门评选的“2025年度视听系统典型案例”

– 受邀在第二十四届中国计算语言学大会、第二十届全国人机语音通讯学术会议、2025世界顶尖科学家论坛等做特邀报告

……

结语

2025年，思必驰坚定走自主大模型技术路线，成功验证了“端云协同的1+N分布式智能体系统”的战略前瞻性。通过将中枢大模型的决策智慧与端侧智能体的敏捷响应深度解耦，协助客户在算力成本与极致体验之间找到了最佳平衡，为行业带来真正“用得起、信得过”的智能化升级方案。这一技术路线已转化为智能座舱的“安全陪伴”、智慧办公的“效率革命”以及全球化业务的“可靠落地”，成为客户产品竞争力的坚实基石。展望未来，我们将继续深耕这一核心系统，以“可靠性优先”为锚，持续拓展智能驾驶、智慧办公及全球化业务的新边界，致力成为大模型落地时代的领航者。

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->

            <!-- 非定向300*250按钮  end -->
        </div>

Source link

相关推荐

近期文章