2025 年的 AI 硬件赛道,一半的热闹属于 AI 录音设备。
设想这样一个场景,在十人周会里,坐在长桌最末端的实习生低声插了一句话。还没等你担心桌上的录音设备是否听清,便看到桌子中央那台设备的顶部的摄像头,像相机的对焦框一样,精准地“转”向了发言者的方位,死死锁定了声音来源。
这种“看见声音”的体验,来自影石Insta360 前不久发布的 Wave,把“追焦”的逻辑用到了AI 录音设备上。
2025 年的 AI 硬件赛道热闹非凡,但大部分聚光灯都打在了以 Plaud 为代表的“个人外脑”上。这些贴在手机背后的卡片,确实完美解决了单人访谈的需求。然而,当我们将视角拉回到上述的复杂团队协作场景时,一个明显的断层出现了:
那个帮你搞定一对一访谈的个人 AI 神器,一旦被扔进长条会议桌的中央,往往会彻底“失智”。
物理半径的局限
为何会议室里想实现清晰的收音、AI转写这么难?这背后有三个无法忽视的物理痛点。
首先是物理半径的“硬伤”。 现在的 AI 录音笔多采用全向麦克风,主要针对近场设计。在 1 米半径内,信噪比极佳。 但在会议室场景,声压随距离衰减。坐在主位的领导声音洪亮,而被挤在会议桌末端、距离设备 3 米远的实习生,声音传到麦克风时已细若游丝,仿佛来自“水底”。
结果就是,AI 只能识别离得近的人,远端发言直接被忽略或转写成乱码。设备没有能力对抗全场的声压衰减。
其次是声纹识别的混乱。团队讨论中最有价值的部分往往是激烈的交锋,即多方同时说话。 普通的单麦克风设备缺乏空间定位能力,录下来的就是一团混在一起的波形。AI 生成的转写结果往往是一大段密密麻麻的“文字块”,根本分不清哪句是甲方说的,哪句是乙方说的。
最后是环境噪音的干扰。 现代会议室多为玻璃墙面,好看是好看,但声音反射严重导致混响,加上空调的嗡嗡声、同事敲击机械键盘的噼里啪啦声。这些都是 AI 识别的难点。回声会让 AI 产生幻觉,而键盘声往往掩盖了关键数据。
在团队场景下,我们缺的不是一个能“录音”的 App,而是一个能听懂空间、分辨方位、过滤杂音的“耳朵”。
运动相机和会议工具有什么关系?
面对这种空间难题,传统录音笔厂商受限于单一的结构设计和产品形态思维,很难突破。而影石Insta360 推出的 Wave,却提供了一个意料之外的解题思路。在机器眼里,处理声音的方向与处理光线的方向,本质上都是空间计算。
影石Insta360 的核心护城河是对 360° 视觉空间的捕捉、拼接与防抖。如果将这一逻辑拆解,你会发现:全景相机处理的是“光线的方位”,而会议全向麦处理的是“声波的方位”。
这是一种典型的技术互补,影石通过音频能力方面的进化,结合视频能力,有了更好的全向环境感知。
举个例子,在影石Insta360 的全景相机中,核心功能 Deep Track 能在复杂的滑雪场锁定一个人,无论怎么动,镜头焦点始终跟随。在音频设备 Wave 上,这个逻辑被转化为波束成形。设备利用算法实时计算“谁在说话”,并将收音波束精准地指向该方向。 这相当于给声音装上了一个云台。无论发言者是在角落还是在大屏前,声音都被算法聚焦了。
一款“可视化”的声学云台
除了底层的追踪定位,Wave 的硬件形态其实更直观地暴露了影石的“生态基因”。
传统的全向麦克风往往是一个没有任何反馈的“黑盒子”,而做影像出身的影石,试图打破这种沉闷的形态。Wave 摒弃了扁平的会议麦克风设计,采用了类似立式音箱的造型,并在机身顶部预留了磁吸接口,能够直接搭载影石自家的 Link 2 摄像头。
这种组合创造了一种真正意义上的“声画联动”:Wave 负责听声辨位,实时指挥顶部的摄像头转动。
当某人发言时,镜头会立刻像相机的对焦框一样,精准转向该方位。这种交互设计极其巧妙地解决了人找摄像头的问题:用户不再需要猜测麦克风是否听到了自己,摄像头的转动就是最直观的反馈。
这种“声学云台”的设计理念,显然源自影石在运动相机领域的积累:既要收音清晰,又要像云台抓拍一样定位精确。
软硬结合,让开会更加智能
如果说影石依靠空间算法负责把声音精准抓进来,适合机器转写的声音和适合人听的声音不一样,影石Wave AI全向麦克风分别提供了2路音频,一路给到ASR转写算法模型使用的音频,一路给到适合人耳聆听的舒适音频,以便达到较好的转写精度和会议听音体验。
那么要实现高质量的转写,还需要负责把杂质滤出去。
在这一点上,影石选择了与腾讯天籁实验室合作,利用后者在软件层面的壁垒解决“脏声音”问题。
去混响与 AI 降噪 针对玻璃会议室的空旷回音,天籁的去混响算法至关重要,它能直接提升 AI 转写的准确率。同时,天籁AI音频相关技术可以智能消除键盘声、空调声等300多种环境噪声影响。 此外,全双工通话技术解决了“双方同时说话”场景下的吞字问题,保证双方同时说话时信息不丢失。
当然,Plaud 之所以受欢迎,离不开其 AI 功能。Wave更是将录音设备进化成“个人或企业的知识资产管理工具”。
在这一方向上,腾讯的算法能力不止于音频处理,还联合影石探索新的技术突破。
通过声纹分离和声源定位,Wave 可以准确识别谁在说话,并生成带有明确发言者标注的会议纪要。配合云端大语言以及端侧双模型,Wave 可以实时转写并区分发言者,生成结构化的会议总结,提取关键决策和待办事项。对于企业而言,这不仅是开会效率的提升,更是将会议室里原本流失的非结构化数据,转化为可检索、可追溯的企业知识资产。
从 Plaud 的单点爆破到影石 Wave 的空间突围,我们看到的不仅仅是产品的迭代,而是 AI 硬件对场景理解的深化。
在 AI 时代,摄像头和麦克风的界限正在模糊,它们本质上都是机器理解物理空间的传感器。
这种融合带来的改变是深远的。过去,我们把会议纪要看作一种行政负担,现在,通过 Wave 这样能“听懂”空间的设备,每一次激烈的讨论、每一个稍纵即逝的灵感,都被低成本地转化为可检索、可复用的数据资产。
这或许才是 Wave 最大的价值,它不仅治好了远程会议的“听觉障碍”,更重要的是,它正在试图把那张长长的会议桌,变成企业数字化转型的最后一块拼图。当 AI 能够真正“坐”上会议桌,听懂每一个人的发言时,它就不再只是一个工具,而是一名真正意义上的“硅基员工”。