业界首次且唯一实现手机「免唤醒」词语音交互。用户无需说出唤醒词(如“Siri”、“Hey Google”),嘴靠近手机底部即可直接说出语音指令和助手对话,快捷、隐私、自然。免唤醒语音交互特性自2022年随荣耀旗舰折叠屏 Magic Vs 发布以来,一直作为荣耀旗舰手机 Magic 系列和折叠屏 Magic V 系列的卖点特性,发货量超百万。
产品规划:作为这个产品特性的 Owner,我从人机交互学术领域调研发现原型并进行产品价值和可行性分析,立项并联合公司各部门(音频算法、芯片、软件、智慧)和高校进行深度合作和产品落地,以及扩充语音助手的功能范围。
UX 设计:负责特性完整的用户体验设计,包括用户自然交互行为表达的定量分析和定义、语音交互状态逻辑和视觉表达的优化、语音交互新增功能点的界面设计等。
在智能手机上,语音交互一直被认为是重要且有巨大潜力的。但现实则是很少会有用户使用语音助手。除了当前语音交互所支持的功能和场景较少外,我们认为当前的语音交互方式本身也严重限制了用户的使用。目前所有手机上的语音助手都需要通过「唤醒词」来激活助手(如“Siri”、“Hey Google”),其缺点是显而易见的。首先,唤醒词存在 social acceptability 的问题,容易引起他人的注意和暴露隐私;其次,每次使用助手时都需要经过唤醒词导致交互效率比较低。
因此,我们希望能在智能手机上实现「免唤醒语音交互」,在以下3个方面带来体验的提升和突破:
我们预期这种新颖的语音交互技术能够给用户带来不同的体验,提高手机上语音助手的使用频次,并给更多的助手功能打开窗口。
免唤醒语音交互是一次典型的产研合作和跨部门联合研发的案例。
在对齐免唤醒语音交互的理想体验后,我们开始推导其可能的实现原理和技术路径。其中,识别的准确性、always-on 低功耗、不增加额外传感器是最重要的三项指标。第一反应肯定是利用手机内置的惯性传感器来检测用户将手机移动到嘴边的动作和姿态,例如 Apple Watch 的 Raise to Speak。但经过简单实验和分析后,我们发现用户使用手机时的动作多样且不确定性强,仅依靠惯性传感器会造成大量的误识别。
因此,我们将目光投向相关的学术领域,并发现在一篇人机交互的论文中,研究者们发现使用手机内置的麦克风本身即可识别出声音信号相较其距离的远近。具体地,研究者们对声音信号进行采集和分析,发现一种为 pop noise 的信号特征在距离不同麦克风远近时表现出明显的差异。Pop noise 是指说话产生的气流经过麦克风时而产生的爆破音,表现为音频信号明显幅度的变化。研究者们在频域上检测 pop noise 并通过一个神经网络识别其特征来区分用户说话距离麦克风的远近。因此,我们通常也称之为气息唤醒。
我们与高校研究者取得联系,获取并改进 demo 在我们的实际功能场景中进行测试,同时验证体验和实现的可行性。
从 demo 和理论到实际落地往往有巨大的工作量,免唤醒语音交互的落地横跨音频、芯片、软件3大部门。
音频. 实现和优化从音频信号检测说话距离的识别算法,需要在保证识别准确率的前提下尽可能地降低每秒钟的计算量。
芯片. 将检测算法移植到低功耗芯片上,以实现全天候24小时实时检测的目的。
软件. 改造语音交互的底层通路,使其支持跳过激活态直接收音并响应。
用户自然交互行为表达的定量分析和定义. 我们通过用户实验来理解和建模用户将手机移动到嘴边说话的交互动作,同时作为研发的输入以取得识别准确率和交互自然性之间的平衡。
引导界面和助手形象表达的优化. 在界面设计上,免唤醒语音交互并不需要很多显性的新设计。其中最关键的一点在于如何引导用户「知道并开始使用」这个新特性,因此我们在手机语音助手所有的触点(常规方式激活、设置里等)新增了免唤醒语音交互的可视化引导。此外,我们也结合系统视觉风格的升级,重新设计了助手的形象和各个状态的表达。
技术上. 最终的结果超过我们最初的预期,免唤醒的识别准确率甚至比普通的唤醒词识别还要高2个百分点。最主要的原因是普通的语音唤醒经常会收到周围环境噪声的影响,而我们的免唤醒交互因为检测原理上的独特性在很大程度上规避了这一点。
用户体验上. 得益于免唤醒语音交互在交互效率、自然性和接纳性上的体验提升,荣耀手机的智能助手的用户使用率提升了22%,且免唤醒特性的用户持续使用率达到了76%。
商业上. 免唤醒语音交互成为历代荣耀旗舰手机 Magic 系列、折叠屏 Magic V 系列、以及系统 Magic OS的卖点特性,且持续在发布会上宣传。
[1] 官网::https://www.hihonor.com/cn/shop/product/10086498408796.html/