先看视频:

这个确实是一个恰饭视频,那岩并没有弄明白这里的设计逻辑,最后变成一个买一送一的搞笑视频了。

为啥是两个唤醒词?

智能音箱的唤醒、误唤醒性能一直是一个很大的挑战,尤其是当时很多音箱平衡不好,存在很多误唤醒的情况下,唤醒词多一个,误唤醒的概率就多一倍,从这个角度来说,使用两个唤醒词是不合适的。

关于360音箱的唤醒词,前后讨论了比较长的时间,因为是360的音箱,所以一开始的倾向是“小安小安”,这是和品牌比较接近的,但是“安”这种鼻音发音对于唤醒、误唤醒不太友好,所以一直没定下来,继续讨论其他的方案。

最后经过和老周的讨论,老周直接给拍了两个唤醒词“小贝小贝”、“小宝小宝”,为啥是两个,还是这两个?因为小贝、小宝分别是他女儿和儿子的小名。

好吧,这下不纠结了,带着政治任务了,好在“贝”、“宝”都是爆破音,用作唤醒词还是比较友好的,所以从落地上没啥技术风险。

两个唤醒词怎么用?

智能音箱都是谁在用?应该做什么样的角色设定?

可能很多人不知道老罗也做过音箱,18年老罗发布了他的智能音箱产品-大卫和希瑞,只是很小众很多人不知道,这款音箱的发布会上,老罗有个产品创新:

在人物设定上,老罗说现在智能音箱最大的用户群体是单身的理工男,因此很多产品的语音设定很像“女仆”或者“女奴”,“听得其都起鸡皮疙瘩”。为此,这款产品有两男两女四个声音的四种人格设定,有的偏“职业”,有的偏“男/女朋友”。

这块其实和我想一块去了,但是基本认知是有偏差的。智能音箱最大的用户群体是单身的理工男这点并不认同。小众数码产品、甚至一些手办之类的,用户群体是单身理工男这个没问题,但是对于已经在亚马逊、谷歌那里充分验证,国内已经开始价格战,未来会充分普及的的智能音箱来说,不是!音箱多半是略显极客的男性购买,但是音箱是一个家庭设备,使用频度最高的一定是老人、孩子这些在家里待的事件最长的。这块通过我们合作伙伴的数据分析也验证了这一点。

加上在2015年我就做了儿童手表里的智能语音问答,在手表上的应用取得了很好的效果,对这点更是深有体会。

因此,在双唤醒词的设定上,我们确定了成人+儿童两个角色定位。

双唤醒词、双应答语

小贝小贝,对应甜美女声应答,成年人使用;

小宝小宝,对应可爱的童声应答,大人喜欢甜美女声,而对于五六岁的孩子来说,性别意识并不重,对同龄的声音更有亲切感。

专属儿童模式,精选儿童内容推荐

通过“小宝小宝”唤醒音箱时,自动进入儿童模式,内容运营团队针对不同年龄段儿童,精选定制化的音频内容与百科知识库,提供科学的儿童内容。儿童模式下还使用了白名单机制,只出白名单里的内容,避免不良内容对儿童的危害。

声纹唤醒,听的懂也能分的清

孩子喊“小宝小宝”直接返回儿童模式下的内容,如果孩子还是喊“小贝小贝”,则可以通过录入声纹,唤醒的同时直接通过唤醒词识别声纹,自动匹配进入儿童模式。针对其他家庭成员可以基于声纹的身份识别做个性化推荐。

和竞品对比有什么差异?

符合直觉,无感进出,灵活切换!

以天猫精灵为例,可以通过语音命令“进入儿童模式”切换成儿童模式,但是退出只能在APP重点的家长控制中退出。切换比较麻烦,本身使用音箱就是为了动口不动手,掏手机退出这个成本就高了。而且音箱不是手机、电视,家长怕孩子看坏眼睛,但是不怕孩子听坏耳朵,音箱搞个防沉迷实际上使用率极低,也算是自作多情、过度设计了。

相比之下,通过不同的唤醒词,或者基于当前对话的声纹匹配自动进入、退出儿童模式,整体交互完全无感,而且是符合直觉设计,喊一个小朋友“小宝”小宝自然是以儿童的方式来回复。喊一个大人“小贝”,小贝通过声纹听出来是一个小朋友,自然以一个大人对小孩子说话的口吻来对话、推荐内容,这种交互逻辑本来就是和生活之中对应的。

同龄交互,沟通欲望更强!

音箱上市后,一方面我们挑了一部分家里有孩子的公测用户做测试,大部分孩子尝试了小贝、小宝两种唤醒方式后,都更愿意和小宝沟通,这也符合我们一开始对孩子更乐意和同龄交互的认知。另一方面,我们在后台也对唤醒词做了人工的标注区分,确实大部分的孩子交互喊的都是“小宝”。

360在儿童智能语音问答上的探索

做音箱之前,我在负责360儿童手表产品,2015年立项360儿童手表5S,作为行业内第一款基于Android平台深度定制,将儿童手表从功能机、代入智能机的产品,在一开始就确认了智能语音交互的产品方向。于是拉通360搜索和人工智能研究院团队,在2015年开始智能语音交互系统的研发,前期一部分基于讯飞开放平台的能力,后续陆续替换成自研平台,最终在2016年5月发布的360儿童手表5系中,搭载了智能语音问答的功能。

后续这套语音问答系统在360大部分手表、儿童陪伴机器人、智能故事机等产品上落地。到2018年做智能音箱时,对整体系统进行了全新的重构。

做产品不能炫技,极客产品更应该将前沿技术大众化,去服务生活中最需要的人。智能音箱的双唤醒词虽然有些“意外”因素,但是本质上还是从三年前儿童手表产品上,对语音交互的理解和继承。