先看视频:
这个确实是一个恰饭视频,那岩并没有弄明白这里的设计逻辑,最后变成一个买一送一的搞笑视频了。
为啥是两个唤醒词?
智能音箱的唤醒、误唤醒性能一直是一个很大的挑战,尤其是当时很多音箱平衡不好,存在很多误唤醒的情况下,唤醒词多一个,误唤醒的概率就多一倍,从这个角度来说,使用两个唤醒词是不合适的。
关于360音箱的唤醒词,前后讨论了比较长的时间,因为是360的音箱,所以一开始的倾向是“小安小安”,这是和品牌比较接近的,但是“安”这种鼻音发音对于唤醒、误唤醒不太友好,所以一直没定下来,继续讨论其他的方案。
最后经过和老周的讨论,老周直接给拍了两个唤醒词“小贝小贝”、“小宝小宝”,为啥是两个,还是这两个?因为小贝、小宝分别是他女儿和儿子的小名。
好吧,这下不纠结了,带着政治任务了,好在“贝”、“宝”都是爆破音,用作唤醒词还是比较友好的,所以从落地上没啥技术风险。
两个唤醒词怎么用?
智能音箱都是谁在用?应该做什么样的角色设定?
可能很多人不知道老罗也做过音箱,18年老罗发布了他的智能音箱产品-大卫和希瑞,只是很小众很多人不知道,这款音箱的发布会上,老罗有个产品创新:
在人物设定上,老罗说现在智能音箱最大的用户群体是单身的理工男,因此很多产品的语音设定很像“女仆”或者“女奴”,“听得其都起鸡皮疙瘩”。为此,这款产品有两男两女四个声音的四种人格设定,有的偏“职业”,有的偏“男/女朋友”。
这块其实和我想一块去了,但是基本认知是有偏差的。智能音箱最大的用户群体是单身的理工男这点并不认同。小众数码产品、甚至一些手办之类的,用户群体是单身理工男这个没问题,但是对于已经在亚马逊、谷歌那里充分验证,国内已经开始价格战,未来会充分普及的的智能音箱来说,不是!音箱多半是略显极客的男性购买,但是音箱是一个家庭设备,使用频度最高的一定是老人、孩子这些在家里待的事件最长的。这块通过我们合作伙伴的数据分析也验证了这一点。
加上在2015年我就做了儿童手表里的智能语音问答,在手表上的应用取得了很好的效果,对这点更是深有体会。
因此,在双唤醒词的设定上,我们确定了成人+儿童两个角色定位。
双唤醒词、双应答语
小贝小贝,对应甜美女声应答,成年人使用;
小宝小宝,对应可爱的童声应答,大人喜欢甜美女声,而对于五六岁的孩子来说,性别意识并不重,对同龄的声音更有亲切感。
专属儿童模式,精选儿童内容推荐
通过“小宝小宝”唤醒音箱时,自动进入儿童模式,内容运营团队针对不同年龄段儿童,精选定制化的音频内容与百科知识库,提供科学的儿童内容。儿童模式下还使用了白名单机制,只出白名单里的内容,避免不良内容对儿童的危害。
声纹唤醒,听的懂也能分的清
孩子喊“小宝小宝”直接返回儿童模式下的内容,如果孩子还是喊“小贝小贝”,则可以通过录入声纹,唤醒的同时直接通过唤醒词识别声纹,自动匹配进入儿童模式。针对其他家庭成员可以基于声纹的身份识别做个性化推荐。
和竞品对比有什么差异?
符合直觉,无感进出,灵活切换!
以天猫精灵为例,可以通过语音命令“进入儿童模式”切换成儿童模式,但是退出只能在APP重点的家长控制中退出。切换比较麻烦,本身使用音箱就是为了动口不动手,掏手机退出这个成本就高了。而且音箱不是手机、电视,家长怕孩子看坏眼睛,但是不怕孩子听坏耳朵,音箱搞个防沉迷实际上使用率极低,也算是自作多情、过度设计了。
相比之下,通过不同的唤醒词,或者基于当前对话的声纹匹配自动进入、退出儿童模式,整体交互完全无感,而且是符合直觉设计,喊一个小朋友“小宝”小宝自然是以儿童的方式来回复。喊一个大人“小贝”,小贝通过声纹听出来是一个小朋友,自然以一个大人对小孩子说话的口吻来对话、推荐内容,这种交互逻辑本来就是和生活之中对应的。
同龄交互,沟通欲望更强!
音箱上市后,一方面我们挑了一部分家里有孩子的公测用户做测试,大部分孩子尝试了小贝、小宝两种唤醒方式后,都更愿意和小宝沟通,这也符合我们一开始对孩子更乐意和同龄交互的认知。另一方面,我们在后台也对唤醒词做了人工的标注区分,确实大部分的孩子交互喊的都是“小宝”。
360在儿童智能语音问答上的探索
做音箱之前,我在负责360儿童手表产品,2015年立项360儿童手表5S,作为行业内第一款基于Android平台深度定制,将儿童手表从功能机、代入智能机的产品,在一开始就确认了智能语音交互的产品方向。于是拉通360搜索和人工智能研究院团队,在2015年开始智能语音交互系统的研发,前期一部分基于讯飞开放平台的能力,后续陆续替换成自研平台,最终在2016年5月发布的360儿童手表5系中,搭载了智能语音问答的功能。
后续这套语音问答系统在360大部分手表、儿童陪伴机器人、智能故事机等产品上落地。到2018年做智能音箱时,对整体系统进行了全新的重构。
做产品不能炫技,极客产品更应该将前沿技术大众化,去服务生活中最需要的人。智能音箱的双唤醒词虽然有些“意外”因素,但是本质上还是从三年前儿童手表产品上,对语音交互的理解和继承。
评论