2015年负责新一代儿童手表产品的研发,落地智能语音问答,2018年负责360智能音箱的开发,做了360的语音云平台,2019年发布了边缘计算的产品360家庭安全大脑,做了视频的边缘计算。2021年开始在摄像机上力主研发端边云融合的推理框架AI LAB,几年时间从语音到图像,做了很多项目。
我一直有坚定的AI信仰,也在身体力行的推动AI的落地,然而在公司内部想推动达成共识并不容易,经常被问到AI有啥用,因此在2021年底,在360 IoT推进面向安防的场景化视频AI战略的分享,目的是帮助管理层在内的人员了解AI相关的基础知识,推进AI的战略落地。
分成多个章节分别整理,请参考:AI 系列分享
AI在安防领域的应用分析
人脸、人形、人体关键点检测
AI在安防场景的落地已经非常普遍,最常见的就是人车非得结构化检测,这里的核心是大场景、低算力、有遮挡、高实时性的人脸、人形检测能力,更好的平衡算法性能和实施成本。
极端的如下图的人脸、车辆检测场景。
人脸、人体的关键点检测是基础,目前主流竞品无论B端还是C端场景都是以此为核心,关键问题在于面向场景深度进行逻辑定制和模型优化,大幅提升准确度的同时降低误报率。
通过套用场景逻辑,配合外部传感器,可以将安防场景更加直观,在逻辑之上进行报警也能进一步降低误报。
图像后处理
通过AI对图像进行后处理,在很多场景均有应用。
去雨、去雾、去噪
全彩、遮挡消除
基于AI ISP的极黑光,本质上也是基于微弱的色彩,结合算法训练,脑补上更鲜艳的颜色。更极端的有测试夜视图像上色,监控遮挡移除。不过这里思考的是依靠算法脑补上去的信息对于讲究真实还原的监控场景是否有帮助?
图像增强、超分辨
针对安防图像的低码率压缩导致的图像马赛克、失真问题,图像增强和超分技术有很大的应用空间。
算力的平民化成为大趋势
以苹果的手机处理器为例,目前在制程工艺上,到了5nm已经进入瓶颈,但是在NPU的算力上仍然保持高速增长的态势。
现阶段可能还只是拍照时候的图像美化、拍抖音时的AI应用、技能等,未来手机端的算力会发挥更大的价值。
安防芯片的端侧算力爆发,硬件基础已经成熟
2018年的背景安博会上,安防芯片龙头海思其实已经全线AI化,收到海思的带动,其他厂商也有跟进,只是由于华为制裁以及连带的全行业芯片缺货,短期的AI化收到影响,相信在年后芯片短缺缓解之后,加量不加价的AI芯片会迎来大爆发。
端侧算力平民化已经达到消费电子批量落地的拐点,明年2-3美金、1T算力左右的SOC可以集中落地,视频AI战略的硬件基础已经成熟!
2美金左右,1T算力的芯片是家庭安防场景的核心
常见芯片AI化,推动家庭边缘算力发展
除了专门的AI芯片,常见的电视盒子、智能音箱等芯片,算力也会标配,相比之下更充裕的算力和硬件资源,可以进一步推动家庭边缘计算的发展,很快无论是小众的NAS、还是大众的电视盒子、智能电视等产品,AI能力都会成为标配。
端侧AI的核心:成本和性能的取舍
AI在嵌入式端落地的核心是如何在不损失精度的前提下,将模型压缩部署到嵌入式硬件中满足成本需求!
端侧AI的重点:混合量化推理
重点介绍这一部分的代表厂商,爱芯元智,因为主打AIISP,需要对大分辨率的图像进行处理,因此技术路线上智能走混合精度推理。
NPU+ISP=AISP
高动态、3D降噪等AI化处理,将AI处理融入到ISP流水线中
不同于目前的图像识别、检测等算法,ISP的图像处理必须使用原始分辨率,如果不做低精度,在现有的端侧处理器中无法支撑;
设计了INT8+INT4+INT2混合精度推理
以INT8为例,低精度量化就是将一个原本 FP32 的weight/activation 浮点数张量映射转化成一个 int8/uint8 张量来处理。
目前8-bit的低精度推理已经非常成熟,但是进一步降低到INT4甚至是INT2的具体效果有待研究验证。
某厂商在同等精度下的INT4量化推理资源占用对比
针对嵌入式设备来说,系统吞吐量和内存带宽不是瓶颈,核心瓶颈是占用的RAM和FLASH空间,同时在有限的算力下能够进一步降低系统延时,低精度或者混合精度推理就是唯一可选的落地方案。
场景定义摄像机
普惠算力的AI硬件+场景的规则化动态适配+AI模型的按需加载+丰富的场景化规则和模型市场+为场景优化的应用呈现是场景定义摄像机的核心,华为、萤石等产品虽然已经初具雏形,但是还在很初级的阶段。
AI的产品化分析
拉低使用门槛,复杂操作简单化
AI的核心能力是利用算法,将复杂的操作简单化、智能化,能否给操作带来简化是AI能力落地的核心。
下图是一个案例,之前没有专门拍工作照,一些活动需要背景透明的照片就从之前的照片里抠图。下图是几种抠图方式,由于头发和背景比较相似,因此在边缘部分不太好处理,作为非专业”设计师“的我,只会使用磁性套索,使用套索套出来的效果就比较感人。团队的专业设计师就可以使用套索+通道抠图的方式,效果就好很多。
但是基于AI的主体识别,自动完成抠图,在边缘细节上能够抠的比专业设计师还细腻,这种能够大幅降低门槛、减少操作复杂度的AI功能就是很好的产品。
所以AI产品能否将一些功能的使用门槛降低,将复杂操作简单化,就是这款产品能否成功的核心。
典型场景能够带来惊喜
AI要能够产生溢价,就需要带来一定的惊喜、惊艳。如下图,这是Photoshop中的风格迁移场景,我是冬天去的大理,通过风格迁移生成生成下雪、春天、夏天等效果,效果还是比较惊艳的。
当然这种的通用性还有一定的问题,如果我拿一个室内或者其他非典型场景的照片来套用做迁移,效果可能会非常差,但是在算法对应的典型场景里,能够带来一定的惊喜,这个产品就具备了成功的基础。
感知不强,但是方便贴心
如使用抖音发布视频时,抖音会使用本地算法分析视频内容,在发布之前自动生成对应的推荐标签,用户可以自己点击对应匹配的标签即可,避免了输入,或者不知道输入什么好。
而且这种标签的选择确认后,也能进一步帮助推荐算法做关联推荐。
类似的案例还很多,比如iPhone的智能叠放、国产手机负一屏的智能小组件,都刻意根据一些场景规则展示相关联的信息。
突出重点,避免骚扰
如2019年做的家庭大脑,核心逻辑是基于边缘算力做视频的结构化分析,将家庭安防事件做分级,需要关注的事件发送通知形成信息流,减少大量无效安防事件对用户的打扰。
iPhone的通知栏消息也有分类功能,有时效性的重要信息,也有一些非重要的信息直接变成摘要,通过算法对消息进行分级分类,能够极大的提升用户体验。
重交互、强感知、易于使用
这是最期望的功能,AI的功能能够让用户强感知、重交互,抖音上很多AI特效就是很好的案例,能够衍生很有意思的玩法,即使是我妈这样的老年人都乐于去使用。
限制场景的一致性或者控制预期是产品化的关键
深度学习算法的表现和对应场景的训练数据强相关,而且在某些不成熟的领域,甚至表现不如传统算法。
因此怎样通过产品交互设计将使用场景限制在算法的典型场景内并控制好预期是产品化的关键。
如下图,做音箱的时候,百科问答式最高频的问题,但是通过大模型的生成的回答反而远不如传统的实现方式。如果这类场景较多,就不能贸然将这种算法落地,或者必须将算法限制在它成熟的场景内。
下图的图像生成也一样,生成海浪拍打在石头上很惊艳,但是一个人在海边漫步就有点恐怖了。
AI和硬件产品结合的典型案例
学习机就是结合比较好的一类产品,通过翻转镜头、反光镜,将图像OCR识别、语音交互、语音理解、语音合成很好的结合在一起,局限在学习相关的垂直场景,配合专业的内容分类和关联推荐,可以达到很好的使用效果。
核心技术成熟,体验提升明显,场景需求明确。
家庭安防场景的AI落地更有挑战
下图是老款摄像机的人脸、人性检测情况,端侧无算力的情况下,因为没有端侧选优,画面变化上报云端识别的识别率很低,云端AI算法能够发挥的价值极其有限。
当前AI的在家庭安防落地的主要问题
重功能,轻场景
多数产品只是泛泛的做了人形、人脸检测,部分做了宠物等检测,缺乏具体的场景细化,用户感知度低。
对设备无约束,算法精度差
因为场景不明确,往往任由用户摆放,采集数据差异大,和模型匹配度低,算法精度也差。
重算法,轻规则
算法需要在规则中调用,多数产品只注重算法功能,忽略场景的细化规则。
设备价格限制,端侧算力差
家庭摄像机200元左右的价位,端侧无算力或者只有极低算力,抽帧上云识别精度差,端侧无法运行大模型。
消费电子领域整个视频AI场景仍然处于初级阶段,行业内普遍做的都很差,相比扫地机还有很多结构创新空间,而安防、门铃、记录仪等产品硬件很难差异化,场景化视频AI是必须打造的核心竞争力!
评论