2015年负责新一代儿童手表产品的研发,落地智能语音问答,2018年负责360智能音箱的开发,做了360的语音云平台,2019年发布了边缘计算的产品360家庭安全大脑,做了视频的边缘计算。2021年开始在摄像机上力主研发端边云融合的推理框架AI LAB,几年时间从语音到图像,做了很多项目。

我一直有坚定的AI信仰,也在身体力行的推动AI的落地,然而在公司内部想推动达成共识并不容易,经常被问到AI有啥用,因此在2021年底,在360 IoT推进面向安防的场景化视频AI战略的分享,目的是帮助管理层在内的人员了解AI相关的基础知识,推进AI的战略落地。

分成多个章节分别整理,请参考:AI 系列分享

深度学习的特点决定了当前人工智能的能力上限

表达能力限制

在深度学习中,一切都是一个向量,模型仅仅是将一个向量空间映射到另一个向量空间的简单连续几何变换链。适合表征感知模型,无法表征理解、思考、创造等认知模型。

数据和算力依赖

深度学习无理解输入数据,因此需要大量训练数据和运算资源来进行训练,无法像人类一样增量学习,小样本学习,且整个过程是一个黑盒,不可解释和控制,并没有举一反三的能力。

稳定性问题

人类的学习模式会基于先验知识,不会出现诡异错误。深度学习模型学习得到的分类界面非常容易受噪声影响。

通过拍摄一张熊猫的图片并添加一个「长臂猿」梯度,我们可以得到一个神经网络,将这只熊猫归类为长臂猿。在无人驾驶等场景下,这些错误是致命和难以接受的。

深度学习的成功之处就是在给定大量人工注释数据的情况下,使用连续几何变换将空间 X 映射到空间 Y 的能力。做好这件事对于每个行业来说都是一件改变行业游戏规则的事儿,但它离人类级别的 AI 还有很长的路要走。

机器学习的发展趋势

强化学习:从AlphaGo看强化学习的威力

围棋有3的(19*19)次方共有10的170次方种可能性,这个数字比整个宇宙中的原子数10的80次方都多,没有办法穷举出围棋所有可能的结果。AlphaGo系统的关键是,将围棋巨大无比的搜索空间压缩到可控的范围之内。

策略网络:基于16万人类棋谱数据,通过监督学习+自我对弈强化学习,学习走子方法

价值网络:基于3000万次自我对弈产生的大量数据集,训练价值网络,评估棋面局势,预测某个棋面局势下赢棋的概率。

2016年3月4:1击败世界冠军李世石!

监督学习+自监督强化学习+围棋领域人工特征+策略网络和值网络+蒙特卡罗搜索和rollouts

2017 年 10 月,DeepMind 公开了最新版本的 AlphaGo Zero,此版本在与 2016 年 3 月版的 AlphaGo 的对阵中取得了 100-0 的战绩,并且,在训练中未使用任何手工设计的特征或者围棋领域的专业知识,仅仅以历史的棋面作为输入,其训练数据全部来自自我对弈。

自监督强化学习+无人工特征+单一网络+蒙特卡罗搜索

强化学习在策略类场景中有巨大的优势

迁移学习

迁移学习是指当在某些领域无法取得足够多的数据进行模型训练时,利用另一领域数据获得的关系进行的学习。

迁移学习可以把已训练好的模型参数迁移到新的模型指导新模型训练,可以更有效的学习底层规则、减少数据量。

目前的迁移学习技术主要在变量有限的小规模应用中使用,如基于传感器网络的定位,文字分类和图像分类等。

未来迁移学习将被广泛应用于解决更有挑战性的问题,如视频分类、社交网络分析、逻辑推理等

生成式对抗网络(GAN)

训练一个生成器(Generator,简称G),从随机噪声或者潜在变量(Latent Variable)中生成逼真的的样本,同时训练一个鉴别器(Discriminator,简称D)来鉴别真实数据和生成数据,两者同时训练,直到达到一个纳什均衡,生成器生成的数据与真实样本无差别,鉴别器也无法正确的区分生成数据和真实数据。

以画水墨画为例,可以将笔法分解,随机生成,设计算法鉴别每一步的输出是与要临摹的水墨画的相似度是更接近还是更远离,给出反馈。

GAN具有广泛的应用场景

GAN在视频生成领域的应用

大火的换脸应用,就是基于GAN技术。可以达到以假乱真的效果。

GPT-3开启AI大模型时代

2020年5月,OpenAI发布了GPT-3,GPT-3是一个统计语言预训练大模型模型

是一个无监督模型,包含超过570GB高质量数据集,模型参数1750亿。训练成本460万美元。

GPT-3几乎可以完成自然语言处理的绝大部分任务,例如面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等等。

GPT-3在NLU领域达到了目前的最佳性能

大模型现阶段在NLU领域取得了重要突破,下图是基于阿里的大模型做的文本续写生成测试,相对以往的技术已经有了一个质的提升,相信在未来一两年,大模型会迎来一个更大规模的爆发。

从“大炼模型”到“炼大模型”

随着大模型威力的逐步展现,更多企业开始从从“大炼模型”到“炼大模型”。

大模型的挑战:数据问题

大模型的挑战:算力成本问题

从文本到图像,CV等跨领域模型落地

大模型的商业化价值和落地场景

华为宣传大模型应用场景如下:

视觉预训练CV大模型,在华为内部以及其他合作项目上,有100+成功落地,这些方向涵盖了各行各业,包括工业视觉、网络审查、零售商超,以及医疗等场景,都获得了一些相较于之前不使用预训练大模型更高的结果。在某些场景上,比如刚才提到的遥感影像分割,我们通过设计针对遥感影像的预训练算法,在没有增加额外标注代价的情况下,达到了最多12%的分割精度提升。

阿里则宣传用于服装设计等场景,现阶段尚未展现出巨大的场景突破,大模型能否大力出奇迹,量变带来质变?数据量的增加、参数量的增加最终能够带来什么样的通用性?这个还有待观察。随着投入企业越来越多,沿着已经看到希望的技术路线继续增加数据、累计算力,相信很快会看到质变的那一天。