解密 | “双11”晚会上,阿里云人工智能ET的魔术秀

2022-05-24

11月10日晚,在“双11”晚上,除了国内外各路明星捧场,有一位特别的嘉宾,给这场以“买买买”为主题的晚会上增加了科技色彩。它就是阿里云推出的人工智能ET

ET 是谁?

今年8月的云栖大会上,阿里云宣布推出人工智能ET,它从小Ai演化而来。当时作为阿里云旗下的首款人工智能机器人,小Ai在4月《我是歌手》的总决赛上,准确预测了最终的歌王得主。据了解,ET背后采用的是大数据AI技术,基于阿里云强大的计算能力,目前已经具备智能语音交互、图像/视频识别、交通预测、情感分析等技能。当时在现场,ET展示了模仿马云说话的技能。阿里云首席科学家周靖人表示,ET优势不仅仅单纯陪人说学逗唱,更多体现在全局洞察和实时决策上。

ET 魔术秀的背后

“双11”晚会现场,ET先是扫描现场5名观众的面部。然后,主持人让观众依次随机切牌,拿到黑色牌的观众转身面向后方。其中有4名观众转身后,ET再次进行扫描。最后ET 得出每位观众手拿的牌。

对于这个魔术秀,阿里云官方也即时进行了解密。

1. 这个魔术是真的吗?

完全真实。由人工智能ET真实的算出来。

2. 魔术的成功概率是多少?

从32张牌中取5张进行随机排列,全部的可能性为P(5,32)=32*31*30*29*28=24165120,所以成功率为1/24165120。

而通过一系列的魔术环节设计,使得最终在32种可能性里进行计算。ET要通过摄像机来自行识别谁转身来获得关键信息,并算出最终的唯一结果。

3. 这次魔术秀背后的原理是什么?

事实上,这是一个经典的魔术,只是这次由阿里云人工智能魔术师ET来表演。

32张扑克牌以数学方程式De Bruijn 序列排列,其原理很复杂,但结论很简单,从这样的序列中任意取出相邻n个数,它们的二进制排列一定不相同。这就意味着,ET只需将5名观众手上的黑牌和红牌(对应二进制里的0和1)按顺序出来,就只有一个唯一的解。

简单来说,将牌事先按顺序排列,不管怎么切牌,排序组合的可能性缩减到32种,然后根据下面这张图表寻找对应的排列形式,答案就呼之欲出了。

对应排列形式如下图:

换句话说,如果你能背熟这张表,并且在知道5张牌那几个是黑色后,几秒内报出某个序列的花色和牌号。你也可以成为魔术师。

4. 这个魔术应用到了阿里云ET哪些人工智能的技术?

A 图像识别

ET能够实现对通用图片的识别,可以检测出图片中的具体的物品以及所在图片的位置区域。现已经支持水果、蔬菜、常见日用户、美食、运动器械、交通工具、植物、动物等百种以上物体的识别检测能力。

比如ET在魔术中识别出华少手中拿了扑克牌即用到了这一技术。

在场景识别方面,ET可以判断是属于室内、室外、自然风景或者其他场景;

在动物识别方面,ET能判断这些图片中特定动物的位置信息以及置信度同时返回每个位置的动物的相关种类,支持上百种动物的识别。

ET背后的阿里云图像识别技术采用了世界领先的深度学习技术,同时结合了其他机器学习的一些算法,使得以上功能准确度均达到95%以上

B 智能语音交互

ET的智能语音交互基于语音识别、语音合成、自然语言理解等技术,实现了“能听、会说、懂你”。

比如在与华少的交流中,ET不仅能“听懂”华少的话并在屏幕下方实时打出字幕,还能给出相应的回复,对答如流。不同于其他语音识别技术,ET还能够结合演讲的上下文对之前识别的错误进行修正。

比起各种实验性的技术数据来说,阿里云更重视将高端技术的工业级应用引入ET。如,ET实现了BLSTM(双向长短时记忆神经网络)算法的第一个工业级应用,帮助YunOS系统在IoT设备上轻松实现了人和设备的自然交互。

BLSTM算法是深度学习中的一种,一般的深度学习算法只能看到上下文的一点点,BLSTM理论上可以看到无穷远的上下文,所以可以更好的理解人类的语言。但这就对单位时间内的计算量要求很高,阿里云飞天为此提供了强力支持。

C 人脸识别

阿里云ET的人脸识别技术已经覆盖了人脸检测、器官轮廓定位、人像美化、性别年龄识别、1对1人脸认证和1对多人脸识别等多个方向,用机器学习的方法,包括卷积神经网络、Supervised Descent Method等,实现了高精度和高效的技术,人脸识别在LFW上识别率为99.5%。

比如在观众抽取扑克牌时,ET已经完成了对5位观众的面部识别,并利用人脸算法建立了器官轮廓定位,以便之后识别出是否有人转身。基于此,ET能够轻松识别出黑牌观众转身的动作,准确报出5名观众的手牌。

基于这些业内领先的技术,阿里云将ET的能力对外输出。在人脸方面,可提供多样化的云服务和手机客户端SDK支持,实现人像检测、人脸美颜美妆、性别年龄表情识别、VIP识别、人脸认证、安防检测等多种功能。

5. 阿里云人工智能ET在完成这个魔术中需要克服哪些问题?

整个过程中需要ET要具备高精确度、高实时性的视频识别和语音能力,并用人类的语言和主持人沟通交流。因直播环境受到场地、灯光、音效的影响,语音识别、视频识别都会受到很大考验。

6. 阿里云是如何在人工智能领域进行布局,并实现突破的?

阿里云人工智能ET代表的是阿里云语音识别、语音合成、自然语言理解、实时图像识别、机器学习的综合技术。这些技术的底层都依赖于深度学习算法以及大规模计算能力。一套复杂算法模型的训练往往需要千亿级别的样本数据,这就对背后的计算能力提出了很高的要求。

阿里云的飞天操作系统为ET提供了前所未有的计算能力。阿里云首席科学家周靖人领导的人工智能研究机构iDST为ET配备了全面的算法库,以推动ET在多个领域不断进化。

7. 阿里云人工智能ET还能做什么?

借助深度神经网络等机器学习技术,阿里云人工智能ET已经具备利用数据为一整座城市提供思考和决策的能力,目前,杭州政府联合13家企业,为这座拥有2200多年历史的城市,安装了一个人工智能中枢——杭州城市数据大脑。在杭州萧山区的部分路段的初步试验中,城市大脑通过智能调节红绿灯,车辆通行速度最高提升了11%。

另外,阿里云人工智能ET在今年4月份湖南卫视《我是歌手》的决赛中,在直播现场成功预测了李玟夺冠。

在其他领域,ET已经开始担任法庭书记员、超级交通警察、影视投资经理、客服等角色。

您好!请登录

点击取消回复