2021 世界人工智能大会走到了第四年,给人最明显的感受就是 AI 已经慢慢从酷炫的概念,逐渐被应用到了更多的场景中。化有形于无形,润物细无声,不知不觉中人们与 AI 的交集已经越来越多。
不过,就如马化腾在开幕式中提到的“对 AI 的未知仍然大于已知”,在考虑到未来“通用 AI”成熟后面临的道德摇摆问题之前,可能先要去解决的是路径上的技术难题。而在这次的 AI 大会上,腾讯带来的策略协作型 AI 王者绝悟,也许能够成为未来通用 AI 探索之路上的一个“急先锋”。
王者绝悟的“武林高手”晋升之路王者绝悟,实际上是王者荣耀与腾讯 AI Lab 在游戏场景下研究的成果。
用通俗一点的话来理解“策略协作型 AI”,“策略”指的是 AI 能够通过获取到的信息,分析局势优化策略,做出更有利于获胜的行为;“协作”指的是操作不同英雄的多个智能体能够互相配合,协同推进博弈。
一旦明白了所谓的“策略协作型 AI”的定义,也许就能理解为什么在 8 日下午的“职业人气选手 VS 王者绝悟”表演赛上,王者绝悟能够表现如此出色 —— 团战越塔收割,完美撤退;以一敌众,掩护队友撤退,稳固优势等等。
2021 世界人工智能大会
“职业人气选手 VS 王者绝悟”表演赛现场
有趣的是,王者绝悟并非一开始就这么“聪明”。事实上,回顾它的发展历程,特别像经典武侠小说里,一个武林高手的成长故事。
在 18 年面世的时候,王者绝悟通过监督学习,模拟了职业选手的操作,达到了顶尖业余水平。19 年,它开始往深度强化学习课题上深入,达到了职业电竞水平。
好比一个初出茅庐的毛头小子,开始只能靠跟着师傅,“模仿”招式学习武功。但毕竟只是“模仿”,运气好学到的是“九阳神功”,运气不好可能就只能学到个“葵花点穴手”。而到了深度学习阶段,他决定不再模仿,而是开始自己修炼,逐渐摆脱了那些“套路化”的招式。
到了 2020 年,王者绝悟又通过课程化自我博弈,从单个或者固定英雄组合,高效地扩充到更多英雄组合的学习。
而在腾讯 AI Lab 高级研究员、王者绝悟 AI 模型负责人邱福浩描述的王者绝悟最新版本中,它进一步引用了多轮组合博弈和层次化的强化学习算法。也就是说,现在王者绝悟不仅能和你直接战斗,甚至在战斗之前的 BP 环节,就已经开始思考策略,并且战局中也能够持续调整策略来应对各种局面。
用邱福浩的来说,如今的王者绝悟,已经达到全英雄职业电竞水平。
王者荣耀与腾讯 AI Lab 团队成员现场答疑
但是,就像改变世界的是“武道”,不是“武术”。王者绝悟在游戏场景、电竞行业中都有着直接、有效的帮助。但是,这还不足以称其为“通用 AI 路径上的一个急先锋”。
真正值得一提的,是王者绝悟背后所代表的技术发展浪潮。
“人工 + 智能”向自主智能的进化现如今,AI 对于各行各业的赋能,已经不用多说,从上下班打卡的人像识别、到陪玩游戏的语音助理… 其价值已经被大家广泛认知并认可。
但是,AI 的开发、训练、调试的过程中,如果完全放到现实中去进行,存在成本高、风险大的问题。因此,游戏是最好的虚拟化场景。从简单到复杂、从低级到高级,AI 研究的不同历史时期,都能找到对应的、不同复杂度的游戏作为测试相关技术主要难题的技术试验场。
2016 年,AlphaGo 一战成名。作为许多年前的“第一批 AI 网红”,AlphaGo 的技术逻辑并不难理解:通过“走棋网络”模仿棋手,然后借助树搜索,分析战况,推演未来的每一步棋的变化,接着凭借估值网络,分析局势,判断胜率,最后做出行动。
AlphaGo 对阵李世石
但是,AlphaGo 仅仅是单体智能决策,而且围棋是一个规则明确、完全信息透明的单人游戏。如今,真正在各个场景下发挥重大应用价值的,是技术相对更加复杂的多智能体决策,这也就对测试环境提出了更高的要求。
简而言之,就是要模拟出一个工厂之类的环境,测试如何让工厂里的各个机器人在不吵架(或者可以吵架)的前提下,既完成自己的小目标,也完成好组织要求的“装好一辆汽车”的大目标。
现实情况下,不可能天天给科学家们找几家工厂来实验。于是,谷歌、Facebook、特斯拉等公司,开始直接或者让投资组合下的公司开启多智能体 AI 在多人竞技游戏环境下的实验,而在中国,王者荣耀与腾讯 AI Lab 一同推出了王者绝悟。
不过,为什么偏偏是王者绝悟;或者说,为什么说王者荣耀能成为一个绝佳的研究环境呢?
“王者荣耀的游戏机制具有很强的多人协作性、在不对称信息下博弈空间极大、协作竞技性很强,非常适合使用多智能体人工智能技术来提高生产和测试效率。此外,王者荣耀产品中的视野非全局性,敌我双方的实时位置、状态能信息非理想透明,游戏测试环境中能提供丰富的数据,模拟的场景,为研究模仿学习提供了保障;再者,天然的层次结构,在高层次对应大局观,在低层次中对应了微操,适合层次强化学习研究。”腾讯互动娱乐天美 L1 工作室总经理、王者荣耀执行制作人黄蓝枭说到。
2020 年,王者绝悟正式与玩家“见面”
与 AlphaGo 相比,王者绝悟在技术复杂度与应用价值上,都有了显著的提升。据了解,王者绝悟在一局里有高达 10 的 20000 次方种操作可能性,整个宇宙原子总数也只是 10 的 80 次方。
面对这么复杂的决策,王者绝悟这几年飞速成长,训练效率非常高,一天的训练强度高达人类 440 年。
表面上,选手和王者绝悟打了一场电竞表演赛。但是实际上,王者绝悟背后,是 AI 从单体智能交互,到与多智能体交互的发展变化,这是其一。其二,是 AI 成长模式的进化:人工干预开始减少,机器智能对于环境的自主学习能力大大增强,从模仿学习,到深度学习,从“人工 + 智能”向自主智能转化。
如今,王者绝悟已经有了几个兄弟,可以应用于足球、FPS、RTS 游戏,并且都达到了国际领先水平,其可迁移性得到了论证。此外,当王者绝悟从 0 到 1 去学习进化,并发展出一套合理的行为模型之后,其中的方法和经验,也能够在其他医疗、制造、无人驾驶等场景中得到运用。
以上种种,一方面,代表着人们距离多智能体的大范围实际应用在技术层面又向前走了一步;另一方面,也意味着“通用人工智能”在技术路径上,也不再那么遥不可及。这才是王者绝悟背后真正的价值所在。
2021 世界人工智能大会现场,王者绝悟展区:观众围观王者绝悟演示
【结束语】1943 年,图灵制造了一个叫做“巨人”的机器,用于破解德军的密码电报,标志着 AI 的诞生。2012 年,华裔科学家吴恩达展现了一个超强的神经网络,在自助观看千万张图片之后,识别图片内容,开启了 AI 的新时代。
可以发现,AI 与人类对战,并不是其诞生的理由;AI 战胜人类,也不是其诞生的目的。这是人们在走向通用 AI 上的一条“捷径”,让人们以一种更低成本、更安全、更有效的方式走向那个科幻般的未来。
王者绝悟的多智能体博弈和自生长能力,是通用人工智能(AGI)成长路径上的关键技术节点。在如此复杂的虚拟环境下,如果 AI 能够表现出较高的智能水平,那么,在真实世界中的应用前景就更值得期待了。
当然,在这其中,王者绝悟并不是第一个,也不会是最后一个。但是,数字时代的潮水还在向前奔流,每一朵大的浪花都值得铭记。