5 月 24 日消息,乌镇围棋峰会进入第二天论坛环节。昨天,AlphaGo 取得了与柯洁对阵的首场胜利,再一次展示了人工智能在围棋领域的非凡实力。今天,DeepMind 创始人杰米斯·哈萨比斯(Demis Hassabis)和 AlphaGo 团队负责人 Dave Silver 便对外讲述了 AlphaGo 研发背后的故事。
DeepMind 于 2010 年在伦敦成立,2014 年被谷歌以 4 亿美元收购,目前有 200 多名员工。哈萨比斯说,DeepMind 相当于人工智能的阿波罗计划,希望打造新的研发科学的方式。
所以,DeepMind 所有的研究内容都围绕智能。大致分为两个步骤:一是要攻克智能,真正的掌握智能;二是用智能去解决问题。
如何实现这样的目标?DeepMind 在努力打造一台通用型的学习系统。在 DeepMind 的所有算法中,都有一个学习的机制,而不是预设的系统。
通用型的学习系统最大的特点是可以举一反三,一个算法可以做一系列的事情。这很接近人类的大脑,从一个任务中学习到的经验,可以应用到其他事情中去。
目前,绝大多数机器都无法做到这点,DeepMind 希望能够打造出这样的能力。
Deepmind 创始人杰米斯·哈萨比斯(左)
哈萨比斯举了一个例子,上世纪 90 年代,IBM 发明的深蓝系统(Deep Blue)曾打败了国际象棋冠军加里·卡斯帕罗夫(Gary Kasporov)。但这并不是一个通用型学习系统的例子,深蓝是一种弱人工智能,它通过机器暴力搜索,来搜索研发人员预设的数据。
所以,深蓝不能说是一个聪明的机器,只能说背后的编程者很聪明。
那 DeepMind 在做的强人工智能是什么样子?简单概括来说,机器需要掌握观察和行动两个技能。假设有一个智能体,当它获得一个目标信息,它首先需要去观察自己所处的环境,这个环境可以是真实环境或者是虚拟环境,然后通过视觉、听觉,甚至是感觉去熟悉环境。
然后就设定一个想法,针对环境去决定当下应该采取什么样的行动来实现目标。看似简单的两个步骤,背后却涉及了极其复杂的算法和原理。
为什么 AlphaGo 要下围棋?
回到 AlphaGo,哈萨比斯和他的团队为什么选择围棋,而不是象棋或者其他棋类?哈萨比斯表示,围棋对计算机来说是最困难的,其复杂程度让穷举搜索都难以解决。
对机器来说,围棋的困难主要在两方面:一是,机器无法写出评估程序来决定谁赢了;二是,围棋是一种直觉性的比赛。
输赢的判断对比赛来说非常重要,但是围棋不像象棋,吃掉对方的 “帅” 或者 “将” 即可获胜,这也导致围棋的搜索空间非常庞大。
围棋更像是一个筑防游戏,每走一步都需要盘算整个棋局,而象棋是所有棋子都摆在盘上。另外,围棋选手都是依靠直觉在下棋,且围棋中没有等级概念,所有的棋子都一样,小小的一子,就可以影响全局。
正因如此,AlphaGo 在围棋上取得的成绩,确实得来不易。哈萨比斯也说,去年战胜李世石,让他们整个团队都很激动。为这一刻,等了十年。
AlphaGo 是如何工作的?
Dave Silver 称,按照传统的算法,每下一步棋计算出几十种可能,然后每种可能又产生几十种可能。这种穷举式的搜索方法应用在每一步都有上百种可能的围棋上,会变得非常笨拙。
所以 AlphaGo 团队在研究时,一直想办法减少穷举式搜索的宽度和深度。
他们结合了监督学习和强化学习的优势。一方面形成一个策略网络(policy network),用于学习棋盘;另一方面,形成一个价值网络,以-1(对手的绝对胜利)到 1(AlphaGo 的绝对胜利)的标准,预测所有可行落子位置的结果。
这两个网络结合在一起,就形成了 AlphaGo 的树搜索。在获取棋局信息后,AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。
与柯洁对战的 AlphaGo 自学成才
但这次与柯洁对战的 AlphaGo 相较于去年的版本,进行了很大的改变。今年的 AlphaGo 更强化了学习,它通过自己与自己下棋,产生大量的棋局,然后学习、改进。
这样一来,AlphaGo 就不需要依靠人类的数据,而是自学成才。然后不断给下一代版本提供更好的数据,这是一个良性循环。
去年,与李世石对战的 AlphaGo 在谷歌云商有 50TPUs 在运作,每一步可以搜索 50 个棋步,并且可每秒搜索 10000 个位置。
昨天与柯洁对战的 AlphaGo,则是在单个 TPU 机器上进行比赛,它拥有了更强大的策略和价值网络。
哈萨比斯说,AlphaGo 最酷是它不仅把围棋当做比赛,更是当做一种艺术,而且是非常可观的艺术。
在与李世石对阵的第二局比赛中,它走出了令人惊叹的第 37 步棋,这让研发人员都感到惊讶。按照围棋几千年来的经验,人类是绝不会下出这一步。
李世石当时在赛后也表示,AlphaGo 给围棋带来了全新的体验和认知,让他有了继续下棋的比赛。
柯洁在昨天比赛技术后也有着同样的感受,AlphaGo 让围棋有了更多的可能,似乎没有哪一步是不能下的。
AlphaGo 已经展现出了它在围棋方面的创造力,并给围棋选手打开了新的世界的大门,围棋的边界远远超乎他们之前的认知。
哈萨比斯说,他们会继续打造 AlphaGo,不断弥补它知识方面的空白,让它变得更完美。
对于未来,以 AlphaGo 为代表的人工智能也会成为人类的工具,就像望远镜一样,帮助人类探索更多未知的领域。比如在材料设计、新药研制等方面,人工智能一旦有所突破,给人类带来的影响也同样超乎想象。
最后,哈萨比斯还强调一点,当人工智能真正来到人们身边时,正确恰当的使用人工智能也非常重要。