来源/视觉中国
去年,AlphaGo代表人工智能(AI)在围棋领域战胜了人类世界冠军,但其棋艺的精进是建立在计算机通过海量的历史棋谱学习参悟人类棋艺的基础之上,进而自我训练,实现超越。
视频来源/DeepMind,Nature上海办公室制作
而本周《自然》发表的一篇论文报道,一款新版的AlphaGo计算机程序能够从空白状态起,在不需要任何人类输入的条件下,迅速自学围棋。这款新程序名叫AlphaGo Zero,以100比0的战绩打败了它的前任。
更少算力 更好效果
人工智能的重大挑战之一,是无师自通,也就是研发一种能从零开始、以超人类的水平学习复杂概念的算法。为了打败人类围棋世界冠军,科学家在训练上一款AlphaGo时,同时用到了监督式学习和基于自我对弈的强化学习。那款AlphaGo的训练过程长达几个月,用到多台机器和48个TPU(神经网络训练所需的专业芯片)。
AlphaGo Zero的学习从零开始,且单纯基于与自己的对弈。人类的输入仅限于棋盘和棋子,没有任何人类数据。AlphaGo Zero仅用到一张神经网络,这张网络经过训练,专门预测程序自身的棋步和棋局的赢家,在每次自我对弈中进步。新程序只使用一台机器和4个TPU。
通过几天的训练,AlphaGo Zero便能够超越人类并打败所有之前的AlphaGo版本。随着程序训练的进行,它独立发现了人类用几千年才总结出来的围棋规则,还建立了新的战略,为这个古老的游戏带来新见解。
实现白板理论
AlphaGo Zero最大的突破是实现了白板理论。白板理论是哲学上的一个著名观点,认为婴儿生下来是白板一块,通过不断训练、成长获得知识和智力。作为 AI 领域的先驱,图灵使用了这个想法。他认为只要能用机器制造一个类似小孩的 AI,然后加以训练,就能得到一个近似成人智力,甚至超越人类智力的AI。
计算机是真正的“白板一块”,战胜柯洁的Master是AlphaGo Zero的“双胞胎兄弟”,但Master采用了监督学习的方法。监督学习认为人要把自己的经验教给机器。而无监督学习认为机器要去自己摸索,自己发现规律。人的经验或许能帮助机器掌握智能,但或许人的经验是有缺陷的,不如让机器自己发现新的,更好的规律。
AlphaGo Zero是无监督学习的产物,在训练了40天后,它能以89:11的成绩,将战胜了所有人类高手的Master甩在身后,它也因此证明,一个白板AI能够被训练成超越人类的围棋高手。
新民晚报见习记者 郜阳
新民报系成员|客户端|官方微博|微信矩阵|新民网|广告刊例|战略合作伙伴
北大方正|上海音乐厅|中卫普信|东方讲坛|今日头条|钱报网|少儿英语教育论坛|中国网信网|中国禁毒网|陆家嘴金融网|人民日报中央厨房
增值电信业务经营许可证(ICP):沪B2-20110022号|互联网新闻信息服务许可证:3112009001|信息网络传播视听节目许可证:0909381
广电节目制作经营许可证:(沪)字第536号|违法与不良信息举报电话15900430043|跟帖评论自律管理承诺书
沪公网安备 31010602000044号|沪公网安备 31010602000590号|沪公网安备 31010602000579号
新民晚报官方网站 xinmin.cn ©2013 All rights reserved
版权声明:
• 在本网站刊登的所有内容,包括但不限于文字、图片、音频视频、美术设计、程序及多媒体等信息,未经著作权人合法书面授权,不得进行一切形式的下载、转载或建立镜像。获得著作权人合法书面授权的,必须在授权范围内使用,使用时保留本网注明的"稿件来源",并自负法律责任。凡注明为其他媒体来源,均为转载自其他媒体,转载并不代表本网赞同其观点,也不代表本网对其真实性负责。如果擅自篡改为"稿件来源:新民网",本网将依法追究责任。
• 您若对稿件处理有任何疑问或质疑,请即与新民网联系,本网将迅速给您回应并做处理。
电话:021-22899999 传真:021-62677454
邮箱:稿件处理 处理时间:9:00—16:00