[新聞] Nature刊登Deepmind論文最強AlphaGoZero - Gossiping板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2017-10-19 10:10:52

看板 Gossiping

作者 IN (願自身光明熾然照耀世界)
標題 [新聞] Nature刊登Deepmind論文最強AlphaGoZero
時間 Thu Oct 19 09:52:31 2017

Nature刊登Deepmind論文，最強AlphaGo Zero已無需人類知識，AlphaGo慘敗

Inside 硬塞的網路趨勢觀察

2017/10/19 【合作媒體】雷鋒網 AlphaGo、DeepMind、人工智慧、深度學習

http://goo.gl/TG23Hq

本文獲合作媒體雷鋒網授權轉載，作者岑大師。

AlphaGo「退役」了，但 Deepmind 在圍棋上的探索並沒有停止。

今年 5 月的烏鎮大會的「人機對局」中，中國棋手、世界冠軍柯潔 9 段以 0:3 不敵
AlphaGo。隨後 Deepmind 創辦人 Hassabis 宣布，AlphaGo 將永久退出競技舞台，不再
進行比賽。

Hassbis 當時表示：「我們計劃在今年稍晚發布最後一篇學術論文，詳細介紹我們在演算
法效率上所取得的一系列進展，以及應用在其他更全面領域中的可能性。就像第一篇
AlphaGo 論文一樣，我們希望更多的開發者能夠接過接力棒，利用這些全新的進展開發
出屬於自己的強大圍棋程式。」

今天，Deepmind 如約在 Nature 發布了這篇論文——在這篇名為《Mastering the game
of Go without human knowledge》（不使用人類知識制霸圍棋）的論文中，Deepmind 展
示了他們更強大的新版本圍棋程式「AlphaGo Zero」，驗證了即使在像圍棋這樣最具挑戰
性的領域，也可以通過純強化學習的方法自我完善達到目的。

http://goo.gl/VyKc2P

論文摘要

人工智慧的一個長期目標是通過後天的自主學習（注：tabula rasa，意為「白板」，指
所有的知識都是逐漸從他們的感官和經驗而來），在一個具有挑戰性的領域創造出超越人
類的精通程度學習的演算法。之前，AlphaGo 成為首個戰勝人類圍棋世界冠軍的程式，當
時的 AlphaGo 通過深層神經網路進行決策，並使用人類專家下棋的資料進行監督學習，
同時也通過自我對弈進行強化學習。在這篇論文中，我們將介紹一種僅基於強化學習的演
算法，而不使用人類的資料、指導或規則以外的領域知識。AlphaGo 成為自己的老師，這
一神經網路被訓練用於預測 AlphaGo 自己的落子選擇，提高了決策樹搜尋的強度，使得
落子品質更高，具有更強的自我對弈迭代能力。從一塊白板開始，我們的新程式

AlphaGo Zero 表現驚人，並以 100：0 擊敗了之前版本的 AlphaGo。

全新強化學習算法：無需任何人類指導

這篇論文的最大亮點，在於無需任何人類指導，通過全新的強化學習方式，人工智慧的程
式自己成為自己的老師，在圍棋這一個最具挑戰性的領域達到超過人類的精通程度。相比
起之前使用人類對弈的數據，這一個新的演算法訓練時間更短，僅用 3 天時間就達到了

擊敗李世石的 AlphaGo Lee 的水準，21 天就達到了之前擊敗柯潔的 AlphaGo Master 的水準。

在 3 天內——也就是 AlphaGo Zero 在擊敗 AlphaGo Lee 之前，曾進行過 490 萬次自
我對弈練習。相比之下，AlphaGo Lee 的訓練時間長達數月之久。AlphaGo Zero 不僅發
現了人類數千年來已有的許多圍棋策略，還設計了人類玩家以前未知的的策略。

https://www.inside.com.tw/wp-content/uploads/2017/10/59e7b478924ca.gif

據 Deepmind 部落格介紹，AlphaGo Zero 採用了新的強化學習方法，從一個不知道圍棋
遊戲規則的神經網路開始，通過將這個神經網路與強大的搜尋演算法結合，然後就可以實
現自我對弈了。在這樣的訓練過程中，神經網路不斷被更新和調整，並用於預測下一步落
子和最終的輸贏。

https://youtu.be/tXlM99xPQC8

AlphaGo Zero: Starting from scratch - YouTube
DeepMind's Professor David Silver describes AlphaGo Zero, the latest evolution of AlphaGo, the first computer program to defeat a world champion at the ancie...

這一更新後的神經網路將再度與搜尋演算法組合，過程不斷重複，最後建立了一個新的、
更強大版本的 AlphaGo Zero。在每次迭代中，系統的性能和自我對弈的品質均能夠有部
分提高。「日拱一卒，功不唐捐」，最終的神經網路越來越精確，AlphaGo Zero 也變得
更強。

AlphaGo Zero 與之前版本有如下不同：

AlphaGo Zero 只使用棋盤上的黑子和白子作為輸入，而之前版本 AlphaGo 的輸入均包含
部分人工特徵；

AlphaGo Zero 使用一個神經網路而不是之前的兩個。以前版本的 AlphaGo 使用一個「策
略網路」來選擇落子的位置，並使用另一個「價值網路」來預測遊戲的輸贏結果。而在
AlphaGo Zero 中下一步落子的位置和輸贏評估在同一個神經網路中進行，從而使其可以
更好地進行訓練和評估。

AlphaGo Zero 無需進行隨機推演（Rollout）——這是一種在其他圍棋程式中廣泛使用於
勝負的快速隨機策略，從而通過比較確定每一手之後輸贏的機率，選擇最佳落子位置。相
反地，它依賴於高品質的神經網路來評估落子位置。

上述差異均有主於提高系統的性能和通用性，但使最關鍵的仍是演算法上的改進，不僅使
得 AlphaGo Zero 更加強大，在功耗上也更為高效。

http://goo.gl/WHWX9E

雖然這一技術還處於早期階段，但 AlphaGo Zero 的突破使得我們在未來面對人類面對的
一些重大挑戰（如蛋白質折疊、減少能源消耗、尋找革命性的新材料等）充滿信心。

眾所周知，深度學習需要大量的資料，而在很多情況下，獲得大量資料的成本過於高昂，
甚至根本難以獲得。如果將該技術應用到其他問題上，將會有可能對我們的生活產生根本
性的影響。

新聞連結:
https://www.inside.com.tw/2017/10/19/alphago-zero

Nature 刊登 Deepmind 論文，最強 AlphaGo Zero 已無需人類知識，AlphaGo 慘敗 - INSIDE 硬塞的網路趨勢觀察

Deepmind 如約在 Nature 發布了論文：從一塊白板開始，我們的新程式 AlphaGo Zero 表現驚人，並以 100：0 擊敗了之前版本的 AlphaGo。 ...

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.130.168.122
※ 文章代碼(AID): #1Pw0Lad8 (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1508377956.A.9C8.html

※ 編輯: IN (220.130.168.122), 10/19/2017 09:54:22

推 wotupset: AlphaGo 00 / AlphaGo W1F 10/19 09:53

→ eatingshit: 騙人死要錢？？2F 10/19 09:53

推 perlone: 零式會有翅膀嗎3F 10/19 10:02

推 AncientLich: 其實我比較訝異的是範例gif中21天勝過柯傑後ELO並沒4F 10/19 10:03
→ AncientLich: 有如知識奇異點般的飛上去而是直接收斂了...
→ AncientLich: 這樣的AI感覺還是沒太大可看的地方

推 SpadeR: 人類全面潰敗7F 10/19 10:04

※ 看板: Gossiping　文章推薦值: 0 目前人氣: 0 累積人氣: 797　

分享網址: 複製

DispBBS

1樓時間: 2017-10-19 10:29:36 (台灣)

→

a170508

　 10-19 10:29 TW

會下圍棋又怎麼樣?

2樓時間: 2017-10-19 10:30:03 (台灣)

→

Freerunner

　 10-19 10:30 TW

結果是直接翻桌，同時全世界公告：我贏了!

回到看板(←)《Gossiping》

r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享