顯示廣告
隱藏 ✕
※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2020-01-01 16:44:56
看板 Gossiping
作者 pooznn (我~~~是來被打臉滴!!!)
標題 [新聞] 自然語言處理標竿測試,百度打敗微軟、Go
時間 Wed Jan  1 14:39:27 2020


自然語言處理標竿測試,百度打敗微軟、Google

百度的預訓練語言模型ERNIE,在GLUE平台一次16項自然語言處理測試中拿下第一,表現
優於Google、微軟和卡內基美隆大學

iThome 文/林妍溱 | 2020-01-01發表

在最近一次自然語言處理GLUE標竿測試中,中國網路業者百度的AI預訓練語言模型達到
90.1分,超越Google、微軟和卡內基美隆大學登上榜首。

GLUE(General Language Understanding Evaluation)是知名的自然語言理解(NLU)多
任務標竿測試和分析平台,包含9項測試,像是聽取句子中的人名和組織名,或是聽句子
中的同音異形字等等。在最近一次16項自然語言處理測試中,百度的預訓練(

pre-training)語言模型ERNIE拿到90.1分居冠。

其次為微軟的MT-DNN-SMART(89.9)及Google T5(89.7)。阿里巴巴的ALICE DAMO NLP
和卡內基美隆大學的XLNet以89.5 同列第4名,臉書的RoBERTa則名列第8。微軟另二個模
型(FreeRoBERT MT-DNN –ensemble)也擠進前十。GLUE真人測試基準得分為87.1分(第
11名)。


百度去年推出的ERNIE (Enhanced Representation through kNowledge IntEgration)
模型是一種連續型預訓練框架,經由連續給予模型多任務學習(multi-task learning)
方法,每當引入新任務時,該框架可在學習該任務的同時不遺忘之前學過的資訊,達到漸
進式學習與建構的目的。百度今年初推出ERNIE 1.0,7月再升級為2.0。


百度的ERNIE是從Google BERT獲得靈感(兩者都是取自「芝麻街」的主角名字)。BERT利
用名為遮罩(masking)的技巧,隨機隱藏文句中15%的字再試圖預測剩下的字。這種方法
大幅推升自然語言處理的能力。但BERT主要是基於英文。百度則根據中、英文的差異,為
ERNIE模型加入中文需要的特有演算法。


在英文之中每個字都有獨立意義。例如波士頓(Boston)、美國(America)。但在中文
,如果抽出「波」或「美」獨立一個字,就完全和「波士頓」或「美國」不同意義。

百度團隊於是提出動態邊界遮罩演算法(Dynamic Boundary Masking),發展出隱藏中文
字串、而非單一字的遮罩法。這項演算法也能分辨有意義和無意義的隨機字串的不同。
ERNIE在理解中文組成,以及預測中文漏字的能力比外國模型來得強,用於中文翻譯和在
文件中汲取資訊上相當有用。


但百度表示,他們發現ERNIE以意義為基礎的理解能力,除了中文外,理解及預測英文文
句也比用單字使用統計為基礎的模型來得好。

ERNIE預訓練技術已被用於百度多項產品,包括百度搜尋、小度音箱、資訊推薦等。百度
ERNIE 2.0的論文已被國際人工智慧頂級學術會議AAAI-2020收錄,預定明年2月7日到12日
在美國紐約舉行及發表。


https://www.ithome.com.tw/news/135127
自然語言處理標竿測試,百度打敗微軟、Google | iThome
[圖]
百度的預訓練語言模型ERNIE,在GLUE平台一次16項自然語言處理測試中拿下第一,表現優於Google、微軟和卡內基美隆大學 ...

 

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.168.0.189 (臺灣)
※ 文章代碼(AID): #1U33wZ7A (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1577860771.A.1CA.html
Yude0109: 厲害了 我的國1F 1.171.129.189 台灣 01/01 14:39
STi2011: 每天要抓13億人 誰不會進步2F 59.125.79.58 台灣 01/01 14:40
jack168168tw: 要過濾敏感內容當然強阿3F 140.114.234.41 台灣 01/01 14:40
neverfly: 可能背後有網軍在工人智慧吧,中國人多4F 42.73.70.173 台灣 01/01 14:41
Ilat: 每分每秒都在過濾分析15億人的信息 當然進步5F 36.227.17.177 台灣 01/01 14:41
whathefuc: 天網果然厲害6F 223.138.151.234 台灣 01/01 14:42
shadow0326: 滿厲害的7F 118.169.45.136 台灣 01/01 14:42
vinex518: 超英趕美 習近平棒棒8F 27.147.27.226 台灣 01/01 14:43
Chia2323: 什麼 小熊維尼 包子應該搜尋不到東西9F 106.1.228.52 台灣 01/01 14:43
makimakimaki: 參考谷歌創造自己的東西 不愧是中國10F 114.26.144.1 台灣 01/01 14:44
makimakimaki: 偉大的發明
Ilat: 或許AI就這樣大躍進的發展起來了 就像當初納12F 36.227.17.177 台灣 01/01 14:44
Ilat: 粹用集中營的人做醫學實驗帶動醫藥發展一樣
Ilat: 科學的進步就是要夠多的樣本數據 獨裁政府在
Ilat: 這點上是很有優勢的 但也能創造人類進步
shadow0326: 大部分的學術研究都是參考別人來的16F 118.169.45.136 台灣 01/01 14:44
BlowjobFace: 13億小粉紅的data 給他 train17F 106.104.113.14 台灣 01/01 14:45
SONYPS5: 先跟我說64天安門算自然語言嗎?18F 220.137.0.190 台灣 01/01 14:46
webster1112: 吳宗憲跟支那賤畜在用而已19F 220.129.113.54 台灣 01/01 14:46
lpbrother: 因為有特殊需求啊20F 180.176.66.120 台灣 01/01 14:48
p2p8ppp: 以意義為基礎  太潮了吧21F 101.12.62.166 台灣 01/01 14:55
bradyhau106: 有需求 有數據 超穩22F 180.176.128.213 台灣 01/01 14:56
chu630: 中國的網頁翻譯真的比google翻譯好很多23F 218.161.58.126 台灣 01/01 14:58
legendrl: 每天要監控13億人,技術當然鍊得快24F 220.132.47.96 台灣 01/01 15:00
alcpeon911: AI靠的是越多數據來training25F 123.192.177.238 台灣 01/01 15:02
roygb61215: Over feeding?26F 1.200.207.115 台灣 01/01 15:04
tomlin121283: 新的模型感覺都跟bert好像阿 希望27F 42.76.80.57 台灣 01/01 15:06
BabySatan: 簡單說就是百度抄Google然後修改一下28F 36.225.69.55 台灣 01/01 15:09
tomlin121283: 有些新的想法29F 42.76.80.57 台灣 01/01 15:09
BabySatan: "獲得靈感" 講得真是客氣30F 36.225.69.55 台灣 01/01 15:09
ko234488: 大數據 猛ㄉ31F 36.239.124.87 台灣 01/01 15:10
yanis: 不虧是專搞文字獄的國家32F 114.34.97.46 台灣 01/01 15:16
Kazimir: 就是小成果吧 從google的成果上接著做33F 111.249.47.101 台灣 01/01 15:29
coutji3184: 13億筆 data 還是ground truth34F 123.194.129.166 台灣 01/01 15:29
coutji3184: https://i.imgur.com/n5Tysgm.jpg
[圖]
 
aaaba: 還是杜奕瑾的AI公司比較厲害36F 180.217.65.220 台灣 01/01 15:51
leon1757tw: 十四億大數據果然不是叫假的37F 220.135.23.224 台灣 01/01 15:58
hcwang1126: 65-1也能嗎38F 36.230.70.9 台灣 01/01 16:20
bobsonlin: 厲害39F 117.19.195.85 台灣 01/01 16:26
feliz5566: 好厲害 中國的軟體業滿強的40F 149.28.243.18 美國 01/01 16:28
Tsubasa1008: 模型就是需要大量資料改進 中國人口41F 101.12.67.211 台灣 01/01 16:30
Tsubasa1008: 很適合做
degneva: 備份資料也是屌打估狗 百度就牛逼43F 1.175.4.151 台灣 01/01 16:31

--
※ 看板: Gossiping 文章推薦值: -1 目前人氣: 0 累積人氣: 202 
作者 pooznn 的最新發文:
點此顯示更多發文記錄
分享網址: 複製 已複製
1樓 時間: 2020-01-01 20:35:05 (台灣)
  01-01 20:35 TW
這麼厲害
幹嘛一大堆人翻牆跑去使用其他品牌?
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇