可回溯過去 能解決復(fù)雜任務(wù) AI向真正“智能學(xué)習(xí)體”邁進

2021年02月25日16:25  來源:科技日報
 
原標(biāo)題:AI向真正“智能學(xué)習(xí)體”邁進

  科技日報北京2月24日電 (記者張夢然)英國《自然》雜志24日發(fā)表一項人工智能研究成果:美國團隊報告了一類增強學(xué)習(xí),可回溯過去、解決復(fù)雜任務(wù),真正改善了對復(fù)雜環(huán)境的探索方式,有望應(yīng)用于機器人、語言理解和藥物設(shè)計領(lǐng)域。這類算法被統(tǒng)稱為“Go-Explore”,其已經(jīng)在一款經(jīng)典游戲的算法挑戰(zhàn)中得分超過了人類玩家和先進的人工智能系統(tǒng)。該成果被認(rèn)為正朝著實現(xiàn)真正“智能學(xué)習(xí)體”邁出了重要一步。

  增強學(xué)習(xí),可讓人工智能系統(tǒng)通過探索和理解復(fù)雜環(huán)境來進行決策,并學(xué)習(xí)如何以最優(yōu)的方式獲得獎勵。獎勵可以包括機器人抵達(dá)特定位置或是在電腦游戲中達(dá)到一定的等級。然而,當(dāng)遇到很少給予反饋的復(fù)雜環(huán)境時,現(xiàn)階段的加強學(xué)習(xí)算法就很容易碰壁,這讓人工智能專家們非?鄲。

  美國“OpenAI”是由諸多硅谷巨頭聯(lián)合建立的人工智能非營利組織,推動者包括美國創(chuàng)業(yè)孵化器Y Combinator總裁薩姆·阿爾特曼、美國太空技術(shù)探索公司(SpaceX)創(chuàng)始人埃隆·馬斯克等,其目標(biāo)是希望能夠預(yù)防人工智能的災(zāi)難性影響,并推動人工智能發(fā)揮積極作用。此次,“OpenAI”的科學(xué)家艾德蘭·艾克菲特、朱斯特·赫伊津哈及團隊,提出了有效探索面臨的兩個主要障礙,并設(shè)計了一類算法來解決這些障礙。

  研究人員表示,“Go-Explore”可以對環(huán)境進行全面探索,同時構(gòu)建一個檔案庫來記住它去過的地方,確保自己不會忘記通往有望成功的期中階段或是最終勝利(獎勵)的路線。其在雅達(dá)利經(jīng)典游戲中的得分,超過了人類玩家和先進的人工智能系統(tǒng),研究人員用這類算法,解決了之前未能解決的2600個雅達(dá)利游戲,驗證了這類算法的潛力!癎o-Explore”在算法挑戰(zhàn)《蒙特祖馬的復(fù)仇》中的得分是之前的4倍,在另一個算法挑戰(zhàn)《瑪雅人的冒險》中的得分也超過了人類玩家的平均水平。而相對的,此前的算法一分都拿不到。

  “Go-Explore”算法還能完成一個模擬機器人任務(wù),在這項任務(wù)中,它必須用機械臂把東西撿起來并放到4個架子中的一個架子上,其中兩個架子被關(guān)在兩扇門的后面。

  研究人員指出,記住并回到有望成功的探索區(qū)域的簡單原則是一種強大、通用的探索方法。他們認(rèn)為最新的算法有望應(yīng)用于機器人、語言理解和藥物設(shè)計。

(責(zé)編:嚴(yán)遠(yuǎn)、軒召強)
掃描關(guān)注上海頻道微信掃描關(guān)注上海頻道微信 掃描關(guān)注上海頻道微博掃描關(guān)注上海頻道微博
磐安县| 广宁县| 桂平市| 宣汉县| 宾阳县| 延庆县| 兴文县| 武穴市| 中超| 定兴县| 余干县| 平舆县| 松潘县| 海晏县| 山东省| 酒泉市| 加查县| 同心县| 原阳县| 万盛区| 云安县| 靖州| 铜山县| 屏东市| 濉溪县| 象山县| 冕宁县| 长治市| 开江县| 合江县| 建瓯市| 盐池县| 安塞县| 合川市| 大荔县| 古交市| 武隆县| 岑巩县| 赞皇县| 海林市|