站長之家(ChinaZ.com)6月20日 消息:日前,Deepmind的一個名為 "Bigger, Better, Faster" 的 AI 算法,在只用了兩小時的時間內(nèi)掌握了26個 Atari 游戲,與人類效率水平相當。
(相關(guān)資料圖)
強化學習是谷歌深度學習中心研究的核心領(lǐng)域之一,它可能有朝一日用 AI 解決許多現(xiàn)實世界的問題。然而,一個大問題是可能會非常低效:強化學習算法需要大量的訓練數(shù)據(jù)和大量的計算能力。在他們的最新研究中,谷歌深度學習中心和米拉大學和蒙特利爾大學的研究人員展示了另一種可行的方法。
"Bigger, Better, Faster"的模型(簡稱BBF)在Atari基準測試中平均表現(xiàn)超出了人類的表現(xiàn)水平。這并不是新鮮事,其他強化學習算法也曾在 Atari 游戲中擊敗了人類。
然而,BBF模型只需要兩個小時的游戲時間,這與人類在基準測試中使用的實踐時間是相同的。因此,這個不需要預先訓練模型的算法達到了人類學習的效率,并且需要的計算能力比舊方法少得多。無模型代理直接從與游戲世界的交互中獲得獎勵和懲罰的信息,并學習到最佳的策略。
該團隊通過使用更大的神經(jīng)網(wǎng)絡、自我監(jiān)控訓練方法和其他方法來提高效率。例如,BBF可以在單個Nvidia A100GPU上進行訓練,而其他方法需要更多的計算能力。
雖然還有29個常用于強化學習的游戲尚待測試,但研究團隊指出,BBF 還沒有能夠在所有基準測試游戲中超過人類的表現(xiàn)水平。然而,將 BFF 與其他模型在55個游戲中進行比較,表明這種高效算法在55個游戲中大致與使用500倍更多數(shù)據(jù)的系統(tǒng)持平。
該團隊認為,這還表明 Atari 基準測試仍然是強化學習的好的基準測試,這使得該研究可以為小型研究團隊提供資金支持。
過去的高效強化學習算法對擴展方面也顯示出了弱點,而 BFF 沒有限制,并且繼續(xù)能夠通過更多的訓練數(shù)據(jù)獲得更高的性能。
該團隊總結(jié)道:“總體來說,我們希望我們的工作能夠激勵其他研究人員繼續(xù)推進深度強化學習的樣本效率前沿,以最終達到人類水平的效率表現(xiàn)在所有任務中。”
更有效率的強化學習算法可能會重新確立目前由自我監(jiān)督模型主導的 AI 技術(shù)的局面。
BBF算法相關(guān)論文:https://arxiv.org/pdf/2305.19452.pdf
(舉報)
關(guān)鍵詞:
把ChatGPT請進駕駛室 奔馳微軟聯(lián)手放大招
最近,著名德國汽車品牌梅賽德斯-...
共赴碳中和之約,沃爾沃汽車參展2023上海國際碳博會-今日聚焦
【2023年6月14日】首屆上海國際碳...
世界新消息丨卓易信息(688258.SH):艾普陽(深圳)在研產(chǎn)品DevMagic Studio系列產(chǎn)品...
卓易信息(688258 SH):艾普陽(深...
環(huán)球微速訊:A股異動 | 掌閱科技再度漲停 月內(nèi)累計升幅達36% 首款AI產(chǎn)品"閱愛聊"封閉內(nèi)測
格隆匯6月14日丨掌閱科技(603533,...
當前訊息:攜手同行、共謀發(fā)展!洛江區(qū)與華僑大學進行校地合作簽約
攜手同行、共謀發(fā)展!洛江區(qū)與華僑...
張家口簽約14個產(chǎn)業(yè)合作項目總投資221.79億元-焦點資訊
河工新聞網(wǎng)訊(記者段華鵬楊磊濤郭...
約起來!青浦這份夜生活好去處地圖快收藏_全球簡訊
今天小青果就為大家奉上一張趙巷鎮(zhèn)...
北國之春日語 日語北國之春原唱-速看
今天來聊聊國之春日語,日語北國之...