🎤 爲偶像應援 · Gate送你直達 Token of Love! 🎶
家人們,現在在Gate廣場爲 打 Token of Love CALL,20 張音樂節門票等你來瓜分!🔥
泫雅 / SUECO / DJ KAKA / CLICK#15 —— 你最期待誰?快來一起應援吧!
📌 參與方式(任選,參與越多中獎幾率越高!)
1️⃣ 本帖互動
點讚 & 轉發本帖 + 投票你最愛的藝人
評論區打出 “我在 Gate 廣場爲 Token of Love 打 Call !”
2️⃣ 廣場發帖爲 TA 打 Call
帶上 #歌手名字# + #TokenOfLove#
發帖內容任選:
🎵 最想現場聽到的歌 + 心情宣言
📣 應援口號(例:泫雅女王衝鴨!Gate廣場全員打 Call!)
😎 自制表情包/海報/短視頻(加分項,更容易中獎!)
3️⃣ 推特 / 小紅書發帖打 Call
同樣帶上 #歌手名字# + #TokenOfLove#
內容同上,記得回鏈到表單 👉️ https://www.gate.com/questionnaire/7008
🎟️ 獎勵安排
廣場優質發帖用戶:8張門票
廣場幸運互動用戶:2張門票
Twitter 優質發帖用戶:5張門票
小紅書優質發帖用戶:5張門票
📌 優質帖文將根據文章豐富度、熱度、創意度綜合評分,禁止小號水貼,原創發帖更易獲獎!
🕒 8
谷歌AGI機器人大招:54人天團憋7個月,強泛化強推理,DeepMind和谷歌大腦合併後新成果
原文來源:量子位
爆火的大模型,正在重塑谷歌DeepMind的機器人研究。
最新成果之一,就是他們耗時7個月打造的機器人項目RT-2,狠狠在網上火了一把:
只需用人話下達命令,面前這個小傢伙就能揮動機械臂,思考並完成“主人的任務”。
像是給流行歌手黴黴(Taylor Swift)遞水、或是辨認明星球隊Logo:
用網友的話來說,別小看這個能力,這是實現了從“滅絕的動物”到“塑料恐龍”的邏輯飛躍。
更“要命”的是,它還能輕鬆解決“給疲憊的人選一種飲料”這種需要結合思想鏈的多階段推理問題——一聽到命令小手就直奔紅牛而去,簡直不要太聰明。
有網友看完感嘆:
將多模態大模型“塞進”機械臂
這個名叫RT-2(Robotic Transformer 2)的機器人項目,是去年年底發布的RT-1的“進化版”。
相比於其他的機器人研究,RT-2的核心優勢在於,不僅能理解“人話”,還能對“人話”進行推理,並轉變為機器人能理解的指令,從而分階段完成任務。
具體來說,它具備三大能力——符號理解(Symbol understanding)、推理(Reasoning)和人類識別(Human recognition)。
第一個能力是“符號理解”,能將大模型預訓練的知識,直接延展到機器人此前沒見過的數據上。例如機器人數據庫中雖然沒有“紅牛”,但它卻能從大模型的知識中理解並掌握“紅牛”的外貌,並拿捏物品。
第二個能力是“推理”,這也是RT-2的核心優勢,要求機器人掌握數學、視覺推理和多語言理解三大技能。
技能一,包含數學邏輯推理的命令,“將香蕉放到2+1的總和的位置”:
那麼,這三個能力是怎麼實現的?
簡單來說,就是將視覺-文本多模態大模型(VLM)具備的“推理”、“識別”、“數學”等能力,和機器人的操作能力結合起來。
例如將轉動度數、放到哪個坐標點等數據,轉變成文本“放到某個位置”。
這樣一來,機器人數據也能被用到視覺-語言數據集中進行訓練,同時在進行推理的過程中,原本的文本指令也會被重新轉化為機器人數據,實現控制機器人等一系列操作。
沒錯,就是這麼簡單粗暴(手動狗頭)
在這次的研究中,團隊主要基於谷歌的一系列基礎大模型來“做升級”,包括50億和550億的PaLI-X、30億的PaLI以及120億的PaLM-E。
為了提升大模型本身的能力,研究人員也下了不少功夫,把最近爆火的思維鏈、向量數據庫和無梯度架構(no-gradient architectures)都用上了。
這一系列操作,也讓RT-2和去年發布的RT-1相比,具有了不少新優勢。
下面就來看看具體的實驗結果。
性能可達RT-1三倍
RT-2使用上一代機器人模型RT-1的數據進行訓練(也就是說數據沒變,只是方法不同了)。
這些數據是用13個機器人在辦公室搭建的一個廚房環境中耗時17個月收集到的。
在實際測試中(一共歷經6000次),作者給了RT-2許多以前未見過的物體,需要RT-2在微調數據之外進行語義理解來完成任務。
結果完成的都相當不錯:
包括從簡單的識別字母、國旗、人物到從玩偶中識別陸生動物、選出顏色不相同的那隻,甚至是撿起快要從桌上掉下去的零食等複雜的命令。
如前文所述,這兩個變體分別在120億參數的PaLM-E和550億參數的PaLI-X上進行訓練。
而為了更好地理解RT-2的不同設置如何影響泛化結果,作者又設計了兩大類評估:
一是在模型尺寸上,僅在RT-2 PaLI-X變體分別採用50億參數與550億參數進行訓練;
二是訓練方法上,分別採用從頭開始訓練模型vs微調vs協同微調的方法。
最終結果表明,視覺語言模型預訓練權重的重要性以及模型泛化能力有隨著模型大小而提高的趨勢。
最後,由於RT-2 PaLM-E變體是一個視覺-語言-動作模型,可以在單個神經網絡中充當LLM、VLM和機器人控制器,因此RT-2還可以執行可控的思想鏈推理。
如下圖所示的5個需要推理的任務中(尤其最後一個非常有意思:選擇可以替代錘子的物品),它接到命令後會先輸出自然語言步驟,然後再給出具體的動作token。
## 還有一件事
谷歌將機器人研究的重心放在大模型上,似乎也不是“空穴來風”。
就在這兩天,他們和哥倫比亞大學合作的一篇關於“用大模型幫助獲取更多機器人操作技能”的論文,同樣很火:
再聯想到前不久李飛飛團隊的具身智能成果,可以說,用大模型帶動機器人著實成為一種研究趨勢,且已經讓我們看到了一波非常有潛力的進展。
對於這個研究方向,你有哪些期待?
項目地址:
參考鏈接:
[1]
[2]
[3]
[4]