🎤 为偶像应援 · Gate送你直达 Token of Love! 🎶
家人们,现在在Gate广场为 打 Token of Love CALL,20 张音乐节门票等你来瓜分!🔥
泫雅 / SUECO / DJ KAKA / CLICK#15 —— 你最期待谁?快来一起应援吧!
📌 参与方式(任选,参与越多中奖几率越高!)
1️⃣ 本帖互动
点赞 & 转发本帖 + 投票你最爱的艺人
评论区打出 “我在 Gate 广场为 Token of Love 打 Call !”
2️⃣ 广场发帖为 TA 打 Call
带上 #歌手名字# + #TokenOfLove#
发帖内容任选:
🎵 最想现场听到的歌 + 心情宣言
📣 应援口号(例:泫雅女王冲鸭!Gate广场全员打 Call!)
😎 自制表情包/海报/短视频(加分项,更容易中奖!)
3️⃣ 推特 / 小红书发帖打 Call
同样带上 #歌手名字# + #TokenOfLove#
内容同上,记得回链到表单 👉️ https://www.gate.com/questionnaire/7008
🎟️ 奖励安排
广场优质发帖用户:8张门票
广场幸运互动用户:2张门票
Twitter 优质发帖用户:5张门票
小红书优质发帖用户:5张门票
📌 优质帖文将根据文章丰富度、热度、创意度综合评分,禁止小号水贴,原创发帖更易获奖!
🕒 8
马斯克 XAI 团队推出 Grok 3:基准测试超越竞业,可视化思考、懂创造新游戏
2025 年 2 月 18 日,马斯克带领着 XAI 团队正式发布了最新的人工智慧模型 Grok 3,并在发布会上展示了该模型在数学推理、科学理解与编码能力方面的卓越表现。除了传统的基准测试成绩外,Grok 3 还在即时推理与创造力应用上带来了突破性的体验,显示出未来 AI 模型在应对复杂问题和创意任务方面的潜力。
超越基准测试:Grok 3 在 AI 竞技场获得胜利
Grok 3 在三大领域接受测试:
数学推理(AIME 高中竞赛数学标准)
科学知识(涵盖博士级问题)
编码能力(包含竞技编程与 LeetCode 风格的技术面试题)
在所有测试中,Grok 3 均表现优异,不仅超越市场上的竞争对手,甚至其较小版本 Grok 3 Mini 也达到了尖端水准。
为了验证 AI 是否仅仅是记忆教材与开源程式码,XAI 在 Chatbot Arena 平台上进行了一场盲测竞技。该测试完全去除品牌与 UI,让用户在不知情的情况下比较两个 AI 的回答,最终 Grok 3 在所有类别中排名第一,ELO 分数突破 1,400,并仍持续攀升,展现了强大的实战能力。
Grok 3 展示即时推理与创造力
Grok 3 不仅能解决标准化的测试问题,还展现了即时思考与创造能力。
XAI 团队在现场输入了一个挑战性问题:「生成一个动画 3D 图,模拟从地球发射火箭、降落火星,并在下个发射窗口返回地球。」 Grok 3 在处理这类问题时,提供了一个创新的功能:「思考过程」可视化。用户可以即时查看 AI 的推理步骤,甚至「进入」Grok 3 内部,阅读其处理问题的方式。
由于这是即时演示,存在 AI 出错的可能,因此 XAI 启动了多个并行实例,以确保至少有一个版本能够成功执行。这展现了 AI 在复杂任务中的灵活性,以及 XAI 团队对于 AI 即时推理透明化的探索。
另一个引人注目的展示是 Grok 3 自主创造游戏 的能力。团队挑战 AI:「设计一款融合俄罗斯方块(Tetris)与宝石方块(Bejeweled)的游戏。」这种创意任务要求 AI 不仅要理解两款游戏的核心机制,还要产生全新的游戏设计。
传统 AI 可能会直接复制既有游戏,但 Grok 3 真正创造了一款可玩的新游戏,证明其在推理之外,也具备组合创新与应用能力。
为了让 AI 在这类高难度任务中表现更好,XAI 启用了「Big Brain Mode」,让模型使用更多计算资源,以提高其推理与创意能力。这显示未来的 AI 不仅能模仿,还能产生全新的概念与解决方案。
Grok 3 的未来潜力
Grok 3 目前仍在持续训练中,XAI 团队强调:「我们现在展示的只是 Grok 3 的 测试版本,但它已经在多项指标上领先市场。随着持续优化,未来的完整版本将更具竞争力。」
此外,XAI 也在训练 Grok 3 Mini Reasoning(精简版推理模型),尽管它的规模较小,却在某些情境下超越完整版本,显示 AI 在长时间训练后仍有极大的成长潜力。
Grok 3 的发布,不仅证明了 AI 在数学、科学与编码方面的强大能力,更向世界展示了 AI 即时思考与创造新概念的可能性。这次展示的两大亮点 —「AI 思考历程的可视化」与「自主创造全新游戏」——意味着 AI 不再只是资讯的整理者,而正在成为真正的问题解决者与创新推动者。
这篇文章 马斯克 XAI 团队推出 Grok 3:基准测试超越竞业,可视化思考、懂创造新游戏 最早出现于 链新闻 ABMedia。