0
0
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
克雷西发自凹非寺 量子位 | 公众号 QbitAI 推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型 benchmark 了。 o3-pro 刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了 benchmark 上限。 具体来说,benchmark 中推箱子一共就只做到了被 o3-pr