登录

首页 > 家电新闻 > 多模态大模型学会反思和复盘，上交&上海AI Lab破解多模态复杂推理

多模态大模型学会反思和复盘，上交&上海AI Lab破解多模态复杂推理

发布时间：2025-10-19 22:17:08

多模态大模型表现越来越惊艳，但人们也时常困于它的“耿直”。

无论是生成代码、分析图表还是回答问题，诸多多模态大模型（MLLM）都倾向于给出一个“一步到位”的答案。它们就像一个从不检查作业的“学霸”，虽然知识渊博，但一旦在复杂的、需要反复试错的问题上走错一步，就很难回头。这种能力的缺失，正是阻碍AI从“知识容器”迈向“问题解决大师”的关键瓶颈。

现在，来自上海交通大学和上海人工智能实验室的研究团队，带来了新的解决方案——MM-HELIX。

MM-HELIX不仅是一个项目，更是一个完整的生态体系，旨在赋予AI一种最接近人类智慧的能力：长链反思性推理（long-chain reflective reasoning）。

多模态大模型学会反思和复盘，上交&上海AI Lab破解多模态复杂推理

多种多模态反思任务

第一击：一把“终极标尺”——MM-HELIX基准测试

我们无法提升我们无法衡量的东西。为了精准评估AI的反思推理能力，团队首先构建了一个前所未有的“终极考场”——MM-HELIX Benchmark。

它不再是简单的看图说话或数学计算，而是包含了42种横跨算法、图论、谜题和策略游戏的超高难度任务，例如：

逻辑的迷宫：在“扫雷”中根据数字线索进行缜密推理与回溯。
策略的博弈：在“推箱子”中规划长远，避免一步走错，满盘皆输。
算法的具象：寻找图中的“哈密顿路径”，需要在脑海中进行多次路径规划与剪枝。

团队搭建了42个任务的Sandbox，包含Generator，Solver，Validator等多个关键部件，并根据题目复杂度区分了五层难度，并最终收集了1260道题目，对当前的多模态大模型进行了细粒度的评估，评估结果如下：

多模态大模型学会反思和复盘，上交&上海AI Lab破解多模态复杂推理

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“家电库用户上传并发布"，本平台仅提供信息存储服务。

下一篇:分析显示：ChatGPT移动端下载量与日常使用增长放缓

上一篇:微信三大更新放出

家电新闻更多>>

DeepMind：智能体越多越乱，Agent天花板出现了？集舒适、音质、AI于一身，南卡 CLIP SUPER2 生活不止一面，游戏工作两不误的RK K99星刃十年质保白金全模｜微星PROA1000PL PCIE5电源支持背插显卡击中痛点，蓝宝石背插主板实测 EPZ P40 四单元耳机真实体验分享 1.7W打造桌面MATX小钢炮：9850X3D+5070星曜全球首发2nm芯片！三星Galaxy S26发布会海报偷跑：2月亮相

产业圈更多>>

智己L6将在5月上市，预测起售价19.29万 3款申报完就没了消息的新车！雪佛兰巡领者成网友心头痛？家用大五座增程 SUV 星纪元 ET 问界 M7 理想 L7 谁更适用？ OPPO Find N5外观曝光：用上钛材质，厚度低于9.2mm -32℃阿尔山试驾新胜达，为何东三省及内蒙人更愿买油车？谁还敢嘲笑合资车？上汽大众拿销量打脸喷子，姜还是老的辣从哪吒“官网崩溃”看结局：要么消失，要么推倒重来国产车太疯狂！顶配不到10万，这些油车比电车更香

行业峰会更多>>

当汽车“插上翅膀”“装上四肢” 从上海车展看人工智能“新三样” 车长超5米，还有2.5T V6动力可选，7座布局，大众途昂值得选吗？把握春节前购车最佳时机！魏牌全新蓝山实力与优惠双在线中国汽研汽车指数发布2024年第二批测评成绩发布夏，为中国品质家庭而来！比亚迪夏上市发布会·广州站盛大启幕 2024合资SUV排名：锋兰达第一，奔驰GLC超奥迪Q5L 保障固态电池品质，硫化物电解质水分测定关键技术揭秘告别焦虑和不确定，东风Honda憋了一股劲

经济观察更多>>

对话3M程铭：以创新、合作、全球化，助力汽车产业高质量发展智慧出行全球共享德赛西威以全栈技术实力重塑智慧出行新生态上汽大众发布增程式概念车，上汽奥迪携华为打造智能燃油车预算20万左右买家用SUV，大众探岳对比本田CR-V，谁更值得选择？ “大眼小帕梅”埃安RT时尚座驾：女性电车首选颜值与实用并重空气悬架不再高级？国产车换电磁底盘，豪华车会降2万？开上全新一代迈腾穿越林海雪原：荒芜雪地，依然犀利 NDT2025新能源数字科技大会：共探绿色发展新路径，科技引领未来

智能家居更多>>

微软几何计算器今年 7 月 7 日退役，OneNote 数学助手接棒保时捷中国研发中心落户上海虹桥商务区，计划下半年投入运营自主围剿合资挣扎 2024年车企销量榜报告 LiveWire推出全新电动摩托车，84匹大马力中大型智能旗舰MPV！比亚迪夏上市发布会·广州站启幕设计大胆，轴距近3米！国产新一代宝马X3或将一季度上市无人机“表演秀”，缘何闪耀郑州航空港的夜空？崔东树：2025年国内零售增速2%，增换购人群成消费主体

电器测评更多>>

索尼WH-CH520无线耳机限时特惠270元红米新机曝光：7500mAh大电池+天玑9400+性能芯，这是要搞事情？华为nova 14 Pro/Ultra手机获鸿蒙HarmonyOS 5.0.1.130升级一汽大众吴迎凯：双合资战略至少以前取得了成功，“一汽大众车型更原汁原味一点” 四巨头混战即时零售，谁抢跑、谁能赢？爱心传递共沐书香齐鲁银行第31所爱心图书室落地菏泽市王浩屯镇中心小学 2025上海车展：中航光电以创新驱动新能源汽车产业升级以“中国速度”加速创新转型，用“奔驰标准”守护豪华本质

Copyright 2012-2025 家电库版权所有京ICP备20132067号-1