登录

首页 > 家电新闻 > 突破后训练瓶颈？Meta超级智能实验室力作：CaT解决RL监督难题

突破后训练瓶颈？Meta超级智能实验室力作：CaT解决RL监督难题

发布时间：2025-09-23 10:11:55

机器之心编辑部

在 AI 领域，大家通常采取后训练方式来让模型获取专项技能。然而后训练一般依赖带有标注参考的监督微调，或通过可验证的程序化检查器提供奖励。

这就带来一些问题，目前许多有价值的任务可能同时缺乏这两种资源。例如在不可验证的场景中（临床、自由对话和创意写作），可能存在多个有效答案，确定性规则检查难以实施。

在这种情况下，实践者往往只能依赖（i）繁琐的标注流程，或（ii）通过另一个 LLM 对自由形式输出进行粗略奖励。

然而，当后训练缺乏真实标注时，学习信号从何而来？

为了回答这一问题，来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想：

推理计算是否可以替代缺失的监督？

本文认为答案是肯定的，他们提出了一种名为CaT（Compute as Teacher）的方法，核心思想是把推理时的额外计算当作教师信号，在缺乏人工标注或可验证答案时，也能为大模型提供监督信号。

结果显示，推理时直接应用 CaT显著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能，即使在不可验证领域（MATH-500 最高提升 27%；HealthBench 提升 12%）。结合强化学习的CaT（CaT-RL）可进一步获得增益（最高提升 33% 和 30%），训练后的策略甚至能超越初始教师信号。

突破后训练瓶颈？Meta超级智能实验室力作：CaT解决RL监督难题

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“家电库用户上传并发布"，本平台仅提供信息存储服务。

下一篇:百年不遇！3.7万亿AI基建砸下，美国人也坐不住了

上一篇:1688杭州选品中心落地滨江为中小企业提供确定性供应链

家电新闻更多>>

DeepMind：智能体越多越乱，Agent天花板出现了？集舒适、音质、AI于一身，南卡 CLIP SUPER2 生活不止一面，游戏工作两不误的RK K99星刃十年质保白金全模｜微星PROA1000PL PCIE5电源支持背插显卡击中痛点，蓝宝石背插主板实测 EPZ P40 四单元耳机真实体验分享 1.7W打造桌面MATX小钢炮：9850X3D+5070星曜全球首发2nm芯片！三星Galaxy S26发布会海报偷跑：2月亮相

产业圈更多>>

智己L6将在5月上市，预测起售价19.29万 3款申报完就没了消息的新车！雪佛兰巡领者成网友心头痛？家用大五座增程 SUV 星纪元 ET 问界 M7 理想 L7 谁更适用？ OPPO Find N5外观曝光：用上钛材质，厚度低于9.2mm -32℃阿尔山试驾新胜达，为何东三省及内蒙人更愿买油车？谁还敢嘲笑合资车？上汽大众拿销量打脸喷子，姜还是老的辣从哪吒“官网崩溃”看结局：要么消失，要么推倒重来国产车太疯狂！顶配不到10万，这些油车比电车更香

行业峰会更多>>

当汽车“插上翅膀”“装上四肢” 从上海车展看人工智能“新三样” 车长超5米，还有2.5T V6动力可选，7座布局，大众途昂值得选吗？把握春节前购车最佳时机！魏牌全新蓝山实力与优惠双在线中国汽研汽车指数发布2024年第二批测评成绩发布夏，为中国品质家庭而来！比亚迪夏上市发布会·广州站盛大启幕 2024合资SUV排名：锋兰达第一，奔驰GLC超奥迪Q5L 保障固态电池品质，硫化物电解质水分测定关键技术揭秘告别焦虑和不确定，东风Honda憋了一股劲

经济观察更多>>

对话3M程铭：以创新、合作、全球化，助力汽车产业高质量发展智慧出行全球共享德赛西威以全栈技术实力重塑智慧出行新生态上汽大众发布增程式概念车，上汽奥迪携华为打造智能燃油车预算20万左右买家用SUV，大众探岳对比本田CR-V，谁更值得选择？ “大眼小帕梅”埃安RT时尚座驾：女性电车首选颜值与实用并重空气悬架不再高级？国产车换电磁底盘，豪华车会降2万？开上全新一代迈腾穿越林海雪原：荒芜雪地，依然犀利 NDT2025新能源数字科技大会：共探绿色发展新路径，科技引领未来

智能家居更多>>

微软几何计算器今年 7 月 7 日退役，OneNote 数学助手接棒保时捷中国研发中心落户上海虹桥商务区，计划下半年投入运营自主围剿合资挣扎 2024年车企销量榜报告 LiveWire推出全新电动摩托车，84匹大马力中大型智能旗舰MPV！比亚迪夏上市发布会·广州站启幕设计大胆，轴距近3米！国产新一代宝马X3或将一季度上市无人机“表演秀”，缘何闪耀郑州航空港的夜空？崔东树：2025年国内零售增速2%，增换购人群成消费主体

电器测评更多>>

索尼WH-CH520无线耳机限时特惠270元红米新机曝光：7500mAh大电池+天玑9400+性能芯，这是要搞事情？华为nova 14 Pro/Ultra手机获鸿蒙HarmonyOS 5.0.1.130升级一汽大众吴迎凯：双合资战略至少以前取得了成功，“一汽大众车型更原汁原味一点” 四巨头混战即时零售，谁抢跑、谁能赢？爱心传递共沐书香齐鲁银行第31所爱心图书室落地菏泽市王浩屯镇中心小学 2025上海车展：中航光电以创新驱动新能源汽车产业升级以“中国速度”加速创新转型，用“奔驰标准”守护豪华本质

Copyright 2012-2025 家电库版权所有京ICP备20132067号-1