阿里通义实验室发布FIPO算法 突破纯强化学习瓶颈

2026-04-07 23:01:59未知 作者:广韵网

4月7日,阿里巴巴旗下的通义实验室智能计算团队正式对外发布了一项创新算法——FIPO(Future-KL Influenced Policy Optimization)。这一新算法通过引入Future-KL机制,能够精准奖励模型推理过程中的关键Token,从而有效攻克了纯强化学习(Pure RL)训练中长期存在的“推理长度停滞”难题。据该团队透露,在320亿参数规模的纯强化学习设定下,FIPO算法成功实现了对o1-mini以及同规模DeepSeek-Zero-MATH模型的性能超越,标志着阿里在智能计算领域取得了又一重要突破。

点击展开全文
你关注的
【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力 AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进 深圳低空经济全域竞速:百企试飞、基金赋能、标准引领深圳低空经济全域竞速:百企试飞、基金赋能、标准引领
相关文章
车展技术洞察丨亿纬锂能大圆柱电池全球扩张 固态电池研发取得突破性进展车展技术洞察丨亿纬锂能大圆柱电池全球扩张 固态电池研发取得突破性进展 车展聚焦·行业洞察丨火山引擎杨立伟谈汽车AI布局:舱驾一体是方向,但需遵循经济规律车展聚焦·行业洞察丨火山引擎杨立伟谈汽车AI布局:舱驾一体是方向,但需遵循经济规律 AI新势力崛起:一个人也能跑通一家公司,上海模速空间见证奇迹AI新势力崛起:一个人也能跑通一家公司,上海模速空间见证奇迹 徽声在线:阿里云在中国汽车公共云市场占据42%份额徽声在线:阿里云在中国汽车公共云市场占据42%份额 腾讯ima创新推出Agent模式“copilot”,引领AI新潮流腾讯ima创新推出Agent模式“copilot”,引领AI新潮流 英伟达发布Nemotron 3 Nano Omni开源模型,智能体效率飙升至竞品9倍英伟达发布Nemotron 3 Nano Omni开源模型,智能体效率飙升至竞品9倍