阿里通义实验室智能计算团队推出新算法FIPO

2026-04-08 09:15:18

4月8日消息，阿里通义实验室智能计算团队宣布推出新算法FIPO（Future-KL Influenced Policy Optimization），引入Future-KL机制，奖励关键Token，解决纯强化学习（Pure RL）训练中“推理长度停滞”难题。据该团队介绍，在32B规模的纯RL设定下，率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

[查看原文]

更加详细情况，请关注本站最新动态。

7X24h快讯

Carousell宣布与SPX Express合作全面升级配送服务
7分钟前
微信支付香港：复活节假期内地线下零售金额同比翻倍
8分钟前
Wildberries将统一中俄卖家佣金
13分钟前
Uber与亚马逊AWS达成合作使用Trainium3芯片训练出行AI模型
16分钟前
山姆2026年首家新店将于4月9日开业
19分钟前
余承东批评团队零售设计没做好：核心原因出在审美上
21分钟前
小米申请注册YU7 GT商标
23分钟前
通联支付助力东营春季焕新快乐购暨广饶汽车美食嘉年华举办
24分钟前
沈阳一季度跨境电商海关备案企业新增100余家
26分钟前
重庆中通召开网点服务质量培训会
49分钟前