来源:淘金网官网 发布时间:2025-12-01 03:56:24
10月14日,蚂蚁集团正式推出万亿参数考虑模型Ring-1T,并全面开源模型权重、练习配方。据介绍,Ring-1T在9月30日开源的预览版Ring-1T-preview基础上,继续扩展大规模可验证奖赏强化学习(RLVR)练习,进一步激起万亿基座的自然言语推理才能。
据了解,为继续激起Ring-1T的数学等杂乱推理才能,此次百灵团队挑战了难度更高的IMO2025(世界数学奥林匹克)赛题,将Ring-1T接入多智能体结构AWorld,运用纯自然言语推理进行解题。试验成果为,Ring-1T仅用一次解出了第1、3、4、5题,相当于IMO银牌水平,成为首个能拿IMO世界奥数奖的开源体系。
万亿参数考虑模型练习的最大难题是训推精度差异,即练习阶段与推理阶段因完成细节差异导致的练习和推理精度不一致,从而导致练习溃散。在Ring-1T模型中,蚂蚁采用了自研的“棒冰(icepop)”算法来应对这项职业难题,即用带掩码的双向切断技能把练习-推理散布差异冻结在低水位,确保长序列、长周期练习不崩。此外,应对万亿参数模型强化学习练习,蚂蚁还自研高功能强化学习体系ASystem(其间包含已开源的高功能强化学习结构AReaL),特别针对万亿参数模型的显存办理和训推权重交流问题做了精密的优化,完成了单机显存碎片秒级收回、权重零冗余交流,把大规模RL练习安稳跑成日常。
百灵团队泄漏,Ring-1T模型是其在万亿考虑模型上的初次测验,团队会在后续的版别中继续完善模型功能。现在,用户可经过HuggingFace渠道、魔搭社区下载模型,并经过蚂蚁百宝箱等渠道在线体会。
数据显现,蚂蚁百灵大模型现已发布18款模型,构成从160亿总参数到1万亿总参数的大言语模型产品矩阵,这中心还包含两款万亿参数模型——万亿参数通用大言语模型Ling-1T、万亿参数考虑模型Ring-1T。跟着两款万亿参数模型的发布,百灵大模型也正式步入2.0阶段。