MiniMax开源代码智能体评测基准OctoCodingBench

Source

品玩1月15日讯，人工智能公司MiniMax正式宣布开源其研发的代码智能体系统性评测集——OctoCodingBench。该评测集是业内首个专门面向Coding Agent（代码智能体）设计的综合性评估基准。

根据评测结果，在关键指标"过程合规"方面，部分开源模型表现突出，已快速逼近甚至在某些场景下超越了部分闭源模型的水平。这一现象表明，在人工智能向Agent（智能体）时代演进的过程中，"数据与评测范式"正逐渐取代单一模型性能，成为行业竞争的新焦点。

此次开源举措将为学术界和产业界提供统一的评估标准，有望进一步推动代码智能体技术的透明化发展与性能优化。