字节跳动发布GR-RL框架,实现机器人穿鞋带新突破

Source

品玩12月3日讯,据pandaily 报道,字节跳动Seed团队近日推出新型强化学习框架GR-RL,显著提升视觉语言动作(VLA)模型在长时间、精细操作任务中的能力。

该框架通过从离线数据筛选到在线实机微调的全流程优化,首次实现机器人连续完成整根鞋带穿引全过程,成功率达83.3%。

相较此前基于监督学习的GR-3模型,GR-RL将穿鞋带任务成功率从45.7%大幅提升近一倍,失败率降低近70%,标志着机器人灵巧操作能力取得重要进展。该成果为复杂精细操作的自动化提供了新路径。