品玩11月7日讯,据谷歌官方消息,谷歌推出AI驱动的文件类型检测系统Magika 1.0稳定版。该系统自去年初开源以来,月下载量超百万,此次更新实现多项核心升级。
新版本采用Rust语言全新重构引擎,配备原生Rust命令行客户端,同时优化Python与TypeScript模块以简化集成。文件类型支持从约100种扩展至200余种,涵盖数据科学、编程开发、DevOps等多个领域的专业格式,并增强相似格式区分能力。
为解决训练数据量与稀缺性难题,谷歌借助SedPack数据集库处理3TB非压缩数据,通过Gemini生成合成训练数据,确保模型在各类文件类型上的可靠表现。