近日,小米正式开源 MiMo-VL-7B-RL-2508 和 MiMo-VL-7B-SFT-2508 两款视觉语言模型(VLM),并在arXiv发布技术报告《MiMo-VL Technical Report》。
结果令人震惊:
🔥 在40项任务中,击败Qwen2.5-VL-7B高达35项!
🚀 OlympiadBench得分59.4,超越高达78B参数的模型!
💻 GUI任务OSWorld-G得分56.1,甚至超过专用模型UI-TARS!
🏆 Elo评分开源第一,横跨7B到72B参数范围登顶!
这不是“差不多”,而是全面碾压。
更惊人的是:这款模型不仅能“看懂”图像和视频,还能告诉你它是怎么想的——甚至你可以命令它:“别想了,直接回答”。
今天,我们就带你逐行拆解这份技术报告,看看小米是如何用“小模型”做出“大事情”的。