小米在2025年4月30日正式開源了其首個專爲推理任務設計的大模型Xiaomi MiMo,此模型以僅7 B參數的規模,在數學推理(AIME 24–25)和代碼競賽(LiveCodeBench v5)兩大公開評測集上超越了OpenAI的閉源模型o1-mini以及阿里Qwen的32 B參數預覽版QwQ-32B-Preview。
Xiaomi MiMo的推理能力提升得益於預訓練階段對推理模式的深度挖掘和後訓練階段算法與框架的多層面創新。小米團隊首先構建了約200 B tokens的專用推理語料庫,讓模型在更豐富的推理場景中“見多識廣”;在此基礎上,他們採用三階段遞進式訓練策略,總計訓練25 T tokens,以逐步提升模型對複雜邏輯鏈條的掌握能力。
在後訓練階段,團隊引入了“Test Difficulty Driven Reward”算法,以動態分配不同難度測試樣本的獎勵,從而緩解強化學習中常見的獎勵稀疏問題;同時,採用“Easy Data Re-Sampling”策略,對較易樣本進行重採樣,以穩定訓練過程,減少梯度更新的跳躍性。爲了進一步加速訓練效率,小米還設計了“Seamless Rollout”系統,將在線生成與批量評估無縫融合,使RL訓練速度提升2.29倍,驗證速度提升1.96倍。
目前,小米大模型Core團隊已將MiMo-7B系列的四個版本(包括預訓練基線模型MiMo-7B-Base、監督微調模型MiMo-7B-SFT、強化學習模型MiMo-7B-RL以及零示例強化學習模型MiMo-7B-RL-Zero)全部發布至HuggingFace,技術報告全文及實驗數據也同步開源在GitHub,內容涵蓋模型結構、訓練流程、評測指標與對比分析。
MiMo-7B已開源4個模型至HuggingFace:https://huggingface.co/XiaomiMiMo
技術報告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf
來源:安兔兔
點擊此處查看原文>>>
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com