2025年4月30日,小米集團宣佈正式開源首個專爲推理任務設計的大模型Xiaomi MiMo-7B。該模型以7B參數規模,在數學推理與代碼競賽等核心領域超越OpenAI閉源模型o1-mini及阿里Qwen-32B-Preview等更大規模競品,成爲開源社區中的高性能輕量化標杆。
MiMo-7B在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)兩大權威測評中表現亮眼。其參數效率顯著優於行業主流模型,例如以7B規模超越32B參數的QwQ-32B-Preview,驗證了小體積模型通過技術創新實現高精度推理的可能性。
技術亮點:預訓練與後訓練聯動創新
1. 預訓練階段
數據策略:挖掘併合成了約200B tokens的高質量推理語料,覆蓋複雜邏輯場景;
訓練方法:採用三階段漸進式訓練,總訓練量達25T tokens,逐步提升模型處理高難度任務的能力。
2. 後訓練階段
算法創新:提出Test Difficulty Driven Reward機制,解決複雜問題中的獎勵稀疏問題,結合Easy Data Re-Sampling策略提升強化學習(RL)穩定性;
框架優化:通過Seamless Rollout系統實現RL訓練效率提升2.29倍、驗證速度提升1.96倍。
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com