小米發佈小體積高精度開源推理大模型:Xiaomi MiMo-7B

2025年4月30日,小米集團宣佈正式開源首個專爲推理任務設計的大模型Xiaomi MiMo-7B。該模型以7B參數規模,在數學推理與代碼競賽等核心領域超越OpenAI閉源模型o1-mini及阿里Qwen-32B-Preview等更大規模競品,成爲開源社區中的高性能輕量化標杆。  

 

MiMo-7B在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)兩大權威測評中表現亮眼。其參數效率顯著優於行業主流模型,例如以7B規模超越32B參數的QwQ-32B-Preview,驗證了小體積模型通過技術創新實現高精度推理的可能性。  

技術亮點:預訓練與後訓練聯動創新  

1. 預訓練階段  

  • 數據策略:挖掘併合成了約200B tokens的高質量推理語料,覆蓋複雜邏輯場景;  

  • 訓練方法:採用三階段漸進式訓練,總訓練量達25T tokens,逐步提升模型處理高難度任務的能力。  

2. 後訓練階段  

  • 算法創新:提出Test Difficulty Driven Reward機制,解決複雜問題中的獎勵稀疏問題,結合Easy Data Re-Sampling策略提升強化學習(RL)穩定性;  

  • 框架優化:通過Seamless Rollout系統實現RL訓練效率提升2.29倍、驗證速度提升1.96倍。  

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com