2025年度总结：AI不再是噱头，人工智能真正开始“做事”的一年

一转眼，2025年又马上过完了，

毋庸置疑，从多个维度来看，2025年都将在人工智能发展史上留下浓墨重彩的一笔，成为一个具有重要意义的里程碑。

如果说2023年是“对话大模型之年”，2024年是“多模态之年”，那么2025年我个人则更倾向称之为“推理、开源、视觉与智能体之年”（Year of Reasoning, Open Source, Vision, and Agents）。

与此同时，在这一年，作为亲身经历者，我们完整地见证了兔子在人工智能领域从几年前艰难起步，直至今年实现全面追赶，惊艳世界，甚至在部分领域实现反超的发展历程。

这一年，从 DeepSeek R1 的发布开始，行业首次真正意义上迈入全员“深度思考”时代。推理/思考模型全面崛起，行业重心从追求响应速度的“快思考”模型，系统性转向具备思维链（Chain-of-Thought）能力的“慢思考”模型。OpenAI O 系列、阿里 Qwen 3-Thinking 等标志性推理模型相继推出，共同确立了逻辑推理能力作为衡量大模型“智商”的新标准。

这一年，还是从 DeepSeek R1 开始，开源权重首次展现重塑全球格局的统治力。DeepSeek 以极低训练成本和彻底开源，打破阿美利肯科技巨头的算力护城河，引爆全球模型价格战，并推动行业从“拼算力”转向“拼效率”。这一“非对称突围”迅速引发连锁反应——阿里 Qwen、月之暗面 Kimi 等纷纷开源多类模型，共同构建起以透明、高效、可复现为核心的开源生态，让“开放”成为技术竞争力的新支柱。

这一年，以阿里通义万相（Wan）和字节即梦（Seedream）以及快手可灵（Kling）为代表，在音画同步生成和物理规律模拟上展现了世界级的工程能力，甚至在商业化落地速度上超越了OpenAI的Sora （不过后续的Sora2再一次证明了其技术实力）。在图像生成方面，Qwen、咕噜咕噜香蕉以及Pro还有Flux2等，将图像生成质量推到了一个新的高度。

这一年，AI已不再局限于单一的应用或模型。从3月的Manus智能体，到后续的努比亚豆包M153，我们目睹了AI在智能体（Agent）领域的发展，以及与操作系统的深度融合。这无疑是一条充满挑战且漫长的征程。

那么，在今天——这一年的最后一天，飞碟AI将与各位一同回顾2025年人工智能领域中发生的、无论大小却都值得我们关注的事件。

2025年1月

深度求索（DeepSeek）发布 R1 推理模型

1月20日 – 兔子 AI 创企 DeepSeek 正式发布了其 R1 推理模型。

这一开源模型在发布后迅速流行，甚至在阿美利肯 App Store 免费应用榜位列第一。

DeepSeek R1 以600万美元的成本实现了接近 OpenAI 和 Google 同级水平的推理能力，颠覆了“巨量算力是 AI 必需品”的常规认知。

这次发布显示兔子厂商在大模型研发上迎头赶上，美中 AI 博弈进入白热化阶段，也加速了全球 AI 模型开源和应用普及的浪潮。

2025年2月

阿里巴巴“万相”2.1 视觉模型开源

2月25日 – 阿里云旗下视觉生成基座模型万相 2.1 （现在来看是梦的开始）（Wan2.1）在 GitHub 和 Hugging Face 等平台全面开源。

此次开源包括 14B 和 1.3B 两个规模的模型权重和推理代码，并支持文本生成视频、图像生成视频等任务。官方测试显示，万相 2.1 在视频生成的诸多评测指标上大幅领先国内外同类模型。 Wan2.1的开源，标志着阿里云在 AI 视频生成领域发力，开放策略降低了入门门槛，助力社区和行业进一步创新。

腾讯发布元宝AI助手

2月13日 – 兔子科技巨头腾讯正式发布元宝AI助手App。

该全能AI应用基于自研混元大模型，支持AI搜索、写作、文档解析、图像生成等多模态能力，覆盖职场办公、知识学习、生活娱乐场景，用户一句话即可高效响应。元宝接入微信、QQ生态，提供公众号内容及权威信源的联网搜索，确保答案时新准确。

其在2025年初接入DeepSeek R1满血版，支持深度思考与高速推理，2月17日更新混元+DeepSeek双模型深度思考功能，免费开放复杂问题求解。3月DAU激增超20倍，电脑版上线截图提问与深色模式。7月WAIC展发布“1+3+N”AI全景图，升级智能体平台。8月接入DeepSeek V3.1，进一步提升响应速度。9月上线腾讯会议“AI托管”与公众号评论区情绪感知。11月开源HunyuanVideo 1.5视频生成模型。

12月，腾讯元宝发布2025年度报告：DeepSeek模型调用量同比增长超百倍，全年新增定时提醒、任务管理等功能，凭借生态整合与多模型融合，用户体验大幅提升，已稳居国内AI应用前三。元宝坚持“自研+开源”策略，与文心一言、豆包激烈竞争，通过融入微信等生态及多模态能力，降低门槛，推动AI向生活伙伴演进。

OpenAI 发布 GPT-4.5

2月27日 – OpenAI 正式推出 GPT-4 的升级版 GPT-4.5。

这一研究预览版模型相比 GPT-4 在预训练规模上更进一步，拥有更广泛的知识库与更强的理解能力。官方指出 GPT-4.5 更善于把握模式、跟随用户意图，交互体验更自然，写作、编程、解决问题等能力都有明显提升。

作为 OpenAI 最新的聊天模型，GPT-4.5 为广大开发者和普通用户提供了升级的智能助理服务，是这一年全球范围内 AI 能力跃升的代表之一。

2025年3月

Manus推出全球首款通用AI代理

3月6日 – 初创公司 Butterfly Effect 推出全球首款通用 AI 代理 Manus

Manus 定位为自主执行复杂任务的通用 AI 智能体，能独立处理市场研究、数据分析、编码、旅行规划、简历筛选等实世界任务，而无需持续人类监督。采用多智能体架构，在云端虚拟环境中运行，支持异步操作和过程回放。

官方演示视频迅速走红，首周等待名单超200万人。Manus 在 GAIA 基准测试中大幅超越 OpenAI Deep Research 等竞品，被誉为“兔子第二个 DeepSeek 时刻”。

其前身产品 Monica 已积累超1000万用户，为 Manus 提供了技术和用户基础。

并且谁能预想到，在25年年底，Manus居然被Meta花10亿美元收购。

2025年4月

Mdj 发布 V7 版本

4月3日 – AI 图像生成平台 Mdj 正式推出 V7，这是一次不止于画质升级的重大版本迭代。

V7 引入了 Draft Mode（草稿模式），以十倍生成速度和更低成本支持快速概念迭代；同时上线的 Omni Reference（全能参考）显著强化了对参考图的理解与约束能力，使角色一致性与风格迁移达到新的精度水平。模型在真实感、解剖结构、光照与复杂物体表现上也有明显改进，并首次默认启用个性化审美学习机制。

V7 的发布，标志着 Mdj 正在从“出图工具”向一体化创意生产平台加速转型。

快手推出全球领先视频生成AI：可灵2.0

2025年4月15日- 快手在北京发布可灵2.0视频生成模型及可图2.0图像模型。

作为全球首个用户超2200万的DiT架构视频大模型，此次升级标志国产AI视频技术领先。自2024年6月上线，可灵AI迭代超20次。10个月内月活增长25倍，用户破2200万，生成视频1.68亿个、图像3.44亿张。商业收入超1亿元，为国内最大变现视频AI应用。

核心引入MVL多模态交互，支持文字、图像、视频输入。大师版新增视频编辑，用户可增删替换元素，在基准测试中，文生视频胜率超Veo 2达205%、Sora达367%，领先动态、语义、美学及指令遵循，支持大幅运动与电影质感。此发布视为兔子AI视频里程碑，推动可控编辑与生态演进。

此后，可灵亦不负众望，陆续推出Keling 2.1、2.5、2.5-Turbo，并在12月发布Keling 2.6模型。

阿里巴巴发布 Qwen3 混合推理模型

4月29日 – 阿里云正式开源新一代大语言模型家族 Qwen3，这是阿里首次推出“混合推理”架构的大模型系列。

Qwen3 全系一次性开放 8 款模型，涵盖 0.6B 至 32B 的密集模型，以及 30B 与 235B 两款 MoE 模型，在部署成本、性能覆盖与应用弹性上形成完整梯度。其最大特点是可在「思考模式」与「非思考模式」之间动态切换，兼顾复杂推理任务与高速响应场景，并允许开发者精细控制推理 token 预算。

基于约 36 万亿 tokens 的训练数据，Qwen3 在数学、编程、多语言、Agent 与工具调用等核心能力上全面超越前代 Qwen2.5，多项基准测试跻身全球第一梯队。全系列模型以 Apache 2.0 协议开源，并同步登陆 Hugging Face、GitHub 与 ModelScope。

Qwen3 的发布不仅刷新了开源模型的性能上限，也标志着“可控推理 + 低成本 MoE”正在成为下一阶段大模型竞争的关键方向。

Tips：由于其强大且开源的特点，之后不少国外公司也开始使用其来训练自家模型，比如Meta。

2025年5月

字节跳动“即梦”AI视频生成超越“豆包”

5月13日 – 字节跳动推出的视频生成应用 即梦 AI 迎来增长高峰，在兔子区 App Store 免费应用榜上超过了自家通用 AI 应用“豆包”，首次登顶。

QuestMobile 数据也显示，截至 2025 年 3 月，即梦 AI 月活已达约 893 万。

这一现象反映了巨头对多模态生成场景的竞争：字节通过扶持视频生成工具快速积累用户，试图分一杯羹；同时凸显了 AI 应用市场的白热化，企业对用户生态和变现模式的博弈进入新阶段。

Anthropic 发布 Claude 4（Opus 4 和 Sonnet 4 模型）

5月22日 – AI 创企 Anthropic 正式推出其 Claude 4 系列模型，包括面向高级推理与 Agent 工作流的 Claude Opus 4 和通用版 Claude Sonnet 4。

其中，Opus 4 宣称是“全球最强的编程模型”，能够在长时推理任务和持续数小时的 Agent 运作中保持卓越表现；Sonnet 4 则在代码和逻辑推理能力上相比前代有显著提升，并对用户指令响应更加精准。这次发布还带来了扩展思考与工具调用（Extended Thinking）、高效并行工具执行、新的记忆能力等特性，允许模型同时使用搜索、文件操作等工具来增强回答。

Claude 4 的发布进一步提升了 AI 在编程、复杂问题解决等领域的实力，也推动了 AI Agent 生态的发展。对于行业用户而言，新的模型和 API 功能意味着更强大的自动化和生产力工具，例如在代码编辑、Copilot 代码助手等场景都将表现更好。

2025年6月

Kimi 推出 Kimi-Researcher 深度研究 Agent

6月20日 – 月之暗面正式开启其首个智能体产品 Kimi-Researcher 的小范围内测，这是一个专为“深度研究”任务打造的新一代 Agent 模型。

Kimi-Researcher 基于端到端 Agentic 强化学习训练，模型可自主澄清问题、规划任务、进行多步推理，并主动搜索与筛选高质量信源，平均完成 23 步推理、检索 200 余个网页，最终交付万字级、可溯源的研究报告及动态可视化结果页。

在完全无流程设计的 Humanity’s Last Exam（HLE）基准中，Kimi-Researcher 的 Pass@1 达到 26.9%，表现超过 Claude 4 Opus 与 Gemini 2.5 Pro，跻身当前 Deep Research Agent 的第一梯队。

这一产品标志着 Kimi 正式将“模型即 Agent”的路线推向实际落地，也被视为 2025 年 Agent 赛道从 Workflow 向端到端智能体演进的重要节点。

2025年7月

阿里巴巴通义万相 2.2 开源视频生成模型

7月28日 – 阿里云通义实验室正式开源新一代 AI 视频生成模型 通义万相 Wan2.2，成为全球首个将 MoE（混合专家）架构引入视频生成领域的开源模型。

Wan2.2 支持 文生视频（Text-to-Video）、图生视频（Image-to-Video） 与 统一视频生成（Text+Image-to-Video） 三大核心功能，拥有约 27B 参数与 14B 激活参数，并在计算效率上较同类模型显著优化。官方展示显示，Wan2.2 在运动质量、画面稳定性与电影级画面美学表现上对标甚至超越多个闭源商业模型，同时提供可在主流开源平台如 GitHub、Hugging Face 下载的权重与推理代码，极大降低了高清 AI 视频生成的技术门槛。

此举不仅丰富了兔子开源大模型生态，也推动 AI 内容创作工具向更高质量与更广泛应用迈进。

腾讯混元世界模型系列迭代发布

7月27日 – 在 2025 世界人工智能大会（WAIC）上，腾讯正式发布并开源了混元 3D 世界模型 1.0，这是业界首个可从文字或图片输入生成可 360° 沉浸式、可编辑三维世界的开放模型，输出标准化 3D 资产并兼容主流引擎，极大简化了游戏、VR 与数字内容创作的 3D 构建流程。

随后的 10月22日，腾讯又推出混元世界模型 1.1，在支持多视图/视频输入、单卡部署与秒级推理等方面实现显著升级，推动专业级 3D 重建技术向更广泛用户普及。

12月17日，混元世界模型进一步迭代至 1.5 版本（WorldPlay），首次开源了覆盖数据构建、训练到流式推理部署的全链路实时世界模型框架，支持用户通过文字或图像创建可实时交互的 3D 世界，并能像玩游戏一样用键盘/手柄操作虚拟相机探索场景，标志着实时交互式 AI 世界生成进入实用化阶段。

月之暗面发布 Kimi K2 开源模型

7月11日 – Moonshot（月之暗面）团队正式开源新一代大模型 Kimi K2，这是一个面向 Agent 场景深度优化的超大规模 MoE 模型。

Kimi K2 采用混合专家架构，总参数规模达 1T，激活参数约 32B，主打“非长思考、强执行”的 Agentic Intelligence 路线，原生支持多轮工具调用、代码执行与复杂任务自动化，在编程、数学与工具使用等基准测试中全面对标甚至超越多款同级模型。

官方同步开源 Kimi-K2-Base 与 Kimi-K2-Instruct 两个版本，并支持 256K 超长上下文，开发者可直接将其用于代码生成、数据分析与自动化 Agent 构建。

Kimi K2 的发布，进一步加剧了国内开源大模型的正面竞争，也标志着月之暗面在“模型即 Agent”方向上迈出了关键一步，为开发者提供了一个真正可落地的高性能智能体底座。

2025年8月

OpenAI发布GPT-5

2025年8月7日 – OpenAI正式推出 GPT-5，其在推理、编程、写作与多模态任务上实现全面跃升。

GPT-5采用统一智能架构，可动态调用快速响应或深度推理（“GPT-5 Thinking”）模式，并通过智能路由优化输出。编程能力显著增强，能一键生成结构合理、设计精美的网站；写作方面可驾驭诗歌、报告等复杂文体；在医疗领域，其健康建议更精准，在HealthBench评测中表现领先。

GPT-5标志着AI从“强工具”迈向“可靠协作者”，为开发者与普通用户带来更高效、安全、智能的体验。

智谱AI发布AutoGLM 2.0执行型智能体

8月20日 – 兔子AI公司智谱AI正式发布了其AutoGLM 2.0执行型智能体模型。

该模型定位“执行型助手”，支持自然语言指令自主完成复杂任务，可模拟真人操作手机与电脑界面，覆盖外卖、机票、朋友圈等50多个高频中文场景。2.0采用云端范式，为AI分配专属虚拟设备，避免干扰用户本地资源，并支持手机-电脑跨端协同。

其早在2025年3月，智谱推出AutoGLM浏览器插件与GLM-PC客户端，开启AI从聊天向执行转型。3月沉思版本强化多轮检索能力。8月2.0聚焦执行效率，12月更开源核心模型及Phone Use框架，包括AutoGLM-Phone-9B，支持Android、HarmonyOS及实验性iOS，提供50+App Demo并采用宽松许可，推动开发者共建生态。

AutoGLM系列快速迭代，与字节豆包等封闭模式形成对比，类似安卓对苹果之争。其开源策略降低AI手机开发门槛，强化隐私保护，加速AI向真正效用代理演进，同时加剧中美AI竞争，助力全球开源浪潮。

马斯克宣布xAI 将开源 Grok 2 模型

8月25日 – 马斯克在 X 上宣布其 AI 公司 xAI 将开源其新版聊天机器人 Grok 2.5。

在此之前，Grok 1.5 已具备与 ChatGPT 等竞争的交互能力。这次决定开源意味着 Grok 2 的代码和模型参数很快对外开放，开发者和研究者可免费使用。

虽然 Grok 的市场份额目前有限，开源发布却是 AI 生态中的一个信号：大型 AI 企业正借鉴 DeepSeek 的做法，认为开放共建有利于技术传播和应用落地。对于普通用户来说，这意味着更多新的聊天机器人可供选择，也为 AI 透明性与创新带来机会。

阿里Qwen3支持百万级上下文

2025年8月 – 阿里巴巴升级Qwen3大模型，支持高达100万token上下文，可一次性处理整部法律卷宗或科研文献，显著提升跨文档推理能力。在“大海捞针”测试中，其长文本稳定性远超竞品，迅速成为法律、金融等B端场景首选。

此前7月发布的Qwen3-235B版本已开源256K上下文，部署仅需4张H20显卡，显存占用为同类模型三分之一。阿里以“全家桶”策略覆盖0.6B至235B全规格，并通过开源推动Qwen成为垂直模型基座。

模型支持MCP协议、Qwen-Agent框架，采用Apache 2.0协议，免费商用，支持119种语言。凭借领先评测表现与低部署成本，Qwen3正加速企业级AI落地。

Google发布Gemini 2.5 Flash Image（香蕉）

2025年8月26日 – Google发布全新图像生成模型 Gemini 2.5 Flash Image（代号 nano 香蕉），在角色一致性、语义理解和创意生成方面实现重大突破。

该模型首次在保持主体外观高度一致的同时，支持复杂场景变换与多图融合，解决了生成式AI长期存在的“角色漂移”难题。通过自然语言即可实现精准局部编辑，并能结合真实世界知识进行逻辑推理，如推演画面前后因果或理解手绘示意图。

这一进展标志着AI图像生成从“好看”迈向“可靠可用”，为叙事性内容创作、产品设计、教育工具等专业场景提供了真正实用的技术基础，进一步拉大Google在多模态AI领域的领先优势。

2025年9月

OpenAI 正式发布索拉2 视频生成模型

2025年9月 – OpenAI推出新一代视频生成模型索拉2。

该模型支持高保真视频与同步音效生成，显著提升物理准确性与多镜头一致性，可真实模拟动量、浮力等复杂动态，并同步生成角色对白与环境音。索拉2在多个视频生成基准中大幅领先现有系统，被官方称为“视频领域的 GPT‑3.5 时刻”。

此次发布标志着AI视频从“画面生成”迈向“世界模拟”，不仅推动创意内容生产变革，也为通用智能体训练提供关键基础设施。

2025年10月

DeepSeek发布高效OCR模型

2025年10月 – DeepSeek推出新一代OCR模型，通过融合SAM与CLIP并引入16x令牌压缩，将整页文档编码压缩至仅64 Token，10倍压缩下仍保留97%信息。

系统支持100种语言，可精准识别表格、公式、图表并输出结构化Markdown或矢量图，在OmniDocBench上以极少令牌数超越主流OCR模型。

单台A100日处理超20万页，集群可达3300万页/天，大幅降低长文档AI处理成本，推动OCR从“文字识别”迈向“语义理解”。

2025年11月

OpenAI发布GPT-5.1

2025年11月13日 – OpenAI正式推出 GPT-5.1，在保持强大推理能力的同时，全面优化对话体验与个性化交互。

GPT-5.1包含两大模型：Instant 默认更温暖、具对话感，能自适应调整思考深度；Thinking 则在复杂任务中更深入、简单任务中更迅捷，且回答更清晰易懂。两者均显著提升指令遵循能力，并减少幻觉与机械感。

此次升级重点在于“人性化”：新增“专业可靠”“直言不讳”“天马行空”等八种语气风格，支持实时微调简洁度、热情度与表情符号使用。个性化设置即时生效，覆盖所有对话。

GPT-5.1标志着AI竞争从“参数比拼”转向“体验深耕”——更强的智能，更要“好聊”。

xAI发布Grok 4.1

2025年11月17日 – xAI正式推出 Grok 4.1，面向所有用户免费开放，并默认启用。

新模型在三大维度实现突破：幻觉率从12.09%降至4.22%，事实准确性显著提升；情感智能跃升，在EQ-Bench测试中Elo分达1586，能以细腻共情回应用户情绪；创意写作能力大幅增强，Creative Writing v3得分达1722 Elo，文风更具人格与叙事张力。

在LMSYS Arena盲测中，Grok 4.1推理模式以1483 Elo登顶全球榜首，非推理模式亦以1465分位列第二，远超前代（原排名第33）。

Grok 4.1标志着大模型竞争从“智能强度”迈向“情感深度”与“交互真实感”的新阶段。

OpenAI发布GPT-5.1-Codex-Max

2025年11月19日 – OpenAI推出专为复杂软件工程任务打造的编程智能体模型 GPT-5.1-Codex-Max。

该模型首次引入上下文压缩（Compaction）技术，可在接近窗口上限时自动精简历史、保留关键信息，实现跨数百万Token的连贯工作。内部测试中，它已能连续运行超24小时，独立完成项目级重构、多轮调试与智能体循环等长时任务。

在性能方面，Codex-Max在SWE-Bench Verified中准确率达79.9%，超越Gemini 3 Pro；Token效率提升30%，同等任务成本更低。它原生支持CLI、IDE插件与云端环境，可生成完整可运行应用（如CartPole沙盒、太阳系模拟器），并输出详细日志供人工审查。

目前该模型已面向ChatGPT Plus、Pro及企业用户开放，API即将上线。OpenAI强调：Codex-Max是“可靠编程伙伴”，而非替代者——95%内部工程师每周使用Codex，PR提交量提升70%，但所有输出仍需人工验证。Codex-Max标志着AI编程从“辅助片段生成”迈向“自主长时开发”，为下一代AI软件工程师奠定基础。

Google发布香蕉 Pro

2025年11月20日 – Google正式推出香蕉 Pro（Gemini 3 Pro Image），作为初代香蕉的全面升级版，聚焦精准文本渲染、多图融合与专业级创意控制。

该模型最大突破在于图像内文字生成能力：可准确呈现多语言、多字体、长段落文本，从海报标语到信息图表均清晰可读，彻底解决AI“乱码文字”难题。同时，依托Gemini 3 Pro的世界知识与实时搜索，能将天气、食谱、赛事等动态信息转化为结构化视觉内容。

香蕉 Pro支持最多14张图像融合，并保持5个人物主体的高度一致性，适用于复杂叙事场景与商业广告制作。新增专业编辑功能——包括局部重绘、日夜光照切换、焦点调整、色彩分级及4K输出——赋予用户如导演般的画面掌控力。

Google称，这不仅是工具升级，更是AI影像从“有趣玩具”迈向“可靠生产力”的关键一步，其之后的火爆程度各位有目共睹。

2025年12月

努比亚推出首款搭载豆包 AI 手机

12月1日 – 字节旗下“豆包”团队与中兴通讯合作推出首款搭载豆包手机助手技术预览版的工程机型 nubia M153，这款 AI 手机一经上线便在行业内引发广泛关注。

nubia M153 配备骁龙 8 至尊版芯片、16GB+512GB 存储、6.78 英寸 LTPO 显示屏与 6000mAh 大电池，售价 3499 元，首批约 3 万台工程样机在官方渠道快速售罄。该机集成豆包 AI 助手，能够跨应用执行复杂任务，如自动比价下单、批量下载等操作，标志着手机操作系统层级 AI 自动化迈出实质性一步。

尽管功能尚处预览阶段且在部分主流应用如微信登录等存在兼容性问题，但市场热度与二手价格飙升显示行业对 AI 手机潜力的强烈预期。此次发布凸显了国产 AI 手机生态合作与 AI 交互体验创新的趋势。

字节跳动发布即梦4.5（Seedream 4.5）

2025年12月3日 – 字节跳动在火山引擎正式推出图像模型 即梦4.5，在多图合成、角色一致性、精细编辑和小文本渲染上显著升级。实测显示，其能稳定融合多张参考图、保留人物身份与细节，并在更换背景、材质或光照时维持主体结构不变。海报与Logo生成中，文字更清晰、排版更合理，整体画面更具电影感与视觉吸引力。