Spotlight

DeepSeek 与 600 万美元的 AI 革命

illustrative graphic

Deepseek 的起源:从高频交易到前沿人工智能

随着 DeepSeek 大型语言模型新版本的即将发布,自这家中国公司在美科技和金融领域引发重大震动以来已经过去了大约十五个月。其 R1 推理模型被认为与当时主要的美国 LLM 具有同等的竞争力——许多美国公司指责该公司侵犯了其知识产权(当它们自己也面临版权挑战时,这是一个很难站稳脚跟的立场)。

DeepSeek 作为全球人工智能主要力量的崛起,所代表的意义远不止是又一个竞争者的出现。它标志着……更确切地说,它展示了该领域在经济学和工程哲学上的根本性转变。虽然硅谷关于人工智能的叙事通常集中于风险投资支持的初创公司和庞大的“算力护城河”,但 DeepSeek 的起源故事植根于高风险、数据驱动的量化金融世界。

该公司最初是在梁文峰创立的一家顶级中国对冲基金宁波高飞量化投资管理中孵化的。作为浙江大学的毕业生,梁文峰在 2008 年金融危机后的几年里致力于将机器学习融入量化交易。到 2019 年,高飞已积累了超过 100 亿元人民币的资产,提供了构建其庞大计算基础设施所需的流动性。2020 年,该公司建立了“火飞 I”,一个专用于深度学习的超级计算机,它成为了后来 DeepSeek 的实验基础。

与那些通常承受商业化和风险投资回报即时压力的美国竞争对手不同,DeepSeek 于 2023 年初作为一家由高飞内部研发预算资助的研究型实验室成立的。这种机构性的起源使该实验室能够优先考虑长期研究目标和算法效率,而非市场形象。内部人士形容其文化是“极客化”且“古怪的”,更青睐专业工程人才而非大型科技集团所拥有的单纯劳动力规模。这种对“智能”学习而非蛮力扩展的关注,最终使该实验室能够挑战计算密集型美国公司的既有主导地位。

DeepSeek 的冲击:效率即武器

在 2024 年底至 2025 年初,DeepSeek V3 和 R1 模型的发布在全球科技和金融领域引发了深刻的震动,这一事件现在经常被称为“DeepSeek 时刻”。市场的反应是强烈的:在 R1 推理模型发布时,英伟达(NVIDIA)的市场市值单日暴跌超过 6000 亿美元,创下美国市场历史上的最大跌幅。这种恐慌源于一个认识——DeepSeek 打破了一个人工智能时代的根本假设:即前沿性能需要不断飙升的能源和最新的高端硬件。

DeepSeek 以远低于同行的成本实现了前沿级别的能力。虽然训练像 GPT-4 这样的模型估计花费超过 1 亿美元,但 DeepSeek-V3 的训练成本仅不到 600 万美元。这并非是偷工减料的结果,而是架构的优雅性所致。该实验室引入了多头潜在注意力(Multi-head Latent Attention, MLA)等创新,它将模型“上下文”的内存开销减少了近 90%,以及一个精炼的专家混合(Mixture-of-Experts, MoE)框架。在这种配置下,对于任何给定任务,只有模型参数的一小部分——大约是 6710 亿中的 370 亿——被激活,使得该模型在运行时计算上“轻量化”。

此外,R1 模型证明了“推理”(自我纠错和解决复杂问题的能力)可以通过大规模强化学习来实现,而不仅仅是扩大数据集规模。通过证明精英级 AI 可以廉价构建并在商用硬件上运行,DeepSeek 使顶级智能的获取民主化了,有效地结束了“算力”作为进入壁垒的时代。

2026 年的前沿:自主性与代理式雄心

截至 2026 年 4 月,焦点已转向即将推出的 DeepSeek-V4,据传该模型将达到万亿参数规模。人们对 V4 的期待不仅仅在于其规模,更在于其战略意义。有报道称,DeepSeek 已将其训练基础设施从西方硬件转向国内芯片,例如华为昇腾系列(Huawei Ascend series)。通过针对这些国产处理器进行优化,DeepSeek 实际上正在构建一个“完全自主”的 AI 技术栈,使其能够抵御美国的出口管制,这标志着地缘政治科技竞赛进入了一个新阶段。

即将推出的版本还承诺超越简单的文本生成,迈向“代理式”(agentic)AI——旨在在交互环境中执行复杂多步骤任务的模型。该架构预计将采用“记忆图谱条件存储”(Engram Conditional Memory),这是一种允许模型根据特定任务上下文选择性地保留和回忆信息的机制,从而显著提高了大规模数据环境中的准确性。这种向“工具使用思维”(Thinking in Tool-Use)的转变使 AI 能够充当一个自主代理,识别目标并在遇到不一致时纠正自己的路径。

归根结底,DeepSeek 的意义超越了中美竞争;它代表着人工智能发展的“多元化”。通过证明战略智慧可以与原始计算能力一样有价值,DeepSeek 挑战了封闭 AI 生态系统的叙事。随着该公司向 V4 系列的多模态和代理式前沿迈进,它仍然是一个颠覆性的基准,迫使整个行业将架构创新置于蛮力逻辑之上。