
DeepSeek(深度求索)是幻方量化公司旗下的开源大模型平台,成立于2023年7月,专注于研究世界领先的通用人工智能底层模型与技术,挑战人工智能前沿性难题。基于自研训练框架、自建智算集群和万卡算力等资源,DeepSeek(深度求索)团队仅用半年时间便已发布并开源多个百亿级参数大模型,如DeepSeek-LLM通用大语言模型、DeepSeek-Coder代码大模型。
2024年1月率先开源国内首个MoE大模型(DeepSeek-MoE),各大模型在公开评测榜单及真实样本外的泛化效果均有超越同级别模型的出色表现。
2024年12月26日旗下全新系列模型DeepSeek-V3首个版本上线并同步开源。DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8T token上进行了预训练。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

(图片来源:深度求索)
极致的科技驱动成本优化,DeepSeek-V3模型的训练成本仅为约558万美元,远低于OpenAI GPT-4等主流模型的数亿美元训练成本!
2025年1月20日,DeepSeek正式发布 DeepSeek-R1 模型,并同步开源模型权重。DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。DeepSeek-V3和DeepSeek-R1两款大模型,成本价格低廉,性能与OpenAI相当,让硅谷震惊,甚至引发了部分国际科技巨头内部的恐慌,工程师们开始连夜尝试复制DeepSeek的成果。
DeepSeek团队—扫地僧梁文峰、实习团清北才俊

“深度求索”的创始人梁文峰,在同事眼中是一个“技术狂人”,1985年出生于广东湛江,17岁考入浙江大学,2010年硕士毕业后与同学一头扎进金融行业,创立了量化交易公司“幻方量化”。
梁文峰的这家公司,通过人工智能技术在金融市场上高频交易,靠着“5毛钱利润海量赚”的模式,管理了超过千亿元的资金,成为中国量化基金的头部玩家。
但梁文峰并不止步于此。2023年7月,他带着积累的资金、数据与芯片算力资源,成立了“深度求索”公司,目标是打造能与美国人工智能软件匹敌的大语言模型。
令外界惊讶的是,梁文峰的团队仅有不到140人,成员大多是清华、北大等顶尖高校的应届生和博士生,平均年龄不到35岁。
值得注意的是,梁文峰的团队成员中,基本上没有“海归”留学生,都是由中国大学培养出来的!
DeepSeek团队最大特点是名校、年轻,即使是团队Leader级别,年纪也多在35岁以下。
Deepseek 大模型核心亮点

-----------------------------

V3-模型架构方面
1.使用极大规模混合专家模型
总参数量达6710亿,每个token激活370亿参数。
每个MoE层采用1个共享专家和256个路由专家,每个专家的中间隐藏维度为2048。
2.使用多头潜在注意力(MLA)
通过低秩联合压缩,减少键值(KV)缓存需求,提升推理效率。
注意力头数设置为128,每个头的维度为128,KV压缩维度为512。
3.使用无辅助损失的负载均衡策略
创新性地避免传统负载均衡方法对模型性能的负面影响。
通过灵活的批量负载均衡,允许专家在不同领域中更好地专业化。
4.使用多token预测训练目标
同时预测2个未来token,增加训练信号密度,可能提高数据效率。
第二个token预测的接受率在85%到95%之间,显著加快解码速度。
使用1层MTP模块,顺序预测额外token,并在每个预测深度保持完整的因果链。
V3-高效训练方面
5.使用混合精度加速训练
支持FP8计算和存储,加速训练并减少 GPU 内存使用。
大多数 操作(如 Fprop、Dgrad、Wgrad)在 FP8 下执行,计算速度比 BF16 提升2倍。
保留高精度操作(如嵌入模块、MoE 门控模块)以确保数值稳定性。
6.使用算法提升训练效率
通过计算-通信重叠,减少管道气泡,提升训练效率。
将每个块划分为注意力机制、全对全分发、MLP 和全对全组合四个组件,并手动调整 GPU 流式多处理器(SMs)的比例。
采用双向管道调度,从管道两端同时输入微批次,隐藏大部分通信开销。
7.进行了极致的内存优化
通过重新计算和MLA上投影,减少内存占用。
将指数加权平均参数存储在 CPU 内存中,异步更新以减少 GPU 内存压力。
多token预测(MTP)模块与主模型共享嵌入层和输出头,进一步提高内存效率。
8.训练稳定性极高
整个训练过程无不可恢复的损失峰值,未进行过回滚。
训练成功率100%,展现了极高的稳定性。
9.成本训练极低
完整训练仅需278.8万小时,展现高效成本效益。训练成本仅为557万美元,远低于国内外其他已知模型。
V3-数据处理与预训练
10.高质量多样化数据
在14.8万亿 token 上进行预训练,涵盖多语言、数学、编程等领域。
增强数学和编程样本的比例,扩展多语言覆盖范围(不仅限于英语和中文)。
11.文档打包与FIM策略
通过文档打包保持数据完整性,避免跨样本注意力掩码。
引入Fill-in-Middle(FIM)策略,使用率为10%,结构化数据如下:
`<|fim_begin|> pre <|fim_hole|> suf <|fim_end|> middle <|eos_token|>`。12.多语言分词器优化
使用字节级BPE,词汇量扩展到128K token。
引入结合标点符号和换行符的token,优化多语言压缩效率。
13. 长上下文扩展技术
通过两阶段训练,将上下文长度从4K扩展到128K。
采用YaRN技术,配置为`scale = 40, base = 1, factor = 32`,确保扩展稳定性。
V3-后训练与性能提升
14.监督微调(SFT)
使用150万个指令微调实例,涵盖推理、数学、编程等多个领域。
通过内部DeepSeek-R1模型生成推理数据,平衡准确性和格式清晰性。
15. 强化学习(RL)
使用基于规则和基于模型的奖励模型,优化复杂推理任务表现。
采用分组相对策略优化(GRPO),从组分数中估计基线,提升模型性能。
16.知识蒸馏
从DeepSeek-R1系列模型中蒸馏推理能力,显著提升数学和编程任务表现。
在LiveCodeBench和MATH-500基准测试中,性能提升显著。
V3-性能表现
17.在多领域评测性能领先
在MMLU 基准测试中准确率达85.6%,在GSM8K数学任务中准确率达92.3%。
在HumanEval代码生成任务中,通过率提升15%。
18. 效果与最好的闭源模型相当
在LongBench v2长上下文基准测试中,F1分数达91.6,与GPT-4o 相当。
在FRAMES 基准测试中,处理100K token 上下文的能力显著优于其他模型。
火爆出圈,一鲸跃起千层浪

(一)资本市场震荡
DeepSeek引发了全球资本市场的震荡。它的出现让投资者重新审视AI领域的资本支出和回报。尽管一些科技巨头在AI领域投入巨大,但DeepSeek的低成本高效率模式让投资者看到了新的可能,促使资本更加理性地流向AI领域。美股在DeepSeek引发剧震之后,快速消化了震荡带来的跌幅,并在悄然之间进行板块切换,投资者开始更加关注容易获得“更多订单”的AI基建、AI安全和AI应用领域,这些领域的市值得到重估和提升。
(二)开源生态构建
DeepSeek公开了模型权重,还公布了训练细节,这种开源行为在AI行业极为罕见。它吸引了大量初创公司和开发者加入其开源生态,推动了全球AI技术的发展和创新。越来越多的开发者基于DeepSeek的模型进行二次开发,创造出更多具有创新性的AI应用,加速了AI技术在各个领域的普及和应用。
(三)国际竞争格局改变
DeepSeek的成功让中国AI公司在全球范围内的影响力得到显著提升,改变了国际AI竞争格局。它让全球投资者和开发者看到了中国AI技术的实力和潜力,为中国AI行业的进一步发展奠定了坚实基础。同时,也促使其他国家加大在AI领域的投入和研发,推动全球AI技术不断向前发展。





