DeepSeek模型持续出圈,坚定看好国产模型及应用突破机会【东吴传媒互联网张良卫团队】 国产MOE模型在能力上持续追赶海外最头部模型。深度求索(DeepSeek)发布最新国产大模型DeepSeek-V2,DeepSeek-V2基于2千亿MoE模型底座。在目前大模型主流榜单中,DeepSeek-V2均表现出色,中文综合能力开源模型中最强。 由于采用了创新性的模型架构,推理成本在所有主流大模型中具有明显竞争力。根据DeepSeek官网,V2版本提供了极具竞争力的API价格,分别位1元/百万输入Tokens及2元/百万输出Tokens。之所以成本更低,在于DeepSeek-V2采用了创新架构,保证经济训练和高效推理,分别采用了MLA(多头潜在注意力)和DeepSeekMoE 架构(一种高性能的 MoE 架构)。 观点重申:DeepSeek模型的高效及高性价比,体现了MOE架构的优势,国产模型在能力上保持对于海外头部大模型的快速追赶,坚定看好国产模型及应用的发展前景。此前4月17日,昆仑万维率先推出了4000亿级参数的MoE混合专家模型架构天工3.0,超越了3140亿参数的Grok-1。我们判断,Moe架构将成为越来越多底座大模型的首选架构,由于其能阶段性的显著降低推理成本,也是推动大模型应用普及的关键变量。坚定看好国产模型及应用的长期价值,昆仑万维在国产模型中领先身位逐渐凸显,维持公司“买入”评级。 风险提示:产业进展不及预期
发表评论 取消回复