DeepSeek-V2 是一个强大的专家混合(MoE)语言模型,其特点是经济的训练和高效的推理。它总共包含 2360 亿个参数,其中每个标记激活了 210 亿个参数。与 DeepSeek 67B 相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提高了 5.76 倍。

网站域名:www.deepseek.com 更新日期:2024-07-20 网站简称:DeepSeek-杭州深度求索 网站分类:国内大模型 人气指数:1539