DeepSeek新模型MODEL1曝光
DeepSeek-R1发布一周年之际,新模型“MODEL1”曝光。DeepSeek在GitHub更新FlashMLA代码,横跨114个文件中有28处提到MODEL1,与V32作为不同的模型出现。已知V32是DeepSeek-V3.2,MODEL1很可能是新的架构。代码中的具体差异体现在KV缓存布局、稀疏性处理和FP8解码方面,在内存优化上有多处不同。此前有消息称DeepSeek将在2月中旬春节前后发布下一代旗舰模型。(量子位)
DeepSeek-R1发布一周年之际,新模型“MODEL1”曝光。DeepSeek在GitHub更新FlashMLA代码,横跨114个文件中有28处提到MODEL1,与V32作为不同的模型出现。已知V32是DeepSeek-V3.2,MODEL1很可能是新的架构。代码中的具体差异体现在KV缓存布局、稀疏性处理和FP8解码方面,在内存优化上有多处不同。此前有消息称DeepSeek将在2月中旬春节前后发布下一代旗舰模型。(量子位)
联系微信
联系邮箱:op@xuangutong.com.cn
工作时间:周一至周五 9:00-17:30
风险提示:市场有风险,投资需谨慎
地址:上海市青浦区汇金路590号宝龙广场B座502
沪ICP备14046450号-6
沪公网安备31011802004900号
© 2016 - 2026 上海证券通投资资讯科技有限公司
微信公众号
选股通APP
官方客服