据新浪财经1月27日报道,DeepSeek发布全新DeepSeek-OCR2模型,采用创新的DeepEncoderV2方法,让AI能够根据图像的含义动态重排图像的各个部分,而不再只是机械地从左到右扫描。
在基准测试中,新模型达到91.09%的性能,较前代提升3.73%,同时视觉token使用上限降至1120个(前代为1156个)。这一技术突破或将颠覆传统文档处理模式,开启原生多模态推理新路径。
OCR即光学字符识别技术,核心是将图像中的文字转换为可编辑、可搜索的文本形式,而DeepSeek-OCR2模型在此基础上实现了技术升级。大模型采用OCR技术可显著降低计算与显存资源消耗,提升长文本处理效率,同时对表格、图表等结构化信息具备天然处理优势。
DeepSeek-OCR2的发布具有重大意义,其技术突破或将颠覆传统文档处理模式,开启原生多模态推理新路径,为统一全模态编码器提供可行方向。
海通国际表示,DeepSeek-OCR代表新一代“压缩存储”思路,通过将文本映射为视觉表征并进行高倍率压缩,以少量视觉token承载长上下文信息,仅在需使用时按需解码还原,从而实现从“扩大计算基数”到“减少计算负荷”的根本性转变;据论文及第三方评测数据,DeepSeek-OCR在低于10倍压缩率下可实现约97%的文本还原精度,能够满足多数信息检索与文档归档类需求;而在20倍高压缩率下精度约为60%,适用于容错性较高的线索检索场景。
华创证券指出,DeepSeek-OCR在20个A100节点上日处理3300万页数据的吞吐能力,以及对小语种(如阿拉伯语、僧伽罗语)的良好支持,使其在全球化商业部署中具有显著优势,这种"视觉即压缩"的范式可能重塑未来大语言模型的输入方式。
公司方面,据上市公司互动平台表示,
金现代:公司与百度在大模型应用的开发、OCR识别能力的算子互补等方面有合作。
汉王科技:公司相继为客户提供了轻骑兵低代码开发平台、核电综合管理系统、核电一体化生辅助系统、文字识别OCR平台等。
*免责声明:文章内容仅供参考,不构成投资建议
*风险提示:股市有风险,入市需谨慎
沪公网安备31011802004900号