IBM与Hugging Face联手推出SmolDocling：小型模型革新文档处理

字数 1435，阅读大约需 8 分钟

IBM与Hugging Face联手推出革命性开源工具SmolDocling：小型模型引领文档处理新潮流

在计算机科学领域，将结构复杂的文档转化为规整的数据一直是一项具有挑战性的任务。传统方法要么依赖于多个模型的复杂组合，要么依赖于参数庞大的多模态模型，这些方法不仅容易产生错误，而且计算成本高昂。然而，IBM与Hugging Face合作推出的SmolDocling，一款仅有256M参数的开源视觉-语言模型（VLM），正在改变这一现状。

SmolDocling的独特优势

SmolDocling的显著特点在于其“小巧玲珑”的体积和强大的功能。相比于那些动辄数十亿参数的“大模型”，SmolDocling的256兆参数量大大降低了计算复杂性和资源需求。它能够通过单个模型处理整个页面，简化了传统方法中繁琐的处理流程。

SmolDocling的核心技术是其创新的DocTags格式，这是一种通用的标记格式，能够以高度紧凑和清晰的方式精确捕捉页面元素、它们的结构和空间上下文。通过DocTags，文档中的每个元素都被贴上了清晰的“标签”，使机器能够准确理解文档的内在逻辑。

基于Hugging Face的SmolVLM-256M架构，SmolDocling通过优化的tokenization和激进的视觉特征压缩方法，实现了计算复杂性的显著降低。它能够清晰地分离文档布局、文本内容以及表格、公式、代码片段和图表等视觉信息。为了更高效地训练，SmolDocling还采用了课程学习的方法，先“冻结”视觉编码器，然后逐步使用更丰富的数据集进行微调，以增强不同文档元素之间的视觉语义对齐。

SmolDocling的卓越性能

SmolDocling在性能测试中展现出了令人瞩目的实力。在涉及各种文档转换任务的综合基准测试中，SmolDocling的表现显著优于许多体量更大的竞争模型。例如，在全页文档OCR任务中，与拥有70亿参数的Qwen2.5VL^[1]和3.5亿参数的Nougat相比，SmolDocling取得了明显更高的准确率，其编辑距离（0.48）更低，F1分数(0.80)更高。在公式转录方面，SmolDocling也达到了0.95的F1分数，与最先进的模型如GOT不相上下。更令人称赞的是，SmolDocling还在代码片段识别方面树立了新的标杆，精确率和召回率分别高达0.94和0.91。

SmolDocling的广泛应用

SmolDocling的独特之处在于它能够处理文档中的各种复杂元素，包括代码、图表、公式和各种不同的布局。它的能力不仅限于常见的科学论文，还能可靠地处理专利、表格和商业文档。通过DocTags提供全面的结构化元数据，SmolDocling消除了HTML或Markdown等格式固有的歧义，从而提高了文档转换的下游可用性。其紧凑的体积还使其能够以极低的资源需求进行大规模的批量处理，为大规模部署提供了经济高效的解决方案。

SmolDocling的开源意义

SmolDocling的发布代表了文档转换技术的重大突破。它有力地证明了，紧凑型模型不仅能够与大型基础模型竞争，而且在关键任务中还能显著超越它们。通过有针对性的训练、创新的数据增强和像DocTags这样的新型标记格式，SmolDocling克服了传统上与模型大小和复杂性相关的局限性。

SmolDocling的开源不仅为OCR技术树立了新的效率和多功能性标准，还通过开放的数据集和高效紧凑的模型架构，为全球开发者和研究人员提供了一份宝贵的资源。它为AI技术在全球范围内的发展和应用提供了新的可能性和机遇。

企业应用与成本效益

对于企业而言，SmolDocling的推出带来了显著的成本效益和效率提升。传统上，处理海量复杂文档需要高昂的计算成本和复杂的流程。而SmolDocling的高效性和低资源需求使得企业能够以更经济的方式进行文档处理。其能够处理各种复杂元素的能力也使得企业能够更轻松地应对多样化的文档类型。

根据行业报告，企业在文档处理方面的支出一直是一项重要的成本。而SmolDocling的推出有望改变这一现状。通过使用SmolDocling，企业可以大幅降低文档处理的成本，并提高处理效率。这将为企业带来更多的竞争优势，并推动其业务的快速发展。

引用链接

[1] Qwen2.5VL: https://qwen.aliyun.com/

# AI快讯 # IBM

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...