IBM與Hugging Face聯手推出開源文檔解密神器SmolDocling

作者: LoRA 時間: 2025年03月20日 189

在计算机科学领域，文档转换一直是个难题。传统方法要么依赖复杂流程，要么使用资源消耗巨大的多模态模型。最近，IBM和Hugging Face联手推出了**SmolDocling**，这是一个仅有**256M**参数的开源视觉-语言模型（VLM），旨在端到端地解决多模态文档转换任务。

SmolDocling的核心优势在于其小巧的体量和高效的处理能力。它通过**DocTags**，一种通用的标记格式，精确捕捉页面元素、结构和空间上下文。基于Hugging Face的**SmolVLM-256M**架构，SmolDocling采用优化的tokenization和视觉特征压缩方法，显著降低了计算复杂性。它能够处理整个文档页面，在消费级GPU上平均每页仅需0.35秒，且仅消耗不到500MB的显存。