IBM 和 Hugging Face联合推出轻量级多模态文档处理模型SmolDocling-256M
SmolDocling-256M 是一款由 IBM 和 Hugging Face 联合开发的轻量级多模态文档处理模型,专为高效文档转换而设计。它能够将图像形式的文档端到端地转换为结构化文本,同时支持文本、公式、图表等多种元素的识别,适用于学术论文、技术报告等多种类型的文档。
核心功能
多模态文档转换:能够高效地将图像文档转换为结构化文本,支持科学和非科学文档。
快速推理:在 A100 GPU 上处理一页文档仅需 0.35 秒,使用不到 500MB 的显存。
OCR 与布局识别:支持光学字符识别(OCR),保留文档结构和元素的边界框。
复杂元素识别:能够识别代码块、数学公式、图表、表格等复杂文档元素。
与 Docling 无缝集成:支持将结果转换为多种格式(如 Markdown、HTML 等),兼容 Docling。
指令支持:支持多种指令,如将页面转换为 Docling 格式、将图表转换为表格、将公式转换为 LaTeX ...
点击查看剩余70%
网友评论