英伟达开源高性能pdf等文档结构化信息提取工具Ingest
Ingest 是一个性能导向、可扩展的文档内容和元数据提取微服务,支持解析 PDF、Word 和 PowerPoint 文档,以及图像。
它使用 NVIDIA NIM(Neural Inference Machine)微服务来查找、上下文化和提取文本、表格、图表和图片,以便在下游生成应用中使用。NVIDIA Ingest 允许并行化文档分页处理,自动化内容分类(如表格、图表、图片、文本),并通过光学字符识别(OCR)将提取的内容转换为精确定义的 JSON 模式。
此外,NVIDIA Ingest 可以选择管理提取内容的嵌入计算,并管理将其存储到 Milvus 向量数据库中。
支持docker、cli与python中使用
import logging, time from nv_ingest_client.client import NvIngestClient from nv_ingest_client.primitives import JobSpec from nv_ingest_client.primitives.tasks import ExtractTask from nv_ingest_client.util.file_processing.extract import extract_file_content logger = logging.getLogger("nv_ingest_client") file_name = "data/multimodal_test.pdf" file_...
点击查看剩余70%
网友评论