pdf-extract-api

PDF轉JSON API 本地OCR API 文檔結構化API

通過本地OCR處理和PII刪除，體驗高精度PDF，並降低了Markdown的轉換，非常適合開發人員和企業優先級數據隱私。

前往網站

作者:LoRA

收錄時間:2025年02月23日

訪問量:4940

計價模式:Free

簡介

什麼是pdf-extract-api ？

pdf-extract-api是使用現代OCR技術和Ollama支持的模型將任何文檔或圖像轉換為結構化JSON或MARKDOWN文本的API。它使用FastApi構建，它使用芹菜進行異步任務處理和重新加速OCR結果。 API在本地處理數據，確保數據隱私和安全性而無需依賴雲服務。

誰能從使用pdf-extract-api中受益？

此API非常適合需要高精度文檔轉換的開發人員和企業，尤其是關心數據隱私的企業。它對於將大量文檔轉換為結構化數據，例如法律文件，醫療報告和財務發票特別有用。

pdf-extract-api有哪些用例？

將MRI報告轉換為Markdown和JSON。

將發票轉換為JSON並刪除PII。

使用不同的OCR策略進行PDF來降低轉換。

pdf-extract-api提供什麼功能？

高精度PDF到Markdown和JSON轉換。

使用基於Pytorch的OCR和Ollama模型的本地處理。

OCR文本結果的LLM改進。

從PDF中刪除個人身份信息（PII）。

用芹菜分佈式隊列加工。

OCR結果緩存，並用REDIS緩存。

用於發送任務和處理結果的命令行工具。

您如何使用pdf-extract-api ？

1。將存儲庫克隆到您的本地計算機。

2。設置環境變量並創建.ENV文件。

3。使用Docker組合構建和運行Docker容器。

4。使用CLI工具上傳文件進行OCR轉換。

5。檢索OCR結果。

6。清除OCR緩存。

pdf-extract-api的替代品

ima.copilot

想擁有一個「會思考的知識庫」？試試騰訊ima.copilot吧！它能幫你整理資訊、智慧問答、輔助寫作，提升效率。

騰訊AI 混幣大模型
SlideSpeak

SlideSpeak可讓您輕鬆建立和分享引人入勝的簡報，將複雜的想法轉化為吸引任何觀眾的視覺效果，從而提高您的溝通影響力。

人工智能 PowerPoint
AiPPT

AiPPT生成具有自動化文案轉換且時尚模板的智能PPT，以進行有效的演示。

AiPPT 自動生成PPT
Sheet+

Sheet+透過強大的自動化、直覺的協作功能和先進的資料視覺化工具簡化您的電子表格工作流程，輕鬆提高工作效率。

表格处理 Excel

精選專欄