pdf-extract-api
通過本地OCR處理和PII刪除,體驗高精度PDF,並降低了Markdown的轉換,非常適合開發人員和企業優先級數據隱私。
什麼是pdf-extract-api ?
pdf-extract-api是使用現代OCR技術和Ollama支持的模型將任何文檔或圖像轉換為結構化JSON或MARKDOWN文本的API。它使用FastApi構建,它使用芹菜進行異步任務處理和重新加速OCR結果。 API在本地處理數據,確保數據隱私和安全性而無需依賴雲服務。
誰能從使用pdf-extract-api中受益?
此API非常適合需要高精度文檔轉換的開發人員和企業,尤其是關心數據隱私的企業。它對於將大量文檔轉換為結構化數據,例如法律文件,醫療報告和財務發票特別有用。
pdf-extract-api有哪些用例?
將MRI報告轉換為Markdown和JSON。
將發票轉換為JSON並刪除PII。
使用不同的OCR策略進行PDF來降低轉換。
pdf-extract-api提供什麼功能?
高精度PDF到Markdown和JSON轉換。
使用基於Pytorch的OCR和Ollama模型的本地處理。
OCR文本結果的LLM改進。
從PDF中刪除個人身份信息(PII)。
用芹菜分佈式隊列加工。
OCR結果緩存,並用REDIS緩存。
用於發送任務和處理結果的命令行工具。
您如何使用pdf-extract-api ?
1。將存儲庫克隆到您的本地計算機。
2。設置環境變量並創建.ENV文件。
3。使用Docker組合構建和運行Docker容器。
4。使用CLI工具上傳文件進行OCR轉換。
5。檢索OCR結果。
6。清除OCR緩存。