ViTLP是一個視覺引導的生成文本佈局預訓練模型,旨在提高文檔智能處理的效率和準確性。該模型結合了OCR文本定位和識別功能,能夠在文檔圖像上進行快速準確的文本檢測和識別。 ViTLP模型的預訓練版本ViTLP -medium(380M參數)在計算資源和預訓練數據集規模的限制下,提供了一個平衡的解決方案,既保證了模型的性能,又優化了推理速度和內存使用。 ViTLP的推理速度在Nvidia 4090上處理一頁文檔圖像通常在5到10秒內,與大多數OCR引擎相比具有競爭力。
需求人群:
"目標受眾為需要進行文檔圖像處理的企業和研究機構,特別是那些需要自動化文檔處理和檔案數字化的領域。 ViTLP的快速推理速度和高準確率使其成為這些場景的理想選擇。"
使用場景示例:
案例一:使用ViTLP對歷史文獻進行數字化,自動提取文獻中的文本信息。
案例二:在法律領域,利用ViTLP對大量的案件文檔進行自動化處理和信息提取。
案例三:在金融行業,通過ViTLP對合同文檔進行智能分析,提取關鍵條款。
產品特色:
• 原生OCR文本定位和識別: ViTLP能夠直接在文檔圖像上進行文本的定位和識別。
• 預訓練模型ViTLP -medium:提供了一個預訓練的模型,擁有380M參數,能夠在有限的計算資源下提供較好的性能。
• 快速推理速度:在Nvidia 4090上, ViTLP能夠快速處理文檔圖像,推理速度在5到10秒內完成一頁文檔圖像的處理。
• Huggingface平台支持: ViTLP模型的預訓練權重可以在Huggingface平台上找到,方便用戶下載和使用。
• 易於集成和使用:通過提供的代碼和指令,用戶可以輕鬆地將ViTLP集成到自己的項目中。
• 支持批量解碼:通過提供的decode.sh腳本,用戶可以進行批量文檔圖像的解碼處理。
• 適用於文檔智能處理: ViTLP特別適合需要文檔圖像文本檢測和識別的場景,如自動化文檔處理、檔案數字化等。
使用教程:
1. 訪問ViTLP的GitHub頁面並克隆項目到本地。
2. 安裝所需的依賴項,運行`pip install -r requirements.txt`。
3. 克隆預訓練的ViTLP模型權重到指定目錄,使用`git clone https://huggingface.co/veason/ViTLP-medium ckpts/ ViTLP -medium`。
4. 運行demo,使用`python ocr.py`並上傳文檔圖像進行測試。
5. 查看`decode.py`了解詳細的推理代碼,並可以通過`bash decode.sh`運行批量解碼。
6. 如需對ViTLP進行微調,可以參考`./finetuning`目錄下的指南。