pdf-craft
pdf-craft是一款專注於掃描書籍PDF文件的轉換工具,支持將PDF轉換為Markdown和EPUB格式。
什麼是pdf-craft ?
pdf-craft是一款專注於掃描書籍PDF文件的轉換工具,支持將PDF轉換為Markdown和EPUB格式。它基於DocLayout-YOLO算法進行頁面佈局分析,並結合OCR技術提取文本,自動去除頁眉、頁腳、腳註等非正文元素,確保輸出的文本內容連貫、結構清晰。
PDF轉Markdown:提取正文內容,保留文本結構,自動插入圖片、表格和公式的截圖,生成高質量的Markdown文件。
PDF轉EPUB:結合OCR與LLM,構建書籍目錄和章節,修正OCR錯誤,優化閱讀順序,輸出適配電子書閱讀器的EPUB文件。
頁面佈局分析:利用DocLayout-YOLO識別文本塊、圖片、表格等元素,精準提取正文內容。
OCR文本識別:基於PaddleOCR技術,提高掃描文本的識別準確度。
跨頁處理:優化文本塊的邏輯銜接,確保跨頁內容的語義流暢。
閱讀順序優化:使用layoutreader調整文本塊順序,符合人類閱讀習慣。
學術研究:將掃描的論文轉換為Markdown或EPUB。
電子書製作:將書籍PDF轉換為EPUB,生成目錄和章節。
文檔存檔:將紙質文件或PDF存檔為Markdown或EPUB格式。
教育資料整理:轉換教材或講義,提高教學與學習效率。
個人學習:整理掃描資料,便於筆記記錄和復習。
GitHub倉庫: pdf-craft