ReaderLM v2 :高效率的HTML處理語言模型
ReaderLM v2是Jina AI推出的小型語言模型,參數量為15億。它專注於HTML到Markdown的轉換和HTML到JSON的資料擷取,並且具有高準確率。
主要功能
HTML轉Markdown: 將HTML內容轉換為Markdown格式,保留完整資訊並有效運用Markdown語法,特別擅長處理複雜元素和長文字。
HTML轉JSON: 直接從HTML提取特定信息,產生JSON格式數據,無需中間的Markdown轉換步驟。 用戶需提供JSON架構。
長文本處理: 支援高達512K個token的輸入輸出,有效避免長文字處理中的效能下降。
多語言支援: 支援29種語言,包括英文、中文和日文等。
高性能: 在基準測試中,其性能優於許多更大的模型。
目標用戶
開發者,內容創作者,資料分析師以及需要從網頁中提取結構化資料的企業和研究人員。
應用場景
開發者: 將網頁新聞轉換為Markdown格式,用於技術部落格。
資料分析師: 從網頁擷取產品訊息,用於市場分析。
研究人員: 從學術網站提取論文信息,並以JSON格式儲存。
產品特性
高效率的HTML到Markdown轉換,保留完整資訊並使用適當的Markdown語法。
強大的長文本處理能力,支援512K token的輸入輸出。
直接HTML到JSON資料擷取功能,提升資料處理效率。
廣泛的多語言支援。
小巧高效,性能優於許多更大的模型。
使用指南
ReaderLM v2可以透過多種方式使用:
1. Reader API: 使用x-engine: readerlm-v2請求頭和Accept: text/event-stream啟用回應流。
2. Google Colab: 透過Colab notebook進行測試。
3. 雲端平台部署: 可在AWS SageMaker、Azure和GCP marketplace上部署。
4. HTML轉Markdown: 使用create_prompt函數建立提示,然後呼叫模型。
5. HTML轉JSON: 先定義JSON Schema,再建立提示並呼叫模型。