在大規模語言模型(LLM)訓練和數據分析過程中,乾淨、高質量的文本數據至關重要。 Firecrawl 提供的LLMs.txt 生成器API能夠從任何網站提取結構化文本,並生成適用於LLM 的llms.txt和llms-full.txt文件。本文將詳細介紹其工作原理、使用方法及關鍵參數,幫助您快速掌握該工具的高效使用方式。
Firecrawl 的/llmstxt端點可以抓取指定網站的內容,並生成適用於LLM 訓練和分析的文本數據。該API 提供兩種文本輸出格式:
llms.txt :包含網站的關鍵信息和摘要。
llms-full.txt :完整的網頁文本內容,適用於更深入的AI 訓練。
1️⃣ 抓取目標網站及其鏈接的頁面
2️⃣ 提取網站的核心文本內容,去除HTML 代碼和無用信息
3️⃣ 生成兩種格式的文本文件(簡要版與完整版)
4️⃣ 通過API 返回數據,供LLM 訓練或分析使用
Python 代碼示例
from firecrawl import FirecrawlApp # 初始化 API 客戶端firecrawl = FirecrawlApp(api_key="your_api_key") # 定義生成參數params = { "maxUrls": 2, # 抓取的最大 URL 數量 "showFullText": True # 是否包含完整文本} # 生成 LLMs.txt results = firecrawl.generate_llms_text( url="https://example.com", params=params ) # 處理返回數據if results['success']: print(f"Status: {results['status']}") print(f"Generated Data: {results['data']}") else: print(f"Error: {results.get('error', 'Unknown error')}")
url :需要提取文本的網站URL
maxUrls (可選):抓取的最大頁面數,範圍1-100(默認值10)
showFullText (可選):是否生成llms-full.txt (默認值False)
LLMs.txt 的生成是異步執行的,可以通過API 輪詢狀態。
使用cURL 進行狀態檢查
curl "https://api.firecrawl.dev/v1/llmstxt/job_id" -H "Authorization: Bearer your_api_key"
示例返回結果:
處理中(processing)
{ "success": true, "data": { "llmstxt": "# Firecrawl.dev llms.txtnn- [Web Data Extraction Tool](https://www.firecrawl.dev/)...", "llmsfulltxt": "# Firecrawl.dev llms-full.txtnn" }, "status": "processing", "expiresAt": "2025-03-03T23:19:18.000Z" }
完成(completed)
{ "success": true, "data": { "llmstxt": "# http://firecrawl.dev llms.txtnn- [Web Data Extraction Tool](https://www.firecrawl.dev/)...", "llmsfulltxt": "# http://firecrawl.dev llms-full.txtnn## Web Data Extraction Tool..." }, "status": "completed", "expiresAt": "2025-03-03T22:45:50.000Z" }
僅支持公開網頁,無法抓取登錄受限或付費牆後的內容。
最大URL 抓取數量為5000 (Alpha 版限制)。
輸出格式可能會調整,請關注Firecrawl 官方更新。
每抓取1 個URL 計1 個信用點
通過maxUrls 控製成本,例如maxUrls=10 則消耗10 個信用點
Firecrawl 的LLMs.txt 生成API是AI 訓練與數據分析的理想工具,能夠快速抓取網頁並生成清晰、結構化的文本數據。無論是簡要摘要(llms.txt),還是完整文本(llms-full.txt),都能滿足不同的LLM 需求。
如果您正在尋找自動化、高效的數據抓取方案,不妨試試Firecrawl API ,讓您的LLM 訓練更高效、更精準!