【2025】如何使用Firecrawl API 生成LLMs.txt

作者: LoRA 時間: 2025年03月10日 1017

在大規模語言模型（LLM）訓練和數據分析過程中，乾淨、高質量的文本數據至關重要。 Firecrawl 提供的LLMs.txt 生成器API能夠從任何網站提取結構化文本，並生成適用於LLM 的llms.txt和llms-full.txt文件。本文將詳細介紹其工作原理、使用方法及關鍵參數，幫助您快速掌握該工具的高效使用方式。

Firecrawl LLMs.txt 生成器API 簡介

Firecrawl 的/llmstxt端點可以抓取指定網站的內容，並生成適用於LLM 訓練和分析的文本數據。該API 提供兩種文本輸出格式：

llms.txt ：包含網站的關鍵信息和摘要。
llms-full.txt ：完整的網頁文本內容，適用於更深入的AI 訓練。

Firecrawl API 的工作原理

1️⃣ 抓取目標網站及其鏈接的頁面
2️⃣ 提取網站的核心文本內容，去除HTML 代碼和無用信息
3️⃣ 生成兩種格式的文本文件（簡要版與完整版）
4️⃣ 通過API 返回數據，供LLM 訓練或分析使用

如何使用Firecrawl API 生成LLMs.txt

1️⃣ 安裝Firecrawl SDK 並初始化API

Python 代碼示例

from firecrawl import FirecrawlApp

# 初始化 API 客戶端firecrawl = FirecrawlApp(api_key="your_api_key")

# 定義生成參數params = {
    "maxUrls": 2,  # 抓取的最大 URL 數量    "showFullText": True  # 是否包含完整文本}

# 生成 LLMs.txt
results = firecrawl.generate_llms_text(
    url="https://example.com",
    params=params
)

# 處理返回數據if results['success']:
    print(f"Status: {results['status']}")
    print(f"Generated Data: {results['data']}")
else:
    print(f"Error: {results.get('error', 'Unknown error')}")

2️⃣ 關鍵參數說明

url ：需要提取文本的網站URL
maxUrls （可選）：抓取的最大頁面數，範圍1-100（默認值10）
showFullText （可選）：是否生成llms-full.txt （默認值False）

監控LLMs.txt 生成狀態

LLMs.txt 的生成是異步執行的，可以通過API 輪詢狀態。

使用cURL 進行狀態檢查

curl "https://api.firecrawl.dev/v1/llmstxt/job_id" 
  -H "Authorization: Bearer your_api_key"

示例返回結果：

處理中（processing）

 {
  "success": true,
  "data": {
    "llmstxt": "# Firecrawl.dev llms.txtnn- [Web Data Extraction Tool](https://www.firecrawl.dev/)...",
    "llmsfulltxt": "# Firecrawl.dev llms-full.txtnn"
  },
  "status": "processing",
  "expiresAt": "2025-03-03T23:19:18.000Z"
}

完成（completed）

 {
  "success": true,
  "data": {
    "llmstxt": "# http://firecrawl.dev llms.txtnn- [Web Data Extraction Tool](https://www.firecrawl.dev/)...",
    "llmsfulltxt": "# http://firecrawl.dev llms-full.txtnn## Web Data Extraction Tool..."
  },
  "status": "completed",
  "expiresAt": "2025-03-03T22:45:50.000Z"
}