中文(繁體)

目前位置: 首頁> AI 課程> AI 基礎入門

【2025】如何使用Firecrawl API 生成LLMs.txt

作者: LoRA 時間: 2025年03月10日 1017

在大規模語言模型(LLM)訓練和數據分析過程中,乾淨、高質量的文本數據至關重要。 Firecrawl 提供的LLMs.txt 生成器API能夠從任何網站提取結構化文本,並生成適用於LLM 的llms.txtllms-full.txt文件。本文將詳細介紹其工作原理、使用方法及關鍵參數,幫助您快速掌握該工具的高效使用方式。

Firecrawl LLMs.txt 生成器API 簡介

Firecrawl 的/llmstxt端點可以抓取指定網站的內容,並生成適用於LLM 訓練和分析的文本數據。該API 提供兩種文本輸出格式:

  • llms.txt :包含網站的關鍵信息和摘要。

  • llms-full.txt :完整的網頁文本內容,適用於更深入的AI 訓練。

Firecrawl API 的工作原理

1️⃣ 抓取目標網站及其鏈接的頁面
2️⃣ 提取網站的核心文本內容,去除HTML 代碼和無用信息
3️⃣ 生成兩種格式的文本文件(簡要版與完整版)
4️⃣ 通過API 返回數據,供LLM 訓練或分析使用

如何使用Firecrawl API 生成LLMs.txt

1️⃣ 安裝Firecrawl SDK 並初始化API

Python 代碼示例

from firecrawl import FirecrawlApp

# 初始化 API 客戶端firecrawl = FirecrawlApp(api_key="your_api_key")

# 定義生成參數params = {
    "maxUrls": 2,  # 抓取的最大 URL 數量    "showFullText": True  # 是否包含完整文本}

# 生成 LLMs.txt
results = firecrawl.generate_llms_text(
    url="https://example.com",
    params=params
)

# 處理返回數據if results['success']:
    print(f"Status: {results['status']}")
    print(f"Generated Data: {results['data']}")
else:
    print(f"Error: {results.get('error', 'Unknown error')}")

2️⃣ 關鍵參數說明

  • url :需要提取文本的網站URL

  • maxUrls (可選):抓取的最大頁面數,範圍1-100(默認值10)

  • showFullText (可選):是否生成llms-full.txt (默認值False)

監控LLMs.txt 生成狀態

LLMs.txt 的生成是異步執行的,可以通過API 輪詢狀態。

使用cURL 進行狀態檢查

curl "https://api.firecrawl.dev/v1/llmstxt/job_id" 
  -H "Authorization: Bearer your_api_key"

示例返回結果:

  • 處理中(processing)

 {
  "success": true,
  "data": {
    "llmstxt": "# Firecrawl.dev llms.txtnn- [Web Data Extraction Tool](https://www.firecrawl.dev/)...",
    "llmsfulltxt": "# Firecrawl.dev llms-full.txtnn"
  },
  "status": "processing",
  "expiresAt": "2025-03-03T23:19:18.000Z"
}
  • 完成(completed)

 {
  "success": true,
  "data": {
    "llmstxt": "# http://firecrawl.dev llms.txtnn- [Web Data Extraction Tool](https://www.firecrawl.dev/)...",
    "llmsfulltxt": "# http://firecrawl.dev llms-full.txtnn## Web Data Extraction Tool..."
  },
  "status": "completed",
  "expiresAt": "2025-03-03T22:45:50.000Z"
}

⚠️ 已知限制(Alpha 版)

  • 僅支持公開網頁,無法抓取登錄受限或付費牆後的內容。

  • 最大URL 抓取數量為5000 (Alpha 版限制)。

  • 輸出格式可能會調整,請關注Firecrawl 官方更新。

計費與使用規則

  • 每抓取1 個URL 計1 個信用點

  • 通過maxUrls 控製成本,例如maxUrls=10 則消耗10 個信用點

結論:

Firecrawl 的LLMs.txt 生成API是AI 訓練與數據分析的理想工具,能夠快速抓取網頁並生成清晰、結構化的文本數據。無論是簡要摘要(llms.txt),還是完整文本(llms-full.txt),都能滿足不同的LLM 需求。

如果您正在尋找自動化、高效的數據抓取方案,不妨試試Firecrawl API ,讓您的LLM 訓練更高效、更精準!