中文(繁體)

目前位置: 首頁> AI 資訊

Firecrawl推出LLM.txt生成器:一鍵轉化網站內容為訓練文本

作者: LoRA 時間: 2025年03月10日 290

近日,Firecrawl 推出了一項全新的功能——LLMs.txt 生成器接口(Alpha 版),旨在幫助用戶將任何網站的內容轉化為清晰、適用於大語言模型(LLM)訓練的文本文件。用戶只需提供一個網站的URL,Firecrawl 便會對該網站及其鏈接頁面進行抓取,生成兩種格式的文本文件:llms.txt 和llms-full.txt,便於後續的分析和訓練。

QQ_1741571298119.png

該生成器的工作流程相對簡單。用戶只需提供一個網址,系統便會自動爬取該網站的內容,提取出乾淨且有意義的文本信息。生成的文件分為兩種類型:llms.txt 是對網站內容的簡明總結,包含關鍵的信息;而llms-full.txt 則是更為詳細的完整文本內容,適合需要深入分析的用戶。

在使用過程中,用戶可以設置一些關鍵參數。首先是“url”,即希望生成LLMs.txt 文件的網址。用戶還可以選擇“maxUrls” 參數,控制最多爬取的頁面數量,範圍在1到100之間,默認值為10。此外,用戶還可以選擇是否生成llms-full.txt,默認設置為不生成。

值得注意的是,LLMs.txt 生成器的工作是異步進行的,用戶可以發起請求並實時監測生成狀態。系統會提供狀態更新,例如“正在進行中” 或“已完成”,方便用戶隨時掌握進度。

然而,由於目前處於Alpha 階段,該功能也存在一些已知限制。首先,僅支持公開可訪問的頁面,登錄保護或付費牆內容無法處理。其次,在Alpha 階段,處理的網站數量上限為5000個URL。此外,作為一項Alpha 特性,輸出格式和處理流程可能會根據用戶反饋進行調整。

在計費方面,使用LLMs.txt 生成器的費用是基於處理的URL 數量,基本費用為每處理一個URL 消耗1個積分。用戶可以通過設置maxUrls 參數來控制費用。

入口:https://docs.firecrawl.dev/features/alpha/llmstxt