Firecrawl LLMs网站爬取
Firecrawl 是由 MendableAI 开发的一个工具,主要用于爬取网站并将其内容转换为简洁的 Markdown 格式。它特别适合用于语言模型(LLMs)的数据预处理。Firecrawl 提供了抓取单个 URL 和爬取整个网站的功能,并支持定制化的爬取选项,比如限制页面数量或排除特定页面。
使用 Firecrawl 需要获取 API 密钥,可以通过设置环境变量或直接在应用中传递。其核心功能包括抓取单个 URL 或爬取网站,并将结果以结构化数据返回。你还可以通过参数配置,设置排除规则、控制爬取深度、以及自定义输出格式
如果想将 Firecrawl 集成到你的项目中,可以通过运行 pip install firecrawl-py
来安装 Python SDK。
GitHub - mendableai/firecrawl: 🔥 Turn entire websites into LLM-ready markdown or structured data. Scrape, crawl and extract with a single API.
🔥 Turn entire websites into LLM-ready markdown or structured data. Scrape, crawl and extract with a single API. - mendableai/firecrawl