Firecrawl Automation

技能概述

Firecrawl Automation 让您直接在 Claude Code 中执行网页爬取和数据提取任务，支持单页抓取、整站爬取、结构化数据提取和批量处理，无需离开终端即可完成网站数据采集。

适用场景

1. 网站数据采集与监控

需要定期抓取竞争对手定价、产品信息或新闻内容的场景。支持批量处理多个 URL，可配置爬取深度和路径过滤，适合建立持续更新的数据源。

2. 动态页面内容提取

现代 Web 应用常使用 JavaScript 渲染内容，传统爬虫难以捕获。Firecrawl 支持等待页面渲染、执行浏览器操作（点击、滚动、输入），能够抓取需要交互的动态页面。

3. 结构化数据提取与整理

从非结构化的网页中提取特定字段（如公司信息、产品规格、价格数据）。通过 AI 驱动的提取功能，提供自然语言描述或 JSON Schema，自动将网页内容转换为结构化 JSON。

核心功能

单页抓取

获取单个 URL 的内容，支持多种输出格式（Markdown、HTML、截图、JSON）。可配置只提取主要内容（自动过滤导航栏、广告、页脚），支持执行浏览器操作后抓取，适合获取动态渲染的页面内容。

整站爬取

从起始 URL 开始自动发现和爬取多个页面，可限制爬取深度、页面数量和路径范围。支持通过正则表达式过滤 URL 路径，控制爬取范围，避免浪费配额。爬取任务异步执行，可通过任务 ID 查询进度和结果。

结构化数据提取

使用 AI 从网页中提取结构化 JSON 数据，支持通过自然语言描述或 JSON Schema 定义输出结构。可一次处理多个 URL（测试版最多 10 个），适合批量提取产品信息、公司数据等结构化内容。

批量抓取

并发抓取多个 URL，提高效率。支持配置并发数、地理位置、广告拦截等选项，可忽略无效 URL 而不中断整个批量任务，适合处理大量已知 URL 列表。

网站结构映射

发现网站的所有 URL，生成网站地图，有助于了解网站结构或规划后续爬取任务。支持按关键词过滤、限制返回数量、忽略查询参数等选项。

任务监控与管理

爬取和提取任务均为异步执行，返回任务 ID 后可通过专用工具查询状态、获取结果或取消任务。配额使用情况透明可见，可随时控制成本。

常见问题

Firecrawl 是什么？

Firecrawl 是一个网页数据提取服务，通过 Composio 集成到 Claude Code 中。与传统爬虫不同，Firecrawl 使用浏览器渲染技术处理动态页面，并提供 AI 驱动的结构化数据提取功能。您只需要在配置中添加 Composio MCP 服务器（https://rube.app/mcp），即可在对话中直接调用爬取功能。

如何提取结构化数据？

使用 FIRECRAWL_EXTRACT 工具，提供目标 URL 数组和提取要求。您可以用自然语言描述需要提取的内容（如"提取公司名称、定价和功能列表"），或提供完整的 JSON Schema。任务异步执行，使用返回的任务 ID 通过 FIRECRAWL_EXTRACT_GET 获取最终结果。建议先在小规模 URL 上测试，确保输出符合预期后再扩展。

Firecrawl 有什么使用限制？

Firecrawl 按配额计费，每次爬取和提取操作都会消耗配额。批量抓取建议使用 FIRECRAWL_BATCH_SCRAPE 而非多次单独调用，可提高效率并减少配额消耗。FIRECRAWL_EXTRACT 在测试版中单次最多处理 10 个 URL，大规模提取可能遇到速率限制（429 错误），建议分批处理并实现退避策略。爬取任务默认限制 10 页，可根据需要调整。

Firecrawl Automation

作者

分类

安装