Firecrawl Automation

使用Firecrawl自动化网络爬取与数据提取——通过Composio Firecrawl集成,实现页面抓取、网站爬行、结构化数据提取、批量URL抓取以及网站结构映射功能。

安装

热度:22

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=composiohq-composio-skills-firecrawl-automation&locale=zh&source=copy

Firecrawl Automation

技能概述


Firecrawl Automation 让您直接在 Claude Code 中执行网页爬取和数据提取任务,支持单页抓取、整站爬取、结构化数据提取和批量处理,无需离开终端即可完成网站数据采集。

适用场景

1. 网站数据采集与监控


需要定期抓取竞争对手定价、产品信息或新闻内容的场景。支持批量处理多个 URL,可配置爬取深度和路径过滤,适合建立持续更新的数据源。

2. 动态页面内容提取


现代 Web 应用常使用 JavaScript 渲染内容,传统爬虫难以捕获。Firecrawl 支持等待页面渲染、执行浏览器操作(点击、滚动、输入),能够抓取需要交互的动态页面。

3. 结构化数据提取与整理


从非结构化的网页中提取特定字段(如公司信息、产品规格、价格数据)。通过 AI 驱动的提取功能,提供自然语言描述或 JSON Schema,自动将网页内容转换为结构化 JSON。

核心功能

单页抓取


获取单个 URL 的内容,支持多种输出格式(Markdown、HTML、截图、JSON)。可配置只提取主要内容(自动过滤导航栏、广告、页脚),支持执行浏览器操作后抓取,适合获取动态渲染的页面内容。

整站爬取


从起始 URL 开始自动发现和爬取多个页面,可限制爬取深度、页面数量和路径范围。支持通过正则表达式过滤 URL 路径,控制爬取范围,避免浪费配额。爬取任务异步执行,可通过任务 ID 查询进度和结果。

结构化数据提取


使用 AI 从网页中提取结构化 JSON 数据,支持通过自然语言描述或 JSON Schema 定义输出结构。可一次处理多个 URL(测试版最多 10 个),适合批量提取产品信息、公司数据等结构化内容。

批量抓取


并发抓取多个 URL,提高效率。支持配置并发数、地理位置、广告拦截等选项,可忽略无效 URL 而不中断整个批量任务,适合处理大量已知 URL 列表。

网站结构映射


发现网站的所有 URL,生成网站地图,有助于了解网站结构或规划后续爬取任务。支持按关键词过滤、限制返回数量、忽略查询参数等选项。

任务监控与管理


爬取和提取任务均为异步执行,返回任务 ID 后可通过专用工具查询状态、获取结果或取消任务。配额使用情况透明可见,可随时控制成本。

常见问题

Firecrawl 是什么?


Firecrawl 是一个网页数据提取服务,通过 Composio 集成到 Claude Code 中。与传统爬虫不同,Firecrawl 使用浏览器渲染技术处理动态页面,并提供 AI 驱动的结构化数据提取功能。您只需要在配置中添加 Composio MCP 服务器(https://rube.app/mcp),即可在对话中直接调用爬取功能。

如何提取结构化数据?


使用 FIRECRAWL_EXTRACT 工具,提供目标 URL 数组和提取要求。您可以用自然语言描述需要提取的内容(如"提取公司名称、定价和功能列表"),或提供完整的 JSON Schema。任务异步执行,使用返回的任务 ID 通过 FIRECRAWL_EXTRACT_GET 获取最终结果。建议先在小规模 URL 上测试,确保输出符合预期后再扩展。

Firecrawl 有什么使用限制?


Firecrawl 按配额计费,每次爬取和提取操作都会消耗配额。批量抓取建议使用 FIRECRAWL_BATCH_SCRAPE 而非多次单独调用,可提高效率并减少配额消耗。FIRECRAWL_EXTRACT 在测试版中单次最多处理 10 个 URL,大规模提取可能遇到速率限制(429 错误),建议分批处理并实现退避策略。爬取任务默认限制 10 页,可根据需要调整。