Apify Automation

利用Apify实现网页抓取与数据提取自动化——通过Composio Apify集成,运行执行器、管理数据集、创建可复用任务并获取抓取结果。

安装

热度:2

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=composiohq-composio-skills-apify-automation&locale=zh&source=copy

Apify Automation

技能概述


在 Claude Code 中直接运行 Apify 网页抓取 Actor 并管理数据集,无需离开终端即可完成自动化数据提取任务。

适用场景

  • 快速数据采集

  • 需要从网站批量提取结构化数据时,直接在对话中触发爬虫并获取结果。例如抓取 Google 商店评论、电商产品信息或新闻文章列表,同步执行模式下可在几分钟内获得 JSON 格式的数据。

  • 长期监控任务

  • 定期采集同一数据源的场景,如每日价格监控、社交媒体趋势跟踪或竞争分析。通过创建可重用任务,预设输入参数后反复执行,确保每次采集配置一致。

  • 大规模异步爬取

  • 处理大量页面或需要长时间运行的爬虫任务。异步执行模式允许爬虫在后台运行,避免阻塞终端,完成后通过数据集 ID 分页获取结果,适合处理超过 5 分钟的大型抓取任务。

    核心功能

  • Actor 执行管理

  • 支持同步和异步两种执行模式。同步模式 (APIFY_RUN_ACTOR_SYNC_GET_DATASET_ITEMS) 适合快速任务,执行完成后立即返回数据;异步模式 (APIFY_RUN_ACTOR) 适合长时间任务,可设置内存超限和超时时间,后续通过数据集 ID 获取结果。执行前可使用 APIFY_GET_ACTOR 查看每个 Actor 的输入 schema,避免参数格式错误。

  • 数据集检索与处理

  • 通过 APIFY_GET_DATASET_ITEMS 从指定数据集获取数据,支持 JSON、CSV、XLSX 等多种格式。内置分页功能(单次最多 1000 条),可通过 offset 遍历完整数据集。支持字段筛选(fields)和排除(omit),只提取需要的字段,减少数据传输量。

  • 任务与运行管理

  • 使用 APIFY_CREATE_TASK 创建可重用任务,固定 Actor 输入参数后重复调用。通过 APIFY_GET_LIST_OF_RUNS 查看历史运行记录,使用 APIFY_GET_LOG 获取执行日志排查失败原因。支持按状态过滤运行记录,快速定位问题。

    常见问题

    Apify 和 Claude Code 如何集成?


    添加 Composio MCP 服务器 https://rube.app/mcp 到配置中,首次使用时会弹出认证链接。完成 Apify 账号绑定后,即可在 Claude Code 中调用所有 Apify 工具。

    同步执行和异步执行有什么区别?


    同步执行会等待爬虫完成(最多 5 分钟)并直接返回数据,适合快速小规模任务。异步执行立即返回,爬虫在后台运行,适合超过 5 分钟或需要处理大量页面的任务。异步任务完成后需使用数据集 ID 手动获取结果。

    如何避免 Actor 输入格式错误?


    每个 Actor 的输入 schema 不同,执行前先用 APIFY_GET_ACTOR 查看具体字段要求。常见注意点:URL 必须包含协议(https://)、枚举值通常是小写、URL 字段可能需要对象格式 {"url": "https://example.com"}。详细参数请参考 apify.com/store 中的 Actor 文档。