browser-automation

浏览器自动化是网页测试、数据抓取和AI智能体交互的核心技术。脚本的稳定性与系统可靠性之间的差异,关键在于对选择器、等待策略和反检测模式的理解。本技能涵盖Playwright(推荐)和Puppeteer两大工具,并提供测试、抓取及智能浏览器控制的实践模式。核心洞察:Playwright已在框架竞争中胜出。除非您需要Puppeteer的隐身生态或仅限Chrome环境,2024年Playwright无疑是更优选择。

作者

安装

热度:200

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-browser-automation&locale=zh&source=copy

浏览器自动化 - Playwright 与 Puppeteer 实战指南

技能概述

浏览器自动化技能涵盖 Web 测试、网页爬虫和 AI 智能体浏览器控制的完整方案,重点讲解 Playwright 和 Puppeteer 的选择器策略、自动等待机制和反检测模式。

适用场景

  • 网页数据爬取与采集

  • 需要处理动态渲染页面、绕过反爬虫机制、模拟真实用户行为的长期稳定爬虫项目,特别是需要登录或处理复杂交互的网站。

  • 端到端自动化测试

  • Web 应用的 UI 自动化测试、E2E 回归测试、跨浏览器兼容性测试,解决测试脚本脆弱、等待策略不当导致的失败率问题。

  • AI 智能体浏览器控制

  • AI Agent 需要与网页进行交互、执行用户操作、获取页面内容的场景,如智能表单填写、自动化工作流、基于浏览器的 RAG 系统等。

    核心功能

  • 可靠的自动化脚本编写

  • 教授如何避免常见的自动化失败原因(错误选择器、缺失等待、检测系统),使用测试隔离、用户视角定位器和自动等待模式,构建长期稳定运行的脚本。

  • Playwright 与 Puppeteer 深度应用

  • 涵盖两大框架的实战技巧,包括浏览器上下文管理、反爬虫对抗、并发控制、资源拦截等,帮助理解 Playwright 在 2024 年已成为首选方案的原因。

  • 反检测与反爬虫策略

  • 针对现代网站的检测系统,提供浏览器指纹伪装、请求延迟控制、行为模式模拟等实用技巧,让自动化脚本更像真实用户。

    常见问题

    Playwright 和 Puppeteer 应该选择哪个?

    除非你有特殊的限制(如必须使用 Chrome 专有 API,或依赖 Puppeteer 生态中的 stealth 插件),否则在 2024 年推荐使用 Playwright。Playwright 在跨浏览器支持、自动等待机制、API 设计、文档质量和社区活跃度上都更具优势,且官方维护更加稳定。

    为什么我的浏览器自动化脚本总是不稳定?

    大多数失败来自三个原因:选择器过于依赖 DOM 结构(应该使用用户视角的定位器)、等待策略不当(应该让框架自动等待,而不是硬编码延迟)、测试之间状态污染(应该为每个测试创建独立的浏览器上下文)。本技能会逐一讲解这些模式的正确做法。

    如何避免爬虫被网站检测和封禁?

    需要多层防护:使用真实的浏览器指纹(可通过 playwright-extra 或 puppeteer-extra 的 stealth 插件)、控制请求频率和随机延迟、模拟真实用户的鼠标移动和滚动行为、使用代理 IP 池、注意 Cookie 和 LocalStorage 的管理。同时要理解,没有任何方案是 100% 有效的,最好的策略是降低请求频率和遵守网站的 robots.txt。