维护咨询 大模型部署 问题解决 技能定制 大模型训练
大多数AI工具只能处理文字,Hermes Agent的Browser工具让AI能直接操控浏览器——打开网页、点击按钮、填表单、截屏、分析页面内容。
这个工具对于需要操作Web界面的场景特别有用:自动填表、网页数据抓取、UI测试、社交媒体操作。
## Browser工具是什么
Hermes的Browser工具通过Browserbase服务实现浏览器自动化。Browserbase是一个云端浏览器平台,提供无头浏览器实例,不需要在本地运行Chrome或配置Selenium。
Hermes通过OpenCLI的browser系列命令来控制浏览器:
browser_navigate # 打开URL
browser_snapshot # 获取页面快照(可访问性树)
browser_click # 点击元素
browser_type # 输入文字
browser_scroll # 滚动页面
browser_press # 按键盘
browser_vision # 截图+视觉分析
browser_back # 返回上一页
browser_console # 获取JS错误/执行JS
这一套工具覆盖了绝大多数浏览器操作场景。
—
## 基础使用流程
第一步:确保OpenCLI daemon在运行
opencli status
# 或者启动daemon
opencli daemon start
第二步:安装Chrome扩展(可选本地模式)
在Chrome里安装OpenCLI Browser Extension,用本地Chrome而不是Browserbase云端实例。本地模式更快,而且可以访问本地开发环境的网页。
第三步:在Hermes里使用Browser工具
在对话里,Hermes会根据页面内容自动判断是否需要使用浏览器工具。比如你说”帮我查一下这个网站的SEO信息”,AI会自动打开网站、抓取内容、分析数据。
—
## 核心操作详解
打开网页
browser_navigate(url="https://www.example.com")
页面加载完成后返回可访问性树(Accessibility Tree),包含页面结构和可交互元素。每个可交互元素有ref ID(如@e5、@e12),用于后续click/type操作。
获取页面内容
# 紧凑模式(默认)- 只显示可交互元素
browser_snapshot()
# 完整模式 - 显示页面所有内容
browser_snapshot(full=true)
截图分析
browser_vision(question="页面上有哪些主要元素?")
用视觉AI分析当前页面截图。适合分析复杂布局、CAPTCHA、图表等纯文本快照无法捕捉的内容。
点击和输入
# 先获取快照,找到要点击的元素的ref
browser_snapshot()
# 点击
browser_click(ref="@e5")
# 输入文字(先清空再填入)
browser_type(ref="@e8", text="Hello World")
滚动和导航
# 滚动
browser_scroll(direction="down")
browser_scroll(direction="up")
# 返回
browser_back()
# 按键
browser_press(key="Enter")
browser_press(key="Tab")
执行JavaScript
# 获取控制台错误
browser_console()
# 执行JS并获取结果
browser_console(expression="document.title")
—
## 实际应用场景
场景一:自动抓取网页数据
"帮我把首页所有文章的标题和链接抓取下来"
AI会自动:打开页面 → 获取快照 → 找到文章列表 → 逐一点击提取 → 整理成结构化数据。
场景二:自动填表
"帮我填写这份联系表单,公司名是XX科技,邮箱是contact@xx.com"
场景三:社交媒体操作
"帮我发一条Twitter,内容是'用Hermes Agent自动化我的工作流'"
场景四:网页UI测试
"帮我走一遍注册流程,看看在哪里报错了"
—
## 本地Chrome vs Browserbase云端
本地Chrome扩展模式
通过OpenCLI Chrome扩展连接本地Chrome。优点:快,能访问localhost,不消耗Browserbase额度。
Browserbase云端模式
调用Browserbase的云端浏览器实例。优点:不需要本地Chrome,全球节点分布。缺点:需要Browserbase账号和额度。
默认优先用本地模式(如果扩展已连接),否则用云端模式。
—
## 常见问题
Q:Browser工具需要额外付费吗?
A:Browserbase是第三方服务,有免费额度,超出需要付费。用本地Chrome扩展模式不消耗额度。
Q:能同时操作多个浏览器吗?
A:单次会话里browser_navigate对应一个标签页,需要多个标签页需要多次调用。
Q:页面是SPA加载慢怎么办?
A:browser_navigate会自动等待页面加载完成。对于需要等待JS渲染的SPA,可以在navigate之后加一个browser_snapshot()触发额外等待。
Q:能操作内网网页吗?
A:本地Chrome扩展模式可以访问localhost和内网IP。云端模式不行。
—
## 相关文章








暂无评论内容