这个工具讲到底就类似于,人可以预定义一系列 action,每一个 action 告诉 agent 在什么页面应该点击什么元素、输入什么东西. 并且这个东西似乎不止可以支持浏览器网页,似乎应用程序也可以.