副标题:使用 LLM 大模型自动化操作浏览器、手机
使用 VLM 多模态大模型自动化操作浏览器、手机
使用 多模态视觉大模型自动化操作浏览器、手机
llm 控制手机自动化方案汇总
使用大模型,尤其是多模态的大模型去做手机/浏览器的自动化操作感觉会很有应用价值,比如做数据抓取或者私域流量截取(评论、私信)。因为这样不需要使用传统的爬虫技术手段(逆向、破解)去攻防,没有法律风险。当然缺点就是效率会非常的低下,不过有总比没有好
我会实时关注开源的vlm自动化解决方案,并且更新到下面
- Automa: Automa:通过连接块实现浏览器自动化的新技能
- OthersideAI/self-operating-computer :https://github.com/OthersideAI/self-operating-computer
- WebRL:WebRL:让 AutoGLM 自我进化
- AutoGLM-Web:自主 agent 的「一小步」:今天,把电脑交给大模型
- AutoGLM: 不止 Computer Use,AI 的「Phone Use」时刻也来了
- OpenAI 最强竞品大更新!一句话模拟人类用电脑,AI 智能体觉醒前的重大突破
- browser-use: Browser-Use + LightRAG Agent:可使用 LLM 抓取 99% 的网站 、让 AI 像人类一样浏览网页Browser Use
我感觉现在最好用且领先的是智谱的 autoglm 了
在浏览器上,接住官方的浏览器插件已经可以操作微博了
手机端的 autoGLM 在内测阶段,因为我没有名额,所以用不了
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。