智谱开源神器 Open-AutoGLM简单使用教程
智谱清言开源的「Open-AutoGLM」项目可以让安卓手机就能自动完成操作,用自然语言指令驱动自动化操作,彻底解放你的双手。
据介绍「Open-AutoGLM」是一个专注于手机端的智能代理(Agent)框架,核心能力是听懂用户的自然语言指令,并自动操控手机完成任务。无论是社交、购物、外卖还是出行,只需一句话,它就能像人类一样 “看懂” 屏幕、规划步骤、执行操作。

例如:“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。

目前支持 50 多个常用应用,包括有:
社交通讯:微信、QQ、微博
购物平台:淘宝、京东、拼多多
外卖平台:美团、饿了么、肯德基
出行工具:滴滴出行、携程、12306
视频音频:抖音、B站、爱奇艺、网易云音乐
本地生活:大众点评、高德地图、小红书、知乎等
工作原理就是:通过截图获取当前手机界面,借助视觉语言模型解析界面元素(如按钮、输入框、图标)→ 根据用户指令拆解出具体步骤 → 通过 ADB 模拟人类操作一步步完成任务。
如何体验
准备一台安卓手机(Android 7.0+),开启 “开发者模式” 和 “USB 调试”;
安装 ADB 工具和 ADB Keyboard(用于文本输入);
下载 Open-AutoGLM 项目代码,安装依赖;
部署模型服务(支持本地部署或调用智谱 BigModel 等第三方 API);
运行程序,输入指令(如 “打开微信给文件传输助手发消息:我成功了!”),即可见证手机自动操作。
部署要点
优先确认手机连接:在安装任何代码之前,先确保 adb devices 能看到设备
不要跳过 ADB Keyboard:没有它,中文输入会失败
模型服务是外部依赖:Agent 代码本身不包含模型,需要单独的模型服务
遇到权限问题先检查手机设置:大部分问题都是手机端配置不完整
部署完成后用简单任务测试:建议用「打开微信发消息给文件传输助手」作为验收标准
图像界面版
如果你觉得命令行不够直观,还可以试试第三方工具 AutoGLM-GUI 提供了图形化界面,只需要一个 OpenAI 兼容的模型服务,支持一键启动服务、输入指令、查看操作日志,小白用户也能轻松上手。

总结
从 “人操作手机” 到 “手机听懂人”,Open-AutoGLM 正在重新定义人与设备的交互方式。无论是提升日常效率,还是探索 AI 代理的更多可能,这个开源项目都值得一试。
下载地址
项目网站:
https://github.com/zai-org/Open-AutoGLM图形界面版:
https://github.com/suyiiyii/AutoGLM-GUI网盘下载:
https://pan.quark.cn/s/0c88ad744a38