通过自然语言控制手机,让 AI 自己看屏幕、点按钮、完成任务,但现有的自动化工具要么需要写脚本,要么只能执行固定流程。
有一位开发者开源了 PhoneDriver 项目,基于 Qwen3-VL 视觉大模型,来看懂手机屏幕,并模拟人类操作。
只需简单描述任务,比如 “打开设置开启 WiFi”,模型就会自动分析界面元素,通过 ADB 指令执行点击、滑动或输入。
GitHub:http://github.com/OminousIndustries/PhoneDriver
提供了可视化网页界面,可以实时查看手机截图和执行日志。
并且支持自动检测屏幕分辨率,还能自定义模型参数、操作延迟、重试次数等。
部署主要依赖 Python 和 ADB 环境,需要显卡有足够显存运行 4B 或 8B 的视觉模型,同时手机得开启 USB 调试模式。
如果想体验 AI Agent 如何操控真机,或者有自动化测试需求,这个项目非常值得一试。
@https1024
有一位开发者开源了 PhoneDriver 项目,基于 Qwen3-VL 视觉大模型,来看懂手机屏幕,并模拟人类操作。
只需简单描述任务,比如 “打开设置开启 WiFi”,模型就会自动分析界面元素,通过 ADB 指令执行点击、滑动或输入。
GitHub:http://github.com/OminousIndustries/PhoneDriver
提供了可视化网页界面,可以实时查看手机截图和执行日志。
并且支持自动检测屏幕分辨率,还能自定义模型参数、操作延迟、重试次数等。
部署主要依赖 Python 和 ADB 环境,需要显卡有足够显存运行 4B 或 8B 的视觉模型,同时手机得开启 USB 调试模式。
如果想体验 AI Agent 如何操控真机,或者有自动化测试需求,这个项目非常值得一试。
@https1024