清华AutoDroid-V2:移动端GUI自动化控制迎来新突破!

   时间:2025-01-02 16:16 来源:ITBEAR作者:冯璃月

清华大学智能产业研究院(AIR)近期公布了一项突破性的研究,该研究聚焦于移动设备上的自然语言控制自动化。AIR在2024年末发布了一篇论文,详细介绍了一款名为AutoDroid-V2的AI模型。这款模型利用小型语言模型(SLM)显著提升了移动设备上的自动化控制能力。

传统的移动设备自动化控制主要依赖于大型语言模型(LLM)和视觉语言模型(VLM),这些模型通过自然语言命令实现复杂的用户任务。然而,这些传统方法大多采用“逐步GUI智能体”方式,频繁查询GUI状态,依赖云端模型进行决策,这不仅带来了隐私和安全问题,还增加了用户端流量消耗和服务器端成本。

相比之下,AutoDroid-V2采用了全新的方法。它根据用户指令生成多步骤脚本,通过设备上的小型语言模型一次性执行多个GUI操作,从而显著减少了查询频率和资源消耗。这种方法不仅避免了对云端大型模型的依赖,还有效保护了用户隐私和数据安全,降低了服务器端的成本。

在基准测试中,AutoDroid-V2表现出色。研究团队在23个移动应用上测试了226项任务,与AutoDroid、SeeClick、CogAgent和Mind2Web等基线方法相比,AutoDroid-V2的任务完成率提高了10.5%至51.7%。这一显著的提升表明,AutoDroid-V2在移动设备自动化控制领域具有巨大的潜力。

AutoDroid-V2在资源消耗方面也表现出色。与基线方法相比,AutoDroid-V2的输入和输出token消耗分别减少至原来的四十三分之一和五十八分之一,LLM推理延迟降低至原来的五分之一到十三分之四。这些改进使得AutoDroid-V2在实际应用中更加高效节能。

在跨LLM测试中,AutoDroid-V2也表现出良好的一致性和稳定性。研究团队在Llama3.2-3B、Qwen2.5-7B和Llama3.1-8B等不同规模的模型上进行了测试,结果显示AutoDroid-V2的成功率在44.6%至54.4%之间,反向冗余比在90.5%至93.0%之间。这一结果表明,AutoDroid-V2对不同规模的LLM具有良好的适应性和鲁棒性。

 
 
更多>同类内容
推荐图文
推荐内容
点击排行
 
智快科技微信账号
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群