您的位置:首页 >精选资讯 >正文

苹果的Ferret UI人工智能模型可以以新的方式理解屏幕上的内容

摘要 苹果一直在开发一款人工智能助手,它可以改变我们与应用程序交互的方式,并有可能通过 Siri 自动执行许多任务。该系统被称为 Ferret-UI...

苹果一直在开发一款人工智能助手,它可以改变我们与应用程序交互的方式,并有可能通过 Siri 自动执行许多任务。

该系统被称为 Ferret-UI,即所谓的多模态大型语言模型 (MLLM)。这意味着它是一种不仅能理解文本的人工智能,还能感知图像、视频和其他形式的媒体。然而,Ferret-UI 的多模式功能经过精心设计,使模型能够理解移动应用程序屏幕。

考虑到其他法学硕士发现很难理解智能手机显示屏中的内容,因为宽高比各不相同,而且每个应用程序都挤满了微小的图标、按钮和菜单,所以这是一件大事。然而,Ferret-UI 经过精心训练,能够理解这些用户界面。研究论文称,该模型接受了大量 UI 任务的训练,例如图标识别、文本识别和小部件列表。

它似乎正在发挥作用。苹果声称 Ferret-UI 在理解智能手机应用程序方面优于 GPT-4V 和其他以 UI 为中心的 MLLM。

那么这个人工智能能给我们带来什么好处呢?这篇论文对这些细节的描述很少,但这样的模型可以有多种潜在用途。首先,应用程序开发人员可以使用它来测试他们的创作在向公众发布之前到底有多直观。

版权声明:本文由用户上传,如有侵权请联系删除!