Ferret-UI是专门为提高对移动UI屏幕的理解而设计的新型MLLLM,具备引用、定位和推理能力,处理UI屏幕上的任务,并通过“任何分辨率”技术解决小对象识别问题。
Ferret-UI具备引用、定位和推理能力,训练样本收集与任务制定,模型架构与数据集建立等主要特色。
其优势在于提高对移动UI屏幕的理解和操作,以及提高对UI元素的识别精度。
使用场景包括iOS 18的应用界面自动操作、移动应用UI屏幕识别与操作,以及高级任务中的对话能力展示。
Ferret-UI能够提高对移动UI屏幕的理解和操作,以及提高对UI元素的识别精度。
在使用过程中,可能存在对特定任务或数据集的适应性限制。