微软开源屏幕ui解析工具OmniParser,打开ai自动化操作UI之门

微软开源屏幕ui解析工具OmniParser,打开ai自动化操作UI之门

800_auto

近日,微软推出了一项创新的开源项目——OmniParser,这是一款先进的人工智能工具,专门用于解析屏幕上的可交互图标。

在传统的自动化技术中,解析屏幕元素往往依赖于HTML或视图结构,而现有的视觉模型在处理复杂的图形用户界面(GUI)时常常显得不够精确。

微软的这项新工具基于纯视觉技术,旨在克服现有屏幕解析技术的不足。

OmniParser通过集成交互区域检测、图标描述和光学字符识别(OCR)技术,无需依赖HTML标签或...

点击查看剩余70%

{{collectdata}}

网友评论