计算机视觉模型日常应用

ditihekhatun16 · 发表于 2024-5-9 13:12:32

各种任务从对象识别到基于图像的对象重建。一种具有挑战性的计算机视觉问题是实例级识别——给定一个对象的图像任务不仅是确定对象的通用类别例如拱门而且还要确定该对象的具体实例。对象法国巴黎凯旋门。此前是使用深度学习方法来解决的。首先收集了大量图像。然后训练深度模型将每个图像嵌入到高维空间中其中相似的图像具有相似的表示。最后该表示用于解决与分类例如在嵌入之上训练浅层分类器或检索例如在嵌入空间中使用最近邻搜索相关的任务。由于世界上有许多不同的对象域例如地标产品或艺术品因此在单个数据集中捕获所有这些对象并训练可以区分它们的模型是一项相当具有挑战性的任务。

为了将问题的复杂性降低到可管理的水平迄今为止的研究重点是一次解决单个域的。为了推进这一领域的研究我们举办了多次竞赛重点关注地标图像的识别和检索。年亚马逊加入了这一努力 美国手机数据列表 我们超越了地标领域扩展到了艺术品和产品实例识别领域。下一步是将任务推广到多个域。为此我们很高兴地宣布由与和合作主办的通用图像嵌入挑战赛。在本次挑战中我们要求参与者构建一个通用图像嵌入模型能够在实例级别表示来自多个域的对象。我们相信这是现实世界视觉搜索应用的关键例如增加博物馆的文化展览组织照片收藏视觉商务等。数据集中表示的某些领域的对象实例的图像服装和配饰家具和家居用品玩具汽车地标菜肴艺术品和插图。

不同领域的变异程度为了表示来自大量领域的对象我们需要一个模型来学习许多特定于领域的子任务例如过滤不同类型的噪声或关注特定细节而这些子任务只能从语义和视觉上多样化的集合中学习图片。解决每个程度的变化都对图像收集和模型训练提出了新的挑战。第一种变化来自这样的事实虽然某些域包含世界上独特的对象地标艺术品等但其他域包含可能有许多副本的对象服装家具包装商品食品等。由于地标始终放置在同一位置因此周围的环境可能对识别有用。相比之下一个产品比如一部手机即使是特定的型号和颜色也可能有数百万个物理实例因此会出现在许多周围的环境中。

		自动登录	找回密码
密码			立即注册