AIGC核心技术——计算机视觉（CV）预训练大模型-阿里云开发者社区

AIGC核心技术——计算机视觉（CV）预训练大模型

2024-01-21 1034

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

多模态交互后付费免费试用，全链路、全Agent

简介： 【1月更文挑战第13天】AIGC核心技术——计算机视觉（CV）预训练大模型

c4546b0ba704f16db2e1ca0036f5709a(1).jpeg
Florence是微软在2021年11月提出的一种视觉基础模型，其采用了双塔Transformer结构，其中文本部分采用了12层Transformer，而视觉部分则采用了SwinTransformer。通过对来自互联网的9亿图文对进行学习，Florence通过Unified Contrasive Learning机制将图文映射到相同的空间中，为计算机视觉领域的各种任务提供了强大的支持。

在Florence模型中，文本和视觉信息分别经过不同的Transformer结构处理，形成了一个双塔的架构。这种架构的设计使得模型能够更好地捕捉文本和图像之间的关联，提高了模型在图文任务上的性能。12层Transformer用于处理文本信息，通过对文本的逐层抽象，模型能够理解更高层次的语义信息。而在视觉部分，SwinTransformer被采用，这是一种基于局部注意力机制的视觉Transformer，能够更有效地捕捉图像中的局部特征，提高了图像处理的精度。

关键的训练数据来自互联网上的9亿图文对。这意味着Florence在学习过程中接触到了大量的多样性数据，这对于提高模型的泛化能力至关重要。Unified Contrasive Learning机制被用于将图文映射到相同的空间中，这意味着模型学会了将图像和文本表示在一个共同的语义空间中，从而能够更好地理解它们之间的关系。这也使得Florence成为一个通用的预训练大模型，可用于多个计算机视觉任务。

Florence模型在下游任务中展现了卓越的性能。其中包括图文检索、图像分类、目标检测、视觉问答以及动作识别等任务。在图文检索任务中，Florence能够精准地匹配图像和文本，提高了搜索结果的准确性。在图像分类任务中，模型能够准确地识别图像中的物体类别，具有出色的分类能力。目标检测任务中，Florence能够有效地定位和识别图像中的多个目标，为实时物体检测提供了强大的支持。在视觉问答和动作识别任务中，模型展现了对语境理解和动作识别的卓越能力。

AIGC核心技术——计算机视觉（CV）预训练大模型

通义大模型

热门文章

最新文章

相关课程

相关电子书