包含标签 视觉 的内容
-
学习视觉和语言的多粒度对齐?字节提出新多模态预训练方法 X
视觉语言预训练提高了许多视觉语言任务的性能。但是,现有的多数预训练方法依赖目标检测器(objectdetectors)提取基于物体的视觉特征,以此学习细粒度的视觉和语言对齐,例阅读全文>> -
把大核卷积拆成三步,清华胡事民团队新视觉Backbone刷榜三大任务
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。在视觉任务上,CNN、ViT各有各的优势和劣势。于是,以经典Backbone为基础、细节上相互借鉴,成了最近一个热门研究方向。前有微软SwinTransformer引阅读全文>>