现有的大多数特征学习方法缺乏人类同时从不同信息源学习的能力。-(跨域自监督多任务特征学习)利用合成图像通过提出一种原始的多任务深度学习网络来解决这一差距,该网络利用合成图像更好地学习跨模态设置下的视觉表征。通过合成图像训练网络大大减少了多任务学习所需的通常昂贵且耗时的数据标注。为了弥合真实数据和合成数据之间的跨领域鸿沟,在无监督特征级领域自适应方法中采用对抗学习,增强了视觉特征知识向真实世界任务的传递性能。
(用合成数据训练深度网络)提出了一种基于合成数据的区域随机化训练用于真实目标检测的深度神经网络数据的精确方法。域随机化迫使网络通过有意和随机地干扰环境的纹理来聚焦和识别对象的主要特征,从而降低了对高质量模拟数据集的需求。为了提高这一过程的性能,将进行合成数据与真实数据相结合的额外训练,以弥合现实差距,获得更好的性能。文章还提出了发挥合成数据潜力的不同方法,并认为这一领域在未来几年将得到进一步发展。
2-视觉问答
视觉问答(,VQA)是一个结合了计算机视觉和自然语言处理的新问题。它通常包括向计算机显示一幅图片,并让计算机回答关于该图片的问题。答案可以是以下任何一种形式:一个单词、一个短语、是/否、多项选择答案或填空答案。
各种各样的数据集,如COCO-QA、VQA和vQA,都致力于解决这个问题。我们也来看看今年视觉问答领域的佼佼者:
以创建完全智能的代理为目标,这些代理可以在基于环境的对话中主动感知并自然地交流、表达和执行命令。通过目标驱动的三维智能导航,要求代理基于对象识别和视觉定位理解来回答问题。有趣的是,代理只使用以自我为中心的视觉来导航其周围环境。这意味着代理不提供地图,只能通过原始的感官输入(像素和文字)进行训练,必须依靠常识来导航不熟悉的环境。
相关阅读
版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除
标签: #计算机视觉领域十大热门事件汇总