5个最流行的计算机视觉应用和相关数据集!
潘闯大赦国际
2020-08-
派遣
概观
计算机视觉是一种允许数字世界与现实世界互动的技术。
探索5种最流行的计算机视觉应用
使用计算机视觉的姿态估计,使用Gans的图像转换,基于计算机视觉的社交距离工具,2D图像到三维模型的转换,医学图像分析入门,我是10年前开始使用的,如果你使用了很长时间,你会知道手动标记照片的方法,但是现在我们不需要手动标记这些照片。能识别上传图片中的大部分人,并提供标记建议;同样,你一定在网上看到过这些有趣的滤镜,里面的人用狗滤镜来获取狗的脸。你想过这一切是怎么做到的吗?我们的手机如何检测我们的脸并给它添加滤镜?这些其实都是一些计算机视觉应用。计算机视觉是数据科学领域最热门的研究领域之一,它已经成为我们个人生活的一部分。我们都在不知不觉地使用后端运行计算机视觉技术的各种功能。比如我们在智能手机中使用人脸解锁。下图有效的说明了人脸检测的工作原理。
我选择人脸检测作为本文的开头,因为它是我们都知道的计算机视觉的一个应用。但是相信我,计算机视觉不仅限于此。在这篇文章中,我们将探索计算机视觉更有趣的应用。什么是计算机视觉?使用计算机视觉的姿态估计,使用Gans的图像转换,使用基于计算机视觉的社交距离工具将2D图像转换为3D模型,医学图像分析,什么是计算机视觉?在进入计算机视觉应用领域之前,我们先来了解一下什么是计算机视觉。简而言之,计算机视觉是人工智能的一个多学科分支,旨在复制人类视觉的强大功能。形式化定义如下:“计算机视觉是一种实用的工具,它可以根据感知到的图像对实际的物理对象和场景做出有用的决策”(,2001)。计算机视觉通过图像分类、目标检测、图像分割、目标跟踪、光学字符识别和图像字幕等视觉识别技术工作。我知道这是一系列的专业术语,但是理解起来并不难。看看下面的图片,你就会明白这些术语。
先说第一张图。如果我问你图中是什么?你的答案会是: a猫,其实是对图片进行分类,也就是说基于图片的分类是对图片进行标记,这里的类别是“猫”。既然知道了图像的类别,接下来的问题就是物体在图像中的位置。当我们确定一个对象在图像中的位置,并在它周围创建一个边界框时,这被称为定位。在第二张图像中,我们已经找到了该对象,并将其标记为猫。下一项是物体检测。在前两种情况下,图像中只有一个对象,但是如果有多个对象怎么办?这里,我们使用边界框来确定现有的实例及其位置。在物体检测中,我们使用正方形或矩形的边界框,但它不能告诉任何关于物体形状的信息。实例分割在每个对象周围创建一个像素级模板,因此实例分割使人们能够对图像有更深的理解。
深度学习方法的最新发展和技术进步极大地提高了视觉识别系统的功能。现在计算机视觉已经被公司迅速采用,在整个工业领域都可以看到成功的计算机视觉使用案例,从而扩大了应用范围,增加了对计算机视觉工具的需求。现在,让我们来看看计算机视觉的五个最受欢迎的应用。使用计算机视觉的姿态估计是计算机视觉的一个有趣的应用。你一定听说过它是一个开源的人体姿态估计模型。简而言之,姿态估计是一种计算机视觉技术,可以推断图像/视频中人或物体的姿态。在讨论姿势估计的工作之前,我们先来了解一下“人体姿势骨骼”,它是定义一个人姿势的一组坐标。此外,我们可以通过识别、定位和跟踪图像或视频中人体姿态骨架的关键点来进行姿态估计。
以下是人体姿势估计的一些应用——用于实时运动分析或监控系统的活动识别。增强现实体验训练机器人动画和游戏如果你想自己开发一个姿态估计模型,以下是sets-pose.mpi-inf.mpg.org/#downloadhumanevahttp://humaneva.is.tue.mpg.de/I发现的一些可能的数据,谷歌的深度姿态(https://static.googleusercontent.com/media/Research.google.com/en//pubs/archive/42237.pdf)是一篇非常好的研究论文,它使用深度学习模型来估计姿态。要做更深入的研究,可以去看看几篇关于姿态估计的研究论文(https://papers with code.com/task/pose-establishment)。使用Gans进行图像转换Faceapp是一个非常有趣和流行的应用。它是一个图像处理工具,可以使用过滤器来转换输入图像。过滤器包括老化或最近的性别交换过滤器。
看上图,有意思吗?几个月前,这是网络上的一个热门话题,人们在改变性别后分享图片。但这类应用背后的技术是什么?是的,你猜对了。是计算机视觉,更具体地说,是深度卷积生成的拮抗网络。生成对抗网络,俗称GAN,是计算机视觉领域令人振奋的创新。GAN虽然是一个古老的概念,但是它现在的形式是2014年由IanGoodfello提出的,从那以后发展了很多。GAN训练涉及两个相互竞争的神经网络,它们根据给定训练数据的分布生成新数据。虽然最初是作为一种无监督学习机制提出的,但GAN证明了自己是监督学习和半监督学习的理想选择。要了解更多关于甘斯的工作,请查看以下文章。什么是世代模式和GAN?以下是我个人推荐的一些关于GAN的必要研究论文:基于风格的一代数字网络架构https://arxiv.org/ABS/1812.04948未监督的演示和学习它可以帮助你获得GANs,celeba http://mm lab.ie.cuhk.edu.hk/projects/celeba.htmlflickerfacedataset https://github.com/nvlabs/FFHQ-datassetchartost https://Google的实践经验。github.io/cartoonset/There是Gans在应用领域产生的众多图像应用。下面是它的一些应用风格转换和照片修复。具有超分辨率文本到图像生成的图像到图像翻译。图像编辑语义图像到照片翻译。基于计算机视觉的社会远程工具在过去的几个月里,世界正遭受新冠肺炎大流行的折磨。发现在没有这种疾病的疫苗之前,我们所有人都必须采取预防措施,使用洗手液计算机视觉领域十大热门事件汇总、口罩,最重要的是,保持社会距离。在这种严峻的形势下,计算机视觉技术可以发挥至关重要的作用。可以用来跟踪房子或者特定区域的人,了解他们是否符合社会距离规范。社交距离工具是用于对象检测和实时跟踪的应用程序。为了检查社交距离违规,我们使用边界框来检测视频中的每个人,然后跟踪每个框的移动并计算它们之间的距离。如果它检测到任何违反社会距离规范的行为,这些边界框将被突出显示。
另外,为了使这些工具更加先进和准确,可以使用迁移学习技术。各种预先训练的目标检测模型(如YOLO或马斯克-美国有线电视新闻网)可从来源。
下面这篇文章可以帮助你创建自己的社交隔离工具,你的社交歧视检测工具:https://www . analyticsvidhya.com/blog/2020/05/social-distribution-detection-tool-deep-learning/?UTM _ Source=BlogUTM _ Medium=Top _ 5 _ Applications _ of _ Computer _ Vision将2D图像转换为3D模型这是计算机视觉的另一个非常有趣的应用,它将2D图像转换为3D模型。举个例子,假设你收集了一张照片,计算机视觉可以把它转换成3D模型,给人一种3D的感官效果。
DeepMind研究人员提出了一个实现类似功能的AI系统。它被称为GenerativeQueryNetwork,可以像人类一样从不同角度感知图像。此外,英伟达开发了一种可以基于图像预测3D属性的AI架构。同样,FacebookAI也提供了一个类似的工具,叫做3D拍照功能。以下是一些相关的数据集。为您测试,ikeadatast http://ikea.csail.mit.edu/opensurfacedatasethttp://opensurfaces.cs.cornel.edu/nyudepthdatasethttps://cs.nyu.edu/~西尔伯曼/数据集/Nyu _ depth _ v2 . html objectnet 3d https://cvgl . Stanford . edu/projects/objectnet 3d/另外,请查看这些有趣的论文以了解更多关于该应用的信息。https://paperswithcode.com/task/3d-reconstruction应用领域以下是该技术的应用场景。计算机视觉:医学图像分析利用动画和游戏机器人技术在自动驾驶汽车的医疗诊断和外科保健中的应用长期以来,医学图像一直用于诊断,如CT扫描和X射线。计算机视觉技术的最新发展使医生能够通过将这些图像转换成三维交互模型来更好地理解它们,并使它们更容易解释。如果我们知道计算机视觉的最新使用案例,我们会发现它正在使用胸部x光来检查新冠肺炎案例。此外,根据武汉放射科的一项研究,深度学习法可以有效区分新冠肺炎和社区获得性肺炎。了解Kaggle提供的新冠肺炎胸透数据集,在实施过程中自己动手。新冠肺炎胸部x光数据集:https://www.kaggle.com/bachrr/covid-chest-x射线
如果要用另一个数据集,也可以在Kaggle上获取CT医学图像(https://www . Kaggle.com/kmader/siim-medical-images)。另外,如果你想更多的了解医学图像处理及其在医疗中的应用,请阅读这些研究论文及其实现。相关论文:https://www.engpaper.com/CSE/medical-image-processing.html总之,计算机视觉是人工智能中一个引人入胜的领域。在这篇文章中,我讨论了一些有趣的事情,但这只是冰山一角。参考链接是:https://www . analyticsvidhya.com/blog/2020/07/5-excited-computer-vision-applications-with-relevant-dataset/
2020年 十二生肖2020年运势 八字算命2020鼠年运程及每月
结合计算机视觉和机器人学领域的五大会议,以及行业需求,总结出当前的三个热点和前沿研究领域。
三维视觉
三维视觉是一个传统的研究领域,但最近五年发展迅速。三维视觉的主要研究内容包括:三维感知(点云采集与处理)、姿态估计(视觉SLAM)、三维重建(大规模场景三维重建、动态三维重建)、三维理解(三维物体识别、检测与分割等)。)。
图13D视觉的应用场景
CV峰会关于3D视觉的论文比例也在逐年增加。
图23前三名视觉会议3D视觉论文比例
视频理解
随着新网络媒体的出现和5G时代的到来,视频已经爆炸式增长,成为移动互联网最重要的内容形式。面对海量的视频信息,仅靠人工处理是做不到的,因此实现对视频的智能理解成为一个亟待解决的问题。
自2012年以来,深度学习在图像理解方面取得了很大的突破,但视觉理解比图像目标检测和识别复杂得多。这是因为视频往往有很多动作,这些动作往往是复杂概念的集合,可以是简单的行为,但也可能有复杂的情绪和意图。举个简单的例子,视频和图像哪个更容易分类?
从近年来知名的计算机视觉比赛中也可以看出,图像级别的比赛在减少,视频级别的比赛在增加。
多模态融合
基于多模态融合的知识获取是指从文本、图片、视频和音频等不同模态数据中交叉融合知识的过程。
随着计算机视觉的发展,一些计算机视觉无法解决的问题将逐渐更多地依赖于多个传感器的相互保护和融合。
摘要
害怕无限的真理,每一寸都有喜悦!
深蓝学院()是以人工智能为核心的在线教育平台,致力于构建前沿科技课程培训体系的行业标准,涵盖人工智能基础、机器学习、计算机视觉、自然语言处理、智能机器人等领域。
扩展阅读全文
相关阅读
版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除
标签: #计算机视觉领域十大热门事件汇总