1983年,在美国华盛顿特区的一栋法式风情的公馆里,由金出武雄和Dana Ballard联合发起的第一届国际计算机视觉与模式识别会议正式召开。近40年之后,如今它已发展成为世界顶级的计算机视觉会议。我们将从近三年计算机领域的热门趋势及高影响力投稿平台出发,详细介绍有关计算机视觉领域的前沿学科动态。
热门趋势
结合计算机视觉顶会CVPR和2022年计算机视觉领域发展趋势排名在2022年对计算机视觉、人工智能、机器学习等主题和应用的研究类别的分类数据,当下的热门领域包括以下十大方向(排名不分先后):
图像和视频合成与生成
(Text To Video、diffusion model)
由AR和VR增强的混合现实
识别:检测、分类、检索
多视图和传感器的3D
收集和标注数据
语义实例分割
高级深度学习
低水平视野
视觉+语言
医疗图像
我们将选取其中5个热门领域进行详细的介绍。
1、Text To Video
谷歌之前开发出了两款文字转视频的工具,Imagen Video和Phenaki,前者注重品质,后者注重视频时长,但其Text To Video (简称TTV)技术核心模型都使用了基于预计算文本标记的双向屏蔽转换器(bidirectional masked transformer)。TTV的提出不再停留在理论层面,有关它的应用早已渗透进生活,还记得上个月席卷各大社交平台的“AI画作”吗?不管是在B站还是知乎或各大学术论坛,其相关的话题分享随处可见,其核心算法模型就是TTV的应用。
2、Diffusion mode
去年10月,谷歌研究院、以色列理工学院、以色列魏茨曼科学研究所联合发表了一篇介绍扩散模型(diffusion model)的真实图像编辑方法,在此之前,这个领域的研究更多关注是关于非线性四阶扩散模型和非线性边界条件反应扩散模型等的数理研究。扩散(Diffusion)对于人工智能而言,是一个“舶来品”概念。在热力学中,它指细小颗粒从高密度区域扩散至低密度区域的过程。在统计学领域,这一术语则指将复杂的分布转换为简单分布的过程。Diffusion Model 定义了一个概率分布转换模型,它的前向传播过程,可以将一个复杂的分布转换为了一个标准正态分布。简单来说,这个模型可以实现输入文字输出图片。在不到一年的时间,它就已经在图像生成领域大红大紫,风头隐隐要盖过GAN。尤其是近年来,关于“diffusion model”的论文火到爆,妥妥的学科顶流。
3、由AR和VR增强的混合现实
AR和VR创造了一个3D环境,用于精确追踪画面中的运动。它使平板电脑、智能手机和智能眼镜等智能设备能够将虚拟实体嵌入现实世界的图像中。很多小伙伴这两年应该都参加了不少线上元宇宙虚拟会议,元宇宙的核心理论支撑就是来源于AR/VR.
4、语义实例分割
语义实例分割 Semantic Instance Segmentation是一个强大的工具,可以检测图片中所有物体的像素。它还能区分与特定物体相关的像素以及物体在图像中的位置。
5、用点云进行物体识别
这是最好的计算机视觉例子之一;最经常用于物体识别和跟踪的云服务是点云。它是一个三维协调系统内的数据点的组合。它提供了准确的空间或甚至是移动中的物体描述。