电话咨询 在线咨询 产品定制
电话咨询 在线咨询 产品定制
010-68321050

计算机视觉的技术层面详解及商业应用

五度易链 2018-10-19 2202 90

专属客服号

微信订阅号

大数据治理

全面提升数据价值

赋能业务提质增效

计算机视觉是人工智能的一个重要方面,通过精准的实现图片识别等可以扩展计算机的使用范围。

【相关专题 | 【计算机视觉】  计算机视觉技术行业现状、市场分析与发展前景】

  计算机视觉是人工智能的一个重要方面,通过精准的实现图片识别等可以扩展计算机的使用范围。

  计算机技术的几项技术

  1、图像分类

  给定一组各自被标记为单一类别的图像,我们对一组新的测试图像的类别进行预测,并测量预测的准确性结果,这就是图像分类问题。

  计算机视觉研究人员提出了一种基于数据驱动的方法。 该算法并不是直接在代码中指定每个感兴趣的图像类别,而是为计算机每个图像类别都提供许多示例,然后设计一个学习算法,查看这些示例并学习每个类别的视觉外观。也就是说,首先积累一个带有标记图像的训练集,然后将其输入到计算机中,由计算机来处理这些数据。

  目前较为流行的图像分类架构是卷积神经网络(CNN)——将图像送入网络,然后网络对图像数据进行分类。卷积神经网络从输入“扫描仪”开始,该输入“扫描仪”也不会一次性解析所有的训练数据。比如输入一个大小为 100*100 的图像,你也不需要一个有 10,000 个节点的网络层。相反,你只需要创建一个大小为 10 *10 的扫描输入层,扫描图像的前 10*10 个像素。然后,扫描仪向右移动一个像素,再扫描下一个 10 *10 的像素,这就是滑动窗口。

  输入数据被送入卷积层,而不是普通层。每个节点只需要处理离自己最近的邻近节点,卷积层也随着扫描的深入而趋于收缩。除了卷积层之外,通常还会有池化层。池化是过滤细节的一种方法,常见的池化技术是最大池化,它用大小为 2*2 的矩阵传递拥有最多特定属性的像素。

  2、对象检测

  识别图像中的对象这一任务,通常会涉及到为各个对象输出边界框和标签。这不同于分类/定位任务——对很多对象进行分类和定位,而不仅仅是对个主体对象进行分类和定位。在对象检测中,你只有 2 个对象分类类别,即对象边界框和非对象边界框。例如,在汽车检测中,你必须使用边界框检测所给定图像中的所有汽车。

  神经网络研究人员使用区域(region)这一概念,这样我们就会找到可能包含对象的“斑点”图像区域,这样运行速度就会大大提高。第一种模型是基于区域的卷积神经网络( R-CNN ),其算法原理如下:

  在 R-CNN 中,首先使用选择性搜索算法扫描输入图像,寻找其中的可能对象,从而生成大约 2,000 个区域建议;

  然后,在这些区域建议上运行一个 卷积神网络;

  最后,将每个卷积神经网络的输出传给支持向量机( SVM ),使用一个线性回归收紧对象的边界框。

  3、目标跟踪

  目标跟踪,是指在特定场景跟踪某一个或多个特定感兴趣对象的过程。传统的应用就是视频和真实世界的交互,在检测到初始对象之后进行观察。现在,目标跟踪在无人驾驶领域也很重要,例如 Uber 和特斯拉等公司的无人驾驶。

  根据观察模型,目标跟踪算法可分成 2 类:生成算法和判别算法。

  生成算法使用生成模型来描述表观特征,并将重建误差最小化来搜索目标,如主成分分析算法( PCA );

  判别算法用来区分物体和背景,其性能更稳健,并逐渐成为跟踪对象的主要手段(判别算法也称为 Tracking-by-Detection ,深度学习也属于这一范畴)。

  4、语义分割

  计算机视觉的核心是分割,它将整个图像分成一个个像素组,然后对其进行标记和分类。特别地,语义分割试图在语义上理解图像中每个像素的角色(比如,识别它是汽车、摩托车还是其他的类别)。除了识别人、道路、汽车、树木等之外,我们还必须确定每个物体的边界。因此,与分类不同,我们需要用模型对密集的像素进行预测。

  卷积神经网络在分割任务上取得了巨大成功。目前的语义分割研究都依赖于完全卷积网络,如空洞卷积 ( Dilated Convolutions ),DeepLab 和 RefineNet 。

  5、实例分割

  除了语义分割之外,实例分割将不同类型的实例进行分类,比如用 5 种不同颜色来标记 5 辆汽车。分类任务通常来说就是识别出包含单个对象的图像是什么,但在分割实例时,我们需要执行更复杂的任务。我们会看到多个重叠物体和不同背景的复杂景象,我们不仅需要将这些不同的对象进行分类,而且还要确定对象的边界、差异和彼此之间的关系!

  Mask R-CNN 通过向 Faster R-CNN 添加一个分支来进行像素级分割,该分支输出一个二进制掩码,该掩码表示给定像素是否为目标对象的一部分:该分支是基于卷积神经网络特征映射的全卷积网络。将给定的卷积神经网络特征映射作为输入,输出为一个矩阵,其中像素属于该对象的所有位置用 1 表示,其他位置则用 0 表示,这就是二进制掩码。一旦生成这些掩码, Mask R-CNN 将 RoIAlign 与来自 Faster R-CNN 的分类和边界框相结合,以便进行精确的分割。

  计算机视觉技术的应用场景

  1,人脸识别

  人脸识别是人工智能视觉与图像领域中最热门的应用,人脸识别技术目前已经广泛应用于金融、司法、军队、公安、边检、政府、航天、电力、工厂、教育、医疗等行业。据业内人士分析,我国的人脸识别产业的需求旺盛,需求推动导致企业敢于投入资金。目前,该技术已具备大规模商用的条件,未来三到五年将高速增长。而今年,这一技术有望在金融与安防领域迎来大爆发。

  2,图片识别分析

  静态图片识别应用热度在视觉与图像领域中排名第三。但是人工智能技术单纯用于图片识别分析的应用企业数量并不如预想的多,主要包括的原因有:(1)、目前视频监控方向的盈利空间大,众多企业的注意力都放在了视频监控领域;(2)、人脸识别属于图片识别的一个应用场景,做人脸识别的大多数企业同时也在提供图片识别服务,但是销售效果不佳,主要赢利点还在于人脸识别;(3)、图片识别大多商用场景还属于蓝海,潜力有待开发;(4)、图片数据大多被大型互联网企业所掌握,创业公司数据资源稀少。

  3,驾驶辅助和智能驾驶

  随着汽车的普及,汽车已经成为人工智能技术非常大的应用投放方向,但就目前来说,想要完全实现自动驾驶和无人驾驶,距离技术成熟还有一段路要走。

  不过利用人工智能技术,汽车的驾驶辅助的功能及应用越来越多,这些应用多半是基于计算机视觉和图像处理技术来实现。

  4,三维图像视觉

  三维图像视觉主要是对于三维物体的识别,应用于三维视觉建模,三维测绘等领域。

  5,工业视觉检测

  机器视觉可以快速获取大量信息,并进行自动处理。在自动化生产过程中,人们将机器视觉系统广泛地用于工况监视、成品检验和质量控制等领域。机器视觉系统的特点是提高生产的柔性和自动化程度。运用在一些危险工作环境或人工视觉难以满足要求的场合;此外,在大批量工业生产过程中,机器视觉检测可以大大提高生产效率和生产的自动化程度。

  6,医疗影像诊断

  医疗数据中有超过 90% 的数据来自医疗影像。医疗影像领域拥有孕育深度学习的海量数据,医疗影像诊断可以辅助医生,提升医生的诊断的效率。

  发展科技是在市场竞争中获取先机的重要方式,但是将技术和市场竞争结合,寻找产品的切入点,应用场景和以后的发展方式也应该得到重视。


本文由五度数科整理,转载请标明出处,违者必究!

评论

产业专题

申请产品定制

请完善以下信息,我们的顾问会在1个工作日内与您联系,为您安排产品定制服务

  • *姓名

  • *手机号

  • *验证码

    获取验证码
    获取验证码
  • *您的邮箱

  • *政府/园区/机构/企业名称

  • 您的职务

  • 备注