第3章
计算机视觉处理

近年来,随着深度学习和人工神经网络的发展,计算机视觉也实现了飞跃式的发展。而深度学习作为人工智能的一个分支,尤其适合处理图像和视频等非结构化数据,这就为促进计算机视觉在各领域的应用奠定了基础。在很多情况下,计算机视觉算法已经成为我们日常生活的重要组成部分,在人脸识别、目标检测、图像分割、自动驾驶等领域都取得了非常不错的成绩,有不少项目已超过人工操作的平均水平。

深度学习在计算机视觉处理方面取得的巨大成就,与深度学习中的算法及方法密切相关,如卷积神经网络、反向传播算法、正则化方法、迁移方法等。其中很多方法具有普遍性,例如使用多种卷积核、利用迁移方法提升下游任务的性能等,在自然语言处理中也得到了广泛应用。本书后续章节介绍的Transformer的多自注意力(Multi-Self-Attention)就已在多种预训练模型中得到了广泛应用。

本章主要包括如下内容:

  • 卷积神经网络;
  • 使用预训练模型的方法;
  • 获取预训练模型的方法;
  • 使用PyTorch实现数据迁移实例。