书名:深度学习与图像识别:原理与实践
作者:魏溪含,涂铭,张修鹏
出版社:机械工业出版社
出版时间:2019-06
ISBN:9787111630036
介绍
第 1 章 介绍图像识别的一些应用场景,让读者对图像识别有个初步的认识。
第 2 章 主要对图像识别的工程背景做简单介绍,同时介绍了本书后续章 节实战案例中会用到的环境,因此该章 是实战的基础。
第 3~6 章 是图像识别的技术基础,包括机器学习、神经网络等。该部分的代码主要使用Python实现。没有机器学习基础的同学需要理解这几章 之后再往下看,有机器学习基础的同学可以有选择地学习。
第 7 章 是一个过渡章 节,虽然
第 6 章 中手动用Python实现了神经网络,但由于本书后面的图像识别部分主要使用PyTorch实现,因此使用该章 作为过渡,介绍如何使用PyTorch来搭建神经网络。
第 8~12章 为图像识别的核心。
第 8 章 首先介绍了图像中的卷积神经网络与普通神经网络的异同,并给出了常见的卷积神经网络结构。接下来的
第 9 ~12章 分别介绍了图像识别中的检测、分割、产生式模型以及可视化的问题,并在每章 后面给出相应的实战案例。
第 13 章 简单介绍了图像识别的工业部署模式,以帮助读者构建一个更完整的知识体系。
第1章 机器视觉在行业中的应用
机器视觉的主要应用场景
人脸识别(Face Recognition)
处理过程
人脸图像采集及检测
人脸图像预处理
人脸图像特征提取
匹配与识别
视频监控分析
工业瑕疵检测
图片识别分析
自动驾驶/驾驶辅助
技术链
- 感知阶段
- 使用机器视觉获取场景中的深度信息,以帮助进行后续的图像语义理解,在自动驾驶中帮助探索可行驶区域和目标障碍物。
- 通过视频预估每一个像素的运动方向和运动速度。
- 对物体进行检测与追踪。在无人驾驶中,检测与追踪的目标主要是各种车辆、行人、非机动车。
- 对于整个场景的理解。最重要的有两点,第一是道路线检测,其次是在道路线检测下更进一步,即将场景中的每一个像素都打成标签,这也称为场景分割或场景解析。
- 同步地图构建和定位技术。
- 规划阶段
- 控制阶段
三维图像视觉
医疗影像诊断
文字识别(OCR)
计算机文字识别,俗称光学字符识别(Optical Character Recognition),是利用光学扫描技术将票据、报刊、书籍、文稿及其他印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
图像/视频的生成及设计
第2章 图像识别前置技术
深度学习框架
- Theano
- Tensorflow
- MXNet
- Keras
- PyTorch
- Caffe
搭建图像识别开发环境
Anaconda
1 | # 创建第2~7章代码运行的环境: |
Pytorch 的下载与安装
Numpy
第3章 图像分类之KNN算法
KNN的理论基础与实现
图像分类识别预备知识
KNN实战
模型参数调优
第4章 机器学习基础
线性回归模型
逻辑回归模型
第5章 神经网络基础
神经网络
输出层
批处理
广播原则
损失函数
最优化
第6章 误差反向传播
激活函数层的实现
Affine层的实现
Softmaxwithloss层的实现
正则化惩罚
第7章 PyTorch实现神经网络图像分类
PyTorch的使用
Variable
激活函数
PyTorch实战
第8章 卷积神经网络
卷积神经网络(Convolutional Neural Network,CNN)是一种深度前馈神经网络,目前在图片分类、图片检索、目标检测、目标分割、目标跟踪、视频分类、姿态估计等图像视频相关领域中已有很多较为成功的应用。
卷积神经网络基础
全连接层(Fully Connected Layer)
卷积层(Convolution Layer)
池化层
常见卷积神经网络结构
AlexNet
VGGNet
GoogLeNet
ResNet
ResNeXT
DenseNet
VGG16实现Cifar10分类
第9章 目标检测
定位+分类
目标检测
R-CNN
YOLO
SSD
SSD实现VOC目标检测
第10章 分割
FCN
PSPNet
实例分割
层叠式
扁平式
第11章 产生式模型
机器学习
- 有监督学习
- 无监督学习
- 强化学习
数据集
- 数据x
- 标签y
自编码器(Autoencoder)
对抗生成网络
DCGAN及实战
DCGAN(Deep Convolutional Generative Adversarial Network)由Radford等人提出,结合了深度卷积神经网络和GAN,并对上述GAN进行了扩展。DCGAN将GAN中的产生器G和判别器D都换成了卷积神经网络,并对其中的卷积做了一些改动以提高收敛速度,具体如下。
- 用不同步长的卷积层替换所有Pooling层。
- 在D和G中均使用BatchNorm层。
- 在G网络中,除最后一层使用tanh以外,其余层均使用ReLU作为激活函数。
- D网络均使用LeakyRelu作为激活函数。
LSGAN
WGAN
PG-GAN
第12章 神经网络可视化
卷积核
通过重构观测
特征层的作用
图片风格化
图像识别算法的部署模式
图像算法部署模式介绍
基于公共云云计算的计算机集群
基于私有云云计算的计算机集群
X86架构单机+备份模式
实际应用场景和部署模式的匹配