2020-02-27

《深度学习与图像识别：原理与实践》读书笔记

书名：深度学习与图像识别：原理与实践
作者：魏溪含，涂铭，张修鹏
出版社：机械工业出版社
出版时间：2019-06
ISBN：9787111630036

介绍

第 1 章介绍图像识别的一些应用场景，让读者对图像识别有个初步的认识。
第 2 章主要对图像识别的工程背景做简单介绍，同时介绍了本书后续章节实战案例中会用到的环境，因此该章是实战的基础。
第 3～6 章是图像识别的技术基础，包括机器学习、神经网络等。该部分的代码主要使用Python实现。没有机器学习基础的同学需要理解这几章之后再往下看，有机器学习基础的同学可以有选择地学习。
第 7 章是一个过渡章节，虽然
第 6 章中手动用Python实现了神经网络，但由于本书后面的图像识别部分主要使用PyTorch实现，因此使用该章作为过渡，介绍如何使用PyTorch来搭建神经网络。
第 8～12章为图像识别的核心。
第 8 章首先介绍了图像中的卷积神经网络与普通神经网络的异同，并给出了常见的卷积神经网络结构。接下来的
第 9 ～12章分别介绍了图像识别中的检测、分割、产生式模型以及可视化的问题，并在每章后面给出相应的实战案例。
第 13 章简单介绍了图像识别的工业部署模式，以帮助读者构建一个更完整的知识体系。

第1章机器视觉在行业中的应用

机器视觉的主要应用场景

人脸识别（Face Recognition）

处理过程

人脸图像采集及检测
人脸图像预处理
人脸图像特征提取
匹配与识别

视频监控分析

视频监控分析的应用场景
交通异常事件监测

工业瑕疵检测

图片识别分析

自动驾驶/驾驶辅助

技术链

感知阶段
1. 使用机器视觉获取场景中的深度信息，以帮助进行后续的图像语义理解，在自动驾驶中帮助探索可行驶区域和目标障碍物。
2. 通过视频预估每一个像素的运动方向和运动速度。
3. 对物体进行检测与追踪。在无人驾驶中，检测与追踪的目标主要是各种车辆、行人、非机动车。
4. 对于整个场景的理解。最重要的有两点，第一是道路线检测，其次是在道路线检测下更进一步，即将场景中的每一个像素都打成标签，这也称为场景分割或场景解析。
5. 同步地图构建和定位技术。
规划阶段
控制阶段

三维图像视觉

医疗影像诊断

医疗影像诊断的应用场景
肝脏及结节分割技术

文字识别（OCR）

计算机文字识别，俗称光学字符识别（Optical Character Recognition），是利用光学扫描技术将票据、报刊、书籍、文稿及其他印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

文字识别技术的应用场景

图像/视频的生成及设计

第2章图像识别前置技术

深度学习框架

Theano
Tensorflow
MXNet
Keras
PyTorch
Caffe

搭建图像识别开发环境

Anaconda

Anaconda的下载
打开Anaconda进入Jupyter
Jupyter notebook界面
Anaconda环境测试界面

# 创建第2~7章代码运行的环境：
conda create -n basic_env  python=3.7        # 创建一个名为basic_env的环境
source activate basic_env                # 激活这个环境—Linux和macOS代码
activate basic_env                        # 激活这个环境—Windows代码
# 创建第8~12章代码运行的环境：
conda create -n imgrecognition_env  python=3.7
                                                # 创建一个名为imgrecognition _env的环境
source activate imgrecognition _env        # 激活这个环境—Linux和macOS代码
activate imgrecognition_env                # 激活这个环境—Windows代码

Pytorch 的下载与安装

Numpy

创建数组

在Notebook中引入Numpy
Numpy预置函数及说明
KNN例子

第3章图像分类之KNN算法

KNN的理论基础与实现

KNN例子的散点图
电脑看到的图片均为0～255的数字

图像分类识别预备知识

归一化图示
数字5

KNN实战

两张图片曼哈顿距离的计算方法
数字7

Cifar10数据集示例
青蛙图片
整个数据集

模型参数调优

整个数据集拆分成训练集和测试集
训练集、验证集和测试集
交叉验证的数据拆分方法
图像中具体某个像素值的无意义性

第4章机器学习基础

线性回归模型

逻辑回归模型

逻辑回归分类示意图
Sigmoid函数
Sigmoid函数图像
损失函数示意图
一元二次损失函数梯度下降过程示意图
学习率η=0.01时，一元二次损失函数梯度下降过程示意图
学习率η=0.8时，一元二次损失函数梯度下降过程示意图
学习率η=1.1时，一元二次损失函数不收敛
损失函数if y=1
损失函数if y=0

第5章神经网络基础

神经网络

神经网络全连接结构
多隐藏层结构
神经元结构图
简单神经元
训练网络
神经元个数较少
神经元个数较多
神经元个数更多
线性分类图1
线性分类图2

线性不可分
激活函数表达能力
Sigmoid函数
Tanh函数
ReLU函数
前向传播 1
节点1节点2
前向传播 2
增加bias

输出层

Softmax
猫狗小鸡分类
输出层的神经元个数

批处理

单个处理
批处理

广播原则

广播原则1
广播原则2

损失函数

均方误差
交叉熵误差
带入Loss函数
Mini-batch

最优化

第6章误差反向传播

激活函数层的实现

x+y计算图
（x+y）*z的计算图
ReLU反向传播实现

Sigmoid反向传播实现
Sigmoid计算图

Affine层的实现

152
153
154
155
162
163

Softmaxwithloss层的实现

164
165
166

正则化惩罚

167
169
正则化项在神经网络中的重要作用

第7章 PyTorch实现神经网络图像分类

PyTorch的使用

Variable

激活函数

PyTorch实战

第8章卷积神经网络

卷积神经网络（Convolutional Neural Network，CNN）是一种深度前馈神经网络，目前在图片分类、图片检索、目标检测、目标分割、目标跟踪、视频分类、姿态估计等图像视频相关领域中已有很多较为成功的应用。

卷积神经网络基础

全连接层（Fully Connected Layer）

卷积层（Convolution Layer）

一维卷积kernel=1*3，stride=1计算过程示意图
一维卷积kernel=1*3，stride=2计算过程示意图
二维卷积，kernel=3*3，stride=1计算过程示意图
二维卷积，kernel=3*3，stride=2计算过程示意图
三维卷积kernel=553，stride=1，计算过程示意图
卷积神经网络示意图
kernel=3*3，pad=1示意图

池化层

池化filter=2*2，stride=2的最大池化（max pooling）操作

常见卷积神经网络结构

AlexNet

AlexNet
ReLUs与tanh作为激活函数在4层卷积神经网络中的收敛速度对比
ILSVRC图像识别分类比赛优胜情况

VGGNet

AlexNet和VGGNet网络结构对比
一维卷积中3组33与1组77kernel效果相同的原理解说图
VGG16Net网络结构

GoogLeNet

矩阵转换方式
简单的inception结构
简单inception结构对应计算量
降维的inception结构及计算量推导
GoogLeNet网络结构图

ResNet

一个20层和56层卷积神经网络中训练和预测过程中的误差情况
普通卷积层与残差卷积层
ResNet网络结构缩略图
不同网络结构性能对比

ResNeXT

加宽的残差网络模块
ResNeXT网络模块

DenseNet

VGG16实现Cifar10分类

第9章目标检测

定位+分类

检测问题定义
分类问题vs定位问题
分类+定位网络结构设计

目标检测

使用定位+分类解决目标检测存在的问题
使用滑窗方法做目标检测存在的问题：滑窗的尺寸、大小、位置不同将产生非常大的计算量

R-CNN

R-CNN训练过程
不同压缩方法图示
IOU图示
R-CNN中的ROI结果微调
Fast R-CNN训练和预测过程示意图
Fast R-CNN中的ROI Pooling
R-CNN和Fast R-CNN训练和测试时间对比

Faster R-CNN训练流程
RPN原理
RCNN、Fast R-CNN、Faster R-CNN模型耗时对比

YOLO

SSD

SSD特征层与anchor示意图
SSD结构图

SSD实现VOC目标检测

原始图片
语义分割的真实label图片
实例分割的真实label图片
ResNet50训练PASCAL VOC过程部分打印结果展示

SSD效果示意图（未完全迭代的结果）
SSD作者在VOC2007数据集上达到的效果

第10章分割

分割问题定义

FCN

最简单直观的语义分割方法
改良后的CNN语义分割网络结构
Unpooling的几种方法
卷积和反卷积图例
kernel为3、stride为2的1维反卷积计算过程

U-Net结构
CrackForest训练数据展示
U-Net预测CrackForest结果
SegNet的网络结构

PSPNet

语义分割容易出现的问题
PSPNet的网络结构

实例分割

检测、分割任务对比
多任务学习中“head”的设定方法

层叠式

扁平式

Mask R-CNN的网络结构
Mask-RCNN的网络head的设计细节

第11章产生式模型

机器学习

有监督学习
无监督学习
强化学习

数据集

数据x
标签y

自编码器（Autoencoder）

对抗生成网络

Autoencoder学习过程
GAN的训练结构
GAN最终使用的产生器
产生器生成的一些假图的例子

DCGAN及实战

DCGAN（Deep Convolutional Generative Adversarial Network）由Radford等人提出，结合了深度卷积神经网络和GAN，并对上述GAN进行了扩展。DCGAN将GAN中的产生器G和判别器D都换成了卷积神经网络，并对其中的卷积做了一些改动以提高收敛速度，具体如下。