【深度学习】卷积神经网络-CNN简单理论介绍_专栏

前言

众所周知，卷积神经网络(Convolutional Neural Network， CNN)通常是被用在图像识别领域的，其实还可以应用与语音识别，文本分类等多个领域。写这篇文章主要是为了介绍TextCnn文本分类模型，当然也会详细介绍CNN的具体内容，并辅以相关的案例。

1. 卷积神经网络简介

通常由:

数据输入层/ Input layer
卷积计算层/ CONV layer
池化层 / Pooling layer
全连接层 / FullConnect layer
输出层 / Output layer
当然也还包括神经网络常用的激活层，正则化层等。

模型训练完毕后，对图像分类的主要过程如下：

当然，我们的主要工作还是构建CNN模型以及使用相关数据进行模型训练，以使得模型能够提取数据特征进行更好的分类。下面就对各个层以及神经网络的核心模块进行介绍。

2. 卷积层

卷积层是卷积神经网络的核心层，核心的处理方式就是卷积(Convolution)计算。卷积其实也就可以看成一个函数或者一种算法。这个函数则需要输入数据和卷积核，按照卷积要求进行计算。我们可以通过下面的图形简单理解一下，假设我们有一个5x5的矩阵和一个3x3的卷积核(进行卷积计算所需要的两个参数)，如下：

卷积核就是从输入矩阵从左到右，从上到下进行计算，计算过程如下：

输入矩阵对应的虚线框体大小就是卷积核形状的大小，然后虚线框对应元素与卷积核中的对应元素相乘求和就得出结果4。然后虚线框向右移一个单位(后面还会用到)计算第二个值，然后再移动一个单位计算第三个值，那么第一行就计算完毕了。需要注意的是，虚线框的大小要与卷积核大小保持一致。同理可计算第二行，如下：

一次类推计算出所有结果。经过卷积计算的结果就是一个3x3的矩阵。总结一句话就是移动窗口，对应值计算相加即可。

可以看出，卷积层其实是提取图像特征的过程。另外深思一下：摆在我们面前的问题有：卷积核如何确定？卷积核为啥只移动一个单位？移动过程超出边界不可以吗？

2.1 卷积核

卷积核在图像识别中也称过滤器。比较简单的过滤器有：Horizontalfilter、Verticalfilter、Sobel Filter等。这些过滤器能够检测图像的水平边缘、垂直边缘、增强图像区域权重等，这里不做细致探究。其实，过滤器的作用类似于标准(例如全连接层)的权重矩阵W，需要通过梯度下降算法反复迭代求得。而卷积神经网络的主要目的就是计算出这些卷积核。

2.2 步幅

在前面的计算中可以看出，通过向右，向下移动一个单位的卷积核大小的窗口计算得到卷积结果。其实这个卷积核大小的窗口向右，向下移动的格数(单位)成为步幅(strides)，上面每次移动一格，那么对应的strides就为1。在图像处理中就是跳过像素的个数了。这个步幅也不是固定不变就是1，可结合实际场景改变。并且在移动的过程中，卷积核中的值不变是共享的。这也就大大降低了参数的数量。

2.3 填充

从上面的计算结果可以看出，输入是一个5x5的矩阵，经过卷积核计算后，输出就变成了3x3的结果。如果你想再次输入大小为5x5的矩阵怎么办？这时我们就需要对原始输入的5x5大小的矩阵做一下处理——填充(padding)，在扩展区域补0。根据之前计算过程，只要向右向下各多移动两次即可得到5x5的计算结果，那么对输入矩阵补齐得到如下结果：