什么是卷积神经网络（CNNs或ConvNet）？

什么是卷积神经网络（CNNs或ConvNet）？第1张

递归神经网络（RNN）是一种神经网络，它可以通过跟踪先前输入的背景来处理连续的数据。递归神经网络可以处理不同长度的输入，并产生依赖于先前输入的输出，这与典型的前馈神经网络不同，后者只按固定顺序处理输入数据。

例如，可以在文本生成或语言翻译等活动中得到利用。递归神经网络可以在两种不同语言的句子对上进行训练，以学习在这两种语言之间进行翻译。
什么是卷积神经网络（CNNs或ConvNet）？第2张

一次处理一个句子，根据每一步的输入句子和前面的输出，产生一个输出句。由于RNN一直在跟踪过去的输入和输出，所以即使是复杂的文本也能产生正确的翻译。

全卷积网络（FCNs）是一种神经网络架构，通常用于计算机视觉任务，如图像分割、物体检测和图像分类。FCNs可以使用反向传播进行端到端的训练，以对图像进行分类或分割。

逆向传播是一种训练算法，计算损失函数相对于神经网络权重的梯度。一个机器学习模型预测给定输入的预期输出的能力由损失函数来衡量。

FCNs完全基于卷积层，因为它们没有任何全连接层，这使得它们比传统的卷积神经网络更具适应性和计算效率。一个接受输入图像并输出图像中物体的位置和分类的网络是FCN的一个例子。

空间变换网络（STN）被用于计算机视觉任务中，以提高网络所学特征的空间不变性。中的图案或物体而不受其地理位置、方向或比例影响的能力被称为空间不变性。

一个在进一步处理输入图像之前将学习到的空间转换应用于输入图像的网络是STN的一个例子。该转换可用于对齐图像中的物体，纠正透视变形或执行其他空间变化以提高网络在特定工作上的性能。

变换是指以某种方式修改图像的任何操作，如旋转、缩放或裁剪。对齐指的是确保图像中的物体以一致和有意义的方式居中、定向或定位的过程。

当图像中的物体由于拍摄角度或距离而出现歪斜或变形时，就会出现透视变形。对图像进行几种数学变换，如仿生变换，可以用来纠正透视失真。仿射变换保留了平行线和各点之间的距离比率，以纠正透视失真或图像中的其他空间变化。

空间变换是指对图像的空间结构的任何修改，如翻转、旋转或平移图像。这些变化可以增加训练数据或解决任务中的具体挑战，如照明、对比度或背景变化。

由于CNNs的优势，包括翻译不变性、参数共享、分层表示、对变化的适应性和端到端训练，CNNs在计算机视觉任务中是首选。

卷积神经网络有几个优点，使它们成为各种计算机视觉任务的有吸引力的选择。它们的主要优势之一是翻译不变性，这是CNNs的一个特点，使它们能够识别图像中的物体，而不管其位置如何。卷积层是通过对完整的输入图像应用过滤器来实现这一点的，这样网络就可以学习具有翻译不变性的特征。

使用参数共享，即在输入图像的所有区域共享同一组参数，是CNNs的另一个好处。因此，网络的参数较少，可以更好地概括新的数据，这在处理巨大的数据集时是至关重要的。

CNNs还可以学习输入图像的分层表示，上层学习更复杂的特征，如物体碎片和形状，而下层则学习更简单的元素，如边缘和纹理。对于像物体检测和分割这样具有挑战性的任务，这种分层模型使网络能够学习许多抽象层次上的特征。

CNNs适合于现实世界的应用，因为它们对输入图像中的光照、颜色和微小的扭曲的变化都有弹性。最后，卷积神经网络可以进行端到端的训练，允许梯度下降同时优化网络的所有参数，以获得性能和更快的收敛。梯度下降是一种优化算法，用于通过最小化负梯度方向的损失函数来迭代调整模型参数。

CNNs有一些缺点，如训练时间长，需要大量的标记数据集，容易出现过拟合的情况。网络的复杂性也会影响性能。然而，CNNs仍然是计算机视觉中广泛使用和有效的工具，包括物体检测和分割，尽管在像这样需要上下文知识的任务中存在局限。

卷积神经网络有几个缺点，会使它们在一些机器学习应用中难以使用。例如，CNNs的训练可能需要一段时间，特别是对于大型数据集，因为CNN的计算成本很高。此外，创建CNNs架构可能具有挑战性，需要对人工神经网络的基本思想有一个全面的理解。

另一个缺点是，CNNs需要大量的标记数据来有效训练。在可用数据很少的情况下，这可能是一个严重的制约因素。在需要更多上下文知识的任务中，如NLP，CNNs也不总是成功的，即使它们在图像识别任务中相当出色。

CNNs设计中采用的层数和种类会影响性能。例如，添加更多的层可能会提高准确性，但同时也会增加网络的复杂性和计算成本。深度学习的CNN架构也很容易受到过度拟合的影响，这种情况发生在网络对训练数据过于专门化，而在新的、未经训练的数据上表现不佳。

尽管有这些缺点，CNNs仍然是人工神经网络领域的深度学习和机器学习算法的一个广泛使用和非常有效的工具，包括分割、物体检测和图像识别。也就是说，CNNs仍将是计算机视觉中的一个重要角色。

卷积神经网络（CNNs）是一类深度神经网络，主要用于计算机视觉任务，如图像和视频识别、物体检测和图像分割。CNNs由几个卷积层组成，可以自动从输入数据中提取特征。它们具有翻译不变性、参数共享、分层表示、对变化的复原力和端到端训练等优点。尽管它们的缺点包括冗长的训练时间，需要大量的标记数据集，以及容易过度拟合，但CNNs仍然是计算机视觉任务中广泛使用的有效工具。