Noticias

Una explicación matemática del aprendizaje profundo

El aprendizaje profundo ha cambiado drásticamente el campo del aprendizaje automático (y el mundo como resultado), ya que el aprendizaje automático ahora se aplica mucho más a diferentes escenarios de aplicaciones, como sistemas de recomendación, reconocimiento de voz, conducción autónoma y reproducción automática. En 2018, el profesor Joshua Bengio, Geoffrey Hinton y Yann Lecun recibieron el Premio Turing (a menudo denominado "Premio Nobel de Computación") por sus contribuciones al aprendizaje profundo. Sin embargo, muchos investigadores y profesionales todavía consideran que el aprendizaje profundo es una caja negra, y todavía se esperan con ansias las explicaciones teóricas del mecanismo subyacente. Explorons donc pourquoi le principe de base de l'apprentissage profond est assez générique via les relations entre les modèles d'apprentissage profond de pointe et plusieurs modèles précoces qui ne sont pas sous le titre d'apprentissage profond (y compris un modèle co-inventé por mi mismo).

Las redes neuronales pueden interpretarse como aproximadores de funciones universales o como procesadores de información. Intentaremos explicar el mecanismo del aprendizaje profundo desde la perspectiva de los aproximadores de funciones universales. La aproximación funcional universal ha sido un tema tradicional y revisaremos algunas redes neuronales antes y en la era del aprendizaje profundo. A través de sus similitudes y diferencias, mostraremos por qué las redes neuronales deben ser profundas y cuán profundas realmente deben ser. Y nuestra teoría coincide muy bien con las redes neuronales convolucionales actualmente en uso.

Redes neuronales tradicionales

Hay una larga historia de modelos de redes neuronales. Y su función de activación es típicamente una función sigmoidal o una función tangente hiperbólica. Las redes neuronales multicapa se han denominado perceptrón multicapa (MLP) [1]. Y podría entrenarse con el método de retropropagación propuesto por David Rumelhart, Geoffrey Hinton y Ronald Williams en 1986, que es básicamente un método basado en gradientes. Estas funciones de activación son no lineales y suaves. También tienen derivados tempranos en forma de campana y rangos fijos. Por ejemplo, la función sigmoidal empuja el valor de salida rápidamente hacia 0 o 1, mientras que la función de tangente hiperbólica empuja el valor de salida hacia -1 o 1 rápidamente. Esto los hace muy adecuados para problemas de clasificación. Sin embargo, a medida que aumenta el número de capas, los gradientes comienzan a desaparecer debido al uso del método de retropropagación. Los modelos MLP con una capa oculta fueron, por lo tanto, probablemente los más comunes en ese momento.

Además, es ampliamente conocido que la unidad lineal rectificada (ReLU) se ha utilizado como una función de activación en modelos de aprendizaje profundo como reemplazo de las funciones tangentes sigmoideas e hiperbólicas. Su forma matemática es tan simple como max {0, x}, y tiene otro nombre de función de rampa. El motivo de su uso es que su pendiente con respecto a x es 1, por lo que el gradiente nunca desaparecerá a medida que aumente el número de capas. Echemos un vistazo más de cerca a las redes neuronales profundas desde la perspectiva de ReLU.

Funciones lineales continuas por partes

Uno de los primeros modelos que utilizó ReLU para regresión y clasificación fue el modelo de hiperplano articulado propuesto por Leo Breiman en 1993 [2]. El profesor Breiman fue un pionero en el aprendizaje automático y su trabajo une ampliamente los campos de la estadística y la informática. El modelo es la suma de una serie de bisagras y, por lo tanto, puede considerarse un modelo de función básica como los modelos B-spline y wavelet. Cada bisagra en su modelo es en realidad una función máxima o mínima de dos funciones lineales. Este modelo se puede utilizar tanto para la regresión como para la clasificación. Un problema de clasificación binaria puede considerarse directamente como un problema de regresión, mientras que un problema de clasificación multiclase puede considerarse como un problema de regresión múltiple.

El modelo propuesto por Breiman puede considerarse como funciones lineales por partes continuas unidimensionales (CPWL). Shunning Wang demostró en 2004 que este modelo puede representar funciones lineales por partes continuas arbitrarias en una dimensión y la anidación de este tipo de modelos es necesaria para la representación de funciones CPWL arbitrarias con entradas multidimensionales. [3]. Basado en este resultado teórico, Ian Goodfellow propuso una red neuronal ReLU profunda llamada redes Maxout en 2013 [4]. La base teórica para usar funciones CPWL para aproximar funciones no lineales arbitrarias es simplemente el teorema de Taylor para funciones multivariadas en cálculo.

Desde la década de 1970, Leon O. Chua y otros investigadores han propuesto una red neuronal celular para representar funciones CPWL con entradas en diferentes dimensiones [5][6][7]. El profesor Leon Chua ha realizado grandes contribuciones al campo de los circuitos y sistemas, y este trabajo ha recibido prestigiosos premios de la comunidad de redes neuronales. La necesidad de un componente no lineal más complicado para representar la estructura con entradas de dos o más dimensiones fue causada por el conocido problema de separabilidad lineal en el aprendizaje automático. En el modelo de Breiman, todos los límites tienen lugar cuando dos funciones lineales en cada bisagra son iguales, por lo que todos los límites son lineales y eficientes en todo el dominio. Por lo tanto, no puede representar funciones CPWL con entradas bidimensionales como el ejemplo que se muestra en la Figura 1 [8].

Figura 1. Una función CPWL con entrada bidimensional

El modelo de Chua optó por utilizar funciones absolutas anidadas para construir los componentes no lineales del modelo, y el nivel de anidamiento es igual a la dimensión de la entrada. Entonces, este modelo puede tener muchos parámetros cuando la dimensión de entrada es alta.

En 2005, Shunning Wang y Xusheng Sun generalizaron el modelo de hiperplano articulado a dimensiones arbitrarias [8]. Demostraron que cualquier función CPWL puede representarse mediante la suma de las funciones máximas o mínimas de, como máximo, N + 1 funciones lineales, donde N es la dimensión de la entrada. También señalaron que es equivalente a una red neuronal profunda con dos características: primero, se utiliza la función de rampa como función de activación; segundo, el número máximo de capas es el techo de log2(N+1), donde N es la dimensión de la entrada. Esto redujo en gran medida el límite teórico en el número de capas. Y, en general, este modelo se puede entrenar mediante métodos basados ​​en gradientes. Durante la última década, se ha trabajado mucho en el campo de los algoritmos y la arquitectura para mejorar y facilitar la formación.

Modelos de aprendizaje profundo

Uno de los grandes hitos en la historia del aprendizaje profundo es el uso de AlexNet en una competencia de ImageNet en 2012 [9]. Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton han propuesto un modelo de red neuronal profunda que consta de 8 capas convolucionales o densas y pocas capas de agrupamiento máximo. La red obtuvo un error de prueba entre los 5 principales del 15,3 %, más de 10,8 puntos porcentuales menos que el subcampeón. Su entrada es 224 * 224 en cada uno de los canales RGB, por lo que su dimensión total es 224 * 224 * 3. Por lo tanto, nuestro límite en la profundidad de la red neuronal es 18. Entonces, si el límite es significativo, serían posibles redes neuronales más profundas. para aumentar la precisión. Karen Simonyan y Andrew Zisserman propusieron el modelo VGG en 2014 [10]. Tiene variantes típicas con 16 o 19 capas convolucionales o densas, y una mayor precisión como se esperaba. Esto coincide bien con nuestra teoría y hay al menos otra cosa que se puede hacer para posiblemente aumentar aún más la precisión en algunos casos.

En AlexNet y VGG, la profundidad de la subred que termina en cada función de habilitación es la misma. De hecho, es suficiente para garantizar que un número suficiente de componentes en las redes no sea inferior al límite. En otras palabras, el número de funciones lineales en cada función máxima o mínima en el modelo de hiperplano articulado generalizado podría ser flexible en la práctica. Y podría ser más eficiente desde el punto de vista de los parámetros tener algunos componentes con una profundidad aún mayor y algunos componentes con una profundidad menor. Kaiming He, Xiangyu Zhang, Shaoqing Ren y Jian Sun propusieron el modelo ResNet en 2015 [11]. Este modelo eligió dejar que algunos componentes pasaran por alto algunas capas anteriores. En general, este modelo es más profundo y angosto y tiene una variante de hasta 152 capas, y ha mejorado aún más la precisión.

Nos hemos centrado en las redes neuronales convolucionales en este artículo. Otras redes neuronales profundas, como las redes neuronales recurrentes, deben explicarse mediante otras teorías. Además, todavía hay nuevas innovaciones en el campo de las funciones de activación, como la unidad lineal exponencial (ELU) [12]. En mi opinión, los algoritmos de modelado y entrenamiento, la disponibilidad de datos, la infraestructura informática y los escenarios de aplicación han hecho que el aprendizaje profundo se aplique ampliamente en la actualidad.

Referencias:

[1] DE Rumelhart, GE Hinton y RJ Williams (1986) Representaciones de aprendizaje por propagación inversa de errores. Naturaleza, 323, 533-536.

[2] L. Breiman, "Hiperplanos articulados para regresión, clasificación y aproximación de funciones", IEEE Trans. información Teoría, vol. 39, núm. 3, pág. 999-1013, mayo de 1993.

[3] S. Wang, "Representaciones constructivas generales para funciones lineales por partes continuas", IEEE Trans. Circuitos del sistema yo, Reg. Papeles, vol. 51, núm. 9, pág. 1889-1896, septiembre de 2004.

[4] IJ Goodfellow, D. Warde-Farley, M. Mirza, A. Courville e Y. Bengio. “Redes Maxout”, ICML, 2013.

[5] LO Chua y SM Kang, "Funciones lineales seccionales por partes: representación canónica, propiedades y aplicaciones", IEEE Trans. Circuitos del sistema, vol. CAS-30, núm. 3, pág. 125-140, marzo de 1977.

[6] LO Chua y AC Deng, "Representación lineal por partes canónica", IEEE Trans. Circuitos del sistema, vol. 35, núm. 1, pág. 101-111, enero de 1988.

[7] J. Lin y R. Unbehauen, "Canonical Piecewise Linear Networks", IEEE Trans. Red neuronal, vol. 6, núm. 1, pág. 43-50, enero de 1995.

[8] S. Wang y X. Sun, "Generalización de hiperplanos articulados", en IEEE Transactions on Inf. Teoría, vol. 51, núm. 12, págs. 4425-4431, diciembre de 2005.

[9] A. Krizhevsky, I. Sutskever y G. Hinton. Clasificación de Imagenet con redes neuronales convolucionales profundas. NIPS, 2012.

[10] K. Simonyan y A. Zisserman. “Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala”, ICLR, 2015.

[11] K. He, X. Zhang, S. Ren y J. Sun. Aprendizaje residual profundo para el reconocimiento de imágenes. CVPR, 2015.

[12] D.-A. Clevert, T. Unterthiner y S. Hochreiter, "Aprendizaje de red profundo rápido y preciso mediante unidades lineales exponenciales (ELUS)", ICLR, 2016.


Ni Roblox Corporation ni este blog respaldan o respaldan a ninguna empresa o servicio. Además, no se ofrecen garantías ni promesas con respecto a la precisión, confiabilidad o integridad de la información contenida en este blog.

Esta publicación de blog apareció originalmente en Roblox Tech Blog.