¿Qué es la regularizacion en machine learning?
En muchas técnicas de aprendizaje automático, el aprendizaje consiste en encontrar los coeficientes que minimizan una función de coste. La regularización consiste en añadir una penalización a la función de coste. Esta penalización produce modelos más simples que generalizan mejor.
¿Qué es un parametro de regularizacion?
El parámetro de regularización, λ, controla el compromiso entre la adecuación de la función buscada al conjunto de datos y el cumplimiento de las restricciones impuestas por el funcional penalizador. La elección de este parámetro depende de forma crıtica del problema particular que se esté trabajando [Bossley, 1993].
¿Qué es el descenso del gradiente?
De nuevo es algo que espero explicar en más detalle dentro de otro artículo que tengo pendiente. El descenso del gradiente es un método de optimización de primer orden, ya que toma las primeras derivadas de la función de coste.
¿Cómo calcular el gradiente actual?
El gradiente actual se multiplicará por la tasa de aprendizaje ( η) y el valor de la actualización anterior por una constante conocida como coeficiente del momentum ( γ ), con un valor típico de 0,9.
¿Qué es el gradiente?
El gradiente es la generalización vectorial de la derivada, es un vector de tantas dimensiones como la función y cada dimensión contiene la derivada parcial en dicha dimensión: x x por cada dimensión de nuestra furnción de forma independiente. ¿De que tamaño dar el paso?
¿Qué es el gradiente de red?
Lo definiremos más adelante, pero de momento nos quedamos con la siguiente idea: el gradiente es un cálculo que nos permite saber cómo ajustar los parámetros de la red de tal forma que se minimice su desviación a la salida. El algoritmo cuenta con varias versiones dependiendo del número de muestras que introduzcamos a la red en cada iteración: