Kernel de tangente neural

Predefinição:Tradução de

No estudo de redes neurais artificiais (RNAs), o kernel de tangente neural (KTN) é um kernel que descreve a evolução de redes neurais artificiais profundas durante seu treinamento por gradiente descendente . Ele permite que RNAs sejam estudadas usando algoritmos do tipo Máquina de vetores de suporte.

Para a maioria das arquiteturas de rede neural, no limite da largura da camada, o KTN se torna constante. Isso permite que declarações simples de forma fechada sejam feitas sobre previsões de rede neural, dinâmicas de treinamento, generalização e superfícies de perda. Por exemplo, ele garante que RNAs largas o suficiente convergem para um mínimo global quando treinados para minimizar uma perda empírica. O KTN de redes de grande largura também está relacionado a vários outros limites de largura de redes neurais.

O KTN foi lançado em 2018 por Arthur Jacot, Franck Gabriel e Clément Hongler.^[1] Também estava implícito em alguns trabalhos contemporâneos.^[2]^[3]^[4]

Definição

Caso de saída escalar

Uma RNA com saída escalar consiste em uma família de funções $f (\cdot, θ) : ℝ^{n_{i n}} \to ℝ$ parametrizado por um vetor de parâmetros $θ \in ℝ^{P}$ .

O KTN é um kernel $Θ : ℝ^{n_{i n}} \times ℝ^{n_{i n}} \to ℝ$ definido por $Θ (x, y; θ) = \sum_{p = 1}^{P} \partial_{θ_{p}} f (x; θ) \partial_{θ_{p}} f (y; θ) .$

Em uma SVM, o KTN $Θ$ é um kernel associado a uma feature ${(x \mapsto \partial_{θ_{p}} f (x; θ))}_{p = 1, \dots, P}$ .

Caso de saída vetorial

Uma RNA com saída vetorial de tamanho $n_{o u t}$ consiste em uma família de funções $f (\cdot; θ) : ℝ^{n_{i n}} \to ℝ^{n_{o u t}}$ parametrizada por um vetor de parâmetros $θ \in ℝ^{P}$ .

Neste caso o KTN $Θ : ℝ^{n_{i n}} \times ℝ^{n_{i n}} \to ℳ_{n_{o u t}} (ℝ)$ é um SVM de saída vetorial com valores de $n_{o u t} \times n_{o u t}$ e matrizes definidas por $Θ_{k, l} (x, y; θ) = \sum_{p = 1}^{P} \partial_{θ_{p}} f_{k} (x; θ) \partial_{θ_{p}} f_{l} (y; θ) .$

Derivação

Ao otimizar os parâmetros $θ \in ℝ^{P}$ de uma RNA para minimizar uma perda empírica através da método do gradiente, o KTN determina a dinâmica da função de saída da RNA $f_{θ}$ durante todo o treinamento.

Caso de saída escalar

Para um dataset ${(x_{i})}_{i = 1, \dots, n} \subset ℝ^{n_{i n}}$ com rótulos escalares ${(z_{i})}_{i = 1, \dots, n} \subset ℝ$ e uma função de perda $c : ℝ \times ℝ \to ℝ$ associada a uma perda empírica, definida em funções $f : ℝ^{n_{i n}} \to ℝ$ é dada por $𝒞 (f) = \sum_{i = 1}^{n} c (f (x_{i}), z_{i}) .$

Ao treinar uma RNA $f (\cdot; θ) : ℝ^{n_{i n}} \to ℝ$ é treinado para se ajustar ao conjunto de dados (ou seja, minimizar $𝒞$ ) via método do gradiente por tempo contínuo os parâmetros ${(θ (t))}_{t \geq 0}$ evoluem através da função diferencial ordinária:

$\partial_{t} θ (t) = - \nabla 𝒞 (f (\cdot; θ)) .$

Durante o treinamento, a função de saída da RNA segue a evolução de uma equação diferencial dada em termos de KTN:

$\partial_{t} f (x; θ (t)) = - \sum_{i = 1}^{n} Θ (x, x_{i}; θ) \partial_{w} c (w, z_{i}) |_{w = f (x_{i}; θ (t))} .$

Esta equação mostra como o KTN conduz a dinâmica de $f (\cdot; θ (t))$ no espaço das funções $ℝ^{n_{i n}} \to ℝ$ durante o treinamento.

Caso de saída vetorial

Para um dataset ${(x_{i})}_{i = 1, \dots, n} \subset ℝ^{n_{i n}}$ com vetores ${(z_{i})}_{i = 1, \dots, n} \subset ℝ^{n_{o u t}}$ e uma função de perda $c : ℝ^{n_{o u t}} \times ℝ^{n_{o u t}} \to ℝ$ a perda empírica correspondente em funções $f : ℝ^{n_{i n}} \to ℝ^{n_{o u t}}$ é definida por:

$𝒞 (f) = \sum_{i = 1}^{n} c (f (x_{i}), z_{i}) .$

O treinamento de $f_{θ (t)}$ através do método do gradiente por tempo contínuo produz a seguinte evolução na função do espaço gerada pelo KTN:

$\partial_{t} f_{k} (x; θ (t)) = - \sum_{i = 1}^{n} \sum_{l = 1}^{n_{o u t}} Θ_{k, l} (x, x_{i}; θ) \partial_{w_{l}} c ((w_{1}, \dots, w_{n_{o u t}}), z_{i}) |_{w = f (x_{i}; θ (t))} .$

Interpretação

O KTN $Θ (x, x_{i}; θ)$ representa a influência da perda de gradiente $\partial_{w} c (w, z_{i}) |_{w = f (x_{i}; θ)}$ com respeito ao exemplo $i$ sobre a evolução da saída (produção) da RNA $f (x; θ)$ através de uma etapa do método do gradiente: no caso escalar, se lê:

$f (x; θ (t + ϵ)) - f (x; θ (t)) \approx ϵ \sum_{i = 1}^{n} Θ (x, x_{i}; θ (t)) \partial_{w} c (w, z_{i}) |_{w = f (x_{i}; θ)} .$

Em particular, cada ponto de dados $x_{i}$ influencia a evolução do resultado $f (x; θ)$ para cada $x$ ao longo do treinamento, de modo que é capturada pelo KTN $Θ (x, x_{i}; θ)$ .

Grande limite de largura

Trabalhos teóricos e empíricos recentes em aprendizagem profunda mostraram que o desempenho das RNAs melhora estritamente à medida que a largura de suas camadas aumenta.^[5]^[6] Para várias arquiteturas de RNA o KTN fornece uma visão precisa sobre o treinamento neste regime de grandes larguras.^[1]^[7]^[8]^[9]^[10]^[11]

Predefinição:Referências Predefinição:Esboço-computação Predefinição:Inteligência artificial Predefinição:Portal3

[:0-1] 1,0 ^1,1 Predefinição:Citation

[2] Predefinição:Citar periódico

[3] Predefinição:Citar periódico

[4] Predefinição:Citar periódico

[5] Predefinição:Citar periódico

[6] Predefinição:Citar periódico

[:2-7] Predefinição:Citar periódico

[:5-8] Predefinição:Citar periódico

[Lee-9] Predefinição:Citar periódico

[:1-10] Predefinição:Citation

[11] Predefinição:Citar arXiv

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Kernel de tangente neural

Índice

Definição

Caso de saída escalar

Caso de saída vetorial

Derivação

Caso de saída escalar

Caso de saída vetorial

Interpretação

Grande limite de largura

Menu de navegação

Kernel de tangente neural

Definição

Caso de saída escalar

Caso de saída vetorial

Derivação

Caso de saída escalar

Caso de saída vetorial

Interpretação

Grande limite de largura

Menu de navegação

Procurar