Kernel de tangente neural
No estudo de redes neurais artificiais (RNAs), o kernel de tangente neural (KTN) é um kernel que descreve a evolução de redes neurais artificiais profundas durante seu treinamento por gradiente descendente . Ele permite que RNAs sejam estudadas usando algoritmos do tipo Máquina de vetores de suporte.
Para a maioria das arquiteturas de rede neural, no limite da largura da camada, o KTN se torna constante. Isso permite que declarações simples de forma fechada sejam feitas sobre previsões de rede neural, dinâmicas de treinamento, generalização e superfícies de perda. Por exemplo, ele garante que RNAs largas o suficiente convergem para um mínimo global quando treinados para minimizar uma perda empírica. O KTN de redes de grande largura também está relacionado a vários outros limites de largura de redes neurais.
O KTN foi lançado em 2018 por Arthur Jacot, Franck Gabriel e Clément Hongler.[1] Também estava implícito em alguns trabalhos contemporâneos.[2][3][4]
Definição
Caso de saída escalar
Uma RNA com saída escalar consiste em uma família de funções parametrizado por um vetor de parâmetros .
O KTN é um kernel definido por
Em uma SVM, o KTN é um kernel associado a uma feature .
Caso de saída vetorial
Uma RNA com saída vetorial de tamanho consiste em uma família de funções parametrizada por um vetor de parâmetros .
Neste caso o KTN é um SVM de saída vetorial com valores de e matrizes definidas por
Derivação
Ao otimizar os parâmetros de uma RNA para minimizar uma perda empírica através da método do gradiente, o KTN determina a dinâmica da função de saída da RNA durante todo o treinamento.
Caso de saída escalar
Para um dataset com rótulos escalares e uma função de perda associada a uma perda empírica, definida em funções é dada por
Ao treinar uma RNA é treinado para se ajustar ao conjunto de dados (ou seja, minimizar ) via método do gradiente por tempo contínuo os parâmetros evoluem através da função diferencial ordinária:
Durante o treinamento, a função de saída da RNA segue a evolução de uma equação diferencial dada em termos de KTN:
Esta equação mostra como o KTN conduz a dinâmica de no espaço das funções durante o treinamento.
Caso de saída vetorial
Para um dataset com vetores e uma função de perda a perda empírica correspondente em funções é definida por:
O treinamento de através do método do gradiente por tempo contínuo produz a seguinte evolução na função do espaço gerada pelo KTN:
Interpretação
O KTN representa a influência da perda de gradiente com respeito ao exemplo sobre a evolução da saída (produção) da RNA através de uma etapa do método do gradiente: no caso escalar, se lê:
Em particular, cada ponto de dados influencia a evolução do resultado para cada ao longo do treinamento, de modo que é capturada pelo KTN .
Grande limite de largura
Trabalhos teóricos e empíricos recentes em aprendizagem profunda mostraram que o desempenho das RNAs melhora estritamente à medida que a largura de suas camadas aumenta.[5][6] Para várias arquiteturas de RNA o KTN fornece uma visão precisa sobre o treinamento neste regime de grandes larguras.[1][7][8][9][10][11]
Predefinição:Referências Predefinição:Esboço-computação Predefinição:Inteligência artificial Predefinição:Portal3
- ↑ 1,0 1,1 Predefinição:Citation
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citation
- ↑ Predefinição:Citar arXiv