Aprendizagem profunda

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

Predefinição:Descrição curta A aprendizagem profunda é um subconjunto do aprendizado de máquina que se concentra na utilização de redes neurais para executar tarefas como classificação, regressão e aprendizagem de representação. O campo se inspira na neurociência biológica e é centrado em empilhar neurônios artificiais em camadas e "treiná-los" para processar dados. O adjetivo "profunda" se refere ao uso de múltiplas camadas (variando de três a várias centenas ou milhares) na rede. Os métodos usados podem ser supervisionados, semissupervisionados ou não serem supervisionados.[1]

Algumas arquiteturas comuns de redes de aprendizagem profunds incluem redes totalmente conectadas, redes de crenças profundas, redes neurais recorrentes, redes neurais convolucionais, redes adversárias generativas, transformadoras e campos de radiância neural. Essas arquiteturas foram aplicadas a campos como visão computacional, reconhecimento de fala, processamento de linguagem natural, tradução automática, bioinformática, design de medicamentos, análise de imagens médicas, ciência do clima, inspeção de materiais e programas de jogos de tabuleiro, onde produziram resultados comparáveis e, em alguns casos, superando o desempenho de especialistas humanos.[2][3][4]

As primeiras formas de redes neurais foram inspiradas pelo processamento de informações e nós de comunicação distribuídos em sistemas biológicos, particularmente o cérebro humano. No entanto, as redes neurais atuais não pretendem modelar a função cerebral dos organismos e são geralmente vistas como modelos de baixa qualidade para esse propósito.[5] Predefinição:TDC limitada

Visão geral

A maioria dos modelos modernos de aprendizagem profunda são baseados em redes neurais multicamadas, como redes neurais convolucionais e transformadoras, embora também possam incluir fórmulas proposicionais ou variáveis latentes organizadas em camadas em modelos generativos profundos, como os nós em redes de crenças profundas e máquinas de Boltzmann profundas.[6]

Fundamentalmente, a aprendizagem profunda se refere a uma classe de algoritmos de aprendizado de máquina em que uma hierarquia de camadas é usada para transformar dados de entrada em uma representação progressivamente mais abstrata e composta. Por exemplo, em um modelo de reconhecimento de imagem, a entrada bruta pode ser uma imagem (representada como um tensor de pixels). A primeira camada representacional pode tentar identificar formas básicas, como linhas e círculos, a segunda camada pode compor e codificar arranjos de bordas, a terceira camada pode codificar um nariz e olhos, e a quarta camada pode reconhecer que a imagem contém um rosto.

É importante ressaltar que um processo de aprendizagem profunda pode aprender quais recursos posicionar de forma ideal em qual nível por conta própria. Antes da aprendizagem profunda, as técnicas de aprendizado de máquina frequentemente envolviam engenharia de recursos feita à mão para transformar os dados em uma representação mais adequada para um algoritmo de classificação operar. Na abordagem de aprendizagem profunda, os recursos não são feitos à mão e o modelo descobre representações úteis de recursos a partir dos dados automaticamente. Isso não elimina a necessidade de ajuste manual; por exemplo, números variados de camadas e tamanhos de camadas podem fornecer diferentes graus de abstração.[7][1]

A palavra "profunda" em "aprendizagem profunda" se refere ao número de camadas através das quais os dados são transformados. Mais precisamente, os sistemas de aprendizagem profunda têm uma profundidade substancial de caminho de atribuição de crédito (CAP). O caminho de atribuição de crédito é a sequência de transformações de entrada para saída. Os caminhos de atribuição de crédito descrevem conexões potencialmente causais entre entrada e saída. Para uma rede neural feedforward, a profundidade dos caminhos de atribuição de crédito é a da rede e é o número de camadas ocultas mais uma (já que a camada de saída também é parametrizada). Para redes neurais recorrentes, nas quais um sinal pode se propagar através de uma camada mais de uma vez, a profundidade do caminho de atribuição de crédito é potencialmente ilimitada.[8] Nenhum limite universalmente acordado de profundidade divide a aprendizagem superficial da aprendizagem profunda, mas a maioria dos pesquisadores concorda que a aprendizagem profunda envolve profundidade de caminho de atribuição de crédito maior que dois. O caminho de atribuição de crédito de profundidade dois demonstrou ser um aproximador universal no sentido de que pode emular qualquer função.[9] Além disso, mais camadas não aumentam a capacidade de aproximação de função da rede. Modelos profundos (caminho de atribuição de crédito maior que dois) conseguem extrair melhores características do que modelos superficiais e, portanto, camadas extras ajudam a aprender as características de forma eficaz.

Arquiteturas de aprendizagem profunda podem ser construídas com um método ganancioso camada por camada.[10] A aprendizagem profunda ajuda a desembaraçar essas abstrações e escolher quais recursos melhoram o desempenho.[7]

Algoritmos de aprendizagem profunda podem ser aplicados a tarefas de aprendizado que não são supervisionadas. Este é um benefício importante porque dados que não são rotulados são mais abundantes do que os dados rotulados. Exemplos de estruturas profundas que podem ser treinadas de maneira que não é supervisionada são redes de crenças profundas.[7][11]

O termo aprendizagem profunda foi introduzido na comunidade de aprendizado de máquina por Rina Dechter em 1986,[12] e nas redes neurais artificiais por Igor Aizenberg e colegas em 2000, no contexto de neurônios de limiar booleano.[13][14] Embora a história de seu surgimento seja aparentemente mais complicada.[15]

Interpretações

Redes neurais profundas são geralmente interpretadas em termos do teorema da aproximação universal[16][17][18][19][20] ou da inferência probabilística.[21][22][7][8][23]

O teorema clássico da aproximação universal diz respeito à capacidade das redes neurais feedforward com uma única camada oculta de tamanho finito para aproximar funções contínuas.[16][17][18][19] Em 1989, a primeira prova foi publicada por George Cybenko para funções de ativação sigmoides[16] e foi generalizada para arquiteturas multicamadas feed-forward em 1991 por Kurt Hornik.[17] Trabalhos recentes também mostraram que a aproximação universal também é válida para funções de ativação que não são limitadas, como a unidade linear retificada (ReLU) de Kunihiko Fukushima.[24][25]

O teorema da aproximação universal para redes neurais profundas diz respeito à capacidade de redes com largura limitada, mas a profundidade pode crescer. Lu et al.[20] provaram que se a largura de uma rede neural profunda com ativação de unidade linear retificada (ReLU) for estritamente maior do que a dimensão de entrada, então a rede pode aproximar qualquer função integrável de Lebesgue; se a largura for menor ou igual à dimensão de entrada, então uma rede neural profunda não é um aproximador universal.

A interpretação probabilística[23] deriva do campo do aprendizado de máquina. Ela apresenta inferência,[22][6][7][8][11][23] bem como os conceitos de otimização de treinamento e teste, relacionados ao ajuste e generalização, respectivamente. Mais especificamente, a interpretação probabilística considera a não linearidade de ativação como uma função de distribuição cumulativa.[23] A interpretação probabilística levou à introdução do abandono (dropout) ou da diluição como regularizador em redes neurais. A interpretação probabilística foi introduzida por pesquisadores como Hopfield, Widrow, e Narendra e popularizada em pesquisas como a de Bishop.[26]

História

Antes de 1980

Existem dois tipos de redes neurais artificiais (ANNs): redes neurais feedforward (FNNs) ou perceptrons multicamadas (MLPs) e redes neurais recorrentes (RNNs). As redes neurais recorrentes têm ciclos em suas estruturas de conectividade, as redes neurais feedforward não. Na década de 1920, Wilhelm Lenz e Ernst Ising criaram o modelo de Ising[27][28] que é essencialmente uma arquitetura de rede neural recorrente que não é de aprendizagem consistindo de elementos de limiar semelhantes a neurônios. Em 1972, Shun'ichi Amari tornou essa arquitetura adaptável.[29][30] Sua rede neural recorrente de aprendizagem foi republicada por John Hopfield em 1982.[31] Outras redes neurais recorrentes anteriores foram publicadas por Kaoru Nakano em 1971.[32][33] Já em 1948, Alan Turing produziu um trabalho sobre "Maquinário Inteligente" que não foi publicado em sua vida,[34] contendo "ideias relacionadas a redes neurais recorrentes de aprendizagem e evolução artificiais".[30]

Frank Rosenblatt (1958)[35] propôs a perceptron, uma perceptron multicamadas com 3 camadas: uma camada de entrada, uma camada oculta com pesos aleatórios que não aprendiam e uma camada de saída. Mais tarde, ele publicou um livro em 1962 que também introduziu experimentos de computador e variantes, incluindo uma versão com perceptrons de quatro camadas "com redes pré-terminais adaptativas" onde as duas últimas camadas aprenderam pesos (aqui ele dá créditos a H. D. Block e B. W. Knight).[36]Predefinição:Rp O livro cita uma rede anterior de R. D. Joseph (1960)[37] "funcionalmente equivalente a uma variação" deste sistema de quatro camadas (o livro menciona Joseph mais de 30 vezes). Joseph deve, portanto, ser considerado o criador das perceptrons multicamadas adaptativas com unidades ocultas de aprendizagem próprias? Infelizmente, o algoritmo de aprendizagem não era funcional e caiu no esquecimento.

O primeiro algoritmo de aprendizagem profunda funcional foi o método de manipulação de dados de grupo, um método para treinar redes neurais profundas arbitrariamente, publicado por Alexey Ivakhnenko e Lapa em 1965. Eles o consideraram uma forma de regressão polinomial,[38] ou uma generalização da perceptron de Rosenblatt.[39] Um artigo de 1971 descreveu uma rede profunda com oito camadas treinada por este método,[40] que é baseado no treinamento de camada por camada por meio de análise de regressão. Unidades ocultas supérfluas são podadas usando um conjunto de validação separado. Como as funções de ativação dos nós são polinômios de Kolmogorov e Gabor, essas também foram as primeiras redes profundas com "portas" ou unidades multiplicativas.[30]

A primeira perceptron multicamadas de aprendizagem profunda treinada por descida de gradiente estocástica[41] foi publicada em 1967 por Shun'ichi Amari.[42] Em experimentos de computador conduzidos pelo aluno de Amari, Saito, uma perceptron multicamadas de cinco camadas com duas camadas modificáveis aprendeu representações internas para classificar classes de padrões que não são separáveis linearmente.[30] Desenvolvimentos subsequentes em ajustes de hiperparâmetros e hardware fizeram da descida de gradiente estocástica de ponta a ponta a técnica de treinamento dominante atualmente.

Em 1969, Kunihiko Fukushima introduziu a função de ativação de ReLU (unidade linear retificada).[24][30] A retificadora se tornou a função de ativação mais popular para aprendizagem profunda.[43]

As arquiteturas de aprendizagem profunda para redes neurais convolucionais (CNNs) com camadas convolucionais e camadas de redução de amostragem começaram com a Neocognitron introduzida por Kunihiko Fukushima em 1979, embora não ter sido treinada por retropropagação.[44][45]

A retropropagação é uma aplicação eficiente da regra sequencial derivada por Gottfried Wilhelm Leibniz em 1673[46] para redes de nós diferenciáveis. A terminologia "erros de retropropagação" foi realmente introduzida em 1962 por Rosenblatt,[36] mas ele não sabia como implementar isso, embora Henry J. Kelley tivesse um precursor contínuo da retropropagação em 1960 no contexto da teoria de controle.[47] A forma moderna de retropropagação foi publicada pela primeira vez na tese de mestrado de Seppo Linnainmaa (1970).[48][49][30] G.M. Ostrovski et al. republicaram em 1971.[50][51] Paul Werbos aplicou a retropropagação às redes neurais em 1982[52] (sua tese de doutorado de 1974, reimpressa em um livro de 1994,[53] ainda não descreveu o algoritmo[51]). Em 1986, David E. Rumelhart et al. popularizaram a retropropagação, mas não citaram o trabalho original.[54][55]

Décadas de 1980 a 2000

A rede neural de atraso de tempo (TDNN) foi introduzida em 1987 por Alex Waibel para aplicar rede neural convolucional ao reconhecimento de fonemas. Ela usava convoluções, compartilhamento de peso e retropropagação.[56][57] Em 1988, Wei Zhang aplicou uma rede neural convolucional treinada em retropropagação ao reconhecimento de alfabeto.[58] Em 1989, Yann LeCun et al. criaram uma rede neural convolucional chamada LeNet para reconhecer códigos postais manuscritos em correspondências. O treinamento levou 3 dias.[59] Em 1990, Wei Zhang implementou uma rede neural convolucional em hardware de computação óptica.[60] Em 1991, uma rede neural convolucional foi aplicada à segmentação de objetos de imagens médicas[61] e à detecção de câncer de mama em mamografias.[62] A LeNet-5 (1998), uma rede neural convolucional de 7 níveis de Yann LeCun et al., que classifica dígitos, foi aplicada por vários bancos para reconhecer números manuscritos em cheques digitalizados em imagens de 32x32 pixels.[63]

As redes neurais recorrentes (RNNs)[27][29] foram desenvolvidas ainda mais na década de 1980. A recorrência é usada para processamento de sequências e, quando uma rede recorrente é desenrolada, ela se assemelha matematicamente a uma camada de feedforward profunda. Consequentemente, elas têm propriedades e problemas semelhantes, e seus desenvolvimentos tiveram influências mútuas. Em redes neurais recorrentes, dois primeiros trabalhos influentes foram a rede de Jordan (1986)[64] e a rede de Elman (1990),[65] que aplicaram redes neurais recorrentes para estudar problemas em psicologia cognitiva.

Na década de 1980, a retropropagação não funcionou bem para aprendizagem profunda com longos caminhos de atribuição de crédito. Para superar esse problema, em 1991, Jürgen Schmidhuber propôs uma hierarquia de redes neurais recorrentes pré-treinadas um nível de cada vez por aprendizado autossupervisionado, onde cada rede neural recorrente tenta prever sua própria próxima entrada, que é a próxima entrada inesperada da rede neural recorrente abaixo.[66][67] Este "compressor de histórico neural" usa codificação preditiva para aprender representações internas em múltiplas escalas de tempo auto-organizadas. Isso pode facilitar substancialmente a aprendizagem profunda a jusante. A hierarquia da rede neural recorrente pode ser colapsada em uma única rede neural recorrente, destilando uma rede fragmentadora de nível superior em uma rede automatizadora de nível inferior.[66][67][30] Em 1993, um compressor de histórico neural resolveu uma tarefa de "aprendizagem muito profunda" que exigia mais de 1000 camadas subsequentes em uma rede neural recorrente desdobrada no tempo.[68] O "P" em ChatGPT se refere a esse pré-treinamento.

A tese de diploma de Sepp Hochreiter (1991)[69] implementou o compressor de história neural,[66] e identificou e analisou o problema do gradiente de desaparecimento.[69][70] Hochreiter propôs conexões residuais recorrentes para resolver o problema do gradiente de desaparecimento. Isso levou à memória de curto prazo longa (LSTM), publicada em 1995.[71] A memória de curto prazo longa pode aprender tarefas de "aprendizagem muito profunda"[8] com longos caminhos de atribuição de crédito que exigem memórias de eventos que aconteceram milhares de passos de tempo discretos antes. Essa memória de curto prazo longa ainda não era a arquitetura moderna, que exigia uma "portão de esquecimento", introduzido em 1999,[72] que se tornou a arquitetura de rede neural recorrente padrão.

Em 1991, Jürgen Schmidhuber também publicou redes neurais adversárias que competem entre si na forma de um jogo de soma zero, onde o ganho de uma rede é a perda da outra rede.[73][74] A primeira rede é um modelo generativo que modela uma distribuição de probabilidade sobre padrões de saída. A segunda rede aprende por descida do gradiente para prever as reações do ambiente a esses padrões. Isso foi chamado de "curiosidade artificial". Em 2014, esse princípio foi usado em redes adversárias generativas (GANs).[75]

Durante 1985–1995, inspirados pela mecânica estatística, várias arquiteturas e métodos foram desenvolvidos por Terry Sejnowski, Peter Dayan, Geoffrey Hinton, etc., incluindo a máquina de Boltzmann,[76] a máquina de Boltzmann restrita,[77] a máquina de Helmholtz,[78] e o algoritmo de vigília e sono.[79] Eles foram projetados para aprendizado que não é supervisionado de modelos generativos profundos. No entanto, esses eram mais caros computacionalmente em comparação com a retropropagação. O algoritmo de aprendizado de máquina de Boltzmann, publicado em 1985, foi brevemente popular antes de ser eclipsado pelo algoritmo de retropropagação em 1986. (p. 112 [80]). Uma rede de 1988 se tornou o estado da arte na predição das estruturas de proteínas, uma aplicação inicial da aprendizagem profunda à bioinformática.[81]

Tanto a aprendizagem superficial quanto a profunda (por exemplo, redes recorrentes) de redes neurais artificiais para reconhecimento de fala têm sido explorados por muitos anos.[82][83][84] Esses métodos nunca superaram a tecnologia do modelo de mistura gaussiana/modelo de Markov oculto (GMM-HMM) manual interno que não é uniforme baseada em modelos generativos de fala treinados discriminativamente.[85] As principais dificuldades foram analisadas, incluindo a diminuição de gradiente[69] e a estrutura de correlação temporal fraca em modelos preditivos neurais.[86][87] Dificuldades adicionais foram a falta de dados de treinamento e poder de computação limitado.

A maioria dos pesquisadores de reconhecimento de fala se afastou das redes neurais para buscar modelagem generativa. Uma exceção foi no SRI International no final da década de 1990. Financiado pela NSA e pela DARPA do governo dos EUA, o SRI pesquisou em reconhecimentos de fala e falante. A equipe de reconhecimento de falante liderada por Larry Heck relatou sucesso significativo com redes neurais profundas no processamento de fala no benchmark de reconhecimento de falante do NIST de 1998.[88][89] Foi implantado no Nuance Verifier, representando a primeira grande aplicação industrial da aprendizagem profunda.[90]

O princípio de elevar características "brutas" sobre otimização manual foi explorado pela primeira vez com sucesso na arquitetura do autocodificador profundo nas características de bancos de filtros lineares ou espectrogramas "brutos" no final da década de 1990,[89] mostrando sua superioridade sobre as características Mel-Cepstrais que contêm estágios de transformações fixas a partir de espectrogramas. As características brutas da fala, as formas das ondas, mais tarde produziram excelentes resultados em larga escala.[91]

Décadas de 2000

As redes neurais entraram em declínio, e modelos mais simples que usam recursos artesanais específicos para tarefas, como filtros de Gabor e máquinas de vetores de suporte (SVMs), tornaram-se as escolhas preferidas nas décadas de 1990 e 2000, devido ao custo computacional das redes neurais artificiais e à falta de compreensão de como o cérebro conecta suas redes biológicas.

Em 2003, a memória de curto prazo longa tornou-se competitiva com os reconhecedores de fala tradicionais em certas tarefas.[92] Em 2006, Alex Graves, Santiago Fernández, Faustino Gomez e Schmidhuber combinaram-na com a classificação temporal conexionista (CTC)[93] em pilhas de memórias de curto prazo longas.[94] Em 2009, tornou-se a primeira rede neural recorrente a vencer um concurso de reconhecimento de padrões, em reconhecimento de escrita manual conectada.[95][8]

Em 2006, publicações de Geoff Hinton, Ruslan Salakhutdinov, Osindero e Teh[96][97] redes de crenças profundas foram desenvolvidas para modelagem generativa. Elas são treinadas treinando uma máquina de Boltzmann restrita, então congelando-a e treinando outra em cima da primeira, e assim por diante, então opcionalmente ajustadas usando retropropagação supervisionada.[98] Elas poderiam modelar distribuições de probabilidade de alta dimensão, como a distribuição de imagens do Banco de dados do Instituto Nacional de Padrões e Tecnologia modificado (MNIST), mas a convergência era lenta.[99][100][101]

O impacto da aprendizagem profunda na indústria começou no início dos anos 2000, quando as redes neurais convolucionais já processavam cerca de 10% a 20% de todos os cheques emitidos nos EUA, de acordo com Yann LeCun.[102] As aplicações industriais da aprendizagem profunda para reconhecimento de fala em larga escala começaram por volta de 2010.

A Oficina sobre Sistemas de Processamento de Informações Neurais (NIPS) de 2009 sobre Aprendizagem Profunds para Reconhecimento de Fala foi motivada pelas limitações de modelos generativos profundos de fala e pela possibilidade de que, dado hardware mais capaz e conjuntos de dados em larga escala, as redes neurais profundas pudessem se tornar práticas. Acreditava-se que o pré-treinamento de redes neurais profundas usando modelos generativos de redes de crenças profundas superaria as principais dificuldades das redes neurais. No entanto, descobriu-se que a substituição do pré-treinamento por grandes quantidades de dados de treinamento para retropropagação direta ao usar redes neurais profundas com grandes camadas de saída dependentes do contexto produzia taxas de erros dramaticamente menores do que o modelo de mistura gaussiana/modelo de Markov oculto de então última geração e também do que sistemas baseados em modelos generativos mais avançados.[103] A natureza dos erros de reconhecimento produzidos pelos dois tipos de sistemas era caracteristicamente diferente,[104] oferecendo percepções técnicas sobre como integrar a aprendizagem profunda no sistema de decodificação de fala altamente eficiente e em tempo de execução existente, implantado por todos os principais sistemas de reconhecimento de fala.[22][105][106] A análise por volta de 2009 e 2010, contrastando o modelo de mistura gaussiana (e outros modelos de fala generativa) versus modelos de redes neurais profundas, estimulou o investimento industrial inicial em aprendizagem profunda para reconhecimento de fala.[104] Essa análise foi feita com desempenho comparável (menos de 1,5% na taxa de erros) entre modelos generativos e redes neurais profundas discriminativos.[103][104][107] Em 2010, os pesquisadores estenderam a aprendizagem profunda a partir do TIMIT para o reconhecimento de fala de vocabulário grande, adotando grandes camadas de saída da rede neural profunda com base em estados do modelo de Markov oculto dependentes do contexto construídos por árvores de decisões.[108][109][110][105]

Revolução da aprendizagem profunda

Como a aprendizagem profunda é um subconjunto do aprendizado de máquina e como o aprendizado de máquina é um subconjunto da inteligência artificial (IA)

A revolução da aprendizagem profunda começou em torno da visão computacional baseada em redes neurais convolucionais e em GPUs.

Embora as redes neurais convolucionais treinadas por retropropagação já existissem há décadas e implementações de redes neurais em GPUs há anos,[111] incluindo redes neurais convolucionais,[112] implementações mais rápidas de redes neurais convolucionais em GPUs eram necessárias para progredir na visão computacional. Mais tarde, conforme a aprendizagem profunda se tornou difundido, otimizações de algoritmo e hardware especializados foram desenvolvidos especificamente para aprendizagem profunda.[113]

Um avanço fundamental para a revolução da aprendizagem profunda foram os avanços de hardware, especialmente GPUs. Alguns trabalhos iniciais datam de 2004.[111][112] Em 2009, Raina, Madhavan e Andrew Ng relataram uma rede de crenças profundas de 100M treinada em 30 GPUs GeForce GTX 280 da Nvidia, uma demonstração inicial de aprendizagem profunda baseada em GPUs. Eles relataram um treinamento até 70 vezes mais rápido.[114]

Em 2011, uma rede neural convolucional chamada DanNet[115][116] por Dan Ciresan, Ueli Meier, Jonathan Masci, Luca Maria Gambardella e Jürgen Schmidhuber alcançou pela primeira vez um desempenho sobre-humano em um concurso de reconhecimento de padrões visuais, superando os métodos tradicionais por um fator de 3.[8] Em seguida, ganhou mais concursos.[117][118] Eles também mostraram como o pool máximo de redes neurais convolucionais em GPUs melhorou significativamente o desempenho.[2]

Em 2012, Andrew Ng e Jeff Dean criaram uma rede neural feedforward que aprendeu a reconhecer conceitos de nível superior, como gatos, apenas assistindo a imagens que não são rotuladas tiradas de vídeos do YouTube.[119]

Em outubro de 2012, AlexNet por Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton[3] venceu a competição ImageNet em larga escala por uma margem significativa sobre métodos de aprendizado de máquina rasos. Outras melhorias incrementais incluíram a rede VGG-16 por Karen Simonyan e Andrew Zisserman[120] e a Inceptionv3 do Google.[121]

O sucesso na classificação de imagens foi então estendido para a tarefa mais desafiadora de gerar descrições (legendas) para imagens, geralmente como uma combinação de redes neurais convolucionais e memórias de curto prazo longas.[122][123][124]

Em 2014, o estado da arte era treinar "rede neural muito profunda" com 20 a 30 camadas.[125] Empilhar muitas camadas levou a uma redução acentuada na precisão do treinamento,[126] conhecida como problema de "degradação".[127] Em 2015, duas técnicas foram desenvolvidas para treinar redes muito profundas: a Highway Network foi publicada em maio de 2015, e a rede neural residual (ResNet)[128] em dezembro de 2015. A ResNet se comporta como uma Highway Net de portas abertas.

Na mesma época, a aprendizagem profunda começou a impactar o campo da arte. Os primeiros exemplos incluíram o DeepDream do Google (2015) e a transferência de estilo neural (2015),[129] ambos baseados em redes neurais de classificação de imagens pré-treinadas, como a VGG-19.

A rede adversária generativa (GAN) (de Ian Goodfellow et al., 2014)[130] (com base no princípio da curiosidade artificial de Jürgen Schmidhuber[73][75]) tornou-se o estado da arte na modelagem generativa durante o período de 2014 a 2018. Excelente qualidade de imagem é alcançada pela StyleGAN da Nvidia (2018)[131] com base na rede adversária generativa progressiva de Tero Karras et al.[132] Aqui, o gerador da rede adversária generativa é desenvolvido de pequena para grande escala de forma piramidal. A geração de imagens por rede adversária generativa alcançou sucesso popular e provocou discussões sobre deepfakes.[133] Os modelos de difusão (2015)[134] eclipsaram as redes adversárias generativas na modelagem generativa desde então, com sistemas como DALL·E 2 (2022) e Stable Diffusion (2022).

Em 2015, o reconhecimento de fala do Google melhorou em 49% por um modelo baseado em memória de curto prazo longa, que eles disponibilizaram por meio do Google Voice Search em smartphones.[135][136]

A aprendizagem profunda faz parte de sistemas de última geração em várias disciplinas, particularmente visão computacional e reconhecimento de fala automático (ASR). Os resultados em conjuntos de avaliação comumente usados, como o TIMIT (ASR) e o MNIST (classificação de imagens), bem como uma variedade de tarefas de reconhecimento de fala de vocabulário amplo, melhoraram constantemente.[103][137] As redes neurais convolucionais foram substituídas para reconhecimento automático de fala por memórias de curto prazo longas,[136][138][139][140] mas são mais bem-sucedidas em visão computacional.

Yoshua Bengio, Geoffrey Hinton e Yann LeCun receberam o Prêmio Turing de 2018 por "avanços conceituais e de engenharia que tornaram as redes neurais profundas um componente crítico da computação".[141]

Redes neurais

Predefinição:Artigo principal Predefinição:Imagem múltipla Redes neurais artificiais (ANNs) ou sistemas conexionistas são sistemas de computação inspirados nas redes neurais biológicas que constituem os cérebros dos animais. Tais sistemas aprendem (melhoram progressivamente sua capacidade de) fazer tarefas considerando exemplos, geralmente sem programação específica para a tarefa. Por exemplo, no reconhecimento de imagens, eles podem aprender a identificar imagens que contêm gatos analisando imagens de exemplo que foram rotuladas manualmente como "gato" ou "sem gato" e usando os resultados analíticos para identificar gatos em outras imagens. Eles encontraram mais uso em aplicações difíceis de expressar com um algoritmo de computador tradicional usando programação baseada em regras.

Uma rede neural artificial (RNA) é baseada em uma coleção de unidades conectadas chamadas neurônios artificiais (análogos aos neurônios biológicos em um cérebro biológico). Cada conexão (sinapse) entre neurônios pode transmitir um sinal para outro neurônio. O neurônio receptor (pós-sináptico) pode processar o(s) sinal(ais) e então sinalizar os neurônios a jusante conectados a ele. Os neurônios podem ter estado, geralmente representados por números reais, tipicamente entre 0 e 1. Neurônios e sinapses também podem ter um peso que varia conforme o aprendizado prossegue, o que pode aumentar ou diminuir a força do sinal que ele envia a jusante.

Normalmente, os neurônios são organizados em camadas. Camadas diferentes podem executar diferentes tipos de transformações em suas entradas. Os sinais viajam da primeira (entrada) para a última camada (saída), possivelmente após atravessar as camadas várias vezes.

O objetivo original da abordagem da rede neural era resolver problemas da mesma forma que um cérebro humano faria. Com o tempo, a atenção se concentrou em combinar habilidades mentais específicas, levando a desvios da biologia, como retropropagação ou passagem de informações na direção reversa e ajuste da rede para refletir essas informações.

As redes neurais têm sido usadas em uma variedade de tarefas, incluindo visão computacional, reconhecimento de fala, tradução automática, filtragem de redes sociais, jogos de tabuleiro e vídeo, e diagnóstico médico.

Em 2017, as redes neurais normalmente tinham alguns milhares a alguns milhões de unidades e milhões de conexões. Apesar desse número ser várias ordens de magnitude menor do que o número de neurônios em um cérebro humano, essas redes podem executar muitas tarefas em um nível além do dos humanos (por exemplo, reconhecer rostos ou jogar "Go"[142]).

Redes neurais profundas

Uma rede neural profunda (DNN) é uma rede neural artificial com múltiplas camadas entre as camadas de entrada e saída.[6][8] Existem diferentes tipos de redes neurais, mas elas sempre consistem nos mesmos componentes: neurônios, sinapses, pesos, vieses e funções.[143] Esses componentes como um todo funcionam de uma forma que imita funções do cérebro humano e podem ser treinados como qualquer outro algoritmo de aprendizado de máquina.

Por exemplo, uma rede neural profunda treinada para reconhecer raças de cães examinará a imagem fornecida e calculará a probabilidade de que o cão na imagem seja de uma determinada raça. O usuário pode revisar os resultados e selecionar quais probabilidades a rede deve exibir (acima de um certo limite, etc.) e retornar o rótulo proposto. Cada manipulação matemática como tal é considerada uma camada,[144] e redes neurais profundas complexas têm muitas camadas, daí o nome redes "profundas".

As redes neurais profundas podem modelar relacionamentos que não são lineares complexos. As arquiteturas dad redes neurais profundas geram modelos composicionais onde o objeto é expresso como uma composição em camadas de primitivos.[145] As camadas extras permitem a composição de recursos de camadas inferiores, potencialmente modelando dados complexos com menos unidades do que uma rede rasa de desempenho semelhante.[6] Por exemplo, foi provado que polinômios multivariados esparsos são exponencialmente mais fáceis de aproximar com redes neurais profundas do que com redes rasas.[146]

As arquiteturas profundas incluem muitas variantes de algumas abordagens básicas. Cada arquitetura obteve sucesso em domínios específicos. Nem sempre é possível comparar o desempenho de múltiplas arquiteturas, a menos que tenham sido avaliadas nos mesmos conjuntos de dados.[144]

As redes neurais profundas são tipicamente redes feedforward nas quais os dados fluem da camada de entrada para a camada de saída sem fazer loopback. Primeiramente, a rede neural profunda cria um mapa de neurônios virtuais e atribui valores numéricos aleatórios, ou "pesos", às conexões entre eles. Os pesos e entradas são multiplicados e retornam uma saída entre 0 e 1. Se a rede não reconhecesse com precisão um padrão específico, um algoritmo ajustaria os pesos.[147] Dessa forma, o algoritmo pode tornar certos parâmetros mais influentes, até determinar a manipulação matemática correta para processar completamente os dados.

As redes neurais recorrentes, nas quais os dados podem fluir em qualquer direção, são usadas para aplicações como modelagem de linguagem.[148][149][150][151][152] A memória de curto prazo longa é particularmente eficaz para esse uso.[153][154]

As redes neurais convolucionais (CNNs) são usadas em visão computacional.[155] As redes neurais convolucionais também foram aplicadas à modelagem acústica para reconhecimento automático de fala (ASR).[156]

Desafios

Assim como com redes neurais artificiais, muitos problemas podem surgir com redes neurais profundas treinadas ingenuamente. Dois problemas comuns são o ajuste excessivo e o tempo de computação.

As redes neurais profundas são propensas a ajuste excessivo por causa das camadas de abstração adicionadas, que permitem que elas modelem dependências raras nos dados de treinamento. Métodos de regularização como a poda de unidade de Ivakhnenko[40] ou o decaimento de peso (regularização de 2) ou esparsidade (regularização de 1) podem ser aplicados durante o treinamento para combater ajuste excessivo.[157] Alternativamente, a regularização de abandono omite aleatoriamente unidades das camadas ocultas durante o treinamento. Isso ajuda a excluir dependências raras.[158] Outro desenvolvimento recente interessante é a pesquisa em modelos de complexidade suficiente por meio de uma estimativa da complexidade intrínseca da tarefa que está sendo modelada. Essa abordagem foi aplicada com sucesso para tarefas de previsão de séries temporais multivariadas, como previsão de tráfego.[159] Finalmente, os dados podem ser aumentados por meio de métodos como corte e rotação, de modo que conjuntos de treinamento menores possam ser aumentados em tamanho para reduzir as chances de ajuste excessivo.[160]

As redes neurais profundas devem considerar muitos parâmetros de treinamento, como o tamanho (número de camadas e número de unidades por camada), a taxa de aprendizado e pesos iniciais. Varrer o espaço de parâmetros para parâmetros ideais pode não ser viável devido ao custo em tempo e recursos computacionais. Vários truques, como loteamento (computação do gradiente em vários exemplos de treinamento de uma vez em vez de exemplos individuais)[161] aceleram a computação. Grandes capacidades de processamento de arquiteturas de muitos núcleos (como GPUs ou o Intel Xeon Phi) produziram acelerações significativas no treinamento, devido à adequação de tais arquiteturas de processamento para as computações de matriz e vetor.[162][163]

Alternativamente, os engenheiros podem procurar outros tipos de redes neurais com algoritmos de treinamento mais diretos e convergentes. A controladora de articulação de modelo cerebelar (CMAC) é uma desses tipos de rede neural. Ela não requer taxas de aprendizado ou pesos iniciais randomizados. O processo de treinamento pode ser garantido para convergir em uma etapa com um novo lote de dados, e a complexidade computacional do algoritmo de treinamento é linear em relação ao número de neurônios envolvidos.[164][165]

Hardware

Desde a década de 2010, os avanços em algoritmos de aprendizado de máquina e hardware de computador levaram a métodos mais eficientes para treinar redes neurais profundas que contêm muitas camadas de unidades ocultas que não são lineares e uma camada de saída muito grande.[166] Em 2019, unidades de processamento gráfico (GPUs), geralmente com aprimoramentos específicos de IA, substituíram as CPUs como o método dominante para treinar IA de nuvem comercial em larga escala.[167] A OpenAI estimou a computação de hardware usada nos maiores projetos de aprendizagem profunda de AlexNet (2012) a AlphaZero (2017) e encontrou um aumento de 300.000 vezes na quantidade de computação necessária, com uma linha de tendência de tempo de duplicação de 3,4 meses.[168][169]

Circuitos eletrônicos especiais chamados processadores de aprendizagem profunda foram projetados para acelerar algoritmos de aprendizagem profunda. Os processadores de aprendizagem profunda incluem unidades de processamento neural (NPUs) em celulares Huawei[170] e servidores de computação em nuvem, como unidades de processamento tensorial (TPU) na Google Cloud Platform.[171] A Cerebras Systems também construiu um sistema dedicado para lidar com grandes modelos de aprendizagem profunda, o CS-2, baseado no maior processador do setor, o Wafer Scale Engine de segunda geração (WSE-2).[172][173]

Semicondutores atomicamente finos são considerados promissores para hardware de aprendizagem profunda com eficiência energética, onde a mesma estrutura básica do dispositivo é usada para operações lógicas e armazenamento de dados. Em 2020, Marega et al. publicaram experimentos com um material de canal ativo de grande área para desenvolver dispositivos e circuitos lógicos na memória baseados em transistores de efeito de campo de porta flutuante (FGFETs).[174]

Em 2021, J. Feldmann et al. propuseram um acelerador de hardware fotônico integrado para processamento convolucional paralelo.[175] Os autores identificam duas vantagens principais da fotônica integrada sobre suas contrapartes eletrônicas: (1) transferência de dados massivamente paralela por meio de multiplexação por divisão de comprimento de onda em conjunto com pentes de frequência e (2) velocidades de modulação de dados extremamente altas.[175] Seu sistema pode executar trilhões de operações de multiplicação e acumulação por segundo, indicando o potencial da fotônica integrada em aplicações de IA com muitos dados.[175]

Aplicações

Reconhecimento automático de fala

Predefinição:Artigo principal O reconhecimento automático de fala em larga escala é o primeiro e mais convincente caso bem-sucedido de aprendizado profundo. Redes neurais recorrentes de memórias de curto prazo longas podem aprender tarefas de "Aprendizado Muito Profundo"[8] que envolvem intervalos de vários segundos contendo eventos de fala separados por milhares de passos de tempo discretos, onde um passo de tempo corresponde a cerca de 10 milissegundos. Memórias de curto prazo longas com portas de esquecimento[154] são competitivas com reconhecedores de fala tradicionais em certas tarefas.[92]

O sucesso inicial no reconhecimento de fala foi baseado em tarefas de reconhecimento em pequena escala baseadas no TIMIT. O conjunto de dados contém 630 falantes de oito dialetos principais do inglês americano, onde cada falante lê 10 frases.[176] Seu pequeno tamanho permite que muitas configurações sejam tentadas. Mais importante, a tarefa TIMIT diz respeito ao reconhecimento de sequência de fonemas, que, diferentemente do reconhecimento de sequência de palavras, permite modelos de linguagem de bigramas de fonemas fracos. Isso permite que a força dos aspectos de modelagem acústica do reconhecimento de fala seja mais facilmente analisada. As taxas de erro listadas abaixo, incluindo esses resultados iniciais e medidas como taxas de erro de fonemas percentuais (PER), foram resumidas desde 1991.

Método Taxa de erro de fonemas
percentual (PER) (%)
Randomly Initialized RNN[177] 26,1
Bayesian Triphone GMM-HMM 25,6
Hidden Trajectory (Generative) Model 24,8
Monophone Randomly Initialized DNN 23,4
Monophone DBN-DNN 22,4
Triphone GMM-HMM with BMMI Training 21,7
Monophone DBN-DNN on fbank 20,7
Convolutional DNN[178] 20,0
Convolutional DNN w. Heterogeneous Pooling 18,7
Ensemble DNN/CNN/RNN[179] 18,3
Bidirectional LSTM 17,8
Hierarchical Convolutional Deep Maxout Network[180] 16,5

A estreia das redes neurais profundas para reconhecimento de falantes no final da década de 1990 e do reconhecimento de fala por volta de 2009 a 2011 e da memória de curto prazo longa por volta de 2003 a 2007, acelerou o progresso em oito áreas principais:[22][107][105]

  • Treinamento e decodificação de rede neural profunda de aceleração e expansão vertical/horizontal
  • Treinamento discriminativo de sequência
  • Processamento de recursos por modelos profundos com sólida compreensão dos mecanismos subjacentes
  • Adaptação de redes neurais profundas e modelos profundos relacionados
  • Aprendizado multitarefa e de transferência por redes neurais profundas e modelos profundos relacionados
  • Redes neurais convolucionais e como projetá-las para melhor explorar o conhecimento de domínio da fala
  • Rede neural recorrente e suas ricas variantes de memória de curto prazo longa
  • Outros tipos de modelos profundos, incluindo modelos baseados em tensores e modelos discriminativos/generativos profundos integrados.

Todos os principais sistemas comerciais de reconhecimento de fala (por exemplo, Microsoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri, Baidu e pesquisa por voz da iFlyTek e uma variedade de produtos de fala da Nuance, etc.) são baseados em aprendizado profundo.[22][181][182]

Reconhecimento de imagens

Predefinição:Artigo principal Um conjunto de avaliação comum para classificação de imagens é o conjunto de dados do banco de dados do MNIST. O MNIST é composto de dígitos manuscritos e inclui 60.000 exemplos de treinamento e 10.000 exemplos de teste. Assim como o TIMIT, seu tamanho pequeno permite que os usuários testem várias configurações. Uma lista abrangente de resultados neste conjunto está disponível.[183]

O reconhecimento de imagens baseado em aprendizagem profunda se tornou "super-humano", produzindo resultados mais precisos do que concorrentes humanos. Isso ocorreu pela primeira vez em 2011 no reconhecimento de sinais de trânsito e, em 2014, com o reconhecimento de rostos humanos.[184][185]

Veículos treinados em aprendizado profundo agora interpretam visualizações de câmera de 360°.[186] Outro exemplo é a Análise de Novas Dismorfologias Faciais (FDNA), usada para analisar casos de malformações humanas conectados a um grande banco de dados de síndromes genéticas.

Processamento de artes visuais

Processamento de arte visual de Jimmy Wales na França, com o estilo de "O Grito" de Munch aplicado usando transferência de estilo neural

Estreitamente relacionada ao progresso que foi feito no reconhecimento de imagens está a aplicação crescente de técnicas de aprendizado profundo a várias tarefas de artes visuais. As redes neurais profundas provaram ser capazes, por exemplo, de

  • identificar o período de estilo de uma determinada pintura[187][188]
  • Transferência de estilo neural – capturar o estilo de uma determinada obra de arte e aplicá-lo de uma maneira visualmente agradável a uma fotografia ou vídeo arbitrário[187][188]
  • gerar imagens impressionantes com base em campos de entrada visual aleatórios.[187][188]

Processamento de linguagem natural

Predefinição:Artigo principal As redes neurais têm sido usadas para implementar modelos de linguagem desde o início dos anos 2000.[148] A memória de curto prazo longa ajudou a melhorar a tradução automática e a modelagem de linguagem.[149][150][151]

Outras técnicas-chave neste campo são a amostragem negativa[189] e a incorporação de palavras. A incorporação de palavras, como word2vec, pode ser considerada uma camada representacional em uma arquitetura de aprendizagem profunda que transforma uma palavra atômica em uma representação posicional da palavra em relação a outras palavras no conjunto de dados; a posição é representada como um ponto em um espaço vetorial. Usar a incorporação de palavras como uma camada de entrada da rede neural recorrente permite que a rede analise sentenças e frases usando uma gramática vetorial composicional eficaz. Uma gramática vetorial composicional pode ser considerada uma gramática livre de contexto probabilística (PCFG) implementada por uma rede neural recorrente.[190] Os autocodificadores recursivos construídos sobre incorporações de palavras podem avaliar a similaridade de sentenças e detectar paráfrases.[190] Arquiteturas neurais profundas fornecem os melhores resultados para análise de constituintes,[191] análise de sentimentos,[192] recuperação de informações,[193][194] compreensão de linguagem falada,[195] tradução automática,[149][196] vinculação de entidades contextuais,[196] reconhecimento de estilo de escrita,[197] reconhecimento de entidades nomeadas (classificação de tokens),[198] classificação de texto e outros.[199]

Desenvolvimentos recentes generalizam a incorporação de palavras para a incorporação de frases.

O Google Translate (GT) usa uma grande rede de memória de curto prazo longa (LSTM) de ponta a ponta.[200][201][202][203] A Google Neural Machine Translation (GNMT) usa um método de tradução automática baseada em exemplos no qual o sistema "aprende com milhões de exemplos".[201] Ela traduz "frases inteiras de uma vez, em vez de partes". O Google Translate oferece suporte a mais de cem idiomas.[201] A rede codifica a "semântica da frase em vez de simplesmente memorizar traduções frase a frase".[201][204] O Google Translate usa o inglês como intermediário entre a maioria dos pares de idiomas.[204]

Descoberta de medicamentos e toxicologia

Predefinição:Para Uma grande porcentagem de medicamentos candidatos não consegue obter aprovação regulatória. Essas falhas são causadas por eficácia insuficiente (efeito no alvo), interações indesejadas (efeitos fora do alvo) ou efeitos tóxicos imprevistos.[205][206] A pesquisa explorou o uso de aprendizagem profunda para prever os alvos biomoleculares,[207][208] alvos fora do alvo e efeitos tóxicos de produtos químicos ambientais em nutrientes, produtos domésticos e medicamentos.[209][210][211]

A AtomNet é um sistema de aprendizagem profunda para design de medicamentos racional baseado em estrutura.[212] A AtomNet foi usada para prever novas biomoléculas candidatas para alvos de doenças como o vírus Ebola[213] e esclerose múltipla.[214][213]

Em 2017, redes neurais de grafos foram usadas pela primeira vez para prever várias propriedades de moléculas em um grande conjunto de dados de toxicologia.[215] Em 2019, redes neurais generativas foram usadas para produzir moléculas que foram validadas experimentalmente em camundongos.[216][217]

Gestão de relacionamento com o cliente

Predefinição:Artigo principal A aprendizagem de reforço profunda tem sido usada para aproximar o valor de possíveis ações de marketing direto, definidas em termos de variáveis de recenticidade, frequência, e valor monetário (RFM). A função de valor estimado demonstrou ter uma interpretação natural como valor de vida útil do cliente.[218]

Sistemas de recomendações

Predefinição:Artigo principal Os sistemas de recomendações têm usado o aprendizagem profunda para extrair recursos significativos para um modelo de fator latente para recomendações de músicas e periódicos baseadas em conteúdo.[219][220] A aprendizagem profunda multivisualização foi aplicada para aprender as preferências dos usuários de vários domínios.[221] O modelo usa uma abordagem híbrida colaborativa e baseada em conteúdo e aprimora as recomendações em várias tarefas.

Bioinformática

Predefinição:Artigo principal Uma rede neural artificial autocodificadora foi usada em bioinformática para prever relações entre funções genéticas e anotações de ontologia genética.[222]

Na informática médica, a aprendizagem profunda foi usada para prever a qualidade do sono com base em dados de wearables[223] e previsões de complicações de saúde a partir de dados de registros de saúde eletrônicos.[224]

Redes neurais profundas têm mostrado desempenho incomparável na previsão de estruturas de proteínas, de acordo com a sequência dos aminoácidos que as compõem. Em 2020, a AlphaFold, um sistema baseado em aprendizagem profunda, atingiu um nível de precisão significativamente maior do que todos os métodos computacionais anteriores.[225][226]

Estimativas de redes neurais profundas

Redes neurais profundas podem ser usadas para estimar a entropia de um processo estocástico e chamadas de estimadora de entropia conjunta neural (NJEE).[227] Tal estimativa fornece percepções sobre os efeitos de variáveis aleatórias de entrada em uma variável aleatória independente. Praticamente, a rede neural profunda é treinada como uma classificadora que mapeia um vetor ou uma matriz X de entrada para uma distribuição de probabilidade de saída sobre as classes possíveis da variável aleatória Y, dada a entrada X. Por exemplo, em tarefas de classificação de imagens, a estimadora de entropia conjunta neural mapeia um vetor de valores de cores de pixels para probabilidades sobre possíveis classes de imagens. Na prática, a distribuição de probabilidade de Y é obtida por uma camada de Softmax com número de nós que é igual ao tamanho do alfabeto de Y. A estimadora de entropia conjunta neural usa funções de ativação continuamente diferenciáveis, de modo que as condições para o teorema de aproximação universal sejam mantidas. É mostrado que este método fornece uma estimadora consistente fortemente e supera outros métodos no caso de tamanhos de alfabetos grandes.[227]

Análise de imagens médicas

Foi demonstrado que a aprendizagem profunda produz resultados competitivos em aplicações médicas, como classificação de células cancerígenas, detecção de lesões, segmentação de órgãos e aprimoramento de imagens.[228][229] As ferramentas modernas de aprendizagem profunda demonstram a alta precisão na detecção de várias doenças e a utilidade de seu uso por especialistas para melhorar a eficiência do diagnóstico.[230][231]

Publicidade móvel

Encontrar o público móvel apropriado para publicidade móvel é sempre desafiador, pois muitos pontos de dados devem ser considerados e analisados ​​antes que um segmento alvo possa ser criado e usado na veiculação de anúncios por qualquer servidor de anúncios.[232] A aprendizagem profunda tem sido usada para interpretar grandes conjuntos de dados de publicidade multidimensionais. Muitos pontos de dados são coletados durante o ciclo de solicitação/veiculação/clique de publicidade na Internet. Essas informações podem formar a base do aprendizado de máquina para melhorar a seleção de anúncios.

Restauração de imagens

A aprendizagem profunda foi aplicada com sucesso a problemas inversos, como redução de ruído, super-resolução, pintura interna e colorização de filmes.[233] Essas aplicações incluem métodos de aprendizado como "campos de encolhimento para restauração eficaz de imagens"[234], que treina em um conjunto de dados de imagens, e Deep Image Prior, que treina na imagem que precisa de restauração.

Detecção de fraudes financeiras

A aprendizagem profunda está sendo aplicada com sucesso à detecção de fraudes financeiras, à detecção de evasão fiscal[235] e ao combate à lavagem de dinheiro.[236]

Ciência dos materiais

Em novembro de 2023, pesquisadores da Google DeepMind e do Lawrence Berkeley National Laboratory anunciaram que desenvolveram um sistema de IA conhecido como GNoME. Este sistema contribuiu para a ciência dos materiais ao descobrir mais de 2 milhões de novos materiais em um período de tempo relativamente curto. O GNoME emprega técnicas de aprendizagem profunda para explorar com eficiência potenciais estruturas de materiais, alcançando um aumento significativo na identificação de estruturas cristalinas inorgânicas estáveis. As previsões do sistema foram validadas por meio de experimentos robóticos autônomos, demonstrando uma notável taxa de sucesso de 71%. Os dados de materiais recém-descobertos estão disponíveis publicamente por meio do banco de dados do Materials Project, oferecendo aos pesquisadores a oportunidade de identificar materiais com propriedades desejadas para várias aplicações. Este desenvolvimento tem implicações para o futuro da descoberta científica e a integração da IA ​​na pesquisa de ciência dos materiais, potencialmente agilizando a inovação de materiais e reduzindo custos no desenvolvimento de produtos. O uso de IA e aprendizagem profunda sugere a possibilidade de minimizar ou eliminar experimentos manuais de laboratório e permitir que os cientistas se concentrem mais no design e na análise de compostos exclusivos.[237][238][239]

Militar

O Departamento de Defesa dos Estados Unidos aplicou o aprendizagem profunda para treinar robôs em novas tarefas por meio da observação.[240]

Equações diferenciais parciais

Redes neurais informadas por física têm sido usadas para resolver equações diferenciais parciais em problemas diretos e inversos de uma maneira orientada por dados.[241] Um exemplo é a reconstrução do fluxo de fluido governado pelas equações de Navier e Stokes. Usar redes neurais informadas por física não requer a geração de malha frequentemente cara da qual os métodos de fluidodinâmica computacional (CFD) convencionais dependem.[242][243]

Método de equação diferencial estocástica regressiva profundo

O método de equação diferencial estocástica regressiva profunda é um método numérico que combina aprendizagem profunda com equação diferencial estocástica regressiva (BSDE). Este método é particularmente útil para resolver problemas de alta dimensão em matemática financeira. Ao alavancar os poderosos recursos de aproximação de função de redes neurais profundas, a equação diferencial estocástica regressiva profunda aborda os desafios computacionais enfrentados por métodos numéricos tradicionais em configurações de altas dimensões. Especificamente, métodos tradicionais como métodos de diferença finita ou simulações de Monte Carlo frequentemente lutam com a maldição da dimensionalidade, onde o custo computacional aumenta exponencialmente com o número de dimensões. Os métodos de equação diferencial estocástica regressiva profunda, no entanto, empregam redes neurais profundas para aproximar soluções de equações diferenciais parciais (PDEs) de altas dimensões, reduzindo efetivamente a carga computacional.[244]


Além disso, a integração de redes neurais informadas por física (PINNs) na estrutura de equação diferencial estocástica regressiva profunda aumenta sua capacidade ao incorporar as leis físicas subjacentes diretamente na arquitetura da rede neural. Isso garante que as soluções não apenas se ajustem aos dados, mas também adiram às equações diferenciais estocásticas governantes. As redes neurais informadas por física alavancam o poder da aprendizagem profunda, respeitando as restrições impostas pelos modelos físicos, resultando em soluções mais precisas e confiáveis ​​para problemas de matemática financeira.

Reconstrução de imagens

A reconstrução de imagens é a reconstrução das imagens subjacentes a partir das medições relacionadas às imagens. Vários trabalhos mostraram o desempenho melhor e superior dos métodos de aprendizagem profunda em comparação aos métodos analíticos para várias aplicações, por exemplo, imagens espectrais [245] e imagens de ultrassom.[246]

Previsão do tempo

Os sistemas tradicionais de previsão do tempo resolvem um sistema muito complexo de equações diferenciais parciais. O GraphCast é um modelo baseado em aprendizagem profunda, treinado em um longo histórico de dados meteorológicos para prever como os padrões climáticos mudam ao longo do tempo. Ele é capaz de prever as condições climáticas por até 10 dias globalmente, em um nível muito detalhado e em menos de um minuto, com precisão semelhante aos sistemas de última geração.[247][248]

Relógio epigenético

Um relógio epigenético é um teste bioquímico que pode ser usado para medir a idade. Galkin et al. usaram redes neurais profundas para treinar um relógio de envelhecimento epigenético de precisão sem precedentes usando mais de 6.000 amostras de sangue.[249] O relógio usa informações de 1000 sítios CpG e prevê pessoas com certas condições mais velhas do que controles saudáveis: doença inflamatória intestinal (DII), demência frontotemporal, câncer ovariano, obesidade. O relógio de envelhecimento foi planejado para ser lançado para uso público em 2021 por uma empresa subproduto da Insilico Medicine, a Deep Longevity.

Relação com o desenvolvimento cerebral e cognitivo humano

A aprendizagem profunda está intimamente relacionado a uma classe de teorias de desenvolvimento cerebral (especificamente, desenvolvimento neocortical) propostas por neurocientistas cognitivos no início da década de 1990.[250][251][252][253] Essas teorias de desenvolvimento foram instanciadas em modelos computacionais, tornando-as predecessoras de sistemas de aprendizagem profunda. Esses modelos de desenvolvimento compartilham a propriedade de que várias dinâmicas de aprendizado propostas no cérebro (por exemplo, uma onda de fator de crescimento nervoso) suportam a auto-organização de forma um tanto análoga às redes neurais utilizadas em modelos de aprendizagem profunda. Como o neocórtex, as redes neurais empregam uma hierarquia de filtros em camadas em que cada camada considera informações de uma camada anterior (ou do ambiente operacional) e, em seguida, passa sua saída (e possivelmente a entrada original) para outras camadas. Esse processo produz uma pilha auto-organizada de transdutores, bem ajustada ao seu ambiente operacional. Uma descrição de 1995 declarou: "...o cérebro do bebê parece se organizar sob a influência de ondas dos chamados fatores tróficos... diferentes regiões do cérebro se conectam sequencialmente, com uma camada de tecido amadurecendo antes da outra e assim por diante até que todo o cérebro esteja maduro".[254]

Uma variedade de abordagens tem sido usada para investigar a plausibilidade de modelos de aprendizagem profunda de uma perspectiva neurobiológica. Por um lado, várias variantes do algoritmo de retropropagação foram propostas para aumentar seu realismo de processamento.[255][256] Outros pesquisadores argumentaram que formas não supervisionadas de aprendizagem profunda, como aquelas baseadas em modelos generativos hierárquicos e redes de crenças profundas, podem estar mais próximas da realidade biológica.[257][258] A esse respeito, modelos de rede neural generativa têm sido relacionados a evidências neurobiológicas sobre processamento baseado em amostragem no córtex cerebral.[259]

Embora uma comparação sistemática entre a organização do cérebro humano e a codificação neuronal em redes profundas ainda não tenha sido estabelecida, várias analogias foram relatadas. Por exemplo, as computações realizadas por unidades de aprendizagem profunda podem ser semelhantes às de neurônios reais[260] e populações neurais.[261] Da mesma forma, as representações desenvolvidas por modelos de aprendizagem profunda são semelhantes às medidas no sistema visual de primatas[262] tanto nos níveis de unidade única[263] quanto nos níveis de população.[264]

Atividade comercial

O laboratório de IA do Facebook realiza tarefas como marcar automaticamente fotos carregadas com os nomes das pessoas nelas.[265]

A DeepMind Technologies do Google desenvolveu um sistema capaz de aprender a jogar videogames Atari usando apenas pixels como entrada de dados. Em 2015, eles demonstraram seu sistema AlphaGo, que aprendeu o jogo Go bem o suficiente para vencer um jogador profissional de Go.[266][267][268] O Google Translate usa uma rede neural para traduzir entre mais de 100 idiomas.

Em 2017, foi lançado o Covariant.ai, que se concentra na integração da aprendizagem profunda em fábricas.[269]

Em 2008,[270] pesquisadores da Universidade do Texas em Austin (UT) desenvolveram uma estrutura de aprendizado de máquina chamada Treinando um Agente Manualmente via Reforço Avaliativo, ou TAMER, que propôs novos métodos para robôs ou programas de computador aprenderem a executar tarefas interagindo com um instrutor humano.[240] Desenvolvido inicialmente como TAMER, um novo algoritmo chamado Deep TAMER foi posteriormente introduzido em 2018 durante uma colaboração entre o Laboratório de Pesquisa do Exército dos EUA (ARL) e pesquisadores da UT. O Deep TAMER usou a aprendizagem profunda para fornecer a um robô a capacidade de aprender novas tarefas por meio da observação.[240] Usando o Deep TAMER, um robô aprendeu uma tarefa com um treinador humano, assistindo a transmissões de vídeo ou observando um humano executar uma tarefa pessoalmente. O robô posteriormente praticou a tarefa com a ajuda de algum treinamento do treinador, que forneceu feedback como "bom trabalho" e "trabalho ruim".[271]

Críticas e comentários

A aprendizagem profunda atraiu críticas e comentários, em alguns casos de fora do campo da ciência da computação.

Teoria

Predefinição:VT Uma crítica principal diz respeito à falta de teoria em torno de alguns métodos.[272] A aprendizagem nas arquiteturas profundas mais comuns é implementada usando a descida de gradiente bem compreendida. No entanto, a teoria em torno de outros algoritmos, como a divergência contrastiva, é menos clara. (por exemplo, Converge? Se sim, quão rápido? O que está se aproximando?) Os métodos de aprendizagem profunda são frequentemente vistos como uma caixa-preta, com a maioria das confirmações feitas empiricamente, em vez de teoricamente.[273]

Em referência adicional à ideia de que a sensibilidade artística pode ser inerente a níveis relativamente baixos da hierarquia cognitiva, uma série publicada de representações gráficas dos estados internos de redes neurais profundas (20-30 camadas) tentando discernir dentro de dados essencialmente aleatórios as imagens nas quais foram treinadas[274] demonstra um apelo visual: o aviso de pesquisa original recebeu bem mais de 1.000 comentários e foi o assunto do que foi por um tempo o artigo mais acessado no site do The Guardian.[275]

Erros

Algumas arquiteturas de aprendizagem profunda apresentam comportamentos problemáticos,[276] como classificar com segurança imagens irreconhecíveis como pertencentes a uma categoria familiar de imagens comuns (2014)[277] e classificar incorretamente perturbações minúsculas de imagens classificadas corretamente (2013).[278] Goertzel levantou a hipótese de que esses comportamentos são devidos a limitações em suas representações internas e que essas limitações inibiriam a integração em arquiteturas heterogêneas de inteligência artificial geral (AGI) multicomponente.[276] Essas questões podem ser possivelmente abordadas por arquiteturas de aprendizagem profunda que formam internamente estados homólogos às decomposições de gramática de imagem[279] de entidades e eventos observados.[276] Aprender uma gramática (visual ou linguística) a partir de dados de treinamento seria equivalente a restringir o sistema ao raciocínio de senso comum que opera em conceitos em termos de regras de produção gramatical e é um objetivo básico tanto da aquisição da linguagem humana[280] quanto da inteligência artificial (IA).[281]

Ameaça cibernética

À medida que a aprendizagem profunda sai do laboratório para o mundo, pesquisas e experiências mostram que redes neurais artificiais são vulneráveis ​​a hacks e enganos.[282] Ao identificar os padrões que esses sistemas usam para funcionar, os invasores podem modificar entradas para as redes neurais artificiais de tal forma que a rede neural artificial encontre uma correspondência que observadores humanos não reconheceriam. Por exemplo, um invasor pode fazer mudanças sutis em uma imagem de tal forma que a rede neural artificial encontre uma correspondência, mesmo que a imagem não pareça nada com o alvo da pesquisa para um humano. Tal manipulação é denominada "ataque adversário".[283]

Em 2016, pesquisadores usaram uma rede neural artificial para manipular imagens por tentativa e erro, identificar os pontos focais de outra e, assim, gerar imagens que a enganassem. As imagens modificadas não pareciam diferentes aos olhos humanos. Outro grupo mostrou que impressões de imagens manipuladas e depois fotografadas enganaram com sucesso um sistema de classificação de imagens.[284] Uma defesa é a busca reversa de imagens, na qual uma possível imagem falsa é enviada a um site como o TinEye, que pode então encontrar outras instâncias dela. Um refinamento é pesquisar usando apenas partes da imagem, para identificar imagens das quais aquela parte pode ter sido retirada.[285]

Outro grupo mostrou que certos espetáculos psicodélicos poderiam enganar um sistema de reconhecimento facial, fazendo-o pensar que pessoas comuns eram celebridades, potencialmente permitindo que uma pessoa se passasse por outra. Em 2017, pesquisadores adicionaram adesivos a placas de pare e fizeram com que uma rede neural artificial as classificasse incorretamente.[284]

As redes neurais artificiais podem, no entanto, ser mais treinadas para detectar tentativas de engano, potencialmente levando atacantes e defensores a uma corrida armamentista semelhante ao tipo que já define a indústria de defesa contra malware. As redes neurais artificiais foram treinadas para derrotar software antimalware baseado em rede neural artificial, atacando repetidamente uma defesa com malware que foi continuamente alterado por um algoritmo genético até enganar o antimalware, mantendo sua capacidade de danificar o alvo.[284]

Em 2016, outro grupo demonstrou que certos sons poderiam fazer o sistema de comando de voz do Google Now abrir um endereço da web específico e levantou a hipótese de que isso poderia "servir como um trampolim para novos ataques (por exemplo, abrir uma página da web que hospeda malware drive-by)".[284]

No "envenenamento de dados", dados falsos são continuamente contrabandeados para o conjunto de treinamento de um sistema de aprendizado de máquina para evitar que ele alcance a maestria.[284]

Ética na coleta de dados

Os sistemas de aprendizagem profunda que são treinados usando aprendizagem supervisionada geralmente dependem de dados criados e/ou anotados por humanos.[286] Foi argumentado que não apenas o trabalho de clique mal pago (como no Amazon Mechanical Turk) é regularmente implantado para esse propósito, mas também formas implícitas de microtrabalho humano que muitas vezes não são reconhecidas como tal.[287] O filósofo Rainer Mühlhoff distingue cinco tipos de "captura maquínica" do microtrabalho humano para gerar dados de treinamento: (1) gamificação (a incorporação de tarefas de anotação ou computação no fluxo de um jogo), (2) "captura e rastreamento" (por exemplo, CAPTCHAs para reconhecimento de imagem ou rastreamento de cliques nas páginas de resultados de pesquisas do Google), (3) exploração de motivações sociais (por exemplo, marcar rostos no Facebook para obter imagens faciais rotuladas), (4) mineração de informações (por exemplo, alavancando dispositivos de autoquantificação, como rastreadores de atividade) e (5) trabalho de clique.[287]

Ver também

Predefinição:Referências

Leitura adicional

Predefinição:InícioRef

Predefinição:-fim

Predefinição:Inteligência artificial Predefinição:Controle de autoridade

  1. 1,0 1,1 Predefinição:Cite journal
  2. 2,0 2,1 Predefinição:Cite book
  3. 3,0 3,1 Predefinição:Cite journal
  4. Predefinição:Cite web
  5. Predefinição:Cite web
  6. 6,0 6,1 6,2 6,3 Predefinição:Cite journal
  7. 7,0 7,1 7,2 7,3 7,4 Predefinição:Cite journal
  8. 8,0 8,1 8,2 8,3 8,4 8,5 8,6 8,7 Predefinição:Cite journal
  9. Predefinição:Cite book
  10. Predefinição:Cite conference
  11. 11,0 11,1 Predefinição:Cite journal
  12. Rina Dechter (1986). Learning while searching in constraint-satisfaction problems (em inglês). University of California, Computer Science Department, Cognitive Systems Laboratory.Online Predefinição:Webarchive
  13. Predefinição:Cite book
  14. Co-evolving recurrent neurons learn deep memory POMDPs (em inglês). Proc. GECCO, Washington, D. C., pp. 1795–1802, ACM Press, New York, NY, USA, 2005.
  15. Predefinição:Cite journal
  16. 16,0 16,1 16,2 Predefinição:Cite journal
  17. 17,0 17,1 17,2 Predefinição:Cite journal
  18. 18,0 18,1 Predefinição:Cite book
  19. 19,0 19,1 Predefinição:Cite book
  20. 20,0 20,1 Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width (em inglês) Predefinição:Webarchive. Neural Information Processing Systems, 6231-6239.
  21. Predefinição:Cite journal
  22. 22,0 22,1 22,2 22,3 22,4 Predefinição:Cite journal
  23. 23,0 23,1 23,2 23,3 Predefinição:Cite book
  24. 24,0 24,1 Predefinição:Cite journal
  25. Predefinição:Cite journal
  26. Predefinição:Cite book
  27. 27,0 27,1 Predefinição:Cite web
  28. Predefinição:Cite journal
  29. 29,0 29,1 Predefinição:Cite journal
  30. 30,0 30,1 30,2 30,3 30,4 30,5 30,6 Predefinição:Cite arXiv
  31. Predefinição:Cite journal
  32. Predefinição:Cite book
  33. Predefinição:Cite journal
  34. Predefinição:Cite journal
  35. Predefinição:Cite journal
  36. 36,0 36,1 Predefinição:Cite book
  37. Predefinição:Cite book
  38. Predefinição:Cite book
  39. Predefinição:Cite journal
  40. 40,0 40,1 Predefinição:Cite journal
  41. Predefinição:Cite journal
  42. Predefinição:Cite journal
  43. Predefinição:Cite arXiv
  44. Predefinição:Cite journal
  45. Predefinição:Cite journal
  46. Predefinição:Cite book
  47. Predefinição:Cite journal
  48. Predefinição:Cite thesis
  49. Predefinição:Cite journal
  50. Ostrovski, G.M., Volin,Y.M., and Boris, W.W. (1971). On the computation of derivatives (em inglês). Wiss. Z. Tech. Hochschule for Chemistry, 13:382–384.
  51. 51,0 51,1 Predefinição:Cite web
  52. Predefinição:Cite book
  53. Predefinição:Cite book
  54. Predefinição:Cite journal
  55. Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation (em inglês ) Predefinição:Webarchive". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition (em inglês), Volume 1: Foundation. MIT Press, 1986.
  56. Predefinição:Cite conference
  57. Alexander Waibel et al., Phoneme Recognition Using Time-Delay Neural Networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. – 339 03-1989.
  58. Predefinição:Cite journal
  59. LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition", Neural Computation, 1, pp. 541–551, 1989.
  60. Predefinição:Cite journal
  61. Predefinição:Cite journal
  62. Predefinição:Cite journal
  63. Predefinição:Cite journal
  64. Predefinição:Cite journal
  65. Predefinição:Cite journal
  66. 66,0 66,1 66,2 Predefinição:Cite journal
  67. 67,0 67,1 Predefinição:Cite journal
  68. Predefinição:Cite book As páginas 150 e seguintes demonstram a atribuição de crédito em um equivalente a 1.200 camadas em uma rede neural recorrente desdobrada.
  69. 69,0 69,1 69,2 S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen". Predefinição:Webarchive. Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.
  70. Predefinição:Cite book
  71. Predefinição:Cite Q
  72. Predefinição:Cite book
  73. 73,0 73,1 Predefinição:Cite conference
  74. Predefinição:Cite journal
  75. 75,0 75,1 Predefinição:Cite journal
  76. Predefinição:Cite journal
  77. Predefinição:Cite book
  78. Predefinição:Cite journal Predefinição:Acesso fechado
  79. Predefinição:Cite journal
  80. Predefinição:Cite book
  81. Predefinição:Cite journal
  82. Predefinição:Cite journal
  83. Predefinição:Cite journal
  84. Predefinição:Cite journal
  85. Predefinição:Cite journal
  86. Predefinição:Cite web
  87. Predefinição:Cite journal
  88. Predefinição:Cite journal
  89. 89,0 89,1 Predefinição:Cite journal
  90. L.P Heck and R. Teunen. "Secure and Convenient Transactions with Nuance Verifier". Nuance Users Conference, April 1998.
  91. Predefinição:Cite web
  92. 92,0 92,1 Predefinição:Cite web
  93. Predefinição:Cite journal
  94. Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting Predefinição:Webarchive. Proceedings of ICANN (2), pp. 220–229.
  95. Graves, Alex; & Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552
  96. Predefinição:Cite journal
  97. Predefinição:Cite journal
  98. G. E. Hinton., "Learning multiple layers of representation". Predefinição:Webarchive. Trends in Cognitive Sciences, 11, pp. 428–434, 2007.
  99. Predefinição:Cite journal
  100. Predefinição:Cite journal
  101. Predefinição:Cite journal
  102. Yann LeCun (2016). Slides on Deep Learning Online Predefinição:Webarchive
  103. 103,0 103,1 103,2 Predefinição:Cite journal
  104. 104,0 104,1 104,2 Predefinição:Cite web
  105. 105,0 105,1 105,2 Predefinição:Cite book
  106. Predefinição:Cite web
  107. 107,0 107,1 Predefinição:Cite web
  108. Predefinição:Cite journal
  109. Predefinição:Cite book
  110. Predefinição:Cite journal
  111. 111,0 111,1 Predefinição:Cite journal
  112. 112,0 112,1 Predefinição:Citation
  113. Predefinição:Cite arXiv
  114. Predefinição:Cite book
  115. Predefinição:Cite journal
  116. Predefinição:Cite journal
  117. Predefinição:Cite book
  118. Predefinição:Cite book
  119. Predefinição:Cite arXiv
  120. Predefinição:Cite arXiv
  121. Predefinição:Cite journal
  122. Predefinição:Cite arXiv.
  123. Predefinição:Cite arXiv.
  124. Predefinição:Cite arXiv
  125. Predefinição:Citation
  126. Predefinição:Cite arXiv
  127. Predefinição:Cite conference
  128. Predefinição:Cite conference
  129. Predefinição:Cite arXiv
  130. Predefinição:Cite conference
  131. Predefinição:Cite web
  132. Predefinição:Cite arXiv
  133. Predefinição:Cite web
  134. Predefinição:Cite journal
  135. Google Research Blog. The neural networks behind Google Voice transcription. 11-08-2015. By Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html
  136. 136,0 136,1 Predefinição:Cite web
  137. Predefinição:Cite book
  138. Predefinição:Cite web
  139. Predefinição:Cite arXiv
  140. Predefinição:Cite web
  141. Predefinição:Cite web
  142. Predefinição:Cite journal
  143. Predefinição:Citation
  144. 144,0 144,1 Predefinição:Cite journal
  145. Predefinição:Cite journal
  146. Predefinição:Cite conference
  147. Predefinição:Cite news
  148. 148,0 148,1 Predefinição:Cite journal
  149. 149,0 149,1 149,2 Predefinição:Cite journal
  150. 150,0 150,1 Predefinição:Cite arXiv
  151. 151,0 151,1 Predefinição:Cite arXiv
  152. Predefinição:Cite journal
  153. Predefinição:Cite journal
  154. 154,0 154,1 Predefinição:Cite web
  155. Predefinição:Cite journal
  156. Predefinição:Cite book
  157. Predefinição:Cite book
  158. Predefinição:Cite journal
  159. Predefinição:Cite journal
  160. Predefinição:Cite web
  161. Predefinição:Cite journal
  162. Predefinição:Cite book
  163. Predefinição:Cite journal
  164. Ting Qin, et al. "A learning algorithm of CMAC based on RLS" (em inglês). Neural Processing Letters 19.1 (2004): 49-61.
  165. Ting Qin, et al. "Continuous CMAC-QRLS and its systolic array" (em inglês). Predefinição:Webarchive. Neural Processing Letters 22.1 (2005): 1-16.
  166. Predefinição:Cite web
  167. Predefinição:Cite news
  168. Predefinição:Cite news
  169. Predefinição:Cite web
  170. Predefinição:Cite web
  171. Predefinição:Cite journal
  172. Predefinição:Cite web
  173. Predefinição:Cite web
  174. Predefinição:Cite journal
  175. 175,0 175,1 175,2 Predefinição:Cite journal
  176. Predefinição:Cite book
  177. Predefinição:Cite journal
  178. Predefinição:Cite journal
  179. Predefinição:Cite journal
  180. Predefinição:Cite journal
  181. Predefinição:Cite magazine
  182. Predefinição:Cite arXiv
  183. Predefinição:Cite web
  184. Predefinição:Cite journal
  185. Predefinição:Cite arXiv
  186. Nvidia Demos a Car Computer Trained with "Deep Learning" (06-01-2015), David Talbot, MIT Technology Review
  187. 187,0 187,1 187,2 Predefinição:Cite journal
  188. 188,0 188,1 188,2 Predefinição:Cite journal
  189. Predefinição:Cite arXiv
  190. 190,0 190,1 Predefinição:Cite web
  191. Predefinição:Cite journal
  192. Predefinição:Cite book
  193. Predefinição:Cite journal
  194. Predefinição:Cite journal
  195. Predefinição:Cite journal
  196. 196,0 196,1 Predefinição:Cite journal
  197. Predefinição:Cite journal
  198. Predefinição:Cite journal
  199. Predefinição:Cite news
  200. Predefinição:Cite web
  201. 201,0 201,1 201,2 201,3 Predefinição:Cite web
  202. Predefinição:Cite arXiv
  203. Predefinição:Cite magazine
  204. 204,0 204,1 Predefinição:Cite web
  205. Predefinição:Cite journal
  206. Predefinição:Cite journal
  207. Predefinição:Cite web
  208. Predefinição:Cite web
  209. "Toxicology in the 21st century Data Challenge"
  210. Predefinição:Cite web
  211. Predefinição:Cite web
  212. Predefinição:Cite arXiv
  213. 213,0 213,1 Predefinição:Cite news
  214. Predefinição:Cite web
  215. Predefinição:Cite arXiv
  216. Predefinição:Cite journal
  217. Predefinição:Cite magazine
  218. Predefinição:Cite arXiv
  219. Predefinição:Cite book
  220. Predefinição:Cite journal
  221. Predefinição:Cite journal
  222. Predefinição:Cite book
  223. Predefinição:Cite journal
  224. Predefinição:Cite journal
  225. Predefinição:Cite web
  226. Predefinição:Cite web
  227. 227,0 227,1 Predefinição:Cite journal
  228. Predefinição:Cite journal
  229. Predefinição:Cite book
  230. Predefinição:Cite journal
  231. Predefinição:Cite journal
  232. Predefinição:Cite book
  233. Predefinição:Cite news
  234. Predefinição:Cite conference
  235. Predefinição:Cite journal
  236. Predefinição:Cite journal
  237. Predefinição:Cite web
  238. Predefinição:Cite journal
  239. Predefinição:Cite journal
  240. 240,0 240,1 240,2 Predefinição:Cite web
  241. Predefinição:Cite journal
  242. Predefinição:Cite journal
  243. Predefinição:Cite journal
  244. Predefinição:Cite journal
  245. Predefinição:Cite journal
  246. Predefinição:Cite journal
  247. Predefinição:Cite journal
  248. Predefinição:Cite web
  249. Predefinição:Cite journal
  250. Predefinição:Cite journal
  251. Predefinição:Cite book
  252. Predefinição:Cite journal
  253. Predefinição:Cite journal
  254. S. Blakeslee, "In brain's early growth, timetable may be critical" (em inglês), The New York Times, Science Section, pp. B5–B6, 1995.
  255. Predefinição:Cite journal
  256. Predefinição:Cite journal
  257. Predefinição:Cite journal
  258. Predefinição:Cite journal
  259. Predefinição:Cite journal
  260. Predefinição:Cite journal
  261. Predefinição:Cite journal
  262. Predefinição:Cite journal
  263. Predefinição:Cite journal
  264. Predefinição:Cite journal
  265. Predefinição:Cite magazine
  266. Predefinição:Cite journal
  267. Predefinição:Cite journalPredefinição:Acesso fechado
  268. Predefinição:Cite web
  269. Predefinição:Cite news
  270. Predefinição:Cite book
  271. Predefinição:Cite web
  272. Predefinição:Cite web
  273. Predefinição:Cite web
  274. Predefinição:Cite web
  275. Predefinição:Cite news
  276. 276,0 276,1 276,2 Predefinição:Cite web
  277. Predefinição:Cite arXiv
  278. Predefinição:Cite arXiv
  279. Predefinição:Cite journal
  280. Miller, G. A., and N. Chomsky. "Pattern conception" (em inglês). Paper for Conference on pattern detection, University of Michigan. 1957.
  281. Predefinição:Cite web
  282. Predefinição:Cite web
  283. Predefinição:Cite web
  284. 284,0 284,1 284,2 284,3 284,4 Predefinição:Cite news
  285. Predefinição:Cite journal
  286. Predefinição:Cite journal
  287. 287,0 287,1 Predefinição:Cite journal