Aprendizagem profunda
Predefinição:Descrição curta A aprendizagem profunda é um subconjunto do aprendizado de máquina que se concentra na utilização de redes neurais para executar tarefas como classificação, regressão e aprendizagem de representação. O campo se inspira na neurociência biológica e é centrado em empilhar neurônios artificiais em camadas e "treiná-los" para processar dados. O adjetivo "profunda" se refere ao uso de múltiplas camadas (variando de três a várias centenas ou milhares) na rede. Os métodos usados podem ser supervisionados, semissupervisionados ou não serem supervisionados.[1]
Algumas arquiteturas comuns de redes de aprendizagem profunds incluem redes totalmente conectadas, redes de crenças profundas, redes neurais recorrentes, redes neurais convolucionais, redes adversárias generativas, transformadoras e campos de radiância neural. Essas arquiteturas foram aplicadas a campos como visão computacional, reconhecimento de fala, processamento de linguagem natural, tradução automática, bioinformática, design de medicamentos, análise de imagens médicas, ciência do clima, inspeção de materiais e programas de jogos de tabuleiro, onde produziram resultados comparáveis e, em alguns casos, superando o desempenho de especialistas humanos.[2][3][4]
As primeiras formas de redes neurais foram inspiradas pelo processamento de informações e nós de comunicação distribuídos em sistemas biológicos, particularmente o cérebro humano. No entanto, as redes neurais atuais não pretendem modelar a função cerebral dos organismos e são geralmente vistas como modelos de baixa qualidade para esse propósito.[5] Predefinição:TDC limitada
Visão geral
A maioria dos modelos modernos de aprendizagem profunda são baseados em redes neurais multicamadas, como redes neurais convolucionais e transformadoras, embora também possam incluir fórmulas proposicionais ou variáveis latentes organizadas em camadas em modelos generativos profundos, como os nós em redes de crenças profundas e máquinas de Boltzmann profundas.[6]
Fundamentalmente, a aprendizagem profunda se refere a uma classe de algoritmos de aprendizado de máquina em que uma hierarquia de camadas é usada para transformar dados de entrada em uma representação progressivamente mais abstrata e composta. Por exemplo, em um modelo de reconhecimento de imagem, a entrada bruta pode ser uma imagem (representada como um tensor de pixels). A primeira camada representacional pode tentar identificar formas básicas, como linhas e círculos, a segunda camada pode compor e codificar arranjos de bordas, a terceira camada pode codificar um nariz e olhos, e a quarta camada pode reconhecer que a imagem contém um rosto.
É importante ressaltar que um processo de aprendizagem profunda pode aprender quais recursos posicionar de forma ideal em qual nível por conta própria. Antes da aprendizagem profunda, as técnicas de aprendizado de máquina frequentemente envolviam engenharia de recursos feita à mão para transformar os dados em uma representação mais adequada para um algoritmo de classificação operar. Na abordagem de aprendizagem profunda, os recursos não são feitos à mão e o modelo descobre representações úteis de recursos a partir dos dados automaticamente. Isso não elimina a necessidade de ajuste manual; por exemplo, números variados de camadas e tamanhos de camadas podem fornecer diferentes graus de abstração.[7][1]
A palavra "profunda" em "aprendizagem profunda" se refere ao número de camadas através das quais os dados são transformados. Mais precisamente, os sistemas de aprendizagem profunda têm uma profundidade substancial de caminho de atribuição de crédito (CAP). O caminho de atribuição de crédito é a sequência de transformações de entrada para saída. Os caminhos de atribuição de crédito descrevem conexões potencialmente causais entre entrada e saída. Para uma rede neural feedforward, a profundidade dos caminhos de atribuição de crédito é a da rede e é o número de camadas ocultas mais uma (já que a camada de saída também é parametrizada). Para redes neurais recorrentes, nas quais um sinal pode se propagar através de uma camada mais de uma vez, a profundidade do caminho de atribuição de crédito é potencialmente ilimitada.[8] Nenhum limite universalmente acordado de profundidade divide a aprendizagem superficial da aprendizagem profunda, mas a maioria dos pesquisadores concorda que a aprendizagem profunda envolve profundidade de caminho de atribuição de crédito maior que dois. O caminho de atribuição de crédito de profundidade dois demonstrou ser um aproximador universal no sentido de que pode emular qualquer função.[9] Além disso, mais camadas não aumentam a capacidade de aproximação de função da rede. Modelos profundos (caminho de atribuição de crédito maior que dois) conseguem extrair melhores características do que modelos superficiais e, portanto, camadas extras ajudam a aprender as características de forma eficaz.
Arquiteturas de aprendizagem profunda podem ser construídas com um método ganancioso camada por camada.[10] A aprendizagem profunda ajuda a desembaraçar essas abstrações e escolher quais recursos melhoram o desempenho.[7]
Algoritmos de aprendizagem profunda podem ser aplicados a tarefas de aprendizado que não são supervisionadas. Este é um benefício importante porque dados que não são rotulados são mais abundantes do que os dados rotulados. Exemplos de estruturas profundas que podem ser treinadas de maneira que não é supervisionada são redes de crenças profundas.[7][11]
O termo aprendizagem profunda foi introduzido na comunidade de aprendizado de máquina por Rina Dechter em 1986,[12] e nas redes neurais artificiais por Igor Aizenberg e colegas em 2000, no contexto de neurônios de limiar booleano.[13][14] Embora a história de seu surgimento seja aparentemente mais complicada.[15]
Interpretações
Redes neurais profundas são geralmente interpretadas em termos do teorema da aproximação universal[16][17][18][19][20] ou da inferência probabilística.[21][22][7][8][23]
O teorema clássico da aproximação universal diz respeito à capacidade das redes neurais feedforward com uma única camada oculta de tamanho finito para aproximar funções contínuas.[16][17][18][19] Em 1989, a primeira prova foi publicada por George Cybenko para funções de ativação sigmoides[16] e foi generalizada para arquiteturas multicamadas feed-forward em 1991 por Kurt Hornik.[17] Trabalhos recentes também mostraram que a aproximação universal também é válida para funções de ativação que não são limitadas, como a unidade linear retificada (ReLU) de Kunihiko Fukushima.[24][25]
O teorema da aproximação universal para redes neurais profundas diz respeito à capacidade de redes com largura limitada, mas a profundidade pode crescer. Lu et al.[20] provaram que se a largura de uma rede neural profunda com ativação de unidade linear retificada (ReLU) for estritamente maior do que a dimensão de entrada, então a rede pode aproximar qualquer função integrável de Lebesgue; se a largura for menor ou igual à dimensão de entrada, então uma rede neural profunda não é um aproximador universal.
A interpretação probabilística[23] deriva do campo do aprendizado de máquina. Ela apresenta inferência,[22][6][7][8][11][23] bem como os conceitos de otimização de treinamento e teste, relacionados ao ajuste e generalização, respectivamente. Mais especificamente, a interpretação probabilística considera a não linearidade de ativação como uma função de distribuição cumulativa.[23] A interpretação probabilística levou à introdução do abandono (dropout) ou da diluição como regularizador em redes neurais. A interpretação probabilística foi introduzida por pesquisadores como Hopfield, Widrow, e Narendra e popularizada em pesquisas como a de Bishop.[26]
História
Antes de 1980
Existem dois tipos de redes neurais artificiais (ANNs): redes neurais feedforward (FNNs) ou perceptrons multicamadas (MLPs) e redes neurais recorrentes (RNNs). As redes neurais recorrentes têm ciclos em suas estruturas de conectividade, as redes neurais feedforward não. Na década de 1920, Wilhelm Lenz e Ernst Ising criaram o modelo de Ising[27][28] que é essencialmente uma arquitetura de rede neural recorrente que não é de aprendizagem consistindo de elementos de limiar semelhantes a neurônios. Em 1972, Shun'ichi Amari tornou essa arquitetura adaptável.[29][30] Sua rede neural recorrente de aprendizagem foi republicada por John Hopfield em 1982.[31] Outras redes neurais recorrentes anteriores foram publicadas por Kaoru Nakano em 1971.[32][33] Já em 1948, Alan Turing produziu um trabalho sobre "Maquinário Inteligente" que não foi publicado em sua vida,[34] contendo "ideias relacionadas a redes neurais recorrentes de aprendizagem e evolução artificiais".[30]
Frank Rosenblatt (1958)[35] propôs a perceptron, uma perceptron multicamadas com 3 camadas: uma camada de entrada, uma camada oculta com pesos aleatórios que não aprendiam e uma camada de saída. Mais tarde, ele publicou um livro em 1962 que também introduziu experimentos de computador e variantes, incluindo uma versão com perceptrons de quatro camadas "com redes pré-terminais adaptativas" onde as duas últimas camadas aprenderam pesos (aqui ele dá créditos a H. D. Block e B. W. Knight).[36]Predefinição:Rp O livro cita uma rede anterior de R. D. Joseph (1960)[37] "funcionalmente equivalente a uma variação" deste sistema de quatro camadas (o livro menciona Joseph mais de 30 vezes). Joseph deve, portanto, ser considerado o criador das perceptrons multicamadas adaptativas com unidades ocultas de aprendizagem próprias? Infelizmente, o algoritmo de aprendizagem não era funcional e caiu no esquecimento.
O primeiro algoritmo de aprendizagem profunda funcional foi o método de manipulação de dados de grupo, um método para treinar redes neurais profundas arbitrariamente, publicado por Alexey Ivakhnenko e Lapa em 1965. Eles o consideraram uma forma de regressão polinomial,[38] ou uma generalização da perceptron de Rosenblatt.[39] Um artigo de 1971 descreveu uma rede profunda com oito camadas treinada por este método,[40] que é baseado no treinamento de camada por camada por meio de análise de regressão. Unidades ocultas supérfluas são podadas usando um conjunto de validação separado. Como as funções de ativação dos nós são polinômios de Kolmogorov e Gabor, essas também foram as primeiras redes profundas com "portas" ou unidades multiplicativas.[30]
A primeira perceptron multicamadas de aprendizagem profunda treinada por descida de gradiente estocástica[41] foi publicada em 1967 por Shun'ichi Amari.[42] Em experimentos de computador conduzidos pelo aluno de Amari, Saito, uma perceptron multicamadas de cinco camadas com duas camadas modificáveis aprendeu representações internas para classificar classes de padrões que não são separáveis linearmente.[30] Desenvolvimentos subsequentes em ajustes de hiperparâmetros e hardware fizeram da descida de gradiente estocástica de ponta a ponta a técnica de treinamento dominante atualmente.
Em 1969, Kunihiko Fukushima introduziu a função de ativação de ReLU (unidade linear retificada).[24][30] A retificadora se tornou a função de ativação mais popular para aprendizagem profunda.[43]
As arquiteturas de aprendizagem profunda para redes neurais convolucionais (CNNs) com camadas convolucionais e camadas de redução de amostragem começaram com a Neocognitron introduzida por Kunihiko Fukushima em 1979, embora não ter sido treinada por retropropagação.[44][45]
A retropropagação é uma aplicação eficiente da regra sequencial derivada por Gottfried Wilhelm Leibniz em 1673[46] para redes de nós diferenciáveis. A terminologia "erros de retropropagação" foi realmente introduzida em 1962 por Rosenblatt,[36] mas ele não sabia como implementar isso, embora Henry J. Kelley tivesse um precursor contínuo da retropropagação em 1960 no contexto da teoria de controle.[47] A forma moderna de retropropagação foi publicada pela primeira vez na tese de mestrado de Seppo Linnainmaa (1970).[48][49][30] G.M. Ostrovski et al. republicaram em 1971.[50][51] Paul Werbos aplicou a retropropagação às redes neurais em 1982[52] (sua tese de doutorado de 1974, reimpressa em um livro de 1994,[53] ainda não descreveu o algoritmo[51]). Em 1986, David E. Rumelhart et al. popularizaram a retropropagação, mas não citaram o trabalho original.[54][55]
Décadas de 1980 a 2000
A rede neural de atraso de tempo (TDNN) foi introduzida em 1987 por Alex Waibel para aplicar rede neural convolucional ao reconhecimento de fonemas. Ela usava convoluções, compartilhamento de peso e retropropagação.[56][57] Em 1988, Wei Zhang aplicou uma rede neural convolucional treinada em retropropagação ao reconhecimento de alfabeto.[58] Em 1989, Yann LeCun et al. criaram uma rede neural convolucional chamada LeNet para reconhecer códigos postais manuscritos em correspondências. O treinamento levou 3 dias.[59] Em 1990, Wei Zhang implementou uma rede neural convolucional em hardware de computação óptica.[60] Em 1991, uma rede neural convolucional foi aplicada à segmentação de objetos de imagens médicas[61] e à detecção de câncer de mama em mamografias.[62] A LeNet-5 (1998), uma rede neural convolucional de 7 níveis de Yann LeCun et al., que classifica dígitos, foi aplicada por vários bancos para reconhecer números manuscritos em cheques digitalizados em imagens de 32x32 pixels.[63]
As redes neurais recorrentes (RNNs)[27][29] foram desenvolvidas ainda mais na década de 1980. A recorrência é usada para processamento de sequências e, quando uma rede recorrente é desenrolada, ela se assemelha matematicamente a uma camada de feedforward profunda. Consequentemente, elas têm propriedades e problemas semelhantes, e seus desenvolvimentos tiveram influências mútuas. Em redes neurais recorrentes, dois primeiros trabalhos influentes foram a rede de Jordan (1986)[64] e a rede de Elman (1990),[65] que aplicaram redes neurais recorrentes para estudar problemas em psicologia cognitiva.
Na década de 1980, a retropropagação não funcionou bem para aprendizagem profunda com longos caminhos de atribuição de crédito. Para superar esse problema, em 1991, Jürgen Schmidhuber propôs uma hierarquia de redes neurais recorrentes pré-treinadas um nível de cada vez por aprendizado autossupervisionado, onde cada rede neural recorrente tenta prever sua própria próxima entrada, que é a próxima entrada inesperada da rede neural recorrente abaixo.[66][67] Este "compressor de histórico neural" usa codificação preditiva para aprender representações internas em múltiplas escalas de tempo auto-organizadas. Isso pode facilitar substancialmente a aprendizagem profunda a jusante. A hierarquia da rede neural recorrente pode ser colapsada em uma única rede neural recorrente, destilando uma rede fragmentadora de nível superior em uma rede automatizadora de nível inferior.[66][67][30] Em 1993, um compressor de histórico neural resolveu uma tarefa de "aprendizagem muito profunda" que exigia mais de 1000 camadas subsequentes em uma rede neural recorrente desdobrada no tempo.[68] O "P" em ChatGPT se refere a esse pré-treinamento.
A tese de diploma de Sepp Hochreiter (1991)[69] implementou o compressor de história neural,[66] e identificou e analisou o problema do gradiente de desaparecimento.[69][70] Hochreiter propôs conexões residuais recorrentes para resolver o problema do gradiente de desaparecimento. Isso levou à memória de curto prazo longa (LSTM), publicada em 1995.[71] A memória de curto prazo longa pode aprender tarefas de "aprendizagem muito profunda"[8] com longos caminhos de atribuição de crédito que exigem memórias de eventos que aconteceram milhares de passos de tempo discretos antes. Essa memória de curto prazo longa ainda não era a arquitetura moderna, que exigia uma "portão de esquecimento", introduzido em 1999,[72] que se tornou a arquitetura de rede neural recorrente padrão.
Em 1991, Jürgen Schmidhuber também publicou redes neurais adversárias que competem entre si na forma de um jogo de soma zero, onde o ganho de uma rede é a perda da outra rede.[73][74] A primeira rede é um modelo generativo que modela uma distribuição de probabilidade sobre padrões de saída. A segunda rede aprende por descida do gradiente para prever as reações do ambiente a esses padrões. Isso foi chamado de "curiosidade artificial". Em 2014, esse princípio foi usado em redes adversárias generativas (GANs).[75]
Durante 1985–1995, inspirados pela mecânica estatística, várias arquiteturas e métodos foram desenvolvidos por Terry Sejnowski, Peter Dayan, Geoffrey Hinton, etc., incluindo a máquina de Boltzmann,[76] a máquina de Boltzmann restrita,[77] a máquina de Helmholtz,[78] e o algoritmo de vigília e sono.[79] Eles foram projetados para aprendizado que não é supervisionado de modelos generativos profundos. No entanto, esses eram mais caros computacionalmente em comparação com a retropropagação. O algoritmo de aprendizado de máquina de Boltzmann, publicado em 1985, foi brevemente popular antes de ser eclipsado pelo algoritmo de retropropagação em 1986. (p. 112 [80]). Uma rede de 1988 se tornou o estado da arte na predição das estruturas de proteínas, uma aplicação inicial da aprendizagem profunda à bioinformática.[81]
Tanto a aprendizagem superficial quanto a profunda (por exemplo, redes recorrentes) de redes neurais artificiais para reconhecimento de fala têm sido explorados por muitos anos.[82][83][84] Esses métodos nunca superaram a tecnologia do modelo de mistura gaussiana/modelo de Markov oculto (GMM-HMM) manual interno que não é uniforme baseada em modelos generativos de fala treinados discriminativamente.[85] As principais dificuldades foram analisadas, incluindo a diminuição de gradiente[69] e a estrutura de correlação temporal fraca em modelos preditivos neurais.[86][87] Dificuldades adicionais foram a falta de dados de treinamento e poder de computação limitado.
A maioria dos pesquisadores de reconhecimento de fala se afastou das redes neurais para buscar modelagem generativa. Uma exceção foi no SRI International no final da década de 1990. Financiado pela NSA e pela DARPA do governo dos EUA, o SRI pesquisou em reconhecimentos de fala e falante. A equipe de reconhecimento de falante liderada por Larry Heck relatou sucesso significativo com redes neurais profundas no processamento de fala no benchmark de reconhecimento de falante do NIST de 1998.[88][89] Foi implantado no Nuance Verifier, representando a primeira grande aplicação industrial da aprendizagem profunda.[90]
O princípio de elevar características "brutas" sobre otimização manual foi explorado pela primeira vez com sucesso na arquitetura do autocodificador profundo nas características de bancos de filtros lineares ou espectrogramas "brutos" no final da década de 1990,[89] mostrando sua superioridade sobre as características Mel-Cepstrais que contêm estágios de transformações fixas a partir de espectrogramas. As características brutas da fala, as formas das ondas, mais tarde produziram excelentes resultados em larga escala.[91]
Décadas de 2000
As redes neurais entraram em declínio, e modelos mais simples que usam recursos artesanais específicos para tarefas, como filtros de Gabor e máquinas de vetores de suporte (SVMs), tornaram-se as escolhas preferidas nas décadas de 1990 e 2000, devido ao custo computacional das redes neurais artificiais e à falta de compreensão de como o cérebro conecta suas redes biológicas.
Em 2003, a memória de curto prazo longa tornou-se competitiva com os reconhecedores de fala tradicionais em certas tarefas.[92] Em 2006, Alex Graves, Santiago Fernández, Faustino Gomez e Schmidhuber combinaram-na com a classificação temporal conexionista (CTC)[93] em pilhas de memórias de curto prazo longas.[94] Em 2009, tornou-se a primeira rede neural recorrente a vencer um concurso de reconhecimento de padrões, em reconhecimento de escrita manual conectada.[95][8]
Em 2006, publicações de Geoff Hinton, Ruslan Salakhutdinov, Osindero e Teh[96][97] redes de crenças profundas foram desenvolvidas para modelagem generativa. Elas são treinadas treinando uma máquina de Boltzmann restrita, então congelando-a e treinando outra em cima da primeira, e assim por diante, então opcionalmente ajustadas usando retropropagação supervisionada.[98] Elas poderiam modelar distribuições de probabilidade de alta dimensão, como a distribuição de imagens do Banco de dados do Instituto Nacional de Padrões e Tecnologia modificado (MNIST), mas a convergência era lenta.[99][100][101]
O impacto da aprendizagem profunda na indústria começou no início dos anos 2000, quando as redes neurais convolucionais já processavam cerca de 10% a 20% de todos os cheques emitidos nos EUA, de acordo com Yann LeCun.[102] As aplicações industriais da aprendizagem profunda para reconhecimento de fala em larga escala começaram por volta de 2010.
A Oficina sobre Sistemas de Processamento de Informações Neurais (NIPS) de 2009 sobre Aprendizagem Profunds para Reconhecimento de Fala foi motivada pelas limitações de modelos generativos profundos de fala e pela possibilidade de que, dado hardware mais capaz e conjuntos de dados em larga escala, as redes neurais profundas pudessem se tornar práticas. Acreditava-se que o pré-treinamento de redes neurais profundas usando modelos generativos de redes de crenças profundas superaria as principais dificuldades das redes neurais. No entanto, descobriu-se que a substituição do pré-treinamento por grandes quantidades de dados de treinamento para retropropagação direta ao usar redes neurais profundas com grandes camadas de saída dependentes do contexto produzia taxas de erros dramaticamente menores do que o modelo de mistura gaussiana/modelo de Markov oculto de então última geração e também do que sistemas baseados em modelos generativos mais avançados.[103] A natureza dos erros de reconhecimento produzidos pelos dois tipos de sistemas era caracteristicamente diferente,[104] oferecendo percepções técnicas sobre como integrar a aprendizagem profunda no sistema de decodificação de fala altamente eficiente e em tempo de execução existente, implantado por todos os principais sistemas de reconhecimento de fala.[22][105][106] A análise por volta de 2009 e 2010, contrastando o modelo de mistura gaussiana (e outros modelos de fala generativa) versus modelos de redes neurais profundas, estimulou o investimento industrial inicial em aprendizagem profunda para reconhecimento de fala.[104] Essa análise foi feita com desempenho comparável (menos de 1,5% na taxa de erros) entre modelos generativos e redes neurais profundas discriminativos.[103][104][107] Em 2010, os pesquisadores estenderam a aprendizagem profunda a partir do TIMIT para o reconhecimento de fala de vocabulário grande, adotando grandes camadas de saída da rede neural profunda com base em estados do modelo de Markov oculto dependentes do contexto construídos por árvores de decisões.[108][109][110][105]
Revolução da aprendizagem profunda

A revolução da aprendizagem profunda começou em torno da visão computacional baseada em redes neurais convolucionais e em GPUs.
Embora as redes neurais convolucionais treinadas por retropropagação já existissem há décadas e implementações de redes neurais em GPUs há anos,[111] incluindo redes neurais convolucionais,[112] implementações mais rápidas de redes neurais convolucionais em GPUs eram necessárias para progredir na visão computacional. Mais tarde, conforme a aprendizagem profunda se tornou difundido, otimizações de algoritmo e hardware especializados foram desenvolvidos especificamente para aprendizagem profunda.[113]
Um avanço fundamental para a revolução da aprendizagem profunda foram os avanços de hardware, especialmente GPUs. Alguns trabalhos iniciais datam de 2004.[111][112] Em 2009, Raina, Madhavan e Andrew Ng relataram uma rede de crenças profundas de 100M treinada em 30 GPUs GeForce GTX 280 da Nvidia, uma demonstração inicial de aprendizagem profunda baseada em GPUs. Eles relataram um treinamento até 70 vezes mais rápido.[114]
Em 2011, uma rede neural convolucional chamada DanNet[115][116] por Dan Ciresan, Ueli Meier, Jonathan Masci, Luca Maria Gambardella e Jürgen Schmidhuber alcançou pela primeira vez um desempenho sobre-humano em um concurso de reconhecimento de padrões visuais, superando os métodos tradicionais por um fator de 3.[8] Em seguida, ganhou mais concursos.[117][118] Eles também mostraram como o pool máximo de redes neurais convolucionais em GPUs melhorou significativamente o desempenho.[2]
Em 2012, Andrew Ng e Jeff Dean criaram uma rede neural feedforward que aprendeu a reconhecer conceitos de nível superior, como gatos, apenas assistindo a imagens que não são rotuladas tiradas de vídeos do YouTube.[119]
Em outubro de 2012, AlexNet por Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton[3] venceu a competição ImageNet em larga escala por uma margem significativa sobre métodos de aprendizado de máquina rasos. Outras melhorias incrementais incluíram a rede VGG-16 por Karen Simonyan e Andrew Zisserman[120] e a Inceptionv3 do Google.[121]
O sucesso na classificação de imagens foi então estendido para a tarefa mais desafiadora de gerar descrições (legendas) para imagens, geralmente como uma combinação de redes neurais convolucionais e memórias de curto prazo longas.[122][123][124]
Em 2014, o estado da arte era treinar "rede neural muito profunda" com 20 a 30 camadas.[125] Empilhar muitas camadas levou a uma redução acentuada na precisão do treinamento,[126] conhecida como problema de "degradação".[127] Em 2015, duas técnicas foram desenvolvidas para treinar redes muito profundas: a Highway Network foi publicada em maio de 2015, e a rede neural residual (ResNet)[128] em dezembro de 2015. A ResNet se comporta como uma Highway Net de portas abertas.
Na mesma época, a aprendizagem profunda começou a impactar o campo da arte. Os primeiros exemplos incluíram o DeepDream do Google (2015) e a transferência de estilo neural (2015),[129] ambos baseados em redes neurais de classificação de imagens pré-treinadas, como a VGG-19.
A rede adversária generativa (GAN) (de Ian Goodfellow et al., 2014)[130] (com base no princípio da curiosidade artificial de Jürgen Schmidhuber[73][75]) tornou-se o estado da arte na modelagem generativa durante o período de 2014 a 2018. Excelente qualidade de imagem é alcançada pela StyleGAN da Nvidia (2018)[131] com base na rede adversária generativa progressiva de Tero Karras et al.[132] Aqui, o gerador da rede adversária generativa é desenvolvido de pequena para grande escala de forma piramidal. A geração de imagens por rede adversária generativa alcançou sucesso popular e provocou discussões sobre deepfakes.[133] Os modelos de difusão (2015)[134] eclipsaram as redes adversárias generativas na modelagem generativa desde então, com sistemas como DALL·E 2 (2022) e Stable Diffusion (2022).
Em 2015, o reconhecimento de fala do Google melhorou em 49% por um modelo baseado em memória de curto prazo longa, que eles disponibilizaram por meio do Google Voice Search em smartphones.[135][136]
A aprendizagem profunda faz parte de sistemas de última geração em várias disciplinas, particularmente visão computacional e reconhecimento de fala automático (ASR). Os resultados em conjuntos de avaliação comumente usados, como o TIMIT (ASR) e o MNIST (classificação de imagens), bem como uma variedade de tarefas de reconhecimento de fala de vocabulário amplo, melhoraram constantemente.[103][137] As redes neurais convolucionais foram substituídas para reconhecimento automático de fala por memórias de curto prazo longas,[136][138][139][140] mas são mais bem-sucedidas em visão computacional.
Yoshua Bengio, Geoffrey Hinton e Yann LeCun receberam o Prêmio Turing de 2018 por "avanços conceituais e de engenharia que tornaram as redes neurais profundas um componente crítico da computação".[141]
Redes neurais
Predefinição:Artigo principal Predefinição:Imagem múltipla Redes neurais artificiais (ANNs) ou sistemas conexionistas são sistemas de computação inspirados nas redes neurais biológicas que constituem os cérebros dos animais. Tais sistemas aprendem (melhoram progressivamente sua capacidade de) fazer tarefas considerando exemplos, geralmente sem programação específica para a tarefa. Por exemplo, no reconhecimento de imagens, eles podem aprender a identificar imagens que contêm gatos analisando imagens de exemplo que foram rotuladas manualmente como "gato" ou "sem gato" e usando os resultados analíticos para identificar gatos em outras imagens. Eles encontraram mais uso em aplicações difíceis de expressar com um algoritmo de computador tradicional usando programação baseada em regras.
Uma rede neural artificial (RNA) é baseada em uma coleção de unidades conectadas chamadas neurônios artificiais (análogos aos neurônios biológicos em um cérebro biológico). Cada conexão (sinapse) entre neurônios pode transmitir um sinal para outro neurônio. O neurônio receptor (pós-sináptico) pode processar o(s) sinal(ais) e então sinalizar os neurônios a jusante conectados a ele. Os neurônios podem ter estado, geralmente representados por números reais, tipicamente entre 0 e 1. Neurônios e sinapses também podem ter um peso que varia conforme o aprendizado prossegue, o que pode aumentar ou diminuir a força do sinal que ele envia a jusante.
Normalmente, os neurônios são organizados em camadas. Camadas diferentes podem executar diferentes tipos de transformações em suas entradas. Os sinais viajam da primeira (entrada) para a última camada (saída), possivelmente após atravessar as camadas várias vezes.
O objetivo original da abordagem da rede neural era resolver problemas da mesma forma que um cérebro humano faria. Com o tempo, a atenção se concentrou em combinar habilidades mentais específicas, levando a desvios da biologia, como retropropagação ou passagem de informações na direção reversa e ajuste da rede para refletir essas informações.
As redes neurais têm sido usadas em uma variedade de tarefas, incluindo visão computacional, reconhecimento de fala, tradução automática, filtragem de redes sociais, jogos de tabuleiro e vídeo, e diagnóstico médico.
Em 2017, as redes neurais normalmente tinham alguns milhares a alguns milhões de unidades e milhões de conexões. Apesar desse número ser várias ordens de magnitude menor do que o número de neurônios em um cérebro humano, essas redes podem executar muitas tarefas em um nível além do dos humanos (por exemplo, reconhecer rostos ou jogar "Go"[142]).
Redes neurais profundas
Uma rede neural profunda (DNN) é uma rede neural artificial com múltiplas camadas entre as camadas de entrada e saída.[6][8] Existem diferentes tipos de redes neurais, mas elas sempre consistem nos mesmos componentes: neurônios, sinapses, pesos, vieses e funções.[143] Esses componentes como um todo funcionam de uma forma que imita funções do cérebro humano e podem ser treinados como qualquer outro algoritmo de aprendizado de máquina.
Por exemplo, uma rede neural profunda treinada para reconhecer raças de cães examinará a imagem fornecida e calculará a probabilidade de que o cão na imagem seja de uma determinada raça. O usuário pode revisar os resultados e selecionar quais probabilidades a rede deve exibir (acima de um certo limite, etc.) e retornar o rótulo proposto. Cada manipulação matemática como tal é considerada uma camada,[144] e redes neurais profundas complexas têm muitas camadas, daí o nome redes "profundas".
As redes neurais profundas podem modelar relacionamentos que não são lineares complexos. As arquiteturas dad redes neurais profundas geram modelos composicionais onde o objeto é expresso como uma composição em camadas de primitivos.[145] As camadas extras permitem a composição de recursos de camadas inferiores, potencialmente modelando dados complexos com menos unidades do que uma rede rasa de desempenho semelhante.[6] Por exemplo, foi provado que polinômios multivariados esparsos são exponencialmente mais fáceis de aproximar com redes neurais profundas do que com redes rasas.[146]
As arquiteturas profundas incluem muitas variantes de algumas abordagens básicas. Cada arquitetura obteve sucesso em domínios específicos. Nem sempre é possível comparar o desempenho de múltiplas arquiteturas, a menos que tenham sido avaliadas nos mesmos conjuntos de dados.[144]
As redes neurais profundas são tipicamente redes feedforward nas quais os dados fluem da camada de entrada para a camada de saída sem fazer loopback. Primeiramente, a rede neural profunda cria um mapa de neurônios virtuais e atribui valores numéricos aleatórios, ou "pesos", às conexões entre eles. Os pesos e entradas são multiplicados e retornam uma saída entre 0 e 1. Se a rede não reconhecesse com precisão um padrão específico, um algoritmo ajustaria os pesos.[147] Dessa forma, o algoritmo pode tornar certos parâmetros mais influentes, até determinar a manipulação matemática correta para processar completamente os dados.
As redes neurais recorrentes, nas quais os dados podem fluir em qualquer direção, são usadas para aplicações como modelagem de linguagem.[148][149][150][151][152] A memória de curto prazo longa é particularmente eficaz para esse uso.[153][154]
As redes neurais convolucionais (CNNs) são usadas em visão computacional.[155] As redes neurais convolucionais também foram aplicadas à modelagem acústica para reconhecimento automático de fala (ASR).[156]
Desafios
Assim como com redes neurais artificiais, muitos problemas podem surgir com redes neurais profundas treinadas ingenuamente. Dois problemas comuns são o ajuste excessivo e o tempo de computação.
As redes neurais profundas são propensas a ajuste excessivo por causa das camadas de abstração adicionadas, que permitem que elas modelem dependências raras nos dados de treinamento. Métodos de regularização como a poda de unidade de Ivakhnenko[40] ou o decaimento de peso (regularização de ) ou esparsidade (regularização de ) podem ser aplicados durante o treinamento para combater ajuste excessivo.[157] Alternativamente, a regularização de abandono omite aleatoriamente unidades das camadas ocultas durante o treinamento. Isso ajuda a excluir dependências raras.[158] Outro desenvolvimento recente interessante é a pesquisa em modelos de complexidade suficiente por meio de uma estimativa da complexidade intrínseca da tarefa que está sendo modelada. Essa abordagem foi aplicada com sucesso para tarefas de previsão de séries temporais multivariadas, como previsão de tráfego.[159] Finalmente, os dados podem ser aumentados por meio de métodos como corte e rotação, de modo que conjuntos de treinamento menores possam ser aumentados em tamanho para reduzir as chances de ajuste excessivo.[160]
As redes neurais profundas devem considerar muitos parâmetros de treinamento, como o tamanho (número de camadas e número de unidades por camada), a taxa de aprendizado e pesos iniciais. Varrer o espaço de parâmetros para parâmetros ideais pode não ser viável devido ao custo em tempo e recursos computacionais. Vários truques, como loteamento (computação do gradiente em vários exemplos de treinamento de uma vez em vez de exemplos individuais)[161] aceleram a computação. Grandes capacidades de processamento de arquiteturas de muitos núcleos (como GPUs ou o Intel Xeon Phi) produziram acelerações significativas no treinamento, devido à adequação de tais arquiteturas de processamento para as computações de matriz e vetor.[162][163]
Alternativamente, os engenheiros podem procurar outros tipos de redes neurais com algoritmos de treinamento mais diretos e convergentes. A controladora de articulação de modelo cerebelar (CMAC) é uma desses tipos de rede neural. Ela não requer taxas de aprendizado ou pesos iniciais randomizados. O processo de treinamento pode ser garantido para convergir em uma etapa com um novo lote de dados, e a complexidade computacional do algoritmo de treinamento é linear em relação ao número de neurônios envolvidos.[164][165]
Hardware
Desde a década de 2010, os avanços em algoritmos de aprendizado de máquina e hardware de computador levaram a métodos mais eficientes para treinar redes neurais profundas que contêm muitas camadas de unidades ocultas que não são lineares e uma camada de saída muito grande.[166] Em 2019, unidades de processamento gráfico (GPUs), geralmente com aprimoramentos específicos de IA, substituíram as CPUs como o método dominante para treinar IA de nuvem comercial em larga escala.[167] A OpenAI estimou a computação de hardware usada nos maiores projetos de aprendizagem profunda de AlexNet (2012) a AlphaZero (2017) e encontrou um aumento de 300.000 vezes na quantidade de computação necessária, com uma linha de tendência de tempo de duplicação de 3,4 meses.[168][169]
Circuitos eletrônicos especiais chamados processadores de aprendizagem profunda foram projetados para acelerar algoritmos de aprendizagem profunda. Os processadores de aprendizagem profunda incluem unidades de processamento neural (NPUs) em celulares Huawei[170] e servidores de computação em nuvem, como unidades de processamento tensorial (TPU) na Google Cloud Platform.[171] A Cerebras Systems também construiu um sistema dedicado para lidar com grandes modelos de aprendizagem profunda, o CS-2, baseado no maior processador do setor, o Wafer Scale Engine de segunda geração (WSE-2).[172][173]
Semicondutores atomicamente finos são considerados promissores para hardware de aprendizagem profunda com eficiência energética, onde a mesma estrutura básica do dispositivo é usada para operações lógicas e armazenamento de dados. Em 2020, Marega et al. publicaram experimentos com um material de canal ativo de grande área para desenvolver dispositivos e circuitos lógicos na memória baseados em transistores de efeito de campo de porta flutuante (FGFETs).[174]
Em 2021, J. Feldmann et al. propuseram um acelerador de hardware fotônico integrado para processamento convolucional paralelo.[175] Os autores identificam duas vantagens principais da fotônica integrada sobre suas contrapartes eletrônicas: (1) transferência de dados massivamente paralela por meio de multiplexação por divisão de comprimento de onda em conjunto com pentes de frequência e (2) velocidades de modulação de dados extremamente altas.[175] Seu sistema pode executar trilhões de operações de multiplicação e acumulação por segundo, indicando o potencial da fotônica integrada em aplicações de IA com muitos dados.[175]
Aplicações
Reconhecimento automático de fala
Predefinição:Artigo principal O reconhecimento automático de fala em larga escala é o primeiro e mais convincente caso bem-sucedido de aprendizado profundo. Redes neurais recorrentes de memórias de curto prazo longas podem aprender tarefas de "Aprendizado Muito Profundo"[8] que envolvem intervalos de vários segundos contendo eventos de fala separados por milhares de passos de tempo discretos, onde um passo de tempo corresponde a cerca de 10 milissegundos. Memórias de curto prazo longas com portas de esquecimento[154] são competitivas com reconhecedores de fala tradicionais em certas tarefas.[92]
O sucesso inicial no reconhecimento de fala foi baseado em tarefas de reconhecimento em pequena escala baseadas no TIMIT. O conjunto de dados contém 630 falantes de oito dialetos principais do inglês americano, onde cada falante lê 10 frases.[176] Seu pequeno tamanho permite que muitas configurações sejam tentadas. Mais importante, a tarefa TIMIT diz respeito ao reconhecimento de sequência de fonemas, que, diferentemente do reconhecimento de sequência de palavras, permite modelos de linguagem de bigramas de fonemas fracos. Isso permite que a força dos aspectos de modelagem acústica do reconhecimento de fala seja mais facilmente analisada. As taxas de erro listadas abaixo, incluindo esses resultados iniciais e medidas como taxas de erro de fonemas percentuais (PER), foram resumidas desde 1991.
| Método | Taxa de erro de fonemas percentual (PER) (%) |
|---|---|
| Randomly Initialized RNN[177] | 26,1 |
| Bayesian Triphone GMM-HMM | 25,6 |
| Hidden Trajectory (Generative) Model | 24,8 |
| Monophone Randomly Initialized DNN | 23,4 |
| Monophone DBN-DNN | 22,4 |
| Triphone GMM-HMM with BMMI Training | 21,7 |
| Monophone DBN-DNN on fbank | 20,7 |
| Convolutional DNN[178] | 20,0 |
| Convolutional DNN w. Heterogeneous Pooling | 18,7 |
| Ensemble DNN/CNN/RNN[179] | 18,3 |
| Bidirectional LSTM | 17,8 |
| Hierarchical Convolutional Deep Maxout Network[180] | 16,5 |
A estreia das redes neurais profundas para reconhecimento de falantes no final da década de 1990 e do reconhecimento de fala por volta de 2009 a 2011 e da memória de curto prazo longa por volta de 2003 a 2007, acelerou o progresso em oito áreas principais:[22][107][105]
- Treinamento e decodificação de rede neural profunda de aceleração e expansão vertical/horizontal
- Treinamento discriminativo de sequência
- Processamento de recursos por modelos profundos com sólida compreensão dos mecanismos subjacentes
- Adaptação de redes neurais profundas e modelos profundos relacionados
- Aprendizado multitarefa e de transferência por redes neurais profundas e modelos profundos relacionados
- Redes neurais convolucionais e como projetá-las para melhor explorar o conhecimento de domínio da fala
- Rede neural recorrente e suas ricas variantes de memória de curto prazo longa
- Outros tipos de modelos profundos, incluindo modelos baseados em tensores e modelos discriminativos/generativos profundos integrados.
Todos os principais sistemas comerciais de reconhecimento de fala (por exemplo, Microsoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri, Baidu e pesquisa por voz da iFlyTek e uma variedade de produtos de fala da Nuance, etc.) são baseados em aprendizado profundo.[22][181][182]
Reconhecimento de imagens
Predefinição:Artigo principal Um conjunto de avaliação comum para classificação de imagens é o conjunto de dados do banco de dados do MNIST. O MNIST é composto de dígitos manuscritos e inclui 60.000 exemplos de treinamento e 10.000 exemplos de teste. Assim como o TIMIT, seu tamanho pequeno permite que os usuários testem várias configurações. Uma lista abrangente de resultados neste conjunto está disponível.[183]
O reconhecimento de imagens baseado em aprendizagem profunda se tornou "super-humano", produzindo resultados mais precisos do que concorrentes humanos. Isso ocorreu pela primeira vez em 2011 no reconhecimento de sinais de trânsito e, em 2014, com o reconhecimento de rostos humanos.[184][185]
Veículos treinados em aprendizado profundo agora interpretam visualizações de câmera de 360°.[186] Outro exemplo é a Análise de Novas Dismorfologias Faciais (FDNA), usada para analisar casos de malformações humanas conectados a um grande banco de dados de síndromes genéticas.
Processamento de artes visuais

Estreitamente relacionada ao progresso que foi feito no reconhecimento de imagens está a aplicação crescente de técnicas de aprendizado profundo a várias tarefas de artes visuais. As redes neurais profundas provaram ser capazes, por exemplo, de
- identificar o período de estilo de uma determinada pintura[187][188]
- Transferência de estilo neural – capturar o estilo de uma determinada obra de arte e aplicá-lo de uma maneira visualmente agradável a uma fotografia ou vídeo arbitrário[187][188]
- gerar imagens impressionantes com base em campos de entrada visual aleatórios.[187][188]
Processamento de linguagem natural
Predefinição:Artigo principal As redes neurais têm sido usadas para implementar modelos de linguagem desde o início dos anos 2000.[148] A memória de curto prazo longa ajudou a melhorar a tradução automática e a modelagem de linguagem.[149][150][151]
Outras técnicas-chave neste campo são a amostragem negativa[189] e a incorporação de palavras. A incorporação de palavras, como word2vec, pode ser considerada uma camada representacional em uma arquitetura de aprendizagem profunda que transforma uma palavra atômica em uma representação posicional da palavra em relação a outras palavras no conjunto de dados; a posição é representada como um ponto em um espaço vetorial. Usar a incorporação de palavras como uma camada de entrada da rede neural recorrente permite que a rede analise sentenças e frases usando uma gramática vetorial composicional eficaz. Uma gramática vetorial composicional pode ser considerada uma gramática livre de contexto probabilística (PCFG) implementada por uma rede neural recorrente.[190] Os autocodificadores recursivos construídos sobre incorporações de palavras podem avaliar a similaridade de sentenças e detectar paráfrases.[190] Arquiteturas neurais profundas fornecem os melhores resultados para análise de constituintes,[191] análise de sentimentos,[192] recuperação de informações,[193][194] compreensão de linguagem falada,[195] tradução automática,[149][196] vinculação de entidades contextuais,[196] reconhecimento de estilo de escrita,[197] reconhecimento de entidades nomeadas (classificação de tokens),[198] classificação de texto e outros.[199]
Desenvolvimentos recentes generalizam a incorporação de palavras para a incorporação de frases.
O Google Translate (GT) usa uma grande rede de memória de curto prazo longa (LSTM) de ponta a ponta.[200][201][202][203] A Google Neural Machine Translation (GNMT) usa um método de tradução automática baseada em exemplos no qual o sistema "aprende com milhões de exemplos".[201] Ela traduz "frases inteiras de uma vez, em vez de partes". O Google Translate oferece suporte a mais de cem idiomas.[201] A rede codifica a "semântica da frase em vez de simplesmente memorizar traduções frase a frase".[201][204] O Google Translate usa o inglês como intermediário entre a maioria dos pares de idiomas.[204]
Descoberta de medicamentos e toxicologia
Predefinição:Para Uma grande porcentagem de medicamentos candidatos não consegue obter aprovação regulatória. Essas falhas são causadas por eficácia insuficiente (efeito no alvo), interações indesejadas (efeitos fora do alvo) ou efeitos tóxicos imprevistos.[205][206] A pesquisa explorou o uso de aprendizagem profunda para prever os alvos biomoleculares,[207][208] alvos fora do alvo e efeitos tóxicos de produtos químicos ambientais em nutrientes, produtos domésticos e medicamentos.[209][210][211]
A AtomNet é um sistema de aprendizagem profunda para design de medicamentos racional baseado em estrutura.[212] A AtomNet foi usada para prever novas biomoléculas candidatas para alvos de doenças como o vírus Ebola[213] e esclerose múltipla.[214][213]
Em 2017, redes neurais de grafos foram usadas pela primeira vez para prever várias propriedades de moléculas em um grande conjunto de dados de toxicologia.[215] Em 2019, redes neurais generativas foram usadas para produzir moléculas que foram validadas experimentalmente em camundongos.[216][217]
Gestão de relacionamento com o cliente
Predefinição:Artigo principal A aprendizagem de reforço profunda tem sido usada para aproximar o valor de possíveis ações de marketing direto, definidas em termos de variáveis de recenticidade, frequência, e valor monetário (RFM). A função de valor estimado demonstrou ter uma interpretação natural como valor de vida útil do cliente.[218]
Sistemas de recomendações
Predefinição:Artigo principal Os sistemas de recomendações têm usado o aprendizagem profunda para extrair recursos significativos para um modelo de fator latente para recomendações de músicas e periódicos baseadas em conteúdo.[219][220] A aprendizagem profunda multivisualização foi aplicada para aprender as preferências dos usuários de vários domínios.[221] O modelo usa uma abordagem híbrida colaborativa e baseada em conteúdo e aprimora as recomendações em várias tarefas.
Bioinformática
Predefinição:Artigo principal Uma rede neural artificial autocodificadora foi usada em bioinformática para prever relações entre funções genéticas e anotações de ontologia genética.[222]
Na informática médica, a aprendizagem profunda foi usada para prever a qualidade do sono com base em dados de wearables[223] e previsões de complicações de saúde a partir de dados de registros de saúde eletrônicos.[224]
Redes neurais profundas têm mostrado desempenho incomparável na previsão de estruturas de proteínas, de acordo com a sequência dos aminoácidos que as compõem. Em 2020, a AlphaFold, um sistema baseado em aprendizagem profunda, atingiu um nível de precisão significativamente maior do que todos os métodos computacionais anteriores.[225][226]
Estimativas de redes neurais profundas
Redes neurais profundas podem ser usadas para estimar a entropia de um processo estocástico e chamadas de estimadora de entropia conjunta neural (NJEE).[227] Tal estimativa fornece percepções sobre os efeitos de variáveis aleatórias de entrada em uma variável aleatória independente. Praticamente, a rede neural profunda é treinada como uma classificadora que mapeia um vetor ou uma matriz X de entrada para uma distribuição de probabilidade de saída sobre as classes possíveis da variável aleatória Y, dada a entrada X. Por exemplo, em tarefas de classificação de imagens, a estimadora de entropia conjunta neural mapeia um vetor de valores de cores de pixels para probabilidades sobre possíveis classes de imagens. Na prática, a distribuição de probabilidade de Y é obtida por uma camada de Softmax com número de nós que é igual ao tamanho do alfabeto de Y. A estimadora de entropia conjunta neural usa funções de ativação continuamente diferenciáveis, de modo que as condições para o teorema de aproximação universal sejam mantidas. É mostrado que este método fornece uma estimadora consistente fortemente e supera outros métodos no caso de tamanhos de alfabetos grandes.[227]
Análise de imagens médicas
Foi demonstrado que a aprendizagem profunda produz resultados competitivos em aplicações médicas, como classificação de células cancerígenas, detecção de lesões, segmentação de órgãos e aprimoramento de imagens.[228][229] As ferramentas modernas de aprendizagem profunda demonstram a alta precisão na detecção de várias doenças e a utilidade de seu uso por especialistas para melhorar a eficiência do diagnóstico.[230][231]
Publicidade móvel
Encontrar o público móvel apropriado para publicidade móvel é sempre desafiador, pois muitos pontos de dados devem ser considerados e analisados antes que um segmento alvo possa ser criado e usado na veiculação de anúncios por qualquer servidor de anúncios.[232] A aprendizagem profunda tem sido usada para interpretar grandes conjuntos de dados de publicidade multidimensionais. Muitos pontos de dados são coletados durante o ciclo de solicitação/veiculação/clique de publicidade na Internet. Essas informações podem formar a base do aprendizado de máquina para melhorar a seleção de anúncios.
Restauração de imagens
A aprendizagem profunda foi aplicada com sucesso a problemas inversos, como redução de ruído, super-resolução, pintura interna e colorização de filmes.[233] Essas aplicações incluem métodos de aprendizado como "campos de encolhimento para restauração eficaz de imagens"[234], que treina em um conjunto de dados de imagens, e Deep Image Prior, que treina na imagem que precisa de restauração.
Detecção de fraudes financeiras
A aprendizagem profunda está sendo aplicada com sucesso à detecção de fraudes financeiras, à detecção de evasão fiscal[235] e ao combate à lavagem de dinheiro.[236]
Ciência dos materiais
Em novembro de 2023, pesquisadores da Google DeepMind e do Lawrence Berkeley National Laboratory anunciaram que desenvolveram um sistema de IA conhecido como GNoME. Este sistema contribuiu para a ciência dos materiais ao descobrir mais de 2 milhões de novos materiais em um período de tempo relativamente curto. O GNoME emprega técnicas de aprendizagem profunda para explorar com eficiência potenciais estruturas de materiais, alcançando um aumento significativo na identificação de estruturas cristalinas inorgânicas estáveis. As previsões do sistema foram validadas por meio de experimentos robóticos autônomos, demonstrando uma notável taxa de sucesso de 71%. Os dados de materiais recém-descobertos estão disponíveis publicamente por meio do banco de dados do Materials Project, oferecendo aos pesquisadores a oportunidade de identificar materiais com propriedades desejadas para várias aplicações. Este desenvolvimento tem implicações para o futuro da descoberta científica e a integração da IA na pesquisa de ciência dos materiais, potencialmente agilizando a inovação de materiais e reduzindo custos no desenvolvimento de produtos. O uso de IA e aprendizagem profunda sugere a possibilidade de minimizar ou eliminar experimentos manuais de laboratório e permitir que os cientistas se concentrem mais no design e na análise de compostos exclusivos.[237][238][239]
Militar
O Departamento de Defesa dos Estados Unidos aplicou o aprendizagem profunda para treinar robôs em novas tarefas por meio da observação.[240]
Equações diferenciais parciais
Redes neurais informadas por física têm sido usadas para resolver equações diferenciais parciais em problemas diretos e inversos de uma maneira orientada por dados.[241] Um exemplo é a reconstrução do fluxo de fluido governado pelas equações de Navier e Stokes. Usar redes neurais informadas por física não requer a geração de malha frequentemente cara da qual os métodos de fluidodinâmica computacional (CFD) convencionais dependem.[242][243]
Método de equação diferencial estocástica regressiva profundo
O método de equação diferencial estocástica regressiva profunda é um método numérico que combina aprendizagem profunda com equação diferencial estocástica regressiva (BSDE). Este método é particularmente útil para resolver problemas de alta dimensão em matemática financeira. Ao alavancar os poderosos recursos de aproximação de função de redes neurais profundas, a equação diferencial estocástica regressiva profunda aborda os desafios computacionais enfrentados por métodos numéricos tradicionais em configurações de altas dimensões. Especificamente, métodos tradicionais como métodos de diferença finita ou simulações de Monte Carlo frequentemente lutam com a maldição da dimensionalidade, onde o custo computacional aumenta exponencialmente com o número de dimensões. Os métodos de equação diferencial estocástica regressiva profunda, no entanto, empregam redes neurais profundas para aproximar soluções de equações diferenciais parciais (PDEs) de altas dimensões, reduzindo efetivamente a carga computacional.[244]
Além disso, a integração de redes neurais informadas por física (PINNs) na estrutura de equação diferencial estocástica regressiva profunda aumenta sua capacidade ao incorporar as leis físicas subjacentes diretamente na arquitetura da rede neural. Isso garante que as soluções não apenas se ajustem aos dados, mas também adiram às equações diferenciais estocásticas governantes. As redes neurais informadas por física alavancam o poder da aprendizagem profunda, respeitando as restrições impostas pelos modelos físicos, resultando em soluções mais precisas e confiáveis para problemas de matemática financeira.
Reconstrução de imagens
A reconstrução de imagens é a reconstrução das imagens subjacentes a partir das medições relacionadas às imagens. Vários trabalhos mostraram o desempenho melhor e superior dos métodos de aprendizagem profunda em comparação aos métodos analíticos para várias aplicações, por exemplo, imagens espectrais [245] e imagens de ultrassom.[246]
Previsão do tempo
Os sistemas tradicionais de previsão do tempo resolvem um sistema muito complexo de equações diferenciais parciais. O GraphCast é um modelo baseado em aprendizagem profunda, treinado em um longo histórico de dados meteorológicos para prever como os padrões climáticos mudam ao longo do tempo. Ele é capaz de prever as condições climáticas por até 10 dias globalmente, em um nível muito detalhado e em menos de um minuto, com precisão semelhante aos sistemas de última geração.[247][248]
Relógio epigenético
Um relógio epigenético é um teste bioquímico que pode ser usado para medir a idade. Galkin et al. usaram redes neurais profundas para treinar um relógio de envelhecimento epigenético de precisão sem precedentes usando mais de 6.000 amostras de sangue.[249] O relógio usa informações de 1000 sítios CpG e prevê pessoas com certas condições mais velhas do que controles saudáveis: doença inflamatória intestinal (DII), demência frontotemporal, câncer ovariano, obesidade. O relógio de envelhecimento foi planejado para ser lançado para uso público em 2021 por uma empresa subproduto da Insilico Medicine, a Deep Longevity.
Relação com o desenvolvimento cerebral e cognitivo humano
A aprendizagem profunda está intimamente relacionado a uma classe de teorias de desenvolvimento cerebral (especificamente, desenvolvimento neocortical) propostas por neurocientistas cognitivos no início da década de 1990.[250][251][252][253] Essas teorias de desenvolvimento foram instanciadas em modelos computacionais, tornando-as predecessoras de sistemas de aprendizagem profunda. Esses modelos de desenvolvimento compartilham a propriedade de que várias dinâmicas de aprendizado propostas no cérebro (por exemplo, uma onda de fator de crescimento nervoso) suportam a auto-organização de forma um tanto análoga às redes neurais utilizadas em modelos de aprendizagem profunda. Como o neocórtex, as redes neurais empregam uma hierarquia de filtros em camadas em que cada camada considera informações de uma camada anterior (ou do ambiente operacional) e, em seguida, passa sua saída (e possivelmente a entrada original) para outras camadas. Esse processo produz uma pilha auto-organizada de transdutores, bem ajustada ao seu ambiente operacional. Uma descrição de 1995 declarou: "...o cérebro do bebê parece se organizar sob a influência de ondas dos chamados fatores tróficos... diferentes regiões do cérebro se conectam sequencialmente, com uma camada de tecido amadurecendo antes da outra e assim por diante até que todo o cérebro esteja maduro".[254]
Uma variedade de abordagens tem sido usada para investigar a plausibilidade de modelos de aprendizagem profunda de uma perspectiva neurobiológica. Por um lado, várias variantes do algoritmo de retropropagação foram propostas para aumentar seu realismo de processamento.[255][256] Outros pesquisadores argumentaram que formas não supervisionadas de aprendizagem profunda, como aquelas baseadas em modelos generativos hierárquicos e redes de crenças profundas, podem estar mais próximas da realidade biológica.[257][258] A esse respeito, modelos de rede neural generativa têm sido relacionados a evidências neurobiológicas sobre processamento baseado em amostragem no córtex cerebral.[259]
Embora uma comparação sistemática entre a organização do cérebro humano e a codificação neuronal em redes profundas ainda não tenha sido estabelecida, várias analogias foram relatadas. Por exemplo, as computações realizadas por unidades de aprendizagem profunda podem ser semelhantes às de neurônios reais[260] e populações neurais.[261] Da mesma forma, as representações desenvolvidas por modelos de aprendizagem profunda são semelhantes às medidas no sistema visual de primatas[262] tanto nos níveis de unidade única[263] quanto nos níveis de população.[264]
Atividade comercial
O laboratório de IA do Facebook realiza tarefas como marcar automaticamente fotos carregadas com os nomes das pessoas nelas.[265]
A DeepMind Technologies do Google desenvolveu um sistema capaz de aprender a jogar videogames Atari usando apenas pixels como entrada de dados. Em 2015, eles demonstraram seu sistema AlphaGo, que aprendeu o jogo Go bem o suficiente para vencer um jogador profissional de Go.[266][267][268] O Google Translate usa uma rede neural para traduzir entre mais de 100 idiomas.
Em 2017, foi lançado o Covariant.ai, que se concentra na integração da aprendizagem profunda em fábricas.[269]
Em 2008,[270] pesquisadores da Universidade do Texas em Austin (UT) desenvolveram uma estrutura de aprendizado de máquina chamada Treinando um Agente Manualmente via Reforço Avaliativo, ou TAMER, que propôs novos métodos para robôs ou programas de computador aprenderem a executar tarefas interagindo com um instrutor humano.[240] Desenvolvido inicialmente como TAMER, um novo algoritmo chamado Deep TAMER foi posteriormente introduzido em 2018 durante uma colaboração entre o Laboratório de Pesquisa do Exército dos EUA (ARL) e pesquisadores da UT. O Deep TAMER usou a aprendizagem profunda para fornecer a um robô a capacidade de aprender novas tarefas por meio da observação.[240] Usando o Deep TAMER, um robô aprendeu uma tarefa com um treinador humano, assistindo a transmissões de vídeo ou observando um humano executar uma tarefa pessoalmente. O robô posteriormente praticou a tarefa com a ajuda de algum treinamento do treinador, que forneceu feedback como "bom trabalho" e "trabalho ruim".[271]
Críticas e comentários
A aprendizagem profunda atraiu críticas e comentários, em alguns casos de fora do campo da ciência da computação.
Teoria
Predefinição:VT Uma crítica principal diz respeito à falta de teoria em torno de alguns métodos.[272] A aprendizagem nas arquiteturas profundas mais comuns é implementada usando a descida de gradiente bem compreendida. No entanto, a teoria em torno de outros algoritmos, como a divergência contrastiva, é menos clara. (por exemplo, Converge? Se sim, quão rápido? O que está se aproximando?) Os métodos de aprendizagem profunda são frequentemente vistos como uma caixa-preta, com a maioria das confirmações feitas empiricamente, em vez de teoricamente.[273]
Em referência adicional à ideia de que a sensibilidade artística pode ser inerente a níveis relativamente baixos da hierarquia cognitiva, uma série publicada de representações gráficas dos estados internos de redes neurais profundas (20-30 camadas) tentando discernir dentro de dados essencialmente aleatórios as imagens nas quais foram treinadas[274] demonstra um apelo visual: o aviso de pesquisa original recebeu bem mais de 1.000 comentários e foi o assunto do que foi por um tempo o artigo mais acessado no site do The Guardian.[275]
Erros
Algumas arquiteturas de aprendizagem profunda apresentam comportamentos problemáticos,[276] como classificar com segurança imagens irreconhecíveis como pertencentes a uma categoria familiar de imagens comuns (2014)[277] e classificar incorretamente perturbações minúsculas de imagens classificadas corretamente (2013).[278] Goertzel levantou a hipótese de que esses comportamentos são devidos a limitações em suas representações internas e que essas limitações inibiriam a integração em arquiteturas heterogêneas de inteligência artificial geral (AGI) multicomponente.[276] Essas questões podem ser possivelmente abordadas por arquiteturas de aprendizagem profunda que formam internamente estados homólogos às decomposições de gramática de imagem[279] de entidades e eventos observados.[276] Aprender uma gramática (visual ou linguística) a partir de dados de treinamento seria equivalente a restringir o sistema ao raciocínio de senso comum que opera em conceitos em termos de regras de produção gramatical e é um objetivo básico tanto da aquisição da linguagem humana[280] quanto da inteligência artificial (IA).[281]
Ameaça cibernética
À medida que a aprendizagem profunda sai do laboratório para o mundo, pesquisas e experiências mostram que redes neurais artificiais são vulneráveis a hacks e enganos.[282] Ao identificar os padrões que esses sistemas usam para funcionar, os invasores podem modificar entradas para as redes neurais artificiais de tal forma que a rede neural artificial encontre uma correspondência que observadores humanos não reconheceriam. Por exemplo, um invasor pode fazer mudanças sutis em uma imagem de tal forma que a rede neural artificial encontre uma correspondência, mesmo que a imagem não pareça nada com o alvo da pesquisa para um humano. Tal manipulação é denominada "ataque adversário".[283]
Em 2016, pesquisadores usaram uma rede neural artificial para manipular imagens por tentativa e erro, identificar os pontos focais de outra e, assim, gerar imagens que a enganassem. As imagens modificadas não pareciam diferentes aos olhos humanos. Outro grupo mostrou que impressões de imagens manipuladas e depois fotografadas enganaram com sucesso um sistema de classificação de imagens.[284] Uma defesa é a busca reversa de imagens, na qual uma possível imagem falsa é enviada a um site como o TinEye, que pode então encontrar outras instâncias dela. Um refinamento é pesquisar usando apenas partes da imagem, para identificar imagens das quais aquela parte pode ter sido retirada.[285]
Outro grupo mostrou que certos espetáculos psicodélicos poderiam enganar um sistema de reconhecimento facial, fazendo-o pensar que pessoas comuns eram celebridades, potencialmente permitindo que uma pessoa se passasse por outra. Em 2017, pesquisadores adicionaram adesivos a placas de pare e fizeram com que uma rede neural artificial as classificasse incorretamente.[284]
As redes neurais artificiais podem, no entanto, ser mais treinadas para detectar tentativas de engano, potencialmente levando atacantes e defensores a uma corrida armamentista semelhante ao tipo que já define a indústria de defesa contra malware. As redes neurais artificiais foram treinadas para derrotar software antimalware baseado em rede neural artificial, atacando repetidamente uma defesa com malware que foi continuamente alterado por um algoritmo genético até enganar o antimalware, mantendo sua capacidade de danificar o alvo.[284]
Em 2016, outro grupo demonstrou que certos sons poderiam fazer o sistema de comando de voz do Google Now abrir um endereço da web específico e levantou a hipótese de que isso poderia "servir como um trampolim para novos ataques (por exemplo, abrir uma página da web que hospeda malware drive-by)".[284]
No "envenenamento de dados", dados falsos são continuamente contrabandeados para o conjunto de treinamento de um sistema de aprendizado de máquina para evitar que ele alcance a maestria.[284]
Ética na coleta de dados
Os sistemas de aprendizagem profunda que são treinados usando aprendizagem supervisionada geralmente dependem de dados criados e/ou anotados por humanos.[286] Foi argumentado que não apenas o trabalho de clique mal pago (como no Amazon Mechanical Turk) é regularmente implantado para esse propósito, mas também formas implícitas de microtrabalho humano que muitas vezes não são reconhecidas como tal.[287] O filósofo Rainer Mühlhoff distingue cinco tipos de "captura maquínica" do microtrabalho humano para gerar dados de treinamento: (1) gamificação (a incorporação de tarefas de anotação ou computação no fluxo de um jogo), (2) "captura e rastreamento" (por exemplo, CAPTCHAs para reconhecimento de imagem ou rastreamento de cliques nas páginas de resultados de pesquisas do Google), (3) exploração de motivações sociais (por exemplo, marcar rostos no Facebook para obter imagens faciais rotuladas), (4) mineração de informações (por exemplo, alavancando dispositivos de autoquantificação, como rastreadores de atividade) e (5) trabalho de clique.[287]
Ver também
- Amostragem compressiva
- Aprendizado por transferência
- Codificação esparsa
- Lista de projetos de inteligência artificial
- Máquina de estado líquido
Leitura adicional
Predefinição:Inteligência artificial Predefinição:Controle de autoridade
- ↑ 1,0 1,1 Predefinição:Cite journal
- ↑ 2,0 2,1 Predefinição:Cite book
- ↑ 3,0 3,1 Predefinição:Cite journal
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite web
- ↑ 6,0 6,1 6,2 6,3 Predefinição:Cite journal
- ↑ 7,0 7,1 7,2 7,3 7,4 Predefinição:Cite journal
- ↑ 8,0 8,1 8,2 8,3 8,4 8,5 8,6 8,7 Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite conference
- ↑ 11,0 11,1 Predefinição:Cite journal
- ↑ Rina Dechter (1986). Learning while searching in constraint-satisfaction problems (em inglês). University of California, Computer Science Department, Cognitive Systems Laboratory.Online Predefinição:Webarchive
- ↑ Predefinição:Cite book
- ↑ Co-evolving recurrent neurons learn deep memory POMDPs (em inglês). Proc. GECCO, Washington, D. C., pp. 1795–1802, ACM Press, New York, NY, USA, 2005.
- ↑ Predefinição:Cite journal
- ↑ 16,0 16,1 16,2 Predefinição:Cite journal
- ↑ 17,0 17,1 17,2 Predefinição:Cite journal
- ↑ 18,0 18,1 Predefinição:Cite book
- ↑ 19,0 19,1 Predefinição:Cite book
- ↑ 20,0 20,1 Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width (em inglês) Predefinição:Webarchive. Neural Information Processing Systems, 6231-6239.
- ↑ Predefinição:Cite journal
- ↑ 22,0 22,1 22,2 22,3 22,4 Predefinição:Cite journal
- ↑ 23,0 23,1 23,2 23,3 Predefinição:Cite book
- ↑ 24,0 24,1 Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ 27,0 27,1 Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ 29,0 29,1 Predefinição:Cite journal
- ↑ 30,0 30,1 30,2 30,3 30,4 30,5 30,6 Predefinição:Cite arXiv
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ 36,0 36,1 Predefinição:Cite book
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ 40,0 40,1 Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite thesis
- ↑ Predefinição:Cite journal
- ↑ Ostrovski, G.M., Volin,Y.M., and Boris, W.W. (1971). On the computation of derivatives (em inglês). Wiss. Z. Tech. Hochschule for Chemistry, 13:382–384.
- ↑ 51,0 51,1 Predefinição:Cite web
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation (em inglês ) Predefinição:Webarchive". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition (em inglês), Volume 1: Foundation. MIT Press, 1986.
- ↑ Predefinição:Cite conference
- ↑ Alexander Waibel et al., Phoneme Recognition Using Time-Delay Neural Networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. – 339 03-1989.
- ↑ Predefinição:Cite journal
- ↑ LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition", Neural Computation, 1, pp. 541–551, 1989.
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ 66,0 66,1 66,2 Predefinição:Cite journal
- ↑ 67,0 67,1 Predefinição:Cite journal
- ↑ Predefinição:Cite book As páginas 150 e seguintes demonstram a atribuição de crédito em um equivalente a 1.200 camadas em uma rede neural recorrente desdobrada.
- ↑ 69,0 69,1 69,2 S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen". Predefinição:Webarchive. Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite Q
- ↑ Predefinição:Cite book
- ↑ 73,0 73,1 Predefinição:Cite conference
- ↑ Predefinição:Cite journal
- ↑ 75,0 75,1 Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal Predefinição:Acesso fechado
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ 89,0 89,1 Predefinição:Cite journal
- ↑ L.P Heck and R. Teunen. "Secure and Convenient Transactions with Nuance Verifier". Nuance Users Conference, April 1998.
- ↑ Predefinição:Cite web
- ↑ 92,0 92,1 Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting Predefinição:Webarchive. Proceedings of ICANN (2), pp. 220–229.
- ↑ Graves, Alex; & Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ G. E. Hinton., "Learning multiple layers of representation". Predefinição:Webarchive. Trends in Cognitive Sciences, 11, pp. 428–434, 2007.
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Yann LeCun (2016). Slides on Deep Learning Online Predefinição:Webarchive
- ↑ 103,0 103,1 103,2 Predefinição:Cite journal
- ↑ 104,0 104,1 104,2 Predefinição:Cite web
- ↑ 105,0 105,1 105,2 Predefinição:Cite book
- ↑ Predefinição:Cite web
- ↑ 107,0 107,1 Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ 111,0 111,1 Predefinição:Cite journal
- ↑ 112,0 112,1 Predefinição:Citation
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite arXiv.
- ↑ Predefinição:Cite arXiv.
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Citation
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite conference
- ↑ Predefinição:Cite conference
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite conference
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Google Research Blog. The neural networks behind Google Voice transcription. 11-08-2015. By Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html
- ↑ 136,0 136,1 Predefinição:Cite web
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Citation
- ↑ 144,0 144,1 Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite conference
- ↑ Predefinição:Cite news
- ↑ 148,0 148,1 Predefinição:Cite journal
- ↑ 149,0 149,1 149,2 Predefinição:Cite journal
- ↑ 150,0 150,1 Predefinição:Cite arXiv
- ↑ 151,0 151,1 Predefinição:Cite arXiv
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ 154,0 154,1 Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ Ting Qin, et al. "A learning algorithm of CMAC based on RLS" (em inglês). Neural Processing Letters 19.1 (2004): 49-61.
- ↑ Ting Qin, et al. "Continuous CMAC-QRLS and its systolic array" (em inglês). Predefinição:Webarchive. Neural Processing Letters 22.1 (2005): 1-16.
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite news
- ↑ Predefinição:Cite news
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ 175,0 175,1 175,2 Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite magazine
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite arXiv
- ↑ Nvidia Demos a Car Computer Trained with "Deep Learning" (06-01-2015), David Talbot, MIT Technology Review
- ↑ 187,0 187,1 187,2 Predefinição:Cite journal
- ↑ 188,0 188,1 188,2 Predefinição:Cite journal
- ↑ Predefinição:Cite arXiv
- ↑ 190,0 190,1 Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ 196,0 196,1 Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite news
- ↑ Predefinição:Cite web
- ↑ 201,0 201,1 201,2 201,3 Predefinição:Cite web
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite magazine
- ↑ 204,0 204,1 Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite web
- ↑ "Toxicology in the 21st century Data Challenge"
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite arXiv
- ↑ 213,0 213,1 Predefinição:Cite news
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite magazine
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite web
- ↑ 227,0 227,1 Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite news
- ↑ Predefinição:Cite conference
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ 240,0 240,1 240,2 Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ S. Blakeslee, "In brain's early growth, timetable may be critical" (em inglês), The New York Times, Science Section, pp. B5–B6, 1995.
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite magazine
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journalPredefinição:Acesso fechado
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite news
- ↑ Predefinição:Cite book
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite news
- ↑ 276,0 276,1 276,2 Predefinição:Cite web
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite arXiv
- ↑ Predefinição:Cite journal
- ↑ Miller, G. A., and N. Chomsky. "Pattern conception" (em inglês). Paper for Conference on pattern detection, University of Michigan. 1957.
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite web
- ↑ Predefinição:Cite web
- ↑ 284,0 284,1 284,2 284,3 284,4 Predefinição:Cite news
- ↑ Predefinição:Cite journal
- ↑ Predefinição:Cite journal
- ↑ 287,0 287,1 Predefinição:Cite journal