Skip to content

Breve história da IA

Simbolismo e Conexionismo

Quando analisamos o caminho de evolução da IA, observamos duas abordagens históricas e conceituais distintas: simbolismo e conexionismo.

A IA simbólica representa o conhecimento por meio de símbolos e regras explícitas, seguindo a lógica formal. É fruto do pensamento lógico orientado pela matemática em descrever de forma abstrata os processos que geram comportamento inteligente. Seus defensores acreditam que a inteligência pode ser alcançada de forma abstrata, sem uma base que se assemelhe a um cérebro. Ela tenta imitar o raciocínio humano através de manipulação de símbolos – como se fosse um sistema de “se… então…”.

Características:

  • Utiliza regras lógicas, árvores de decisão, ontologias e representações simbólicas.
  • Baseia-se em conhecimento explícito fornecido por especialistas (ex: sistemas especialistas).
  • É altamente interpretável: é possível entender como e por que chegou a uma conclusão.
  • Exemplos: Prolog, sistemas especialistas.

A IA conexionista tenta modelar o cérebro humano usando redes neurais artificiais, onde o conhecimento é aprendido a partir de dados e distribuído pelos pesos das conexões entre neurônios artificiais. É orientada para a inteligência emergente da fisiologia humana, considerando que a inteligência humana é resultado da forma como o nosso cérebro funciona e é organizado. Seus defensores se baseiam no desenvolvimento evolutivo dos cérebros e argumentam que é necessário haver alguma base, a partir da qual a inteligência possa emergir.

Características:

  • Aprende por exemplos (machine learning), não por regras explícitas.
  • O conhecimento é implícito nos pesos da rede.
  • Possui alta capacidade de generalização, mas é geralmente uma “caixa preta”.
  • Exemplos: redes neurais profundas, modelos como o ChatGPT, reconhecimento de imagem/voz.

A mente humana adota as duas abordagens. Muitas vezes “imitamos” o que os outos fazem, repetindo uma lógica predeterminada. Em outras vezes, “aprendemos” novas formas de atuar no mundo por meio de tentativa e erro.

O modelo simbolista deu origem ao que conhecemos como programação de computadores: uma tarefa é dividida em partes, organizando um fluxo para executar ações. Segue o funcionamento da mente humana, colocando os pensamentos em ordem concatenada. Parte de um conceito mental, gerando regras que o descrevam e sendo estruturado de cima (ideia) para baixo (comandos específicos). Tudo o que é processado deve ser programado antecipadamente. Os resultados obtidos são predeterminados pela lógica de programação e interação com os dados de entrada e saída do sistema.

No modelo conexionista as decisões são geradas por meio de processamento em camadas de neurônios especializados que interagem e aprendem como agir da melhor maneira (de baixo para cima). Não se trata de um processo de repetição, mas de treinamento e aprendizagem, onde as soluções emergem por meio de tentativa e erro, apresentando evolução.

AspectoIA SimbólicaIA Conexionista
RepresentaçãoSímbolos e regras explícitasRedes neurais e pesos sinápticos
Fonte de ConhecimentoProgramação manual (expertise)Aprendizado a partir de dados
ExplicabilidadeAlta (decisões rastreáveis)Baixa (modelo caixa-preta)
FlexibilidadeBaixa para dados novos ou incompletosAlta, aprende com novos dados
InspiraçãoLógica formal e linguísticaNeurociência e funcionamento do cérebro

Na década de 1950, a IA se torna oficialmente uma disciplina de estudo. Naquele momento, acreditava-se que o modelo conexionista seria facilmente implementado em poucos anos, o que gerou euforia e atraiu muitos investimentos. Mas a prática é diferente da teoria. Uma das grandes limitações à época era a capacidade de processamento computacional necessária para o processamento de redes neurais.

Contudo, mesmo o baixo poder de processamento disponível na época era suficiente para permitir florescer a linha simbolista. Como resultado, especialmente após a década de 1970, instaura-se uma decepção geral com os resultados do conexionismo, direcionando recursos e esforços para o simbolismo. Isto dá origem às linguagens codificadas como Fortran, Cobol, Pascal e outras.

Mesmo sem atenção, as pesquisas e desenvolvimento do conexionismo seguiram ocorrendo e progredindo, acompanhando a evolução de hardware e conectividade. Chegamos ao cenário em que as duas abordagens amadureceram e são usadas de forma complementar – semelhante ao que ocorre com o cérebro humano.

Antes da década de 1900

No século XIX, George Boole tentou criar um cálculo de pensamento, resultando no que hoje conhecemos como álgebra booleana.

Em meados do século XIX, Charles Babbage idealizou pela primeira vez uma máquina de calcular de uso geral: a máquina analítica. Ela nunca foi criada na íntegra, mas considerava todos os componentes essenciais de um computador moderno e seria – em teoria – capaz de realizar as mesmas operações.

De 1900 a 1950

Em 1936, Alan Turing escreveu um artigo que se tornou o alicerce da ciência da computação. Turing apresentou uma máquina conceitual genérica (máquina de Turing) e demonstrou que ela seria capaz de calcular qualquer coisa representável por um algoritmo. Todas as linguagens modernas de programação são equivalentes a uma máquina de Turing, permitindo que todos os computadores modernos implementem qualquer algorimo e calculem qualquer aspecto computável.

Em 1943, Warren McCulloch e Walter Pitts escreveram “Cálculo Lógico de Ideias Imanentes na Atividade Nervosa”. Pode-se argumentar que este artigo levou ao que reconhecemos atualmente como redes neurais.

Em 1946 acontece a primeira Macy Cybernetics Conference. A conferência propunha discussões científicas interdisciplinares sobre cibernética, fomentando a criatividade por meio das interações de cientistas de campos distintos.

Ainda em 1946 é lançado o ENIAC que, mesmo sendo um computador decimal não binário, foi a primeira máquina a concretizar as ideias de Alan Turing.

No fim da década de 1940, talvez influenciado pela máquina de Turing, John von Neumann percebe que os seres vivos estavam entre os tipos de máquina que poderiam ser emulados pela máquina universal. Na obra “The general and logical theory of automata”, von Neumann fez uma analogia entre os órgãos humanos e as partes de um computador, especialmente o sistema nervoso central.

Em 1950 Turing publica o artigo “Máquinas de Computação e Inteligência”, gerando o primeiro reconhecimento de que computadores digitais poderiam resultar em máquinas inteligentes. Este artigo apresenta o “jogo da imitação – o Teste de Turing – pelo qual os humanos podem chegar a acreditar que uma máquina é inteligente.

De 1950 a 1970

Em 1951 Marvin Minsky e Dean Edmonds constroem a SNARC (Stochastic Neural Analog Reinforcement Calculator), a primeira rede neural artificial a usar 3.000 tubos a vácuo para simular uma rede de 40 neurônios.

Em 1952, o cientista americano Arthur Samuel cria o programa Checkers, o primeiro jogo de xadrez que aprende a jogar sozinho.

Em 31 de agosto de 1955, momento considerado o nascimento oficial da IA como um novo campo de estudo, John McCarthy, Marvin Minsky, Nathaniel Rochester e Claude Shannon cunham esse termo no documento que propõe um projeto de estudo de IA a ser desenvolvido por 10 pessoas durante 2 meses no verão de 1956, no Dartmouth College.

O ano de 1955 traz outro marco importante: a palavra “singularidade” foi usada pela primeira vez no contexto tecnológico por John von Neumann.

Em 1956 ocorre o seminário Dartmouth Research Project on Artificial Intelligence, considerado o berço de IA, onde o termo “inteligência artificial” foi utilizado pela primeira vez de forma consistente.

Em 1957, Frank Rosenblatt – da Universidade Cornell – criou o Mark I Perceptron, reconhecido como a primeira aplicação de redes neurais. A Perceptron usava como entrada uma imagem de televisão digitalizada de 20×20 pixels, que era então passada por meio de um conjunto “aleatório” de conexões para um conjunto de unidades de associação, resultando em unidades de resposta. É o tipo de configuração parecida com algumas abordagens de aprendizado profundo, usadas atualmente em imagens, e assemelha-se a um tipo de rede neural conhecida como máquina de aprendizado extremo.

Em 1963, Leonard Uhr e Charles Vossler apresentaram um programa que também interpretava uma imagem de 20×20 pixels representada como uma matriz de 0s e 1s. Diferente do Perceptron, este programa foi capaz de gerar os padrões e combinações de features de imagem necessárias a aprender suas entradas. Este programa era semelhante às redes neurais convulacionais que surgiriam 30 anos depois.

Singularidade e reflexões sobre a criação de máquinas ultrainteligentes voltam à tona nos anos 1964/65, quando o matemático Irvin John Good publica o artigo “Speculations Concerning the First Ultraintelligent Machine“. Good acreditava que “A sobrevivência do homem depende da construção de uma máquina superinteligente”. Essa declaração mostra que ele sentia que os seres humanos estavam se envolvendo em tantos problemas complexos, que só poderíamos ser salvos por um pensamento melhor, vindo de máquinas superinteligentes. Segundo o seu raciocínio, a primeira máquina ultrainteligente seria a última invenção feita pelo homem.

Em 1967 Thomas Cover e Peter Hart apresentam o primeiro modelo clássico de aprendizado de máquina, conhecido como vizinhos mais próximos. Em 1973, Hart, Richard Duda e David Stork escrevem a primeira edição do livro “Padrão de Classificação”, obra que apresentou o aprendizado de máquina a muitos cientistas da computação e engenheiros de software.

Em 1969, Marvin Minsky e Seymour Papert publicam o livro Perceptrons, que demonstrava que redes perceptrons com camada única e com duas camadas não eram capazes de modelar tarefas interessantes – isso encerra o sucesso da Perceptron. Embora fossem críticas válidas, as limitações apresentadas não eram aplicáveis a modelos perceptron mais complexos. Ainda assim, essa publicação levou o conexionismo ao ostracismo até o início da década de 1980.

Em 1974, Paul Verbos cria o algoritmo de retropropagação de erros, responsável pelo aprendizado de redes neurais artificiais, que serviu como base para os modelos mais complexos existentes hoje em dia, como Redes Convolucionais (utilizadas para criação de imagens).

Como exceção ao afastamento do conexionismo, em 1979 Kunihiko Fukushima publicou o artigo “Neocognitron: Um Modelo de Rede Neural Auto-organizado Para Um Mecanismo de Reconhecimento de Padrões Não Afetado Pelo Deslocamento de Posição”. Embora o programa de Uhr e de Vossler de 1963 compartilhe algumas similaridades com uma rede neural convolucional, o Neocognitron é, para muitas pessoas, o original. O sucesso das redes neurais convolucionais levou à atual revolução da IA.

A jornada vitoriosa dos computadores que enfrentam campeões humanos começa em 1979, quando, pela primeira vez na história, um computador vence um campeão mundial em jogos de tabuleiro. O programa BKG 9.8, desenvolvido por Hans Berliner, derrotou por 7 a 1 o campeão mundial de gamão, Luigi Villa.

De 1980 a 1990

No início da década de 1980, a IA torna-se comercial com o advento de computadores desenvolvidos especificamente para executar a linguagem Lisp. Com as máquinas Lisp, surgem os sistemas especialistas – softwares desenvolvidos para capturar o conhecimento de um especialista em um domínio restrito. Isso encerrou o “primeiro inverno da IA”.

Embora os sistemas especialistas tenham feito renascer o interesse pela IA, em algum momento ficou claro que esses sistemas eram frágeis para uso geral e então se inicia o “segundo inverno da IA”.

Em 1982, John Hopfield demonstrou o que hoje conhecemos como redes de Hopfield. Trata-se de um tipo de rede neural que armazena informações de forma distribuída dentro dos pesos da rede e, em seguida , extrai essas informações em um momento posterior.

Em 1986, David Rumelhart, Geoffrey Hinton e Ronald Williams publicam “Aprendizado de Representações por Erros de Retropropagação, que detalhava o algoritmo de retropropagação para treinamento de redes neurais. Mas, mesmo com retropropagação, as redes neurais da década de 1980 eram pouco poderosas.

De 1990 a 2000

O “segundo inverno da IA” perdurou até a década de 1990, mas as pesquisas continuaram, tanto no campo simbólico como no campo conexionista. Corinna Cortes e Vladimir Vapnik apresentaram a comunidade de aprendizado de máquina às máquinas de vetores de suporte (SVMs), em 1995. De certa forma, as SVMs representam o auge do machine learning clássico. O sucesso das SVMs da década de 1990 até o início da década de 2000 manteve as redes neurais à margem. As redes neurais exigem conjuntos enormes de dados e processamento computacional significativo; as SVMs, por outro lado, costumam exigir menos recursos. As redes neurais ganham poder a partir da capacidade da rede de representar uma função, do mapeamento a partir das entradas para as saídas desejadas, enquanto as SVMs usam a inteligência matemática para simplificar problemas difíceis de classificação.

O “segundo inverno da IA” terminou em 1997, com a vitória do supercomputador Deep Blue da IBM contra o então campeão mundial de xadrez Garry Kasparov.

Em 1998, Yann LeCun, Léon Bottou, Yoshua Bengio e Patrick Haffner, publicam “Aprendizado Baseado em Gradiente Aplicado ao Reconhecimento de Documentos”. Esse artigo representa um divisor de águas para a IA, apresentando de forma direta as redes neurais convolucionais.

De 2000 a 2021

Em 2001, Leo Breiman apresenta “florestas aleatórias”, unificando as peças existentes do quebra-cabeça em um todo coeso do que se tornaria o algoritmo de floresta aleatória.

Em 2012 o aprendizado profundo chama a atenção do mundo. Nesse ano, AlexNet, uma arquitetura específica de rede neural convolucional, venceu o desafio ImageNet, com um erro geral pouco superior a 15% – resultado muito melhor ao de qualquer concorrente. Esse desafio exige que os modelos identifiquem o tema principal de imagens coloridas. Em 2017, as redes neurais convolucionais reduziram o erro para cerca de 3%, abaixo do resultado de 5% alcançado por poucos humanos especializados.

Em 2013, o grupo DeepMind do Google apresentou um sistema de aprendizado profundo por reforço que poderia aprender a jogar videogames Atari melhor que humanos.

Em 2014, Ian Goodfellow “descobre” as redes adversárias generativas (GANs). Essas redes inauguram uma nova área de pesquisa, possibilitando que os modelos criem saídas relacionadas, mas diferentes dos dados nos quais foram treinados. As GANs deram origem à explosão atual da IAs generativas, incluindo ChatGPT e similares.

Em 2016, o sistema AlphaGo da DeepMind derrotou o campeão de Go, Lee Sedol, com resultado de 4×1. O AlphaGo foi treinado em milhares de jogos Go jogados por humanos. Mas em 2017, ele foi substituído pelo AlphaGo Zero, um sistema treinado do zero, jogando contra si mesmo, sem intervenções humanas. O AlphaGo Zero dominou o AlphaZero original, ganhando 100 vitórias perfeitas.

Em 2022, o atual sistema KataGo, foi facilmente derrotado por um sistema treinado não para vencer, mas para revelar a fragilidade inerente aos sistemas modernos de IA. O sistema utilizou movimentos fora do intervalo encontrado pelo KataGo em seu treinamento. Mais um exemplo de que “interpolação é boa, mas extrapolação é ruim”.

De 2021 até hoje

Atualmente vivenciamos uma explosão de novos modelos. A maioria pode aceitar entrada de texto escrita por humanos para gerar textos, imagens ou até mesmo saída de vídeo. Muitas vezes, a entrada combina texto e imagens de exemplo para orientar o sistema.

Por que agora? De forma sucinta, devido ao surgimento de inovações tecnológicas favoráveis ao conexionismo. Indícios do que poderia emergir do conexionismo eram evidentes no início da década de 1960. Teria sido apenas o viés simbólico da IA que atrasou a revolução por tantas décadas? Não. O conexionismo estagnou devido a problemas de velocidade, de algoritmo e de dados. Vamos examinar cada um deles.

Velocidade: os computadores eram, até o advento das GPUs rápidas, lentos demais para treinar redes neurais com a capacidade necessária a criar as IAs que temos atualmente.

Algoritmos: as primeiras abordagens para o treinamento de redes neurais eram rudimentares e incapazes de tirar proveito de seu verdadeiro potencial. As inovações algorítmicas mudaram isso.

Dados: No aprendizado de máquina, dados são tudo. Redes neurais exigem muitos dados de treinamento. Os dados gerados pelo crescimento da internet possibilitam treinamentos de qualidade pelas IAs.

Referências

Kneusel, Ronald T.. Como a Inteligência Artificial Funciona: Da Magia à Ciência

Gabriel, Martha. Inteligência Artificial – Do Zero ao Metaverso

Comments

Comments (0)

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Previous
Next
Back To Top