O que são modelos científicos e como eles funcionam
Com o conhecimento científico foi possível a realização de feitos antes inimagináveis, como a comunicação à velocidade da luz, nanotecnologia, fissão nuclear, viagem ao espaço, inteligência artificial, dentre outras. O poder do conhecimento científico está na criação de modelos que representam a realidade ou um fragmento de um sistema. Eles são usados na construção de teorias científicas, que visam capturar a estrutura ou dinâmica da própria realidade. A validação de uma teoria envolve testar hipóteses, que é baseada na análise de padrões encontrados em dados empíricos. Quer a hipótese seja baseada em dados ou na teoria, um conjunto de dados empíricos precisa estar disponível para testar os resultados do modelo. Em seguida, um processo algorítmico é projetado e implementado com o objetivo de descrever matematicamente a estrutura ou dinâmica de interesse. Posteriormente, o modelo é executado e validado comparando dados simulados com dados empíricos. Os insights resultantes inspiram novas hipóteses científicas e o modelo é refinado iterativamente ou novos modelos são desenvolvidos.
Uma pergunta que instiga muitos filósofos epistemológicos é como modelos são criados. Isso significa entender como ocorre o processo de aprendizado de um conhecimento científico, ou seja, entender como, a partir de dados experimentais, conseguimos extrapolá-los e criar modelos confiáveis. O que significa ser confiável na metodologia científica? Como ocorre o processo de generalização a partir da dedução e da indução do conhecimento empírico para um princípio universal, como as leis de Newton ou a mecânica quântica?
Indo além do mero aprendizado humano, pode-se questionar ainda os atuais modelos de aprendizado de máquina e fazer os mesmos questionamentos: Como máquinas aprendem e geram modelos confiáveis baseados apenas em dados empíricos? O que veremos nesse artigo é um paralelo entre filosofia, ciência e a inteligência artificial para nos aprofundarmos nesses questionamentos. Veremos o que significa um “bom modelo” na ciência e como o teste de hipóteses valida o conhecimento científico. Também será discutido a “fonte do conhecimento”, com suas escolas de pensamento empirista e racionalista e onde o aprendizado de máquina se encontra.
O que caracteriza um bom modelo?
Em certo sentido, todos os modelos estão errados. Isso implica que nenhuma descrição da realidade é a última e todos os modelos atuais estão sujeitos a refinamentos conforme novos dados são apresentados.
“Todos os modelos implicam em esquematizações e simplificações que se traduzem em “suposições”. E cada suposição de um modelo é uma fonte possível de erro.”
Dessa maneira, entendemos que ao criar um modelo, o objetivo não deve ser criar uma descrição última ou perfeita da realidade, e sim minimizar o erro entre a realidade objetiva e a descrição subjetiva dada pelo modelo. Mas existe uma descrição última da realidade que pode ser representada por um modelo matemático perfeito? Esse é um debate filosófico interessante, iniciada por Platão e Aristóteles, e ainda continua sem resposta, com duas correntes filosóficas concorrentes: a realista e a antirrealista.
Platão defende em obras como A República e Fédon, que o conhecimento só é alcançado quando atingimos a “ideia” ou “conceito” do objeto. Essa ideia estaria em um mundo independente das objeto, no “Mundo das Ideias”. Exemplo: Um modelo de um cavalo seria representação ideal (no mundo das ideias) de um cavalo e o cavalo real seria uma forma imperfeita desta ideia. O mesmo pode-se dizer de conceitos como Justiça, Beleza, etc. Existe um único modelo perfeito que descreve esses conceitos, que estão no Mundo das Ideias. Aristóteles, por outro lado, critica Platão justamente por criar uma independência entre a ideia abstrata do objeto e o objeto em si. Ele concorda, por exemplo, que a observação e comparação de diferentes tipos de cavalo levam a um grupo de aspectos que definem o “modelo de cavalo”, mas tal modelo não existe independentemente, e sim são uma maneira de categorizar objetos com atributos semelhantes a “cavalos” observados empiricamente.
Atualmente, o debate se divide entre realistas e antirrealistas. Apesar das diversas interpretações, em geral podemos dizer que o realismo sobre objetos matemáticos, modelos científicos ou processos mentais, se caracteriza pela afirmação de que os objetos em questão “realmente existem”, ou “desfrutam de uma existência independente de qualquer cognição”, ou “estão entre os constituintes últimos do mundo real” [1]. Realistas dizem que os cientistas interpretam “todas as teorias científicas como tentativas de descrições da realidade”. Usando como exemplo a teoria da gravitação universal de Newton, Força, inércia, gravidade, são entidades que realmente existem, pois elas revelam a estrutura causal do mundo. Um antirrealista acredita justamente no contrário. Berkeley, famoso antirrealista, contra-argumentaria Newton afirmando que essas entidades são apenas criações teóricas que compilam a bem e experiência dos sentidos, mas não existem em um “Mundo das Ideias Platônico” ou é a última descrição da realidade. Se você já ouviu a discussão “A matemática é descoberta ou inventada?”, saiba que isso é basicamente uma discussão profunda sobre o realismo e antirrealismo da matemática.
Pensando de maneira mais concreta, independente se tais modelos existem ou são constructos mentais, é importante entender o que caracteriza um bom modelo, seja ele físico, biológico, econômico, etc. As principais características de tais modelos são:
- Parcimônia – Aqui temos a questão da simplicidade: Modelos que dependem de menos suposições para explicar um determinado fenômeno são preferíveis. Isso evita o sobreajuste (overffiting), e tais modelos podem falhar em fazer previsões para situações ainda não observadas. Cientistas e analistas de dados conhecem muito bem esse problema, e técnicas rotineiras, como o cross-validation, são tentativas de evitar o overffiting. Na ciência, um exemplo interessante era o debate entre geocentrismo e heliocentrismo. O modelo geocêntrico era demasiadamente complicado, pois ao assumir que a Terra era o centro do Sistema Solar, teria que criar “epiciclos” nas órbitas de outros planetas para explicar os problemas de perspectiva do movimento dos planetas ao serem observados na Terra. Aliás, falharia completamente se tivesse que explicar as órbitas em exoplanetas, algo que não acontece com o heliocentrismo.
- Perspicácia – São modelos que revelam propriedades fundamentais do objeto que está sendo representado. Quando Newton, escreveu que sua teoria é “O Sistema do Mundo” ele não estava exagerando: Ele revelou propriedades fundamentais da gravidade, como a teoria da gravitação universal e as famosas Leis de Newton, que revolucionou a física em sua época. Um modelo ainda mais perspicaz é a Teoria da Relatividade Geral, onde Einstein entendeu a gravidade como a distorção causada pela matéria no tecido do próprio Espaço-Tempo.
- Generalização – São modelos que podem ser aplicados em uma ampla gama de situações. Por exemplo, as Leis de Newton podem explicar porque as maças caem enquanto a Lua não. As equações de Maxwell são capazes de explicar satisfatoriamente todos os fenômenos elétricos e magnéticos existentes e unificá-lo num único modelo , descrita pela Teoria Eletromagnética. Indo além, físicos buscaram criar modelos ainda mais gerais, buscando unificar as forças fundamentais da natureza: a unificação da força eletromagnética com a força nuclear fraca gerou a Teoria Eletrofraca, e uma unificação ainda maior, adicionando a força nuclear forte, gerou a chamada Grande Teoria Unificada (GUT) que pode explicar fenômenos que aconteceram próximo ao Big Bang, quando tais forças ainda não eram distintas. O Santa Graal da física é a unificação de todas as forças fundamentais numa única teoria (A Teoria de Tudo), mas a gravidade, a mais fraca das forças, ainda é difícil de ser explicada em nível quântico, causando total incompatibilidade entre a Teoria da Relatividade Geral e a Mecânica Quântica.
- Falseabilidade – Essa é uma propriedade fundamental da ciência. Todos os modelos científicos devem passar por um teste que possa verificar se determinada ideia, hipótese ou teoria é falsa. Um modelo é falseável se e somente faz previsões não triviais que podem, em princípio, ser falsificadas empiricamente. Se um modelo não faz previsões falsificáveis, então o modelo não pode ser avaliado empiricamente. Tal propriedade está diretamente relacionada com a previsão, já que para passar na falseabilidade, a predição do modelo deve ser avaliada no teste de hipóteses, onde o status quo e a hipótese alternativa (do modelo) são avaliado com dados observáveis. A teoria de Newton foi extensivamente avaliada em diversos fenômenos onde foi comprovado o poder de previsão. Apesar disso, em alguns fenômenos, onde o efeito gravitacional é muito forte ou onde o objeto está próximo à velocidade da luz, a teoria falha, e é necessário considerar efeitos relativísticos, que só podem ser explicadas pela relatividade especial e geral de Einstein. Uma teoria famosa que por enquanto nem teoricamente pode ser falseada é a Teoria da Supercordas, tentativa de unificar todas as forças fundamentais, onde os menores constituintes da realidade são pequenos filamentos de energia semelhantes a pequenas cordas vibrantes. O problema é que para detectar essas cordas seria necessário um acelerador de partículas maior que o sistema solar. Devido a essa impossibilidade de verificar se a teoria está correta ou não, muitos físicos não consideram a Teoria das Supercordas como ciência.
Teste de hipóteses: como os modelos são avaliados
O Teste de hipóteses é um procedimento estatístico fundamental na tomada de decisões, entre aceitar ou não uma hipótese. Na ciência, é utilizado para validar resultados de estudos, com o objetivo de aceitar ou não a hipótese nula, dada um determinado nível de significância (p-value). Para exemplificar como o teste de hipóteses funciona, vamos considerar duas moedas. Gostaria de avaliar se essas moedas são justas ou viciadas. Um modelo de moeda justa teria como resultado de lançamentos um valor próximo a 50% cara e 50% coroa, enquanto um modelo de moeda viciada teria uma proporção diferente. A hipótese nula é sempre o status quo, ou seja, que a moeda é justa (você geralmente recebe uma moeda justa, você que propôs que ela é viciada, que no caso forma a hipótese alternativa). Jogando cada moeda 10 vezes chegamos no seguinte resultado, onde cara é C e coroa é K:
Moeda 1: CKCCKKCCKC
Moeda 2: CCCCCCCKCC
Vamos avaliar a moeda 1: Quais chances de uma moeda justa dar 6 caras e 4 coroas? Usando a distribuição binomial, chegamos em 23%. Se usarmos um p-value de 5%, então a hipótese nula só seria rejeitada caso um evento incomum acontecesse menos que 5% das vezes. Com 23% de chance de ocorrer tal evento, falhamos em rejeitar a hipótese nula.
Agora vamos avaliar a moeda 2: Nessa caso, temos 9 caras e uma coroa. As chances disso acontecer é de 0.9%, valor suficiente para classificá-lo como “raro”, já que é menor que o p-value de 5%. Assim, rejeitamos a hipótese nula, ou seja, a moeda é viciada.
Então, o p-value avalia o quão provável ou improvável é um evento ao considerar a hipótese nula. Se você quer avaliar se uma vacina é segura, precisa fazer um teste em uma amostra significativa de pessoas e, considerando como hipótese nula que a vacina NÃO é segura , obter uma probabilidade baixa o suficiente de alguém ter algum efeito colateral ao tomar a vacina de maneira que te levaria a rejeitar a hipótese nula.
Pra exemplificar o conceito de ter uma amostra significativa, considere que você está avaliando uma terceira moeda, e fez três lançamentos com os seguintes resultados:
Moeda 3: CCC
Tivemos 100% de caras, o que leva a crer que é uma moeda viciada. Mas o p-value, ou seja, as chances de uma moeda justa dar esse resultado, é de 12,8%, o que falharia em rejeitar a hipótese de que a moeda é justa! Isso mostra que o teste de hipóteses é sensível ao tamanho da amostra. Então tenha muitos dados para avaliar.
Teorias do Aprendizado
Uns dos debates mais importantes da filosofia se diz a respeito de como aprendemos, ou seja, de que maneira o conhecimento genuíno e necessário é adquirido, compreendendo as diversas formas de buscá-lo Na filosofia moderna, houveram duas correntes diferentes de pensamento. A primeira, iniciada por René Descartes e que também foi adotada por Leibniz e Noam Chomsky é a racionalista. Como oposição, temos o empirismo, onde temos como maiores defensores dessa corrente Locke, Berkeley e Hume.
No racionalismo, tem-se a razão como principal fonte de conhecimento humane e acredita-se na dedução como principal método investigativo. Temos um “conhecimento inato” como certas categorias de espaço, de tempo e de causa e efeito. Com esse conhecimento, em sua forma mais pura, o racionalismo chega ao ponto de sustentar que todas as nossas crenças racionais, e a totalidade do conhecimento humano, consistem em primeiros princípios e conceitos inatos que são de alguma forma gerados e certificados pela razão, junto com qualquer coisa logicamente dedutível a partir desses primeiros princípios. Esses princípios, os fundamentos do nosso conhecimento, são proposições que são evidentes por si mesmas (auto-evidentes). Por exemplo, Descartes acreditava que deveríamos desconfiar de tudo, menos na própria capacidade de duvidar e, a partir dessa certeza do “Penso, logo existo”, seriam deduzidos novos conhecimentos. Outro exemplo seriam os teoremas matemáticos, onde por dedução podemos chegar a conclusões racionais absolutas.
O empirismo, por outro lado, afirma que a experiência é a fonte do conhecimento, tendo a indução da experiência como principal método investigativo, Para os empiristas, todas as nossas ideias vêm unicamente da experiência sensorial. Nosso conhecimento é a posteriori, na medida em vamos tendo experiência do assunto, e é dependente da experiência dos sentidos. Os empiristas também negam a implicação da tese do conceito inato, correspondente a de que temos ideias inatas na área de assunto. Eles também rejeitam a versão correspondente da tese da superioridade da razão. Visto que a razão por si só não nos dá nenhum conhecimento, certamente não nos dá um conhecimento superior. Os empiristas podem afirmar, como alguns fazem para alguns sujeitos, que os racionalistas estão corretos ao afirmar que a experiência não pode nos dar conhecimento. A conclusão que eles tiram dessa lição racionalista é que não sabemos nada. David Hume, um empirista radical, gostava de usar como exemplo o nascer do sol. Ele dizia que o nascer do sol é um conhecimento adquirido através da indução, já que você viu o sol nascer no leste desde que você nasceu, mas não temos garantias de que ele vai nascer amanhã, isso não pode ser uma afirmação auto-evidente.
Racionalismo e empirismo não precisam entrar em conflito. Podemos ser racionalistas em matemática, já que teoremas como o Teorema de Pitágoras ou o Teorema Fundamental do Cálculo podem ser deduzidos a priori, e podemos ser empiristas em todas ou em algumas das ciências físicas, utilizando o teste de hipóteses para validar experimentos. Racionalismo e empirismo só entram em conflito quando formulados para cobrir o mesmo assunto. E para solucionar esse conflito, chegamos em Immanuel Kant, que revolucionou a epistemologia em sua grande obra “Crítica da Razão Pura”.
Kant cria a Teoria dos Juízos, onde ele dirá que existem o Juízo analítico e o Juízo sintético. Juízos analíticos são aqueles em que o predicado não acrescenta em nada o sujeito, exemplo “Todo triângulo tem três lados” ou “Todos os corpos são extensos. Como não dependem de tempo e lugar, são juízos a priori e universais. Juízos sintéticos são aqueles que acrescentam algo ao sujeito, como por exemplo “Todos os corpos são pesados” e sempre partem da experiência. Podem ser divididos em dois tipo: A priori e A posteriori. O juízo sintético a posteriori é baseado na indução da experiência, enquanto o juízo sintético a priori não necessitam da experiência imediata, como as afirmações matemáticas. Parece confuso à vista, já que se tende a acreditar que a afirmação “7+5=12” é puramente analítica, mas como Kant descreve em “Crítica da Razão Pura” [2]:
Poder-se-ia em verdade crer, à primeira vista, que a proposição 7 + 5 = 12 é puramente analítica, resultante, segundo o princípio de contradição, do conceito de uma soma de sete e cinco. Mas se a considerarmos com mais atenção, acharemos que o conceito de soma de sete e cinco não contém mais do que a união dos dois números em um só, o que não faz pensar qual seja esse número único que compreenda aos outros dois. O conceito de 12 não é de modo algum percebido só pelo pensamento da união de cinco e sete, e posso decompor todo meu conceito dessa soma tanto quanto quiser, sem que por isso encontre o número 12. É preciso, pois, ultrapassar esse conceito recorrendo-se à intuição correspondente a um dos dois números, e aditar sucessivamente ao conceito sete as cinco unidades dadas na intuição. […] A proposição aritmética é, pois, sempre sintética: o que se compreende ainda mais claramente se se tomam números maiores, pois então é evidente que, por mais que volvamos e coloquemos nosso conceito quanto quisermos, nunca poderemos achar a soma mediante a simples decomposição de nossos conceitos e sem o auxilio da intuição.
Um problema que surge imediatamente quando se fala em juízos sintéticos a priori é o verdadeiro problema da razão pura. Como são possíveis os juízos sintéticos a priori? Como se origina o conhecimento da física teórica e da matemática pura? Como são teorizados os modelos científicos que tanto transformaram o mundo? Kant, para responder essa pergunta, cria a Teoria Elementar Transcendental, divididas em estética e lógica transcendental.
A Estética transcendental é a ciência de todos os princípios. É a priori, e diz respeito à capacidade de adquirirmos conhecimento de acordo com a sensibilidade. É apenas através da sensibilidade que podemos ter uma intuição do objetos de estudo. Entenda a intuição como a capacidade de encontrar indícios que levem a alguma correlação, generalização, a algum conhecimento sintético. Conforme afirma Kant:
Todo pensamento deve em última análise, seja direta ou indiretamente, mediante certos caracteres, referir-se às intuições, e, conseguintemente, à sensibilidade, porque de outro modo nenhum objeto nos pode ser dado.
Entremos agora no conceito de lógica transcendental. Quando falamos da lógica geral, abstraímos a matéria do conhecimento intelectual e toda a diversidade de seus objetos, e só nos ocupamos com a forma do pensamento. Como Lógica pura, não tem nenhum princípio empírico e, por conseguinte, não empresta nada da Psicologia, que não exerce influência alguma sobre o cânon do entendimento. É uma doutrina demonstrada, e tudo deve ser nela amplamente “a priori”. Uma Lógica geral é aplicada, quando se ocupa das regras do uso do entendimento, sob as condições empíricas e subjetivas que nos ensina a psicologia. Esta Lógica tem também princípios empíricos, ainda que seja geral enquanto trata da aplicação do entendimento sem distinção de objetos [2]. Para Kant, é preciso fazer a passagem da lógica geral, para a transcendental. A Lógica transcendental está mais relacionado ao entendimento e à organização do pensamento. Esta Lógica investigaria também a origem do nosso conhecimento de objetos, enquanto tal origem não possa ser atribuída aos objetos; a Lógica geral, pelo contrário, não se ocupa com essa origem do conhecimento, e só se limita a examinar as nossas representações sob o ponto de vista das leis com que o entendimento a emprega e reúne entre si, quando pensa. A lógica transcendental isola o entendimento (assim como a estética transcendental isola a sensibilidade). Esse entendimento é formado a partir da intuição, que é determinada a priori pelas formas da sensibilidade que são o espaço e o tempo.
Como máquinas aprendem
O aprendizado de máquina (machine learning) é um ramo da inteligência artificial onde um sistema é capaz de analisar uma grande quantidade de dados, além de usar uma variedade de algoritmos para encontrar padrões no banco de dados. Com base nesses padrões, são gerados modelos (não explicitamente programados por humanos) que conseguem fazer predições. Modelos gerados por algoritmos de machine learning são científicos, pois precisam representar da maneira mais realista o objeto em estudo, satisfazendo princípios como parcimônia, generalização e capacidade de predição.
Já discutimos que modelos científicos são “fundamentalmente errados”. Todos os modelos de machine learning usa esse princípio para otimizar (minimizar) o gap entre a previsão e o valor real. Nenhum algoritmo de machine learning cria um modelo 100% acurado. Tais modelos são construções “artificiais” que captura um aspecto do objeto que nos interessa e que geram predições que são úteis na tomada de decisões.
Mas como tais algoritmos aprendem? Pelo que vimos a respeito das teorias do conhecimento, podemos dizer que tais modelos são empiristas, já que tentam induzir um modelo a partir de observações nos dados históricos. Mas a construção de tais modelos é racionalista, um conhecimento sintético a priori, já que são aplicados métodos dedutivos para criar algoritmos empiristas. Como humanos deduzem tais algoritmos? A partir da sensibilidade e intuição, podemos buscar analogias nas criações da natureza, como o cérebro ou a evolução, ou na forma como descrevemos o mundo, a partir de símbolos, ou na maneira em que atualizamos nossas crenças a partir de nossas observações, etc. No livro de Paulo Domingos, “O Algoritmo Mestre” [3], são classificados cinco tribos de algoritmos de machine learning:
1) Conexionistas: É baseada na simulação de componentes do cérebro e tem como principal algoritmo as redes neurais. Surgiu em 1943, quando McCulloch e Pitts cria o conceito de Percéptron, um neurônio artificial de uma camada. As redes neurais artificiais (ANNs) são compostas por camadas de nós, contendo uma camada de entrada, uma ou mais camadas ocultas e uma camada de saída. Cada nó, ou neurônio artificial, se conecta a outro e tem um peso e limite associados. Se a saída de qualquer nó individual estiver acima do valor limite especificado, esse nó será ativado, enviando dados para a próxima camada da rede. A rede neural aprende ajustando os pesos de conexão dos nós de maneira a minimizar a função de perda (a diferença entre o valor real e previsto), usando uma técnica conhecida como backpropagation, onde os pesos da camada de saída são retro propagados usando a regra da cadeia do cálculo diferencial.
2) Simbolistas: A abordagem baseia-se na suposição de que muitos aspectos da inteligência podem ser alcançados pela manipulação de símbolos, uma suposição definida como a “hipótese dos sistemas de símbolos físicos” por Allen Newell e Herbert Simon em meados dos anos 1960. Os algoritmos de Machine Learning simbólicos são focados no desenvolvimento de sistema de manipulação simbólica e em processos cognitivos. Ou seja, buscam simular a forma com que o ser humano pensa para resolver um determinado problema mas, para isso, é necessário que se entre com as informações sobre o mesmo para que então o algoritmo desenvolva uma forma de resolvê-lo. Um exemplo de algoritmo simbolista é a indução de árvores de decisão, que criam regras automáticas que categorizam as instâncias baseados em suas variáveis. Cada nó na árvore de decisão é uma variável a ser dividida em subnós, e essa estrutura é criada de maneira otimizada de maneira a minimizar a entropia nos nós da folha (leaf nodes) da árvore.
3) Analogistas; aprendem fazendo extrapolações a partir de julgamentos de semelhança nos dados. Os mais conhecidos são os algoritmos KNN e SVM. O KNN é bem simples: Para classificar uma instância X primeiro você encontra os k pontos mais próximo de X e, a seguir, classifica os pontos pela maioria dos votos de seus k vizinhos. Cada objeto vota em sua classe e a classe com mais votos é considerada a previsão. Para encontrar os pontos semelhantes mais próximos, você encontra a distância entre os pontos usando medidas de distância como distância euclidiana, distância de Hamming, distância de Manhattan e distância de Minkowski.
O SVM usam máquinas de vetores de suporte para encontrar a melhor maneira de separar os dados. É usado técnicas de otimização matemática para encontrar a encontrar a equação que define o melhor hiperplano, maximizando as distância dos vetores de suporte (margens do hiperplano).
4) Evolucionários: São algoritmos que abduzem o processo de seleção natural de Darwin e um típico algoritmo funciona seguindo as seguintes etapas:
- Initial Population – É inicializado aleatoriamente um conjunto de indivíduos que formará nossa população. No nosso caso, os indivíduos são os modelos com parâmetros escolhidos aleatoriamente;
- Fitness – Devemos testar essa população em um ambiente hostil. Somente alguns indivíduos vão sobreviver. Você pode criar um ambiente hostil simplesmente estabelecendo um mínimo para o score do modelo;
- Crossover e Mutation – Define os critérios para a próxima geração. Na etapa de crossover, os genes (hiperparâmetros) dos pais serão recombinados, para produzir filhos, cada filho herdando alguns genes de cada pai. Para manter a diversidade, adicionamos um pouco de mutação nos filhos;
- Offspring – A próxima geração conterá os pais sobreviventes e os filhos, mantemos os pais sobreviventes para manter os melhores genes, caso o valor dos genes do filho seja pior que os pais. O processo é repetido até que os indivíduos da última geração sejam os mais bem evoluídos.
5) Bayesianos: Tem como principal motivador o famoso teorema de bayes. O pensamento Bayesiano fornece uma abordagem probabilística para a aprendizagem e está baseado na suposição de que as quantidades de interesse são reguladas por distribuições de probabilidades. Para um algoritmo bayesiano, “aprender” significa atualizar as chances a priori de um evento baseado em novas evidências a posteriori. Por exemplo, usando o teorema de Bayes, podemos encontrar a probabilidade de A acontecer, dado que B ocorreu. Aqui, B é a evidência a posteriori e A é a hipótese a priori. A suposição feita aqui é que os preditores / recursos são independentes. Ou seja, a presença de um determinado recurso não afeta o outro. Por isso que tal algoritmo é chamado de ingênuo (naive bayes).
Assim, o machine learning pode ser considerado uma implementação por humanos de técnicas em máquinas para adquirir conhecimento a partir de observações a posteriori. A origem do sucesso do aprendizado de máquina depende de sua capacidade de derivar relações entre fenômenos e potencialmente descobrir o estado oculto (latente) de um sistema (indução), ou seja, potencialmente fornecer um conhecimento verdadeiro intrínseco do sistema. A identificação do sistema e o design baseado no modelo com o auxílio do aprendizado de máquina constituem um primeiro passo para encontrar padrões de um sistema por meio de uma abordagem mista de aprendizagem a priori – a posteriori, que, retrospectivamente, segue a filosofia de Kant.
Para finalizar, cabe uma última questão. Poderá existir um algoritmo de machine learning que poderá pensar como nós? A reposta iria depender da capacidade de máquinas em poder ter uma estética e lógica transcendental, que a permitam extrair conhecimento a partir da sensibilidade com os objetos ao seu redor iue organizar seus pensamentos com o objetivo de gerar novas deduções lógicas capazes de ampliar o conhecimento científico. O principal problema é o paradoxo que surge ao criar tal máquina. Como faríamos para uma máquina procurar princípios a partir da sensibilidade e intuição do mundo, sem que precisássemos explicitamente introduzir esses princípios em suas mentes?
[1] Silva, M. R. D. (1998). Realismo e anti-realismo na ciência: aspectos introdutórios de uma discussão sobre a natureza das teorias. Ciência & Educação (Bauru), 5(1), 07-13.
[2] Kant, I. (2020). Crítica da razão pura. EDIPRO.
[3] Domingos, P. (2017). O algoritmo mestre: como a busca pelo algoritmo de machine learning definitivo recriará nosso mundo. Novatec Editora.
- Categoria(s): Bruno Borges de Souza ciencia de dados Machine learning