Arquivos Bruno Borges de Souza - Estatidados

O que são modelos científicos e como eles funcionam

admin — Fri, 24 Sep 2021 12:15:13 +0000

Com o conhecimento científico foi possível a realização de feitos antes inimagináveis, como a comunicação à velocidade da luz, nanotecnologia, fissão nuclear, viagem ao espaço, inteligência artificial, dentre outras. O poder do conhecimento científico está na criação de modelos que representam a realidade ou um fragmento de um sistema. Eles são usados na construção de teorias científicas, que visam capturar a estrutura ou dinâmica da própria realidade. A validação de uma teoria envolve testar hipóteses, que é baseada na análise de padrões encontrados em dados empíricos. Quer a hipótese seja baseada em dados ou na teoria, um conjunto de dados empíricos precisa estar disponível para testar os resultados do modelo. Em seguida, um processo algorítmico é projetado e implementado com o objetivo de descrever matematicamente a estrutura ou dinâmica de interesse. Posteriormente, o modelo é executado e validado comparando dados simulados com dados empíricos. Os insights resultantes inspiram novas hipóteses científicas e o modelo é refinado iterativamente ou novos modelos são desenvolvidos.

Uma pergunta que instiga muitos filósofos epistemológicos é como modelos são criados. Isso significa entender como ocorre o processo de aprendizado de um conhecimento científico, ou seja, entender como, a partir de dados experimentais, conseguimos extrapolá-los e criar modelos confiáveis. O que significa ser confiável na metodologia científica? Como ocorre o processo de generalização a partir da dedução e da indução do conhecimento empírico para um princípio universal, como as leis de Newton ou a mecânica quântica?

Indo além do mero aprendizado humano, pode-se questionar ainda os atuais modelos de aprendizado de máquina e fazer os mesmos questionamentos: Como máquinas aprendem e geram modelos confiáveis baseados apenas em dados empíricos? O que veremos nesse artigo é um paralelo entre filosofia, ciência e a inteligência artificial para nos aprofundarmos nesses questionamentos. Veremos o que significa um “bom modelo” na ciência e como o teste de hipóteses valida o conhecimento científico. Também será discutido a “fonte do conhecimento”, com suas escolas de pensamento empirista e racionalista e onde o aprendizado de máquina se encontra.

O que caracteriza um bom modelo?

Em certo sentido, todos os modelos estão errados. Isso implica que nenhuma descrição da realidade é a última e todos os modelos atuais estão sujeitos a refinamentos conforme novos dados são apresentados.

“Todos os modelos implicam em esquematizações e simplificações que se traduzem em “suposições”. E cada suposição de um modelo é uma fonte possível de erro.”

Dessa maneira, entendemos que ao criar um modelo, o objetivo não deve ser criar uma descrição última ou perfeita da realidade, e sim minimizar o erro entre a realidade objetiva e a descrição subjetiva dada pelo modelo. Mas existe uma descrição última da realidade que pode ser representada por um modelo matemático perfeito? Esse é um debate filosófico interessante, iniciada por Platão e Aristóteles, e ainda continua sem resposta, com duas correntes filosóficas concorrentes: a realista e a antirrealista.

Platão defende em obras como A República e Fédon, que o conhecimento só é alcançado quando atingimos a “ideia” ou “conceito” do objeto. Essa ideia estaria em um mundo independente das objeto, no “Mundo das Ideias”. Exemplo: Um modelo de um cavalo seria representação ideal (no mundo das ideias) de um cavalo e o cavalo real seria uma forma imperfeita desta ideia. O mesmo pode-se dizer de conceitos como Justiça, Beleza, etc. Existe um único modelo perfeito que descreve esses conceitos, que estão no Mundo das Ideias. Aristóteles, por outro lado, critica Platão justamente por criar uma independência entre a ideia abstrata do objeto e o objeto em si. Ele concorda, por exemplo, que a observação e comparação de diferentes tipos de cavalo levam a um grupo de aspectos que definem o “modelo de cavalo”, mas tal modelo não existe independentemente, e sim são uma maneira de categorizar objetos com atributos semelhantes a “cavalos” observados empiricamente.

Atualmente, o debate se divide entre realistas e antirrealistas. Apesar das diversas interpretações, em geral podemos dizer que o realismo sobre objetos matemáticos, modelos científicos ou processos mentais, se caracteriza pela afirmação de que os objetos em questão “realmente existem”, ou “desfrutam de uma existência independente de qualquer cognição”, ou “estão entre os constituintes últimos do mundo real” [1]. Realistas dizem que os cientistas interpretam “todas as teorias científicas como tentativas de descrições da realidade”. Usando como exemplo a teoria da gravitação universal de Newton, Força, inércia, gravidade, são entidades que realmente existem, pois elas revelam a estrutura causal do mundo. Um antirrealista acredita justamente no contrário. Berkeley, famoso antirrealista, contra-argumentaria Newton afirmando que essas entidades são apenas criações teóricas que compilam a bem e experiência dos sentidos, mas não existem em um “Mundo das Ideias Platônico” ou é a última descrição da realidade. Se você já ouviu a discussão “A matemática é descoberta ou inventada?”, saiba que isso é basicamente uma discussão profunda sobre o realismo e antirrealismo da matemática.

Pensando de maneira mais concreta, independente se tais modelos existem ou são constructos mentais, é importante entender o que caracteriza um bom modelo, seja ele físico, biológico, econômico, etc. As principais características de tais modelos são:

Parcimônia – Aqui temos a questão da simplicidade: Modelos que dependem de menos suposições para explicar um determinado fenômeno são preferíveis. Isso evita o sobreajuste (overffiting), e tais modelos podem falhar em fazer previsões para situações ainda não observadas. Cientistas e analistas de dados conhecem muito bem esse problema, e técnicas rotineiras, como o cross-validation, são tentativas de evitar o overffiting. Na ciência, um exemplo interessante era o debate entre geocentrismo e heliocentrismo. O modelo geocêntrico era demasiadamente complicado, pois ao assumir que a Terra era o centro do Sistema Solar, teria que criar “epiciclos” nas órbitas de outros planetas para explicar os problemas de perspectiva do movimento dos planetas ao serem observados na Terra. Aliás, falharia completamente se tivesse que explicar as órbitas em exoplanetas, algo que não acontece com o heliocentrismo.

Perspicácia – São modelos que revelam propriedades fundamentais do objeto que está sendo representado. Quando Newton, escreveu que sua teoria é “O Sistema do Mundo” ele não estava exagerando: Ele revelou propriedades fundamentais da gravidade, como a teoria da gravitação universal e as famosas Leis de Newton, que revolucionou a física em sua época. Um modelo ainda mais perspicaz é a Teoria da Relatividade Geral, onde Einstein entendeu a gravidade como a distorção causada pela matéria no tecido do próprio Espaço-Tempo.
Generalização – São modelos que podem ser aplicados em uma ampla gama de situações. Por exemplo, as Leis de Newton podem explicar porque as maças caem enquanto a Lua não. As equações de Maxwell são capazes de explicar satisfatoriamente todos os fenômenos elétricos e magnéticos existentes e unificá-lo num único modelo , descrita pela Teoria Eletromagnética. Indo além, físicos buscaram criar modelos ainda mais gerais, buscando unificar as forças fundamentais da natureza: a unificação da força eletromagnética com a força nuclear fraca gerou a Teoria Eletrofraca, e uma unificação ainda maior, adicionando a força nuclear forte, gerou a chamada Grande Teoria Unificada (GUT) que pode explicar fenômenos que aconteceram próximo ao Big Bang, quando tais forças ainda não eram distintas. O Santa Graal da física é a unificação de todas as forças fundamentais numa única teoria (A Teoria de Tudo), mas a gravidade, a mais fraca das forças, ainda é difícil de ser explicada em nível quântico, causando total incompatibilidade entre a Teoria da Relatividade Geral e a Mecânica Quântica.
Falseabilidade – Essa é uma propriedade fundamental da ciência. Todos os modelos científicos devem passar por um teste que possa verificar se determinada ideia, hipótese ou teoria é falsa. Um modelo é falseável se e somente faz previsões não triviais que podem, em princípio, ser falsificadas empiricamente. Se um modelo não faz previsões falsificáveis, então o modelo não pode ser avaliado empiricamente. Tal propriedade está diretamente relacionada com a previsão, já que para passar na falseabilidade, a predição do modelo deve ser avaliada no teste de hipóteses, onde o status quo e a hipótese alternativa (do modelo) são avaliado com dados observáveis. A teoria de Newton foi extensivamente avaliada em diversos fenômenos onde foi comprovado o poder de previsão. Apesar disso, em alguns fenômenos, onde o efeito gravitacional é muito forte ou onde o objeto está próximo à velocidade da luz, a teoria falha, e é necessário considerar efeitos relativísticos, que só podem ser explicadas pela relatividade especial e geral de Einstein. Uma teoria famosa que por enquanto nem teoricamente pode ser falseada é a Teoria da Supercordas, tentativa de unificar todas as forças fundamentais, onde os menores constituintes da realidade são pequenos filamentos de energia semelhantes a pequenas cordas vibrantes. O problema é que para detectar essas cordas seria necessário um acelerador de partículas maior que o sistema solar. Devido a essa impossibilidade de verificar se a teoria está correta ou não, muitos físicos não consideram a Teoria das Supercordas como ciência.

Teste de hipóteses: como os modelos são avaliados

O Teste de hipóteses é um procedimento estatístico fundamental na tomada de decisões, entre aceitar ou não uma hipótese. Na ciência, é utilizado para validar resultados de estudos, com o objetivo de aceitar ou não a hipótese nula, dada um determinado nível de significância (p-value). Para exemplificar como o teste de hipóteses funciona, vamos considerar duas moedas. Gostaria de avaliar se essas moedas são justas ou viciadas. Um modelo de moeda justa teria como resultado de lançamentos um valor próximo a 50% cara e 50% coroa, enquanto um modelo de moeda viciada teria uma proporção diferente. A hipótese nula é sempre o status quo, ou seja, que a moeda é justa (você geralmente recebe uma moeda justa, você que propôs que ela é viciada, que no caso forma a hipótese alternativa). Jogando cada moeda 10 vezes chegamos no seguinte resultado, onde cara é C e coroa é K:

Moeda 1: CKCCKKCCKC

Moeda 2: CCCCCCCKCC

Vamos avaliar a moeda 1: Quais chances de uma moeda justa dar 6 caras e 4 coroas? Usando a distribuição binomial, chegamos em 23%. Se usarmos um p-value de 5%, então a hipótese nula só seria rejeitada caso um evento incomum acontecesse menos que 5% das vezes. Com 23% de chance de ocorrer tal evento, falhamos em rejeitar a hipótese nula.

Agora vamos avaliar a moeda 2: Nessa caso, temos 9 caras e uma coroa. As chances disso acontecer é de 0.9%, valor suficiente para classificá-lo como “raro”, já que é menor que o p-value de 5%. Assim, rejeitamos a hipótese nula, ou seja, a moeda é viciada.

Então, o p-value avalia o quão provável ou improvável é um evento ao considerar a hipótese nula. Se você quer avaliar se uma vacina é segura, precisa fazer um teste em uma amostra significativa de pessoas e, considerando como hipótese nula que a vacina NÃO é segura , obter uma probabilidade baixa o suficiente de alguém ter algum efeito colateral ao tomar a vacina de maneira que te levaria a rejeitar a hipótese nula.

Pra exemplificar o conceito de ter uma amostra significativa, considere que você está avaliando uma terceira moeda, e fez três lançamentos com os seguintes resultados:

Moeda 3: CCC

Tivemos 100% de caras, o que leva a crer que é uma moeda viciada. Mas o p-value, ou seja, as chances de uma moeda justa dar esse resultado, é de 12,8%, o que falharia em rejeitar a hipótese de que a moeda é justa! Isso mostra que o teste de hipóteses é sensível ao tamanho da amostra. Então tenha muitos dados para avaliar.

Teorias do Aprendizado

Uns dos debates mais importantes da filosofia se diz a respeito de como aprendemos, ou seja, de que maneira o conhecimento genuíno e necessário é adquirido, compreendendo as diversas formas de buscá-lo Na filosofia moderna, houveram duas correntes diferentes de pensamento. A primeira, iniciada por René Descartes e que também foi adotada por Leibniz e Noam Chomsky é a racionalista. Como oposição, temos o empirismo, onde temos como maiores defensores dessa corrente Locke, Berkeley e Hume.

No racionalismo, tem-se a razão como principal fonte de conhecimento humane e acredita-se na dedução como principal método investigativo. Temos um “conhecimento inato” como certas categorias de espaço, de tempo e de causa e efeito. Com esse conhecimento, em sua forma mais pura, o racionalismo chega ao ponto de sustentar que todas as nossas crenças racionais, e a totalidade do conhecimento humano, consistem em primeiros princípios e conceitos inatos que são de alguma forma gerados e certificados pela razão, junto com qualquer coisa logicamente dedutível a partir desses primeiros princípios. Esses princípios, os fundamentos do nosso conhecimento, são proposições que são evidentes por si mesmas (auto-evidentes). Por exemplo, Descartes acreditava que deveríamos desconfiar de tudo, menos na própria capacidade de duvidar e, a partir dessa certeza do “Penso, logo existo”, seriam deduzidos novos conhecimentos. Outro exemplo seriam os teoremas matemáticos, onde por dedução podemos chegar a conclusões racionais absolutas.

O empirismo, por outro lado, afirma que a experiência é a fonte do conhecimento, tendo a indução da experiência como principal método investigativo, Para os empiristas, todas as nossas ideias vêm unicamente da experiência sensorial. Nosso conhecimento é a posteriori, na medida em vamos tendo experiência do assunto, e é dependente da experiência dos sentidos. Os empiristas também negam a implicação da tese do conceito inato, correspondente a de que temos ideias inatas na área de assunto. Eles também rejeitam a versão correspondente da tese da superioridade da razão. Visto que a razão por si só não nos dá nenhum conhecimento, certamente não nos dá um conhecimento superior. Os empiristas podem afirmar, como alguns fazem para alguns sujeitos, que os racionalistas estão corretos ao afirmar que a experiência não pode nos dar conhecimento. A conclusão que eles tiram dessa lição racionalista é que não sabemos nada. David Hume, um empirista radical, gostava de usar como exemplo o nascer do sol. Ele dizia que o nascer do sol é um conhecimento adquirido através da indução, já que você viu o sol nascer no leste desde que você nasceu, mas não temos garantias de que ele vai nascer amanhã, isso não pode ser uma afirmação auto-evidente.

Racionalismo e empirismo não precisam entrar em conflito. Podemos ser racionalistas em matemática, já que teoremas como o Teorema de Pitágoras ou o Teorema Fundamental do Cálculo podem ser deduzidos a priori, e podemos ser empiristas em todas ou em algumas das ciências físicas, utilizando o teste de hipóteses para validar experimentos. Racionalismo e empirismo só entram em conflito quando formulados para cobrir o mesmo assunto. E para solucionar esse conflito, chegamos em Immanuel Kant, que revolucionou a epistemologia em sua grande obra “Crítica da Razão Pura”.

Kant cria a Teoria dos Juízos, onde ele dirá que existem o Juízo analítico e o Juízo sintético. Juízos analíticos são aqueles em que o predicado não acrescenta em nada o sujeito, exemplo “Todo triângulo tem três lados” ou “Todos os corpos são extensos. Como não dependem de tempo e lugar, são juízos a priori e universais. Juízos sintéticos são aqueles que acrescentam algo ao sujeito, como por exemplo “Todos os corpos são pesados” e sempre partem da experiência. Podem ser divididos em dois tipo: A priori e A posteriori. O juízo sintético a posteriori é baseado na indução da experiência, enquanto o juízo sintético a priori não necessitam da experiência imediata, como as afirmações matemáticas. Parece confuso à vista, já que se tende a acreditar que a afirmação “7+5=12” é puramente analítica, mas como Kant descreve em “Crítica da Razão Pura” [2]:

Poder-se-ia em verdade crer, à primeira vista, que a proposição 7 + 5 = 12 é puramente analítica, resultante, segundo o princípio de contradição, do conceito de uma soma de sete e cinco. Mas se a considerarmos com mais atenção, acharemos que o conceito de soma de sete e cinco não contém mais do que a união dos dois números em um só, o que não faz pensar qual seja esse número único que compreenda aos outros dois. O conceito de 12 não é de modo algum percebido só pelo pensamento da união de cinco e sete, e posso decompor todo meu conceito dessa soma tanto quanto quiser, sem que por isso encontre o número 12. É preciso, pois, ultrapassar esse conceito recorrendo-se à intuição correspondente a um dos dois números, e aditar sucessivamente ao conceito sete as cinco unidades dadas na intuição. […] A proposição aritmética é, pois, sempre sintética: o que se compreende ainda mais claramente se se tomam números maiores, pois então é evidente que, por mais que volvamos e coloquemos nosso conceito quanto quisermos, nunca poderemos achar a soma mediante a simples decomposição de nossos conceitos e sem o auxilio da intuição.

Um problema que surge imediatamente quando se fala em juízos sintéticos a priori é o verdadeiro problema da razão pura. Como são possíveis os juízos sintéticos a priori? Como se origina o conhecimento da física teórica e da matemática pura? Como são teorizados os modelos científicos que tanto transformaram o mundo? Kant, para responder essa pergunta, cria a Teoria Elementar Transcendental, divididas em estética e lógica transcendental.

A Estética transcendental é a ciência de todos os princípios. É a priori, e diz respeito à capacidade de adquirirmos conhecimento de acordo com a sensibilidade. É apenas através da sensibilidade que podemos ter uma intuição do objetos de estudo. Entenda a intuição como a capacidade de encontrar indícios que levem a alguma correlação, generalização, a algum conhecimento sintético. Conforme afirma Kant:

Todo pensamento deve em última análise, seja direta ou indiretamente, mediante certos caracteres, referir-se às intuições, e, conseguintemente, à sensibilidade, porque de outro modo nenhum objeto nos pode ser dado.

Entremos agora no conceito de lógica transcendental. Quando falamos da lógica geral, abstraímos a matéria do conhecimento intelectual e toda a diversidade de seus objetos, e só nos ocupamos com a forma do pensamento. Como Lógica pura, não tem nenhum princípio empírico e, por conseguinte, não empresta nada da Psicologia, que não exerce influência alguma sobre o cânon do entendimento. É uma doutrina demonstrada, e tudo deve ser nela amplamente “a priori”. Uma Lógica geral é aplicada, quando se ocupa das regras do uso do entendimento, sob as condições empíricas e subjetivas que nos ensina a psicologia. Esta Lógica tem também princípios empíricos, ainda que seja geral enquanto trata da aplicação do entendimento sem distinção de objetos [2]. Para Kant, é preciso fazer a passagem da lógica geral, para a transcendental. A Lógica transcendental está mais relacionado ao entendimento e à organização do pensamento. Esta Lógica investigaria também a origem do nosso conhecimento de objetos, enquanto tal origem não possa ser atribuída aos objetos; a Lógica geral, pelo contrário, não se ocupa com essa origem do conhecimento, e só se limita a examinar as nossas representações sob o ponto de vista das leis com que o entendimento a emprega e reúne entre si, quando pensa. A lógica transcendental isola o entendimento (assim como a estética transcendental isola a sensibilidade). Esse entendimento é formado a partir da intuição, que é determinada a priori pelas formas da sensibilidade que são o espaço e o tempo.

Como máquinas aprendem

O aprendizado de máquina (machine learning) é um ramo da inteligência artificial onde um sistema é capaz de analisar uma grande quantidade de dados, além de usar uma variedade de algoritmos para encontrar padrões no banco de dados. Com base nesses padrões, são gerados modelos (não explicitamente programados por humanos) que conseguem fazer predições. Modelos gerados por algoritmos de machine learning são científicos, pois precisam representar da maneira mais realista o objeto em estudo, satisfazendo princípios como parcimônia, generalização e capacidade de predição.

Já discutimos que modelos científicos são “fundamentalmente errados”. Todos os modelos de machine learning usa esse princípio para otimizar (minimizar) o gap entre a previsão e o valor real. Nenhum algoritmo de machine learning cria um modelo 100% acurado. Tais modelos são construções “artificiais” que captura um aspecto do objeto que nos interessa e que geram predições que são úteis na tomada de decisões.

Mas como tais algoritmos aprendem? Pelo que vimos a respeito das teorias do conhecimento, podemos dizer que tais modelos são empiristas, já que tentam induzir um modelo a partir de observações nos dados históricos. Mas a construção de tais modelos é racionalista, um conhecimento sintético a priori, já que são aplicados métodos dedutivos para criar algoritmos empiristas. Como humanos deduzem tais algoritmos? A partir da sensibilidade e intuição, podemos buscar analogias nas criações da natureza, como o cérebro ou a evolução, ou na forma como descrevemos o mundo, a partir de símbolos, ou na maneira em que atualizamos nossas crenças a partir de nossas observações, etc. No livro de Paulo Domingos, “O Algoritmo Mestre” [3], são classificados cinco tribos de algoritmos de machine learning:

1) Conexionistas: É baseada na simulação de componentes do cérebro e tem como principal algoritmo as redes neurais. Surgiu em 1943, quando McCulloch e Pitts cria o conceito de Percéptron, um neurônio artificial de uma camada. As redes neurais artificiais (ANNs) são compostas por camadas de nós, contendo uma camada de entrada, uma ou mais camadas ocultas e uma camada de saída. Cada nó, ou neurônio artificial, se conecta a outro e tem um peso e limite associados. Se a saída de qualquer nó individual estiver acima do valor limite especificado, esse nó será ativado, enviando dados para a próxima camada da rede. A rede neural aprende ajustando os pesos de conexão dos nós de maneira a minimizar a função de perda (a diferença entre o valor real e previsto), usando uma técnica conhecida como backpropagation, onde os pesos da camada de saída são retro propagados usando a regra da cadeia do cálculo diferencial.

2) Simbolistas: A abordagem baseia-se na suposição de que muitos aspectos da inteligência podem ser alcançados pela manipulação de símbolos, uma suposição definida como a “hipótese dos sistemas de símbolos físicos” por Allen Newell e Herbert Simon em meados dos anos 1960. Os algoritmos de Machine Learning simbólicos são focados no desenvolvimento de sistema de manipulação simbólica e em processos cognitivos. Ou seja, buscam simular a forma com que o ser humano pensa para resolver um determinado problema mas, para isso, é necessário que se entre com as informações sobre o mesmo para que então o algoritmo desenvolva uma forma de resolvê-lo. Um exemplo de algoritmo simbolista é a indução de árvores de decisão, que criam regras automáticas que categorizam as instâncias baseados em suas variáveis. Cada nó na árvore de decisão é uma variável a ser dividida em subnós, e essa estrutura é criada de maneira otimizada de maneira a minimizar a entropia nos nós da folha (leaf nodes) da árvore.

3) Analogistas; aprendem fazendo extrapolações a partir de julgamentos de semelhança nos dados. Os mais conhecidos são os algoritmos KNN e SVM. O KNN é bem simples: Para classificar uma instância X primeiro você encontra os k pontos mais próximo de X e, a seguir, classifica os pontos pela maioria dos votos de seus k vizinhos. Cada objeto vota em sua classe e a classe com mais votos é considerada a previsão. Para encontrar os pontos semelhantes mais próximos, você encontra a distância entre os pontos usando medidas de distância como distância euclidiana, distância de Hamming, distância de Manhattan e distância de Minkowski.

O SVM usam máquinas de vetores de suporte para encontrar a melhor maneira de separar os dados. É usado técnicas de otimização matemática para encontrar a encontrar a equação que define o melhor hiperplano, maximizando as distância dos vetores de suporte (margens do hiperplano).

4) Evolucionários: São algoritmos que abduzem o processo de seleção natural de Darwin e um típico algoritmo funciona seguindo as seguintes etapas:

Initial Population – É inicializado aleatoriamente um conjunto de indivíduos que formará nossa população. No nosso caso, os indivíduos são os modelos com parâmetros escolhidos aleatoriamente;
Fitness – Devemos testar essa população em um ambiente hostil. Somente alguns indivíduos vão sobreviver. Você pode criar um ambiente hostil simplesmente estabelecendo um mínimo para o score do modelo;
Crossover e Mutation – Define os critérios para a próxima geração. Na etapa de crossover, os genes (hiperparâmetros) dos pais serão recombinados, para produzir filhos, cada filho herdando alguns genes de cada pai. Para manter a diversidade, adicionamos um pouco de mutação nos filhos;
Offspring – A próxima geração conterá os pais sobreviventes e os filhos, mantemos os pais sobreviventes para manter os melhores genes, caso o valor dos genes do filho seja pior que os pais. O processo é repetido até que os indivíduos da última geração sejam os mais bem evoluídos.

5) Bayesianos: Tem como principal motivador o famoso teorema de bayes. O pensamento Bayesiano fornece uma abordagem probabilística para a aprendizagem e está baseado na suposição de que as quantidades de interesse são reguladas por distribuições de probabilidades. Para um algoritmo bayesiano, “aprender” significa atualizar as chances a priori de um evento baseado em novas evidências a posteriori. Por exemplo, usando o teorema de Bayes, podemos encontrar a probabilidade de A acontecer, dado que B ocorreu. Aqui, B é a evidência a posteriori e A é a hipótese a priori. A suposição feita aqui é que os preditores / recursos são independentes. Ou seja, a presença de um determinado recurso não afeta o outro. Por isso que tal algoritmo é chamado de ingênuo (naive bayes).

Assim, o machine learning pode ser considerado uma implementação por humanos de técnicas em máquinas para adquirir conhecimento a partir de observações a posteriori. A origem do sucesso do aprendizado de máquina depende de sua capacidade de derivar relações entre fenômenos e potencialmente descobrir o estado oculto (latente) de um sistema (indução), ou seja, potencialmente fornecer um conhecimento verdadeiro intrínseco do sistema. A identificação do sistema e o design baseado no modelo com o auxílio do aprendizado de máquina constituem um primeiro passo para encontrar padrões de um sistema por meio de uma abordagem mista de aprendizagem a priori – a posteriori, que, retrospectivamente, segue a filosofia de Kant.

Para finalizar, cabe uma última questão. Poderá existir um algoritmo de machine learning que poderá pensar como nós? A reposta iria depender da capacidade de máquinas em poder ter uma estética e lógica transcendental, que a permitam extrair conhecimento a partir da sensibilidade com os objetos ao seu redor iue organizar seus pensamentos com o objetivo de gerar novas deduções lógicas capazes de ampliar o conhecimento científico. O principal problema é o paradoxo que surge ao criar tal máquina. Como faríamos para uma máquina procurar princípios a partir da sensibilidade e intuição do mundo, sem que precisássemos explicitamente introduzir esses princípios em suas mentes?

[1] Silva, M. R. D. (1998). Realismo e anti-realismo na ciência: aspectos introdutórios de uma discussão sobre a natureza das teorias. Ciência & Educação (Bauru), 5(1), 07-13.

[2] Kant, I. (2020). Crítica da razão pura. EDIPRO.

[3] Domingos, P. (2017). O algoritmo mestre: como a busca pelo algoritmo de machine learning definitivo recriará nosso mundo. Novatec Editora.

O post O que são modelos científicos e como eles funcionam apareceu primeiro em Estatidados.

Otimizando carteiras de investimentos com Data Science

admin — Fri, 24 Sep 2021 10:04:42 +0000

As decisões financeiras na prática não são tomadas em ambiente de total certeza com relação a seus resultados. Por essas decisões estarem fundamentalmente voltadas para o futuro, é imprescindível que se introduza a variável incerteza (risco) como um dos mais significativos aspectos do estudo das finanças corporativas. Saber mensurar corretamente o risco e retorno de um negócio, ou seja, saber exatamente com o que está lidando, é uma das principais habilidades que um empreendedor ou um gestor de fundos precisa ter para obter sucesso.

Como então mensuramos o risco? Primeiro precisamos definir uma medida de risco. De maneira geral, medimos o risco pelo quanto de capital precisamos adicionar à nossa posição de risco para termos uma posição aceitável. Por exemplo, suponha que você tenha 1000 reais para investir no mercado de ações e quer ganhar 1 milhão de reais em três anos. O grau de incerteza de obter esse retorno seria ridiculamente alto, (mas teoricamente seria possível, bastando investir no início do dia, na ação que vai dar maior retorno no final dia, e depois trocando para a ação que vai dar maior retorno no final do dia seguinte, sucessivamente) e deveríamos adicionar um capital bastante expressivo nesse investimento para obtermos uma posição aceitável de risco.

Existe várias maneiras de medir um risco de uma carteira de investimentos. Vamos avaliar neste artigo as três mais importantes: Modelo de Markowitz, Valor em Risco (VaR) e Valor em Risco Condicional (CVaR). Mas antes disso, vamos entender o que é ter uma carteira “coerente”. A noção de coerência foi introduzida por Artzner et al e atualmente, é um conceito fundamental relacionado à aceitabilidade de uma medida de risco. A literatura introduz um número de propriedades que são usadas para determinar um medida de risco. As propriedades mais importantes para a medida de risco são

1) Invariância à translação: Se adicionarmos ou subtrairmos uma quantidade certa de nossa carteira, a medida de risco aumenta ou diminui. Matematicamente, se A é o quanto queremos adicionar aos ganhos da carteira X e p a nossa medida de risco, então p(X+A)=p(X)+A. Veja que, se trocarmos instrumentos de renda varável e alocarmos em renda fixa (nessa caso, A é negativo) a carteira diminui o risco no mesmo montante.

2) Subaditividade: Na minha opinião, é a propriedade mais importante ao se avaliar uma medida de risco. Esta medida é intimamente relacionada com o efeito da diversificação do portfólio. A medida do risco total da carteira (conjunto de ativos) é menor ou igual que a medida do risco da soma individual dos ativos da carteira (p(X1)+p(X2)). É o princípio da Teoria Moderno do Portfólio, do grande Markowitz. O VaR falha na subaditivade. Isso significa que, minimizar o VaR não garante que você vá diversificar os investimentos da carteira considerada.

3) Monotonicidade: Se os ganhos na carteira X são menores que os da carteira Y para todos os cenários possíveis, então o risco na carteira X é menor que na carteira Y (Se X1, então p(X1). Claro, num portfólio devidamente otimizado, se você quiser arriscar mais, espera que sua possibilidade de ganho seja maior. Markowitz falha na monotonicidade :(.

4) Homogeneidade Positiva: Ao aumentar o tamanho de cada posição da carteira o risco da carteira aumenta em igual proporção (p(bX)=bp(X)), sendo b uma constante). Isso significa que, se você trocar a moeda de uma carteira, ou dobrar seu investimento em cada ação, seu risco aumentará na mesma proporção. Se você aposta 100 reais num jogo de poker e depois triplica a aposta, seu risco triplica também, pois você pode perder (ou ganhar) três vezes mais do que antes.

Pronto, agora vamos entender essas três medidas de risco que comentei anteriormente.

Markowitz, VaR e CVaR. O que são?

São basicamente medidas de riscos, meios de quantificar o risco do investimento. Minimizar essas medidas significa escolher um conjunto de ativos e juntá-los com uma certa proporção específica, de tal forma que a carteira tenha o menor risco possível para um determinado retorno esperado. Vejamos cada uma delas:

Markowitz

Até a década de 50, os modelos para risco e retorno eram em grande parte subjetivos e variavam de investidor para investidor. A partir do desenvolvimento da moderna teoria do portfólio por pesquisadores como Markowitz, Sharp, Black, Scholes entres outros, foi desenvolvido um arcabouço teórico quantitativo com base na teoria econômica neoclássica. O desenvolvimento da teoria do portfólio em 1952 por Markowitz, revolucionou o estudo das finanças, fato que lhe rendeu o prêmio Nobel de economia em 1990.

O principal aspecto da teoria do portfólio é que o risco individual de um ativo é diferente de seu risco na carteira, tornando a diversificação capaz de minimizar o risco não-sistemático dos ativos em conjunto. Com a minimização, é possível escolher a proporção ideal de cada ativo no portfólio, otimizando a relação retorno/risco da carteira de títulos. A figura abaixo representa bem essa ideia: Para mais de 30 ativos, é possível mitigar praticamente todo o risco não-sistemático da carteira. O resto é risco de mercado, crédito, liquidez ou operacional.

Como exatamente é feita essa diversificação? Suponha duas empresas diretamente concorrentes, A e B, num mercado promissor. Há três possibilidades: A empresa A vence a competição, B vence ou as duas compartilham o mercado. Se você investiu seu dinheiro em uma delas você corre o risco de perder tudo caso a empresa desmorone. Investindo nas duas fará com que você reduza esse risco, pois uma parte certamente vai para a empresa vencedora. E caso as duas percam? Nesse caso, pode ter sido causado por algum fator externo que afetou o mercado, como a pandemia, por exemplo. O modelos de otimização de risco tenta minimizar o risco não-sistemático, via diversificação dos ativos. O risco sistemático não pode ser minimizado.

Como já comentei, essa medida não é coerente, pois não satisfaz a monotonicidade. Outra coisa é que o modelo CAPM (Capital Asset Pricing Models), muito conhecido no mercado financeiro, é uma simplificação da Teoria de Markowitz para tentar reduzir a complexidade computacional do método.

Valor em Risco e Valor em Risco Condicional

Aqui a ideia é entender o risco como o quanto você aceita perder. Muito simples não? Suponha que você vai fazer um investimento de 1000 reais. Seu gerente lhe diz que na carteira X você pode ter um retorno de 300% no ano e que você pode perder no máximo R$ 900 com chance de 5%. O VaR é a perda máxima esperada (não confundir com a perda máxima possível), os R$900,00, e o alfa do VaR é a chance de você perder mais que isso (no exemplo 5%). Minimizar o VaR significa escolher o melhor conjunto de ativos que, com um mesmo retorno, diminua essa perda máxima esperada.

Como já mencionei, o VaR falha na subaditividade. E pior, falha numa propriedade que o pessoal da otimização adora (eu também!), a convexidade. Felizmente, temos uma medida que, além de ser convexa, é coerente. O Valor em risco condicional (CVaR) examina as perdas que excedem o limite do Valor em Risco (VaR). No exemplo que demos da carteira X, isso significa analisar as perdas para 5%, 4%,… de chance e tirar uma média disso. O VaR e o CVaR estão intimamente relacionados e, ao minimizar o CVaR, também levará a uma redução do VaR da carteira. A figura abaixo expressa uma curva normal com as perdas esperadas do Var e CVaR e as probabilidades esperadas.

Resumindo de maneira matemática o que explicamos:

O VaR tenta resumir em um único número, a perda máxima esperada dentro de um certo prazo com um certo grau de confiança estatística

2. O CVaR pode ser definido como a esperança condicional de perdas das carteiras superiores ao VaR:

O problema de otimização

Resolver um problema de otimização é buscar a melhor utilização de recursos e processos (técnico, econômico, social ou político), através de aplicação de modelos matemáticos, visando otimizar a satisfação (utilidade) do usuário. Compreende o problema de alocar recursos escassos para realização de atividades e cita alguns exemplos de técnicas particulares da otimização:

Programação Linear: aplicada em áreas relativas à alocação de pessoal, mistura de materiais, distribuição, transporte, etc.;
Programação Dinâmica: utilizada principalmente para problemas de otimização combinatória, tem aplicações em a áreas como planejamento de despesas de publicidade, distribuição do esforço de vendas e programação de produção;
Teoria das Filas: área que estuda analisar a formação de filas, é aplicada na solução de problemas relativos a congestionamento de tráfego, máquinas de serviços sujeitas à quebra, determinação do nível de uma força de serviço, etc.;
Programação Não Linear: é um modelo matemático onde a função objetivo, as restrições ou ambas, apresentam não linearidade em seus coeficientes.

Na área de investimentos, é utilizado métodos de programação linear ou não-linear para maximizar ou minimizar a função objetivo. Um modelo de otimização para investimentos envolve os seguintes conceitos:

Função objetivo: Representa o principal objetivo do tomador de decisão. No modelo de VaR é dada pela minimização da perda máxima esperada ou maximização do retorno da carteira. É uma função multi-objetivo, então a solução é uma curva, a fronteira eficiente, com a perda mínima para cada retorno.
Restrições: Diz o que é possível ou não fazer e quais são as limitações dos recursos ou atividades que estão associados ao modelo. No modelo em questão, as limitações são: a participação dos ativos precisa ser maior que zero, a soma de as participações deve ser igual a 1, e colocar um retorno mínimo exigido pelo cliente, ou um risco máximo, dependendo do objetivo do investido.
Variáveis de decisão: variáveis que podem ser controladas pelo tomador de decisão. No modelo correspondem à participação ao peso de cada ativo no portfólio.

Vejamos o modelo para o problema de minimização do CVaR. A partir de uma série da manipulações matemáticas, Rockafellar e Uryasev (2000) reescreve o cálculo do CVaR em termos de uma função, dada por

Para o caso de valores discretos, a equação acima pode ser reescrita como:

Dessa maneira, Rockafellar e Uryasev (2000) usa a função F linear para definir a forma para a otimização de uma carteira de ações utilizando o CVaR como medida de risco:

onde n é o tamanho da amostra e w_i a proporção de cada ativo na carteira.

Resultados na Prática

Vamos avaliar o modelo para otimização do VaR e CVaR utilizando 30 ações da bolsa de valores do Brasil. Utilizaremos como histórico o retorno das ações desde o começo da pandemia (para evitar envasamento histórico de análise, já que a pandemia alterou a dinâmica do mercado de ações).

Agora, utilizando a biblioteca de otimização scipy do python, conjuntamente com bibliotecas que fazem interpretações das integrais, traduzimos a função objetivo e as restrições para o código e, usando como técnica de otimização linear o simplex revisado, construímos a fronteira fronteira eficiente para o VaR e CVaR.

Os gráficos abaixo expressam o retorno para cada valor em risco considerado. Devido ao fato da otimização do VaR não ser convexa, a fronteira eficiente da otimização com o VaR tem um comportamento mais “caótico” comparada à otimização com o CVaR, que tem um comportamento mais suave.

O CVaR varia de 10% a 30% com retorno de 6% a 16 % do valor investido. Essa abordagem também levou a uma redução no VaR, uma vez que é um fator envolvido no processo de minimização do CVaR. Vale lembra que o CVaR é uma medida mais conservadora, o que explica um risco maior do CVaR, dado o mesmo retorno, que o VaR.

O gráfico de área abaixo expressa a proporção de ativos na carteira para cada valor em risco considerado.

O resultado final é, para um dado valor em risco, as ações que devo investir e em qual proporção, para o meu portfólio ótimo. Exemplo, caso eu queira assumir um CVar de 20%, o conjunto de ativos que me trariam o melhor retorno seria:

Trans Paulista (TRPL4) – 82%, Suzano Papel (SUZB3) – 13%, Bradespar (BRAP4) – 3%,

Itausa (ITSA4) – 2%.

Backtest

Para validarmos o modelo, é importante fazer uma análise de backtest. O objetivo do backtest é analisar quais seriam os resultados de um carteira ótima criada num período anterior ao atual, verificando a evolução do retorno da carteira desde o instante em que ela foi criada, até o instante atual.

Analisando a evolução do retorno para 5 níveis de risco diferentes, podemos notar o seguinte:

Quanto maior o risco, mais volátil será a carteira;
Em nenhum dos casos a perda ultrapassou a perda máxima esperada. Exemplo, para um CVaR de 20%, o ponto mínimo foi de 4600 (8% de perda);
Para esse caso em particular, o CVaR de 25% acabou perfomando melhor, inclusive gerando um retorno de 6,72% durante o período avaliado (dentro do esperado ao verificar a fronteira eficiente).

Bônus: Minimizando medidas de risco usando a Teoria da Evolução

O que a Teoria da Evolução tem a ver com tudo isso que fizemos? Bom, se você entendeu a matemática da função objetivo, sabe que essas fórmulas do VaR e CVaR são bastante “cabeludas”. Existem algoritmos de otimização específicos para cada um dos problemas (programação linear para o CVaR, programação quadrática para Markowitz e algum método de otimização não-convexa para o VaR), mas não que minimiza os três com o mesmo método. Para minimizar o risco das três carteiras que estudamos, podemos usar um algoritmo genético da inteligência artificial que é baseado na Teoria de Darwin, o Differential Evolution (DE). O DE tem se apresentado como um simples, mas poderoso algoritmo de otimização numérica para busca da solução ótima global, sendo aplicado com sucesso na solução de vários problemas de otimização complexa.

Para otimizar um portfólio utilizando o algoritmo DE, melhoramos iterativamente uma solução candidata de uma população gerada de carteiras, c1,…,c𝑖, 𝑖 = 1,…, n onde cada carteira contém N elementos e representa as variáveis objetivas, ou seja, os retornos históricos dos ativos do portfólio. A DE visa otimizar o trade-off entre risco e retorno, em vez de minimizar o risco de um determinado retorno específico, ou seja, teremos uma avaliação de retorno para diversos riscos possíveis. Isso é o que chamamos de fronteira eficiente da carteira.

A ideia básica do DE é produzir uma nova solução para cada carteira atual, onde a nova solução é uma combinação de quatro soluções atuais na população. Funciona da seguinte maneira:

1) Selecione uma carteira (c0) da população atual, que será nossa carteira-pai. Em seguida, selecione aleatoriamente três carteiras diferentes, usando um deles como uma carteira-base e adicione a diferença ponderada das outras duas para construir uma nova solução,

cm=c1+F*(c2-c3),

onde 𝐹 é um fator de mutação entre 0 e 1 que controla a taxa na qual a população de carteiras evolui. A solução dessa fórmula, cm, será nossa carteira-mutante.

2) Agora, realizamos um cruzamento entre a carteira-pai e a carteira-mutante. Cada elemento na carteira-filha será determinado por uma taxa de crossover (CR – razão de cruzamento) definida pelo usuário, onde 𝐶𝑅 está entre 0 e 1, e um número gerado pseudo-aleatório ε. O cruzamento controla a fração de valores de parâmetros copiados da carteira-mutante, de modo que, se o número gerado for menor que a razão de cruzamento, a carteira-filho herdará o elemento 𝑗 da carteira-pai. Da mesma forma, se o número gerado for maior ou igual à razão de cruzamento, a carteira-filho herdará o elemento 𝑗 da carteira-mutante. A figura abaixo dá a visualização gráfico disso:

3) Há ainda algumas medidas para evitar que os ativos saiam do espaço viável de soluções, pois não podemos ter carteiras com ativos que, somados, dão pesos maiores que 100%. Para resolver isso, lembre-se de normalizar todas as carteiras de sua população.

Hora da prática

Apresentamos aqui a escolha de parâmetros para o algoritmo DE e comparamos seus resultados com outras técnicas de otimização. Consideramos uma carteira composta apenas por ações e assumimos que os retornos diários dos registros são normalmente distribuídos. Com relação aos dados, vamos utilizar 25 ações da BM&Fbovespa, usando cotações históricas diárias de 5 anos. Além disso, vamos assumir que há 252 dias de negociação por ano e, assim, escalaremos os retornos proporcionalmente ao tempo. Para a programação dos algoritmos, eu utilizei o software Matlab.

Primeiro veremos a medida de Markowitz. Para o caso da volatilidade, na figura abaixo fizemos uma comparação entre o método de otimização quadrática e a evolução diferencial, com parâmetros N = 25, F = 0,5, CR = 0,7 e ε = 1%. A fronteira da carteira indica o quanto de risco você você assume para cada retorno esperado. Podemos ver que o retorno esperado ideal sobre o investimento varia de 16% a 35%, e a volatilidade de 13% a 22%, ou seja, a tendência de movimento da carteira. Além disso, ao analisar os retornos e riscos dos ativos individualmente, vemos que a diversificação representa um risco menor e, ao mesmo tempo, produz um retorno maior, onde cada portfólio ideal fica ao longo da fronteira eficiente.

Para mostrar que o DE pode lidar com qualquer medida de risco, usamos a abordagem de R. T Rockafellar e S. Uryasev para minimizar o CVaR comparando as soluções do algoritmo DE com o de programação linear. Usamos aqui a mesma suposição do último caso e aproximamos os retornos. Em seguida, vamos otimizar o CVaR usando os mesmos parâmetros de antes. Esses valores foram escolhidos pois são que oferecem melhor acurácia em um tempo admissível (Dependendo dos parâmetros que você escolhe, pode ficar até dias esperando sua carteira “evoluir”). Temos então a seguinte fronteira:

O CVaR varia de 30 % a 100 % do valor investido, que é a proporção média de um capital de investidores que será perdido para o nível de probabilidade de perda de 5%. Essa abordagem também levou a uma redução no VaR, uma vez que é um fator envolvido no processo de minimização do CVaR. Para o VaR, na figura abaixo, vemos que o valor varia de 22% a 70%. De qualquer forma, vemos que o DE está na fronteira eficiente e podemos confirmar que as soluções são as mesmas para os métodos específicos de cada método, investigando novamente a distribuição do peso do portfólio.

Percebeu que a fronteira do VaR é um pouco “deformada”? Isso é justamente devido ao fato de não termos aqui aquela propriedade da convexidade envolvida.

Bom, agora vamos para o que importa. Quais os ativos e quanto investir em cada um para formar uma carteira eficiente evoluída? vEis os resultados de acordo com Markowitz e o CVaR:

Nesses gráficos, para cada Volatilidade (Risco) e CVaR, temos uma proporção de ativos diferentes. Por exemplo, para termos um CVaR de 65%, temos que investir 27% na ITUB4 28% na EMBR3 e 45% na B3SA3.

Concluindo, mostramos como fazer uma carteira eficiente e também verificamos que a Evolução Diferencial é um algoritmo de busca robusto que pode ser aplicado ao problema do minimização de uma carteira. Com relação ao tempo médio de execução do algoritmo, outras estratégias no processo de mutação poderiam ser úteis no processo de obtenção de um tempo mais rápido.

#cienciadedados #pesquisaoperacional #financas

O post Otimizando carteiras de investimentos com Data Science apareceu primeiro em Estatidados.