Arquivos Professores colaboradores - Estatidados

Por que a Ciência de Dados é uma Carreira Promissora no Mercado Atual em 2023

Ludmila — Mon, 05 Jun 2023 19:40:26 +0000

Em um mundo cada vez mais orientado por dados, a Ciência de Dados emergiu como uma das carreiras mais promissoras e relevantes da atualidade. Com o avanço da tecnologia e a explosão na geração de dados, profissionais especializados em Ciência de Dados são altamente valorizados pelas empresas de todos os setores. Neste artigo, vamos explorar as razões pelas quais a Ciência de Dados é uma carreira tão promissora no mercado atual em 2023.

Explosão de dados:

Vivemos em uma era em que a quantidade de dados gerados diariamente é imensa. Empresas, governos e indivíduos estão capturando e armazenando uma enorme quantidade de informações. A Ciência de Dados permite extrair valor desses dados, transformando-os em insights valiosos que podem impulsionar o sucesso das organizações.

Tomada de decisão baseada em dados:

A tomada de decisão baseada em dados se tornou uma prática essencial para as empresas. Os dados são utilizados para identificar tendências, prever comportamentos e tomar decisões estratégicas fundamentadas. Profissionais de Ciência de Dados desempenham um papel fundamental nesse processo, fornecendo análises e insights que orientam as decisões de negócio.

Demandas por insights acionáveis:

As empresas estão cada vez mais buscando insights acionáveis que as ajudem a obter vantagem competitiva. Os profissionais de Ciência de Dados são treinados para identificar padrões, tendências e relações ocultas nos dados, fornecendo informações valiosas para melhorar processos, otimizar estratégias de marketing, personalizar experiências de cliente e muito mais.

Automação e Inteligência Artificial (IA):

A automação e a Inteligência Artificial estão transformando a forma como as tarefas são realizadas. A Ciência de Dados desempenha um papel importante nesse cenário, ajudando a desenvolver algoritmos e modelos de Machine Learning que permitem automatizar processos, tomar decisões autônomas e oferecer experiências personalizadas. Profissionais de Ciência de Dados são essenciais para impulsionar a inovação nesse campo.

Setores de alto crescimento:

A demanda por profissionais de Ciência de Dados se estende a uma ampla gama de setores. Áreas como saúde, varejo, finanças, marketing e tecnologia estão investindo pesadamente em análise de dados para impulsionar o crescimento e a eficiência. Esses setores oferecem diversas oportunidades de carreira para os especialistas em Ciência de Dados.

Escassez de talentos:

Apesar da alta demanda, há uma escassez de profissionais qualificados em Ciência de Dados. As habilidades necessárias, como programação, estatística, conhecimento em Machine Learning e domínio do negócio, são altamente valorizadas e difíceis de encontrar. Isso coloca os profissionais de Ciência de Dados em uma posição privilegiada, com uma maior oferta de oportunidades e salários competitivos.

Remuneração atrativa:

A natureza especializada e a demanda crescente por profissionais de Ciência de Dados resultam em uma remuneração atrativa. Devido à escassez de talentos, empresas estão dispostas a oferecer salários e pacotes de benefícios generosos para atrair e reter talentos nessa área. Além disso, existem oportunidades de trabalho remoto e flexibilidade, o que aumenta ainda mais o apelo dessa carreira.

Evolução contínua e aprendizado constante:

A Ciência de Dados é uma área em constante evolução. Novas técnicas, algoritmos e ferramentas estão sendo desenvolvidos regularmente. Isso significa que os profissionais de Ciência de Dados têm a oportunidade de continuar aprendendo e se atualizando ao longo de suas carreiras. A constante necessidade de adquirir novos conhecimentos mantém a carreira estimulante e desafiadora.

Impacto na sociedade e no mundo:

A Ciência de Dados tem um impacto significativo na sociedade e no mundo como um todo. Através da análise de dados, é possível identificar problemas, encontrar soluções inovadoras e impulsionar o progresso em diversas áreas, como saúde, sustentabilidade, transporte e muito mais. Os profissionais de Ciência de Dados têm a oportunidade de trabalhar em projetos que fazem a diferença e contribuem para um futuro melhor.

Crescimento profissional e oportunidades de liderança:

A demanda por profissionais de Ciência de Dados está em constante crescimento, o que significa que há amplas oportunidades de crescimento profissional e progressão na carreira. À medida que os profissionais adquirem experiência e habilidades avançadas, eles podem assumir cargos de liderança, como cientista de dados sênior, líder de equipe ou diretor de análise de dados. Isso proporciona um caminho claro de desenvolvimento profissional e reconhecimento no campo da Ciência de Dados.

Conclusão:

A Ciência de Dados continua sendo uma carreira promissora no mercado atual em 2023. Com a explosão de dados, a demanda por insights acionáveis e a necessidade de automação e IA, os profissionais de Ciência de Dados estão na vanguarda da transformação digital. Com remuneração atrativa, escassez de talentos e oportunidades de crescimento, essa área oferece um futuro promissor para aqueles que desejam se especializar em dados e aproveitar as oportunidades de carreira emocionantes que ela oferece.

Se você está procurando uma carreira dinâmica, desafiadora e com um impacto significativo, a Ciência de Dados pode ser a escolha certa para você. Esteja preparado para se dedicar ao aprendizado contínuo e aprimorar suas habilidades técnicas e analíticas. Com uma abordagem orientada por dados e uma compreensão profunda das técnicas estatísticas e de Machine Learning, você estará pronto para enfrentar os desafios e se destacar nessa carreira em constante evolução.

Aproveite as oportunidades disponíveis, busque cursos e certificações relevantes, participe de comunidades e eventos da área e esteja sempre atualizado com as últimas tendências e tecnologias. A Ciência de Dados oferece um vasto campo de possibilidades e uma carreira recompensadora, permitindo que você faça parte da revolução dos dados e contribua para moldar o futuro com base em insights sólidos e análises significativas.

Conheça duas de nossas formações que vão te proporcionar os conhecimentos mencionados no artigo:

Formação em Análise de dados – AD – CECD:

Formação em Análise de dados – AD – CECD

Formação em Estatística – FE – CECD:

Formação em Estatística – FE

Nossos cursos ao vivo:
https://comunidadedeestatistica.com.br/category/ao-vivo/

O post Por que a Ciência de Dados é uma Carreira Promissora no Mercado Atual em 2023 apareceu primeiro em Estatidados.

O que é Data Science e o que faz um Cientista de Dados

Ludmila — Mon, 05 Jun 2023 19:00:31 +0000

O que é Data Science e o que faz um Cientista de Dados

No mundo atual, a quantidade de dados gerados pelas empresas e usuários cresce exponencialmente. Nesse cenário, surge a área de Data Science, que tem como objetivo extrair insights valiosos desses dados para auxiliar na tomada de decisões estratégicas. Mas afinal, o que é Data Science e qual é o papel de um Cientista de Dados? Neste artigo, vamos explorar essas questões e descobrir como essa área tem se tornado fundamental para empresas em diferentes setores.

O que é Data Science?

Data Science, ou Ciência de Dados, é uma disciplina interdisciplinar que combina estatística, programação e conhecimentos em domínios específicos para analisar grandes volumes de dados e obter informações relevantes. É um campo que utiliza métodos científicos e tecnológicos para identificar padrões, desenvolver modelos preditivos e encontrar soluções para problemas complexos.

Papel de um Cientista de Dados:

Um Cientista de Dados é o profissional responsável por extrair conhecimento acionável a partir dos dados. Suas principais atribuições incluem:

Coleta e análise de dados: O Cientista de Dados deve identificar e coletar conjuntos de dados relevantes para um determinado problema. Em seguida, ele realiza uma análise exploratória para entender as características dos dados e identificar padrões.
Pré-processamento e limpeza de dados: Antes de aplicar algoritmos e modelos de análise, o Cientista de Dados precisa realizar a limpeza e o pré-processamento dos dados, removendo ruídos, tratando valores faltantes e ajustando escalas, garantindo a qualidade dos dados utilizados nas análises.
Desenvolvimento de modelos preditivos: Com base nos dados coletados e processados, o Cientista de Dados utiliza técnicas estatísticas e algoritmos de aprendizado de máquina para desenvolver modelos preditivos que possam fazer previsões e tomar decisões embasadas.
Comunicação de resultados: Além de realizar as análises, o Cientista de Dados precisa traduzir os insights obtidos em linguagem compreensível para a equipe ou stakeholders. A comunicação eficaz é fundamental para que as descobertas sejam aplicadas nas estratégias de negócio.

Habilidades e conhecimentos necessários:

Para se tornar um Cientista de Dados, é importante adquirir uma combinação de habilidades técnicas e conhecimentos específicos. Algumas competências essenciais incluem:

Conhecimento em programação: Dominar linguagens como Python e R, além de ter habilidades em SQL para manipulação de bancos de dados.
Estatística e matemática: Compreender conceitos estatísticos e matemáticos para realizar análises e desenvolver modelos.
Conhecimento em Machine Learning: Ter familiaridade com algoritmos e técnicas de aprendizado de máquina para desenvolver modelos preditivos.
Domínio do negócio: Entender o contexto em que os dados estão inseridos, conhecendo a fundo o setor de atuação da empresa para identificar oportunidades e desafios específicos.
Pensamento analítico e resolução de problemas: Capacidade de analisar problemas complexos, identificar soluções e aplicar abordagens analíticas para resolvê-los.
Comunicação efetiva: Ser capaz de comunicar de forma clara e concisa os resultados e insights obtidos, seja para uma equipe técnica ou para stakeholders não técnicos.

Aplicações de Data Science:

A área de Data Science tem uma ampla gama de aplicações em diversos setores. Alguns exemplos incluem:

Saúde: Utilização de dados médicos para diagnóstico precoce de doenças, previsão de resultados de tratamentos e desenvolvimento de soluções de medicina personalizada.
Varejo: Análise de dados de vendas, preferências do consumidor e previsão de demanda para otimização de estoques, personalização de experiências de compra e recomendação de produtos.
Finanças: Utilização de algoritmos de aprendizado de máquina para detecção de fraudes, análise de risco de crédito, previsão de mercado e otimização de portfólios.
Marketing: Análise de dados de campanhas publicitárias, segmentação de público-alvo, personalização de mensagens e otimização de investimentos em marketing.

O futuro da Data Science:

Com o avanço da tecnologia e o crescimento contínuo da geração de dados, a importância da Data Science só tende a aumentar. Novas técnicas, como Inteligência Artificial e Aprendizado Profundo (Deep Learning), estão impulsionando descobertas ainda mais significativas. Além disso, a ética e a governança dos dados estão se tornando aspectos fundamentais nesse campo, com a necessidade de garantir a privacidade e a segurança das informações.

Conclusão:

A Ciência de Dados desempenha um papel fundamental na era da informação. Combinando habilidades analíticas, conhecimentos técnicos e domínio do negócio, os Cientistas de Dados são capazes de transformar dados em insights valiosos que impulsionam o sucesso das empresas. Se você está interessado em se tornar um profissional nessa área em expansão, é essencial adquirir as habilidades necessárias e continuar se atualizando para acompanhar as demandas do mercado em constante evolução.

Para tais conhecimentos e criação de networking, nós indicamos as nossas formações completas e reduzidas:

Conheça duas de nossas formações que vão te proporcionar os conhecimentos mencionados no artigo:

Formação em Análise de dados – AD – CECD:

http://comunidadedeestatistica.com.br/formacao-em-analise-de-dados-ad-cecd/embed/#?secret=Adlwmj4GZhFormação em Estatística – FE – CECD

http://comunidadedeestatistica.com.br/formacao-em-estatistica-fe/embed/#?secret=UeA8PrfQDC

O post O que é Data Science e o que faz um Cientista de Dados apareceu primeiro em Estatidados.

CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)

admin — Thu, 09 Jun 2022 18:35:17 +0000

PUBLISHED ON 4 DE JUN DE 2022 — BIG DATA, MACHINE LEARNING, PROGRAMMING, R, STATISTICS

Olá, no texto de hoje será abordado o CRISP-DM, este que é uma das metodologias ou processo (particularmente prefiro esse termo) que pode ser utilizado na jornada de desenvolvimento de soluções com dados. Apesar do foco do texto caminhar pelo CRISP-DM, existem outros processos propostos na literatura, dois deles são o famoso KDD – Knowledge Discovery in Databases (Descoberta de Conhecimento em Bases de Dados) proposto por Fayyad et al (1996) e o SEMMA acrônimo de Sample, Explore, Modify, Model e Assess (Amostra, Explorar, Modificar, Modelar e Avaliar), desenvolvido pelo Instituto SAS.

Desenvolvido em 1999 por meio dos esforços de um consórcio composto inicialmente pela DaimlerChrysler, SPSS e NCR, o CRISP-DM – Cross Industry Standard Process for Data Mining (Processo Padrão Inter-Indústrias para Mineração de Dados) surgiu como forma de apoio ao processo de descoberta do conhecimento e para padronizar os processos de mineração de dados em todos os setores. Desde então, este processo é um dos mais utilizados para projetos de mineração de dados, estatística, análise e ciência de dados.

Os times de ciência de dados que combinam uma implementação flexível do CRISP-DM com abordagens abrangentes de gerenciamento de projetos ágeis baseadas em equipe, provavelmente obterão melhores resultados.

O CRISP-DM é formado por 6 fases, que podemos descrever como:

Compreensão do Negócio: O que o negócio precisa?
Compreensão dos Dados: Que dados temos/precisamos? Está ‘limpo’, tratado, prontos para uso?
Preparação dos Dados: Como organizamos os dados para modelagem?
Modelagem: Quais técnicas de modelagem devemos aplicar?
Avaliação: Qual modelo melhor atende aos objetivos do negócio?
Desenvolvimento:Como as partes interessadas acessam os resultados?

Abaixo é mostrado uma figura que representa o processo CRISP-DM e como as fases se interrelacionam:

Etapas do CRISP-DM.Fonte: próprio autor.

A seguir serão detalhados as etapas como forma de deixar mais claro o que é necessário extrair e executar em cada uma delas.

1. Compreensão do Negócio

Nesta primeira fase de compreensão do negócio, o foco é no entendimento dos objetivos e requisitos do projeto. Conhecer e compreender o problema a ser resolvido é de suma importância neste processo. Perceba que no próprio diagrama existem retornos para esta fase a partir de outras etapas do processo, ou seja, podem ocorrer falhas durante o processo por má compreensão do negócio. Para fins de tentar mitigar estes riscos de má compreensão, o CRISP-DM determina algumas atividades nesta fase, conforme é descrito a seguir:

Determine os objetivos de negócios: entender completamente de uma perspectiva de negócios, o que o cliente realmente deseja realizar e, em seguida, definir os critérios de sucesso do negócio.
Avalie a situação: determine a disponibilidade de recursos, os requisitos do projeto, avalie riscos e contingências e realize uma análise de custo-benefício.
Determine as metas: Além de definir os objetivos de negócios, você também deve definir como é o sucesso de uma perspectiva técnica.
Produza o plano do projeto: selecione tecnologias e ferramentas e defina planos detalhados para cada fase do projeto.

Outros pontos interessantes que podem deixar o entendimento mais completo são:

Identificar os especialistas na organização: Os especialistas da área de negócio (domínio), o pessoal da TI, bem como os responsáveis pela tomada de decisão precisam conhecer o processo. É comum nesta etapa, realizar treinamentos para fins de nivelamento de conhecimento do pessoal em torno do processo e onde o CRISP-DM estará atuando.
Levantar e esboçar as necessidades e expectativas: As pessoas que estarão envolvidas no processo, precisam expor suas necessidades, principalmente aqueles que irão lidar com os dados e informações obtidos para posterior análise e tomada de decisão. É comum serem feitas rodadas de reuniões com estas pessoas para fins de elencar os objetivos e necessidades.
Levantamento dos hardwares e softwares: A organização não é feita apenas de pessoas, mas também de ferramentas e neste sentido se faz necessário conhecer o que existe disponível ou não. O CRISP-DM orienta que o processo seja realizado em plataforma que possua arquitetura expansível, com capacidade de suportar grandes volumes de dados, com grandes chances destes dados serem heterogêneos e que possa ter capacidade de processamento compatível com o volume de dados.
Fazer inventário das bases de dados existentes: É importante conhecer o que a organização possui de bases de dados internas e do acesso e uso de bases de dados externas. Neste momento, se faz necessário também observar potenciais bases de dados externas que guardem relação com o negócio da organização e por isso podem fazer parte do processo.
Verificar a existência de DW (Data Warehouses) na organização: Caso a organização possua dados armazenados em bases multidimensionais, como os Data Lake, Data Warehouses, Data Marts, é possível que ela já tenha estabelecido um processo ETL e neste caso haverá um ganho de esforço no restante do processo.

2. Compreensão dos Dados

Esta fase geralmente é executada juntamente com a fase anterior (Compreensão do Negócio), em que o estudo sobre as informações coletadas se faz necessário e deve ser feita de forma detalhista. Aqui neste caso, o foco é direcionado para identificar, coletar e analisar os conjuntos de dados que podem ajudá-lo a atingir as metas do projeto. Podemos definir essa fase através de algumas tarefas:

Solicite dados iniciais: adquira os dados necessários e (se necessário) carregue-os em sua ferramenta de análise.
Descreva os dados: examine os dados e documente suas propriedades de superfície, como formato de dados, número de registros ou identidades de campo.
Explorar dados: aprofunde-se nos dados. Consulte-o, visualize-o e identifique relacionamentos entre os dados.
Verificar a qualidade dos dados: o quão “limpos/sujos”, “tratados/não tratados” estão os dados? Documente quaisquer problemas de qualidade.
Verificar se a volumetria dos dados atende ao negócio: refere-se a quantidade de dados que será utilizada, pois amostras pequenas de dados podem não ser úteis para o processo, portanto é importante que seja feito um acordo para o fornecimento de volume de dados adequado.

3. Preparação dos Dados

Esta fase, prepara o(s) conjunto(s) de dados final(is) para modelagem. As diversas ferramentas analíticas que podem ser usadas nesta fase, apesar de oferecerem muitos recursos, impõem alguns requisitos sobre os dados quanto ao seu formato, gerando a necessidade de formatações e/ou transformações dos mesmos. Nesta estapa é possível dividir em cinco tarefas distintas:

Selecionar dados: determine quais conjuntos de dados serão usados e documente os motivos da inclusão/exclusão.
Limpeza dos Dados: muitas vezes esta é a tarefa mais demorada. Sem ele, você provavelmente será vítima do "lixo que entra e sai do lixo". Uma prática comum durante esta tarefa é corrigir, imputar ou remover valores incorretos.
Construir dados: Derive novos atributos que serão úteis. Por exemplo, derivar o índice de massa corporal de alguém dos campos de altura e peso.
Integrar dados: crie novos conjuntos de dados combinando dados de várias fontes.
Formatar dados: Reformate os dados conforme necessário. Por exemplo, você pode converter valores de string que armazenam números em valores numéricos para poder realizar operações matemáticas.

4. Modelagem

A modelagem é o principal local onde as técnicas são aplicadas aos dados. É importante ter alguma compreensão dos conceitos de modelagem, incluindo os tipos de técnicas e algoritmos existentes. É aqui que você provavelmente construirá e avaliará vários modelos com base em várias técnicas de modelagem diferentes. Esta fase tem quatro tarefas:

Selecione técnicas de modelagem: Determine quais algoritmos se adequam a problemática, por exemplo: regressão, rede neural, etc.
Gerar design de teste: enquanto aguarda sua abordagem de modelagem, pode ser necessário dividir os dados em conjuntos de treinamento, teste e validação.
Modelo de construção: Aqui é etapa da execução da modelagem dos algoritmos utilizando a tecnologia selecionada.
Modelo de avaliação: Geralmente, vários modelos estão competindo entre si, e o cientista de dados precisa interpretar os resultados do modelo com base no conhecimento do domínio, nos critérios de sucesso predefinidos e no design do teste.

5. Avaliação

O insumo desta fase é a saída da fase anterior em forma de um ou mais modelos. Aqui na fase avaliação, é analisado qual modelo atende melhor ao negócio e o que fazer em seguida. Esta fase possui três tarefas:

Avalie os resultados: os modelos atendem aos critérios de sucesso do negócio? Qual(is) devemos aprovar para o negócio?
Processo de revisão: revise o trabalho realizado. Alguma coisa foi esquecida? Todas as etapas foram executadas corretamente? Resuma as descobertas e corrija qualquer coisa, se necessário.
Determine as próximas etapas: Com base nas três tarefas anteriores, determine se deve continuar com a implantação, iterar mais ou iniciar novos projetos.

6. Desenvolvimento

A fase de desenvolvimento consiste da definição das fases de implantação do projeto, levando em consideração que o modelo resultante da fase de modelagem precisa ser factível de ser usado, ou seja, digamos que um modelo não é particularmente útil a menos que o cliente possa acessar seus resultados. A complexidade desta fase varia muito. Esta fase final tem quatro tarefas:

Planejar a implantação: desenvolva e documente um plano para implantar o modelo.
Plano de monitoramento e manutenção: desenvolva um plano completo de monitoramento e manutenção para evitar problemas durante a fase operacional (ou fase pós-projeto) de um modelo.
Produzir relatório final: a equipe do projeto documenta um resumo do projeto que pode incluir uma apresentação final dos resultados das etapas realizadas.
Revisão do projeto: conduza uma retrospectiva do projeto sobre o que deu certo, o que poderia ter sido melhor e como melhorar no futuro.

Conclusão

Como uma forma de finalização desse post, com uma conclusão, podemos escrever alguns pontos para que seja possível aproveitar ao máximo os benefícios da CRISP-DM, para suprir as fraquezas ou pontos negativos existentes.

Sendo assim, pense sempre em fazer a equipe se concentrar estritamente em entregar lançamentos menores de todas as etapas e frequentemente solicitar feedback ao longo do caminho, evitando dessa forma cair em uma armadilha em cascata trabalhando minuciosamente em todas as etapas do projeto, e raramente retornar a uma etapa anterior, e a entrega ser um “big bang” no final do projeto porque a sua primeira entrega pode não ser muito útil, por estar nas fases iniciais do processo.

As etapas do processo exigem muita documentação, assim o gasto de tempo fazendo documentações poderá ser maior do que fazendo qualquer outra coisa, entretanto, procure sempre documentar o que for suficiente… mas não precisa exagerar. Não se esqueça também das tecnologias atuais: adicione etapas para aproveitar arquiteturas de nuvem e práticas de software modernos, como controle de versão git e pipelines de CI/CD ao seu plano de projeto, quando apropriado.

O CRISP-DM carece de estratégias de comunicação com as partes interessadas. Portanto, certifique-se de definir expectativas e se comunicar com eles com frequência.

E por fim, combine com uma abordagem de gerenciamento de projetos. Como uma declaração mais generalizada do item anterior, o CRISP-DM não é realmente uma abordagem de gerenciamento de projetos. Assim, combine-o com uma estrutura de coordenação de ciência de dados. As abordagens ágeis populares incluem: Kanban, Scrum e Scrum Orientado a Dados.

Fontes:

Azevedo, A. e Manuel, F.S. “KDD, SEMMA and CRISP-DM: a parallel overview.” IADS-DM (2008).

Fayyad, U. M. “Data mining and knowledge discovery: making sense out of data”. IEEE Expert, Vol. 11 No. 5, pp. 20-25 (1996).

https://dnc.group/blog/data-science/metodologia-crisp-dm/

https://www.datascience-pm.com/crisp-dm-2/

https://blog.grancursosonline.com.br/processo-de-mineracao-de-dados-com-crisp-dm/

Texto baseado nas fontes citadas.

“Post gerado com framework HUGO (http://gohugo.io/), R Markdown (http://rmarkdown.rstudio.com/), no qual os resultados são gerados na geração da página.”

TAGS: BIG DATA, MACHINE LEARNING, PROGRAMMING, R, STATISTICS

Post original: https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/

O post CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados) apareceu primeiro em Estatidados.

COMO A TORCIDA INFLUENCIA NO DESEMPENHO DO TIME DA NHL – PARTE II

admin — Thu, 21 Oct 2021 12:21:07 +0000

Dando sequência à nossa análise dos efeitos da pandemia na NHL e como a falta de torcida afetou a liga, vamos voltar nossos olhos agora para os astros do jogo, jogadores e goleiros. Caso não tenha lido a primeira parte, que teve um foco mais nas organizações, times, como um todo, você pode acessar o post clicando aqui link, vai lá, tem muito gráfico legal, mas volta aqui depois. Recapitulando para dar um pouco mais de contexto. Na primeira parte vimos que o fato de jogar com torcida ou não nas arenas não teve um impacto tão significativo no número de vitórias dos times em relação às temporadas anteriores. O impacto dessa falta de fãs nas arenas afetou muito mais as organizações, que deixaram de arrecadar com a presença do público.

Assim, nossa primeira análise olhou apenas para o resultado final, vitória, no que diz respeito ao desempenho do time dentro do gelo, deixando de lado outros fatores. O grande ponto aqui é que dentre os esportes, o hóquei é o esporte onde o fator “sorte” é o mais presente.

Michael Mauboussin’s skill-luck continuum.

E como destacamos na nossa primeira parte, apesar do grande volume de dados gerados, os fatores psicológicos e emocionais dos jogadores ainda não são mensuráveis. Um assunto que veio à tona devido ao nosso cenário pandêmico. Portanto, nosso intuito é verificar através das estatísticas avançadas se a falta de torcida impactou no desempenho dos jogadores, que consequentemente reverbera no desempenho final dos times, de modo a ver se o que era esperado realmente aconteceu ao final da temporada. Para mensurarmos esse desempenho vamos olhar para aquilo que dá aos times a vitória quando temos o apito final, os gols.

Observação: Os jogos analisados serão aqueles onde as forças dos times é a mesma, sempre 5 contra 5.

ESTATÍSTICAS AVANÇADAS QUE VAMOS UTILIZAR

Para mensurar o desempenho dos times e jogadores vamos utilizar, valor esperado de gols (xG) , gols feitos acima do esperado (GFaE) e gols sofridos acima do esperado (GAaE), já para os goleiros, delta da porcentagem de defesas(dSv%).

XG (VALOR ESPERADO DE GOLS)

Expectativa de gols (Expected Goals) é um modelo estatístico que vem sendo desenvolvido em vários esportes onde o intuito é prever o desempenho futuro. Para esportes como hóquei e futebol, onde os gols são inerentemente aleatórios e escassos, o modelo de gols esperados provou ser particularmente útil na previsão de gols futuros. Isso porque eles consideram o número de chutes, que é mais preditivo do desempenho da equipe e do jogador do que apenas o número total de gols.

Os primeiros modelos datam por volta de 2012 e alguns ainda levam outros nomes como “qualidade de chute”. Desde então muitos modelos vêm sendo desenvolvidos e cada um tem a sua particularidade, ainda estou trabalhando no meu, no que diz respeito a quais variáveis, características, são aquelas que mais impactam para a previsão. Para nossa análise vou utilizar os dados do site Money Puck e os resultados gerados pelo seu modelo, que leva em consideração as seguintes variáveis:

Distância do chute a gol;
Tempo desde o último evento (ação) de jogo;
Tipo do chute (wrist shot, slap shot, backhand, etc);
Velocidade da ação anterior;
Ângulo do chute;
Localização Leste-Oeste no gelo do último evento antes do chute;
Se rebote, diferença no ângulo do chute dividido pelo tempo desde o último chute;
Último evento que aconteceu antes do chute (faceoff, hit, etc);
Número de patinadores da outra equipe no gelo;
Localização Leste-Oeste no Gelo de chute;
Situação de vantagem de homem;
Tempo desde que o Powerplay atual começou;
Distância do evento anterior;
Localização Norte-Sul no Gelo de Tiro;
Tiro na rede vazia.

Para deixar mais visual de como funciona esse modelo vou colocar dois vídeos que mostram como isso pode ser visualizado dentro do jogo:

As outras duas estatísticas que vamos utilizar para os times e jogadores derivam da primeira:

GFaE (Diferença de gols feitos pelos esperados dividido pelo número de jogos)
GAaE (Diferença de gols sofridos pelos esperados dividido pelo número de jogos)

São elas que vão nos dizer se os times tiveram uma performance positiva ou negativa em relação ao que aconteceu durante toda a temporada.

DSV%

Diferença entre a porcentagem de defesa esperada de um goleiro e sua porcentagem de defesa real. Esta é uma estatística muito valiosa que ajuda a mostrar o quão melhor (ou pior) um goleiro está se saindo em comparação com o desempenho de um goleiro médio dada a qualidade dos chutes que ele enfrentou. Um dSv% de 0 significa que um goleiro teve um desempenho exatamente no nível de um goleiro médio, dada a qualidade dos chutes que ele enfrentou.

DESEMPENHO DOS TIMES

Vamos ver o que era previsto para os times em relação aos gols feitos e sofridos e comparar com os dados reais.

TEMPORADA 2018-19

TEMPORADA 2019-20

Em relação às duas temporadas, podemos ver nos dois gráficos como os times de uma maneira geral negligenciam a defesa. Grande parte dos times se concentram na parte superior do gráfico. O apelo ofensivo é maior que o defensivo. Isso é interessante porque estudos mostram o quanto uma defesa sólida é essencial para conquista de campeonatos, mas esse assunto fica para um outro post.

TEMPORADA 2020-21

Para a última temporada, além do gráfico de setores, vamos ver as diferenças em relação aos valores previstos (GFaE e GAaE). Aqui precisamos fazer uma observação. Como foi uma temporada atípica, tivemos a divisão das equipes por localização geográfica. Assim, os times jogaram 8x contra o mesmo adversário. Isso provou ter um certo impacto nos times. Uma vez que, você começa a conhecer bem o estilo de jogo do seu oponente o que torna os confrontos previsíveis.

Agora vamos ver como foi o desempenho dos times quando comparamos com os resultados reais.

GOLS FEITOS

Em relação aos gols feitos:

Os grandes destaques são os Capitals, Penguins, Rangers, Wild, Blues, Avalanche e Knights com um diferença do previsto para real acima dos 10 gols;
Toronto teve um desempenho ruim e bom ao mesmo tempo. Isso porque ele tinha um valor previsto de 134 gols na temporada e acabou fazendo 133 gols, média de 2.3 gols por jogo. Comprovou seu favoritismo em relação ao potencial ofensivo esperado;
Entre os piores times quem se destaca é o time dos Sabres com um desempenho bem inferior ao previsto, média de 1,57 gols por jogo.

GOLS SOFRIDOS

Em relação aos gols sofridos:

O time dos Flyers foi aquele que apresentou o pior desempenho em relação aos gols sofridos, com média acima dos 2 gols por jogo.
De forma geral um desempenho majoritariamente negativo dos times em relação aos gols sofridos.

DESEMPENHO DOS JOGADORES

A tabela compila a quantidade de gols que era previsto, resultado real e a diferença entre eles (goals above expected – GAE). A lista dos 10 jogadores não segue nenhum critério de quem é o melhor nem nada, existem muitos outros jogadores com muito potencial em toda liga. Quando olhamos para o resultado fica evidente o quanto a temporada 2020-21 impactou os atacantes.

Não podemos deixar de lado o fato que tivemos menos jogos, 56, e que nossa lista contém jogadores bem experientes, como: Sidney Crosby, Alex Ovechkin e Patrick Kane, que já passaram dos 30 anos mas continuam jogando em altíssimo nível. Contudo, quando analisamos a tabela, percebe-se que os desempenhos foram afetados na última temporada apresentada.

Dentre os jogadores o grande destaque fica para Auston Matthews que fez 41 gols durante toda a temporada de 2020-2021. Mas, para uma análise mais fiel, consta na tabela apenas 28 gols, que foram feitos nas disputas em que os dois times estavam com número máximo de jogadores no gelo (5 contra 5).

DESEMPENHO DOS GOLEIROS

Assim como a escolha dos jogadores não seguiu nenhum critério, para os goleiros também não.

Para os goleiros temos um resultado muito interessante e que talvez expresse melhor a falta dos torcedores nas arenas. Tenho para mim que a posição do goleiro é a mais ingrata entre os esportes, em geral, e aqui no hóquei não seria diferente. Digo isso porque ele pode fazer tudo certo e ainda sair como vilão da partida. Assim, a pressão é muito grande diferente do atacante onde erros não são tão impactantes. Claro que estamos falando de jogadores de alta performance, mas precisamos lembrar que todos são humanos também.

Tivemos como destaques negativos John Gibson, Darcy Kuemper e Branden Holtby. Porém, a maioria dos goleiros tiveram uma performance melhor e superior as temporadas passadas. Destaques positivos para Connor Hellebuyck, Andrei Vasilevsky e Marc-Andre Fleury, na temporada 2020-2021, que foram além do esperado. Vale lembrar que a comparação é realizada sobre a performance de um goleiro médio, que tem um desempenho igual a zero, como expliquei no início do artigo.

CONCLUSÃO

Diferente de quando olhamos para o contexto geral, as vitórias, os fãs não parecem exercer um papel tão determinante no desempenhos dos times. Mas a ausência de lucro, promovidos pelas relações financeiras que se estabeleciam antes, durante e depois dos jogos deixaram marcas negativas nos bolsos dos donos e afins que lucravam com a realização do evento. A arena ficou cara para alguns e sem emoção para todos.

Entretanto, quando analisamos de uma forma mais precisa, temos sim um possível impacto a ser debatido. Vemos que os jogadores, em especial, os patinadores tiveram uma alteração negativa em relação ao desempenho esperado. Diferente dos goleiros que mantiveram uma certa constância na temporada. Não podemos falar com exatidão que a falta de torcida foi o grande fator para esse resultado, e nem que isso influenciou negativamente de forma psíquica e emocional os jogadores, afinal, foi uma temporada atípica, mas é algo que precisa ser levado em conta em momentos como esse, em que a mudança tornou-se uma constante na vida de todos.

O post COMO A TORCIDA INFLUENCIA NO DESEMPENHO DO TIME DA NHL – PARTE II apareceu primeiro em Estatidados.

COMO A TORCIDA INFLUENCIA NO DESEMPENHO DO TIME DA NHL – PARTE I

admin — Thu, 21 Oct 2021 12:19:27 +0000

No último dia 15 de maio de 2021 deu-se início a pós-temporada da National Hockey League (NHL). Sendo essa para mim, dentre as cinco grandes ligas americanas, NBA, NFL, MLB, MLS e NHL, aquela mais emocionante, frenética e mágica onde tudo pode acontecer. Outro ponto muito importante, e que foi o responsável pela ideia do artigo, foi o acréscimo na capacidade de torcedores permitidos nas arenas para conclusão da temporada.

A restrição dos torcedores às arenas de hóquei teve início na pós-temporada de 2019-2020, após uma temporada regular já encurtada devido a pandemia do coronavírus. O que levou a conclusão da temporada sem a presença dos torcedores como mostrado na foto abaixo.

Foto: Andy Devlin/NHL via USA Today Sports

Para a temporada de 2020-2021 a NHLPA, representante dos jogadores, e a liga chegaram a um acordo de que a temporada normalmente de 82 jogos seria encurtada para 56 jogos. E em vez das divisões normais, os times seriam separados com base na localização geográfica, com uma das quatro divisões sendo composta apenas por equipes canadenses. Em relação a presença dos torcedores nas arenas a capacidade inicial permitida pela NHL foi de 10 a 15% do total da arena de cada time. Esses valores foram revisados ao decorrer da temporada regular de acordo com o controle da pandemia.

Isso é interessante porque, por mais que os esportes americanos sejam excelentes para criar uma base sólida de dados, o fator humano nunca pode ser deixado de lado. As estatísticas podem dizer algo, mas o contexto precisa ser levado em conta. Fatores que ainda não são representados nos dados, como a condição psicológica e o humor dos jogadores, também são chaves importantes na hora de analisar o jogo.

Assim, nosso intuito é verificar se a falta de torcedores nas arenas teve algum impacto significativo no desempenho dos times e dos jogadores. Para nossa análise vamos utilizar as três últimas temporadas, 2018-2019, 2019-2020 e 2020-2021, para a primeira tivemos a presença dos torcedores em todas as fases do campeonato, na segunda a presença dos torcedores aconteceu apenas na temporada regular e na última temporada essa presença aconteceu de forma bastante limitada.

Como disse previamente essas são questões difíceis de serem mensuradas por diversas razões então para analisar qual impacto da pandemia do coronavírus vamos analisar os times e os jogadores através das seguintes estatísticas avançadas:

xG – Expected Goals For and Against – expectativa de gols feito e cedidos. Essa estatística mede o valor esperado de gols feitos ou cedidos pelos times.
GFAE – Goals For Above Expected – diferença do gols feitos pelos esperados dividido pelo número de jogos.
GAAE – Goals Against Above Expected – diferença do gols cedidos pelos esperados dividido pelo número de jogos.

Dessa forma podemos medir a eficiência do time e do jogadores comparando o que era esperado com o que de fato aconteceu durante a temporada.

Para os goleiros vamos olhar a seguinte estatística avançada:

Delta/Adjusted Save Percentage (dSv%) – diferença entre a porcentagem de defesa esperada de um goleiro e sua porcentagem de defesa real. Esta é uma estatística muito valiosa que ajuda a mostrar o quão melhor (ou pior) um goleiro está se saindo em comparação com o desempenho de um goleiro médio dada a qualidade dos chutes que ele enfrentou. Um dSv% de 0 significa que um goleiro teve um desempenho exatamente no nível de um goleiro médio, dada a qualidade dos chutes que ele enfrentou.

Algumas observações:

Todas as análises serão feitas para os jogos dentro e fora de casa. Assim, podemos ver se jogar em casa tem alguma influência nessas estatísticas.
Os jogos analisados serão aqueles onde as forças dos times é a mesma, sempre 5 contra 5.
Para os jogadores, as estatística serão aplicada ao top10 atacantes da NHL no momento.

QUAL A FREQUÊNCIA DE TORCEDORES POR TEMPORADA?

Antes de verificarmos se a torcida influência no desempenho dos times e jogadores vamos analisar alguns números referente a média de torcedores por temporada. Para realizar a média de público na NHL os jogos realizados em lugares aberto como, Stadium Series, Winter Classic e NHL heritage classic, foram retirados dos cálculos. Pois, os número de torcedores nesses jogos ultrapassam a capacidade das arenas dos times. O que tornaria nossa média enviesada, não contando a história verdadeira.

O gráfico mostra o claro impacto que a pandemia do coronavírus teve na última temporada. Saímos de uma média de mais de 17 mil torcedores nas temporadas regulares anteriores para uma média de pouco mais de 3 mil torcedores. E quando olhando para a pós-temporada da temporada 2018-2019 a média de torcedores sobe para mais de 18 mil torcedores. Agora vamos apresentar quais os times possuem as maiores médias de público durante as temporadas observadas.

TEMPORADA 2018-2019 DA NHL

Aqui temos tanto a temporada regular como a pós-temporada com a presença dos torcedores nas arenas.

REGULAR

Na temporada regular o time do Montreal Canadiens é aquele que apresenta a maior média de público por jogos, um total 41 jogos como mandante. Isso mostra que quando o time joga em casa a torcida de fato está presente ocupando 99% da capacidade da arena. De uma forma geral podemos ver no gráfico que todos os times apresentam uma média acima dos 90% em relação à ocupação das arenas. Algumas equipes chamam ainda mais a atenção como o caso do Chicago Blackhawks, Minnesota Wild e o Pittsburgh Penguins que quando jogam em casa tendem a ter uma média de publico que ultrapassa a capacidade da arena.

PLAYOFFS

Diferente do que vimos na temporada regular, aqui veremos a mágica da pós-temporada. Alguns pontos interessantes são:

Os times apresentam uma média de publico igual ou superior a capacidade da arena.
Toronto Maple Leafs apresenta a maior média de público quando mandante.
Times que não figuraram entre as maiores médias na temporada regular, apresentam valores bem expressivos na pós-temporada. Mostrando que a torcida realmente se anima nesta segunda parte da temporada.

TEMPORADA 2019-2020 DA NHL

Aqui temos os valores de torcedores apenas para a temporada regular.

REGULAR

Apesar da temporada regular ter sido encurtada, 35-36 jogos por equipe como mandante, devido a pandemia do coronavírus, não temos um impacto tão significativo nas médias por equipe daquelas vistas na temporada regular 2018-2019. Aqui vemos a torcida do Chicago Blackhawks chamando a responsabilidade e colocando o time como aquele com a maior média de público por jogo, ultrapassando assim a capacidade da sua arena. Temos também a entrada do time do Vancouver Canucks que ocupou o lugar do time do Minnesota Wild. Um dos motivos para essa aparição do time do Vancouver foi a sua boa fase, o que fez a torcida empolgar e impulsionar ainda mais o time nos jogos em casa.

TEMPORADA 2020-21 DA NHL

Como mencionado anteriormente a temporada 2020-2021 aconteceu com várias restrições com intuito de preservar as equipes e os fãs, o gráfico mostra a média de torcedores pelo número de jogos em casa onde houve a presença dos torcedores. Alguns times como, Buffalo, Calgary, Detroit, Edmonton, Montreal, Nashville, St. Louis, Ottawa, Toronto, Vancouver e Winnipeg não anunciaram números dos públicos e, portanto, foram omitidos.

Esse gráfico é interessante porque de certa forma, mostra como alguns estados tiveram um controle maior sobre a pandemia o que ocasionou em um maior número de jogos em casa na presença dos fãs além do aumento da capacidade permitida de torcedores nas arenas. Não é possível comparar a média de torcedores entre os times pois temos um número de jogos diferente para cada um. Olhando de forma individual:

Dallas, Arizona e Flórida foram o times com o maior número de jogos tendo a presença de fãs nas arenas.
Vegas Golden Knights foi o time com a maior média torcedores, 4.362, representando 25% da capacidade da arena em 17 jogos.
O time de Chicago que apresentou ter uma base sólida de torcedores, como visto nas temporadas anteriores, teve apenas 2 jogos na temporada 2020-2021 na presença dos fãs, os dois últimos da temporada regular, uma média de 3.868 cerca de 20% da capacidade total da arena.

Comparando com os gráficos anteriormente é nítido o impacto que a pandemia do coronavírus teve nos jogos em relação ao público presente. E de acordo com Sean Shapiro do site The Athletic “os times da liga nacional de hóquei (NHL) deixaram de arrecadar quase US$3,6 bilhões em receita em 2020-21 devido a esse comparecimento limitado”.

O QUE É A VANTAGEM DE CASA (HOME ADVANTAGE)?

Refere-se à tendência dos times de ganharem com mais frequência quando competem em suas instalações. Isso chega a ser mais uma questão psicológica. Uma vez que, a vantagem de se jogar em casa pode estar associada ao apoio da torcida, já que o público impulsiona inspirando os jogadores a darem o máximo no gelo. Aliado, também, a familiaridade com a ambientação. Para os times visitantes as desvantagens são grandes. Temos o quesito relacionados às distâncias percorridas pelos times o que ocasiona fadiga devido às viagens; fatores ambientais, como o clima, fuso horário, mudança da arena e a ausência de torcida.

Este termo ganha ainda mais força quando chegamos a pós-temporada onde as partidas são disputadas no formato melhor de sete. Assim, o time com melhor campanha na temporada regular ganha a vantagem de disputar o último jogo da série em casa caso necessário. Tendo esses pontos levantados.

SERÁ QUE NA NHL JOGAR EM CASA TRAZ ALGUMA VANTAGEM AOS TIMES ?

Como a pós-temporada 2018-2019 e a temporada de 2020-2021 possuem as suas peculiaridades, vamos olhá-las de forma separadamente. Vamos analisar primeiro como foi o desempenho dos times nas temporadas regulares de 2018-2019 e 2019-2020.

Pela tabela temos que na temporada regular de 2018-2019 a média de vitória dos times quando mandante foi de 53.63% com um desvio padrão de 8.95%. Portanto, quando o time joga em casa a chance dele vencer varia de 44.67% a 62.58%. Já na temporada regular de 2019-2020 a média de vitória dos times quando mandante foi de 53.33% com um desvio padrão de 8.75%. Temos uma pequena queda se comparamos a temporada anterior, mas nada estatisticamente significativo. Vale ressaltar que a temporada 2019-2020 foi encurtada devido à pandemia do coronavírus.

PÓS-TEMPORADA 2018-2019

Como apresentado anteriormente, a pós-temporada leva ainda mais torcedores às arenas. É como as séries são disputadas no formato melhor de sete os times jogam no mínimo duas vezes em casa. Assim, será que esse mando de “gelo” e um maior apoio da torcida são significativos?

Como nem todos os times possuem o mesmo número de jogos, vamos utilizar a mediana para evitar que o resultado seja perturbado por valores extremos baixos ou altos. Assim, a mediana na pós-temporada dos times mandantes foi de 53.85% . Um valor bem próximo ao observado na temporada regular. Portanto, apesar de existir um pequeno aumento em relação a temporada regular, ter um maior número de torcedores nas arenas não chega a impactar tanto assim os resultados. Vamos ao gráfico que mostra essa porcentagem de vitórias em relação ao número de jogos dos times quando mandantes e sua média de público.

A pós-temporada é composta por 16 times, mas no gráfico há apenas 13 times. Isso porque, Pittsburgh, Tampa Bay e Winnipeg que foram classificados para essa fase não ganharam nenhum jogo em casa e portanto, foram omitidos.

Fatos interessantes:

Apesar do time de Toronto ter uma média de público, 19.644, superior ao outros times, isso não foi capaz de levar o time à segunda fase da pós-temporada. O time venceu apenas um jogo dos 3 disputados em casa, 33% de aproveitamento, na série contra o Boston Bruins.
Assim como Toronto, Nashville e Calgary venceram apenas um único jogo dos 3 disputados em casa e também caíram na primeira rodada. O time de Vegas, Golden Knights, que também caiu na primeira rodada, venceu 2 dos 3 jogos disputados em casa.
Colorado foi aquele que apresentou o melhor desempenho jogando em casa, ganhando 4 dos 5 disputados, mas deixou a desejar ao jogar fora de casa e acabou sendo eliminado.
O time de Tampa Bay que foi o vencedor do Troféu do Presidente, dado ao time com a maior pontuação na temporada regular, acabou sendo varrido.
O St. Louis Blues que apresentou um baixo aproveitamento nos jogos como mandante, 46.15%, foi o grande campeão da Copa Stanley vencendo o Boston Bruins.

TEMPORADA REGULAR 2020-2021

Assim como na pós-temporada 2018-2019 não temos a mesma quantidade de jogos por time. O que torna a comparação entre os times difícil de ser mensurada. A tabela a seguir mostra o desempenho dos times como mandante com e sem a torcida presente. Como foi uma temporada de apenas 56 jogos por time, cada time jogou em casa 28 vezes. Aqui nosso objetivo é verificar se jogar na presença do público trouxe algum benefício ao time por mais que a quantidade de jogos em casa de alguns times seja pequena. Não iremos levar em consideração nesse primeiro momento outros fatores que contribuem para o bom desempenho de um time e sim simplesmente o fator casa.

Olhando para os times que tiveram a oportunidade de jogar com o público presente, oito deles tiveram um aproveitamento abaixo dos 50% (Dallas Stars, Arizona Coyotes, Columbus Blue Jackets, San Jose Sharks, Philadelphia Flyers, New Jersey Devils, Los Angeles Kings e Anaheim Ducks). Desses 8 times, 2 deles, Dallas Stars e Arizona Coyotes, jogaram todos seus 28 jogos na presença do público. Logo, não podemos comparar se eles tiverem um desempenho melhor sem a presença da torcida. Com relação aos demais:

Columbus Blue Jackets e Philadelphia Flyers, que tiveram ao menos 10 jogos com e sem público tiveram um aproveitamento melhor jogando sem a presença dos torcedores. O time de New Jersey piorou sem o apoio dos torcedores.
San Jose Sharks, Los Angeles Kings e Anaheim Ducks que tiveram menos de 10 jogos na presença do público melhoram seu rendimento sem a presença do público, mas pouca coisa.

É claro que precisamos dar os devidos pesos e olhar com cautela uma vez que a quantidade de jogos são diferentes, mas é interessante verificar que os times em sua grande maioria apresentaram um aproveitamento um pouco melhor quando jogaram sem a presença dos torcedores.

Chegamos ao fim da nossa primeira parte e o que podemos concluir com isso tudo é que diferente de outros esportes como, basquete, futebol americano e beisebol, onde jogar em casa tem um certo peso nos resultados. No caso do hóquei, podemos ver que apesar de ter um certo impacto o simples fato de jogar em casa por si só não é um fator determinante para determinarmos a vitória dentro do gelo. Este impacto que a torcida traz acaba sendo algo muito mais econômico onde as organizações são afetadas e o show dentro das arenas é comprometido. Para a nossa segunda parte vamos mergulhar nas estatísticas que levantamos inicialmente e verificar como a ausência da torcida afeta o desempenho dos times e dos jogadores.

O post COMO A TORCIDA INFLUENCIA NO DESEMPENHO DO TIME DA NHL – PARTE I apareceu primeiro em Estatidados.

O que são modelos científicos e como eles funcionam

admin — Fri, 24 Sep 2021 12:15:13 +0000

Com o conhecimento científico foi possível a realização de feitos antes inimagináveis, como a comunicação à velocidade da luz, nanotecnologia, fissão nuclear, viagem ao espaço, inteligência artificial, dentre outras. O poder do conhecimento científico está na criação de modelos que representam a realidade ou um fragmento de um sistema. Eles são usados na construção de teorias científicas, que visam capturar a estrutura ou dinâmica da própria realidade. A validação de uma teoria envolve testar hipóteses, que é baseada na análise de padrões encontrados em dados empíricos. Quer a hipótese seja baseada em dados ou na teoria, um conjunto de dados empíricos precisa estar disponível para testar os resultados do modelo. Em seguida, um processo algorítmico é projetado e implementado com o objetivo de descrever matematicamente a estrutura ou dinâmica de interesse. Posteriormente, o modelo é executado e validado comparando dados simulados com dados empíricos. Os insights resultantes inspiram novas hipóteses científicas e o modelo é refinado iterativamente ou novos modelos são desenvolvidos.

Uma pergunta que instiga muitos filósofos epistemológicos é como modelos são criados. Isso significa entender como ocorre o processo de aprendizado de um conhecimento científico, ou seja, entender como, a partir de dados experimentais, conseguimos extrapolá-los e criar modelos confiáveis. O que significa ser confiável na metodologia científica? Como ocorre o processo de generalização a partir da dedução e da indução do conhecimento empírico para um princípio universal, como as leis de Newton ou a mecânica quântica?

Indo além do mero aprendizado humano, pode-se questionar ainda os atuais modelos de aprendizado de máquina e fazer os mesmos questionamentos: Como máquinas aprendem e geram modelos confiáveis baseados apenas em dados empíricos? O que veremos nesse artigo é um paralelo entre filosofia, ciência e a inteligência artificial para nos aprofundarmos nesses questionamentos. Veremos o que significa um “bom modelo” na ciência e como o teste de hipóteses valida o conhecimento científico. Também será discutido a “fonte do conhecimento”, com suas escolas de pensamento empirista e racionalista e onde o aprendizado de máquina se encontra.

O que caracteriza um bom modelo?

Em certo sentido, todos os modelos estão errados. Isso implica que nenhuma descrição da realidade é a última e todos os modelos atuais estão sujeitos a refinamentos conforme novos dados são apresentados.

“Todos os modelos implicam em esquematizações e simplificações que se traduzem em “suposições”. E cada suposição de um modelo é uma fonte possível de erro.”

Dessa maneira, entendemos que ao criar um modelo, o objetivo não deve ser criar uma descrição última ou perfeita da realidade, e sim minimizar o erro entre a realidade objetiva e a descrição subjetiva dada pelo modelo. Mas existe uma descrição última da realidade que pode ser representada por um modelo matemático perfeito? Esse é um debate filosófico interessante, iniciada por Platão e Aristóteles, e ainda continua sem resposta, com duas correntes filosóficas concorrentes: a realista e a antirrealista.

Platão defende em obras como A República e Fédon, que o conhecimento só é alcançado quando atingimos a “ideia” ou “conceito” do objeto. Essa ideia estaria em um mundo independente das objeto, no “Mundo das Ideias”. Exemplo: Um modelo de um cavalo seria representação ideal (no mundo das ideias) de um cavalo e o cavalo real seria uma forma imperfeita desta ideia. O mesmo pode-se dizer de conceitos como Justiça, Beleza, etc. Existe um único modelo perfeito que descreve esses conceitos, que estão no Mundo das Ideias. Aristóteles, por outro lado, critica Platão justamente por criar uma independência entre a ideia abstrata do objeto e o objeto em si. Ele concorda, por exemplo, que a observação e comparação de diferentes tipos de cavalo levam a um grupo de aspectos que definem o “modelo de cavalo”, mas tal modelo não existe independentemente, e sim são uma maneira de categorizar objetos com atributos semelhantes a “cavalos” observados empiricamente.

Atualmente, o debate se divide entre realistas e antirrealistas. Apesar das diversas interpretações, em geral podemos dizer que o realismo sobre objetos matemáticos, modelos científicos ou processos mentais, se caracteriza pela afirmação de que os objetos em questão “realmente existem”, ou “desfrutam de uma existência independente de qualquer cognição”, ou “estão entre os constituintes últimos do mundo real” [1]. Realistas dizem que os cientistas interpretam “todas as teorias científicas como tentativas de descrições da realidade”. Usando como exemplo a teoria da gravitação universal de Newton, Força, inércia, gravidade, são entidades que realmente existem, pois elas revelam a estrutura causal do mundo. Um antirrealista acredita justamente no contrário. Berkeley, famoso antirrealista, contra-argumentaria Newton afirmando que essas entidades são apenas criações teóricas que compilam a bem e experiência dos sentidos, mas não existem em um “Mundo das Ideias Platônico” ou é a última descrição da realidade. Se você já ouviu a discussão “A matemática é descoberta ou inventada?”, saiba que isso é basicamente uma discussão profunda sobre o realismo e antirrealismo da matemática.

Pensando de maneira mais concreta, independente se tais modelos existem ou são constructos mentais, é importante entender o que caracteriza um bom modelo, seja ele físico, biológico, econômico, etc. As principais características de tais modelos são:

Parcimônia – Aqui temos a questão da simplicidade: Modelos que dependem de menos suposições para explicar um determinado fenômeno são preferíveis. Isso evita o sobreajuste (overffiting), e tais modelos podem falhar em fazer previsões para situações ainda não observadas. Cientistas e analistas de dados conhecem muito bem esse problema, e técnicas rotineiras, como o cross-validation, são tentativas de evitar o overffiting. Na ciência, um exemplo interessante era o debate entre geocentrismo e heliocentrismo. O modelo geocêntrico era demasiadamente complicado, pois ao assumir que a Terra era o centro do Sistema Solar, teria que criar “epiciclos” nas órbitas de outros planetas para explicar os problemas de perspectiva do movimento dos planetas ao serem observados na Terra. Aliás, falharia completamente se tivesse que explicar as órbitas em exoplanetas, algo que não acontece com o heliocentrismo.

Perspicácia – São modelos que revelam propriedades fundamentais do objeto que está sendo representado. Quando Newton, escreveu que sua teoria é “O Sistema do Mundo” ele não estava exagerando: Ele revelou propriedades fundamentais da gravidade, como a teoria da gravitação universal e as famosas Leis de Newton, que revolucionou a física em sua época. Um modelo ainda mais perspicaz é a Teoria da Relatividade Geral, onde Einstein entendeu a gravidade como a distorção causada pela matéria no tecido do próprio Espaço-Tempo.
Generalização – São modelos que podem ser aplicados em uma ampla gama de situações. Por exemplo, as Leis de Newton podem explicar porque as maças caem enquanto a Lua não. As equações de Maxwell são capazes de explicar satisfatoriamente todos os fenômenos elétricos e magnéticos existentes e unificá-lo num único modelo , descrita pela Teoria Eletromagnética. Indo além, físicos buscaram criar modelos ainda mais gerais, buscando unificar as forças fundamentais da natureza: a unificação da força eletromagnética com a força nuclear fraca gerou a Teoria Eletrofraca, e uma unificação ainda maior, adicionando a força nuclear forte, gerou a chamada Grande Teoria Unificada (GUT) que pode explicar fenômenos que aconteceram próximo ao Big Bang, quando tais forças ainda não eram distintas. O Santa Graal da física é a unificação de todas as forças fundamentais numa única teoria (A Teoria de Tudo), mas a gravidade, a mais fraca das forças, ainda é difícil de ser explicada em nível quântico, causando total incompatibilidade entre a Teoria da Relatividade Geral e a Mecânica Quântica.
Falseabilidade – Essa é uma propriedade fundamental da ciência. Todos os modelos científicos devem passar por um teste que possa verificar se determinada ideia, hipótese ou teoria é falsa. Um modelo é falseável se e somente faz previsões não triviais que podem, em princípio, ser falsificadas empiricamente. Se um modelo não faz previsões falsificáveis, então o modelo não pode ser avaliado empiricamente. Tal propriedade está diretamente relacionada com a previsão, já que para passar na falseabilidade, a predição do modelo deve ser avaliada no teste de hipóteses, onde o status quo e a hipótese alternativa (do modelo) são avaliado com dados observáveis. A teoria de Newton foi extensivamente avaliada em diversos fenômenos onde foi comprovado o poder de previsão. Apesar disso, em alguns fenômenos, onde o efeito gravitacional é muito forte ou onde o objeto está próximo à velocidade da luz, a teoria falha, e é necessário considerar efeitos relativísticos, que só podem ser explicadas pela relatividade especial e geral de Einstein. Uma teoria famosa que por enquanto nem teoricamente pode ser falseada é a Teoria da Supercordas, tentativa de unificar todas as forças fundamentais, onde os menores constituintes da realidade são pequenos filamentos de energia semelhantes a pequenas cordas vibrantes. O problema é que para detectar essas cordas seria necessário um acelerador de partículas maior que o sistema solar. Devido a essa impossibilidade de verificar se a teoria está correta ou não, muitos físicos não consideram a Teoria das Supercordas como ciência.

Teste de hipóteses: como os modelos são avaliados

O Teste de hipóteses é um procedimento estatístico fundamental na tomada de decisões, entre aceitar ou não uma hipótese. Na ciência, é utilizado para validar resultados de estudos, com o objetivo de aceitar ou não a hipótese nula, dada um determinado nível de significância (p-value). Para exemplificar como o teste de hipóteses funciona, vamos considerar duas moedas. Gostaria de avaliar se essas moedas são justas ou viciadas. Um modelo de moeda justa teria como resultado de lançamentos um valor próximo a 50% cara e 50% coroa, enquanto um modelo de moeda viciada teria uma proporção diferente. A hipótese nula é sempre o status quo, ou seja, que a moeda é justa (você geralmente recebe uma moeda justa, você que propôs que ela é viciada, que no caso forma a hipótese alternativa). Jogando cada moeda 10 vezes chegamos no seguinte resultado, onde cara é C e coroa é K:

Moeda 1: CKCCKKCCKC

Moeda 2: CCCCCCCKCC

Vamos avaliar a moeda 1: Quais chances de uma moeda justa dar 6 caras e 4 coroas? Usando a distribuição binomial, chegamos em 23%. Se usarmos um p-value de 5%, então a hipótese nula só seria rejeitada caso um evento incomum acontecesse menos que 5% das vezes. Com 23% de chance de ocorrer tal evento, falhamos em rejeitar a hipótese nula.

Agora vamos avaliar a moeda 2: Nessa caso, temos 9 caras e uma coroa. As chances disso acontecer é de 0.9%, valor suficiente para classificá-lo como “raro”, já que é menor que o p-value de 5%. Assim, rejeitamos a hipótese nula, ou seja, a moeda é viciada.

Então, o p-value avalia o quão provável ou improvável é um evento ao considerar a hipótese nula. Se você quer avaliar se uma vacina é segura, precisa fazer um teste em uma amostra significativa de pessoas e, considerando como hipótese nula que a vacina NÃO é segura , obter uma probabilidade baixa o suficiente de alguém ter algum efeito colateral ao tomar a vacina de maneira que te levaria a rejeitar a hipótese nula.

Pra exemplificar o conceito de ter uma amostra significativa, considere que você está avaliando uma terceira moeda, e fez três lançamentos com os seguintes resultados:

Moeda 3: CCC

Tivemos 100% de caras, o que leva a crer que é uma moeda viciada. Mas o p-value, ou seja, as chances de uma moeda justa dar esse resultado, é de 12,8%, o que falharia em rejeitar a hipótese de que a moeda é justa! Isso mostra que o teste de hipóteses é sensível ao tamanho da amostra. Então tenha muitos dados para avaliar.

Teorias do Aprendizado

Uns dos debates mais importantes da filosofia se diz a respeito de como aprendemos, ou seja, de que maneira o conhecimento genuíno e necessário é adquirido, compreendendo as diversas formas de buscá-lo Na filosofia moderna, houveram duas correntes diferentes de pensamento. A primeira, iniciada por René Descartes e que também foi adotada por Leibniz e Noam Chomsky é a racionalista. Como oposição, temos o empirismo, onde temos como maiores defensores dessa corrente Locke, Berkeley e Hume.

No racionalismo, tem-se a razão como principal fonte de conhecimento humane e acredita-se na dedução como principal método investigativo. Temos um “conhecimento inato” como certas categorias de espaço, de tempo e de causa e efeito. Com esse conhecimento, em sua forma mais pura, o racionalismo chega ao ponto de sustentar que todas as nossas crenças racionais, e a totalidade do conhecimento humano, consistem em primeiros princípios e conceitos inatos que são de alguma forma gerados e certificados pela razão, junto com qualquer coisa logicamente dedutível a partir desses primeiros princípios. Esses princípios, os fundamentos do nosso conhecimento, são proposições que são evidentes por si mesmas (auto-evidentes). Por exemplo, Descartes acreditava que deveríamos desconfiar de tudo, menos na própria capacidade de duvidar e, a partir dessa certeza do “Penso, logo existo”, seriam deduzidos novos conhecimentos. Outro exemplo seriam os teoremas matemáticos, onde por dedução podemos chegar a conclusões racionais absolutas.

O empirismo, por outro lado, afirma que a experiência é a fonte do conhecimento, tendo a indução da experiência como principal método investigativo, Para os empiristas, todas as nossas ideias vêm unicamente da experiência sensorial. Nosso conhecimento é a posteriori, na medida em vamos tendo experiência do assunto, e é dependente da experiência dos sentidos. Os empiristas também negam a implicação da tese do conceito inato, correspondente a de que temos ideias inatas na área de assunto. Eles também rejeitam a versão correspondente da tese da superioridade da razão. Visto que a razão por si só não nos dá nenhum conhecimento, certamente não nos dá um conhecimento superior. Os empiristas podem afirmar, como alguns fazem para alguns sujeitos, que os racionalistas estão corretos ao afirmar que a experiência não pode nos dar conhecimento. A conclusão que eles tiram dessa lição racionalista é que não sabemos nada. David Hume, um empirista radical, gostava de usar como exemplo o nascer do sol. Ele dizia que o nascer do sol é um conhecimento adquirido através da indução, já que você viu o sol nascer no leste desde que você nasceu, mas não temos garantias de que ele vai nascer amanhã, isso não pode ser uma afirmação auto-evidente.

Racionalismo e empirismo não precisam entrar em conflito. Podemos ser racionalistas em matemática, já que teoremas como o Teorema de Pitágoras ou o Teorema Fundamental do Cálculo podem ser deduzidos a priori, e podemos ser empiristas em todas ou em algumas das ciências físicas, utilizando o teste de hipóteses para validar experimentos. Racionalismo e empirismo só entram em conflito quando formulados para cobrir o mesmo assunto. E para solucionar esse conflito, chegamos em Immanuel Kant, que revolucionou a epistemologia em sua grande obra “Crítica da Razão Pura”.

Kant cria a Teoria dos Juízos, onde ele dirá que existem o Juízo analítico e o Juízo sintético. Juízos analíticos são aqueles em que o predicado não acrescenta em nada o sujeito, exemplo “Todo triângulo tem três lados” ou “Todos os corpos são extensos. Como não dependem de tempo e lugar, são juízos a priori e universais. Juízos sintéticos são aqueles que acrescentam algo ao sujeito, como por exemplo “Todos os corpos são pesados” e sempre partem da experiência. Podem ser divididos em dois tipo: A priori e A posteriori. O juízo sintético a posteriori é baseado na indução da experiência, enquanto o juízo sintético a priori não necessitam da experiência imediata, como as afirmações matemáticas. Parece confuso à vista, já que se tende a acreditar que a afirmação “7+5=12” é puramente analítica, mas como Kant descreve em “Crítica da Razão Pura” [2]:

Poder-se-ia em verdade crer, à primeira vista, que a proposição 7 + 5 = 12 é puramente analítica, resultante, segundo o princípio de contradição, do conceito de uma soma de sete e cinco. Mas se a considerarmos com mais atenção, acharemos que o conceito de soma de sete e cinco não contém mais do que a união dos dois números em um só, o que não faz pensar qual seja esse número único que compreenda aos outros dois. O conceito de 12 não é de modo algum percebido só pelo pensamento da união de cinco e sete, e posso decompor todo meu conceito dessa soma tanto quanto quiser, sem que por isso encontre o número 12. É preciso, pois, ultrapassar esse conceito recorrendo-se à intuição correspondente a um dos dois números, e aditar sucessivamente ao conceito sete as cinco unidades dadas na intuição. […] A proposição aritmética é, pois, sempre sintética: o que se compreende ainda mais claramente se se tomam números maiores, pois então é evidente que, por mais que volvamos e coloquemos nosso conceito quanto quisermos, nunca poderemos achar a soma mediante a simples decomposição de nossos conceitos e sem o auxilio da intuição.

Um problema que surge imediatamente quando se fala em juízos sintéticos a priori é o verdadeiro problema da razão pura. Como são possíveis os juízos sintéticos a priori? Como se origina o conhecimento da física teórica e da matemática pura? Como são teorizados os modelos científicos que tanto transformaram o mundo? Kant, para responder essa pergunta, cria a Teoria Elementar Transcendental, divididas em estética e lógica transcendental.

A Estética transcendental é a ciência de todos os princípios. É a priori, e diz respeito à capacidade de adquirirmos conhecimento de acordo com a sensibilidade. É apenas através da sensibilidade que podemos ter uma intuição do objetos de estudo. Entenda a intuição como a capacidade de encontrar indícios que levem a alguma correlação, generalização, a algum conhecimento sintético. Conforme afirma Kant:

Todo pensamento deve em última análise, seja direta ou indiretamente, mediante certos caracteres, referir-se às intuições, e, conseguintemente, à sensibilidade, porque de outro modo nenhum objeto nos pode ser dado.

Entremos agora no conceito de lógica transcendental. Quando falamos da lógica geral, abstraímos a matéria do conhecimento intelectual e toda a diversidade de seus objetos, e só nos ocupamos com a forma do pensamento. Como Lógica pura, não tem nenhum princípio empírico e, por conseguinte, não empresta nada da Psicologia, que não exerce influência alguma sobre o cânon do entendimento. É uma doutrina demonstrada, e tudo deve ser nela amplamente “a priori”. Uma Lógica geral é aplicada, quando se ocupa das regras do uso do entendimento, sob as condições empíricas e subjetivas que nos ensina a psicologia. Esta Lógica tem também princípios empíricos, ainda que seja geral enquanto trata da aplicação do entendimento sem distinção de objetos [2]. Para Kant, é preciso fazer a passagem da lógica geral, para a transcendental. A Lógica transcendental está mais relacionado ao entendimento e à organização do pensamento. Esta Lógica investigaria também a origem do nosso conhecimento de objetos, enquanto tal origem não possa ser atribuída aos objetos; a Lógica geral, pelo contrário, não se ocupa com essa origem do conhecimento, e só se limita a examinar as nossas representações sob o ponto de vista das leis com que o entendimento a emprega e reúne entre si, quando pensa. A lógica transcendental isola o entendimento (assim como a estética transcendental isola a sensibilidade). Esse entendimento é formado a partir da intuição, que é determinada a priori pelas formas da sensibilidade que são o espaço e o tempo.

Como máquinas aprendem

O aprendizado de máquina (machine learning) é um ramo da inteligência artificial onde um sistema é capaz de analisar uma grande quantidade de dados, além de usar uma variedade de algoritmos para encontrar padrões no banco de dados. Com base nesses padrões, são gerados modelos (não explicitamente programados por humanos) que conseguem fazer predições. Modelos gerados por algoritmos de machine learning são científicos, pois precisam representar da maneira mais realista o objeto em estudo, satisfazendo princípios como parcimônia, generalização e capacidade de predição.

Já discutimos que modelos científicos são “fundamentalmente errados”. Todos os modelos de machine learning usa esse princípio para otimizar (minimizar) o gap entre a previsão e o valor real. Nenhum algoritmo de machine learning cria um modelo 100% acurado. Tais modelos são construções “artificiais” que captura um aspecto do objeto que nos interessa e que geram predições que são úteis na tomada de decisões.

Mas como tais algoritmos aprendem? Pelo que vimos a respeito das teorias do conhecimento, podemos dizer que tais modelos são empiristas, já que tentam induzir um modelo a partir de observações nos dados históricos. Mas a construção de tais modelos é racionalista, um conhecimento sintético a priori, já que são aplicados métodos dedutivos para criar algoritmos empiristas. Como humanos deduzem tais algoritmos? A partir da sensibilidade e intuição, podemos buscar analogias nas criações da natureza, como o cérebro ou a evolução, ou na forma como descrevemos o mundo, a partir de símbolos, ou na maneira em que atualizamos nossas crenças a partir de nossas observações, etc. No livro de Paulo Domingos, “O Algoritmo Mestre” [3], são classificados cinco tribos de algoritmos de machine learning:

1) Conexionistas: É baseada na simulação de componentes do cérebro e tem como principal algoritmo as redes neurais. Surgiu em 1943, quando McCulloch e Pitts cria o conceito de Percéptron, um neurônio artificial de uma camada. As redes neurais artificiais (ANNs) são compostas por camadas de nós, contendo uma camada de entrada, uma ou mais camadas ocultas e uma camada de saída. Cada nó, ou neurônio artificial, se conecta a outro e tem um peso e limite associados. Se a saída de qualquer nó individual estiver acima do valor limite especificado, esse nó será ativado, enviando dados para a próxima camada da rede. A rede neural aprende ajustando os pesos de conexão dos nós de maneira a minimizar a função de perda (a diferença entre o valor real e previsto), usando uma técnica conhecida como backpropagation, onde os pesos da camada de saída são retro propagados usando a regra da cadeia do cálculo diferencial.

2) Simbolistas: A abordagem baseia-se na suposição de que muitos aspectos da inteligência podem ser alcançados pela manipulação de símbolos, uma suposição definida como a “hipótese dos sistemas de símbolos físicos” por Allen Newell e Herbert Simon em meados dos anos 1960. Os algoritmos de Machine Learning simbólicos são focados no desenvolvimento de sistema de manipulação simbólica e em processos cognitivos. Ou seja, buscam simular a forma com que o ser humano pensa para resolver um determinado problema mas, para isso, é necessário que se entre com as informações sobre o mesmo para que então o algoritmo desenvolva uma forma de resolvê-lo. Um exemplo de algoritmo simbolista é a indução de árvores de decisão, que criam regras automáticas que categorizam as instâncias baseados em suas variáveis. Cada nó na árvore de decisão é uma variável a ser dividida em subnós, e essa estrutura é criada de maneira otimizada de maneira a minimizar a entropia nos nós da folha (leaf nodes) da árvore.

3) Analogistas; aprendem fazendo extrapolações a partir de julgamentos de semelhança nos dados. Os mais conhecidos são os algoritmos KNN e SVM. O KNN é bem simples: Para classificar uma instância X primeiro você encontra os k pontos mais próximo de X e, a seguir, classifica os pontos pela maioria dos votos de seus k vizinhos. Cada objeto vota em sua classe e a classe com mais votos é considerada a previsão. Para encontrar os pontos semelhantes mais próximos, você encontra a distância entre os pontos usando medidas de distância como distância euclidiana, distância de Hamming, distância de Manhattan e distância de Minkowski.

O SVM usam máquinas de vetores de suporte para encontrar a melhor maneira de separar os dados. É usado técnicas de otimização matemática para encontrar a encontrar a equação que define o melhor hiperplano, maximizando as distância dos vetores de suporte (margens do hiperplano).

4) Evolucionários: São algoritmos que abduzem o processo de seleção natural de Darwin e um típico algoritmo funciona seguindo as seguintes etapas:

Initial Population – É inicializado aleatoriamente um conjunto de indivíduos que formará nossa população. No nosso caso, os indivíduos são os modelos com parâmetros escolhidos aleatoriamente;
Fitness – Devemos testar essa população em um ambiente hostil. Somente alguns indivíduos vão sobreviver. Você pode criar um ambiente hostil simplesmente estabelecendo um mínimo para o score do modelo;
Crossover e Mutation – Define os critérios para a próxima geração. Na etapa de crossover, os genes (hiperparâmetros) dos pais serão recombinados, para produzir filhos, cada filho herdando alguns genes de cada pai. Para manter a diversidade, adicionamos um pouco de mutação nos filhos;
Offspring – A próxima geração conterá os pais sobreviventes e os filhos, mantemos os pais sobreviventes para manter os melhores genes, caso o valor dos genes do filho seja pior que os pais. O processo é repetido até que os indivíduos da última geração sejam os mais bem evoluídos.

5) Bayesianos: Tem como principal motivador o famoso teorema de bayes. O pensamento Bayesiano fornece uma abordagem probabilística para a aprendizagem e está baseado na suposição de que as quantidades de interesse são reguladas por distribuições de probabilidades. Para um algoritmo bayesiano, “aprender” significa atualizar as chances a priori de um evento baseado em novas evidências a posteriori. Por exemplo, usando o teorema de Bayes, podemos encontrar a probabilidade de A acontecer, dado que B ocorreu. Aqui, B é a evidência a posteriori e A é a hipótese a priori. A suposição feita aqui é que os preditores / recursos são independentes. Ou seja, a presença de um determinado recurso não afeta o outro. Por isso que tal algoritmo é chamado de ingênuo (naive bayes).

Assim, o machine learning pode ser considerado uma implementação por humanos de técnicas em máquinas para adquirir conhecimento a partir de observações a posteriori. A origem do sucesso do aprendizado de máquina depende de sua capacidade de derivar relações entre fenômenos e potencialmente descobrir o estado oculto (latente) de um sistema (indução), ou seja, potencialmente fornecer um conhecimento verdadeiro intrínseco do sistema. A identificação do sistema e o design baseado no modelo com o auxílio do aprendizado de máquina constituem um primeiro passo para encontrar padrões de um sistema por meio de uma abordagem mista de aprendizagem a priori – a posteriori, que, retrospectivamente, segue a filosofia de Kant.

Para finalizar, cabe uma última questão. Poderá existir um algoritmo de machine learning que poderá pensar como nós? A reposta iria depender da capacidade de máquinas em poder ter uma estética e lógica transcendental, que a permitam extrair conhecimento a partir da sensibilidade com os objetos ao seu redor iue organizar seus pensamentos com o objetivo de gerar novas deduções lógicas capazes de ampliar o conhecimento científico. O principal problema é o paradoxo que surge ao criar tal máquina. Como faríamos para uma máquina procurar princípios a partir da sensibilidade e intuição do mundo, sem que precisássemos explicitamente introduzir esses princípios em suas mentes?

[1] Silva, M. R. D. (1998). Realismo e anti-realismo na ciência: aspectos introdutórios de uma discussão sobre a natureza das teorias. Ciência & Educação (Bauru), 5(1), 07-13.

[2] Kant, I. (2020). Crítica da razão pura. EDIPRO.

[3] Domingos, P. (2017). O algoritmo mestre: como a busca pelo algoritmo de machine learning definitivo recriará nosso mundo. Novatec Editora.

O post O que são modelos científicos e como eles funcionam apareceu primeiro em Estatidados.

Do scrap ao deploy com Shiny

admin — Fri, 24 Sep 2021 10:51:52 +0000

Mostrando as empresas por trás dos tickers da bolsa e prevendo seu fechamento de maneira direta

A partir do momento que você precisa deixar uma análise, modelo ou mesmo um resultado disponível para as pessoas da sua equipe em qualquer momento, é hora de lidar com o que chamamos de deploy de produtos de dados.

O termo deploy remete a ação de automatizar aquilo que você fez na sua própria máquina, deixando o algoritmo executar periodicamente a rotina programada. Esse código pode ser de uma coleta, limpeza, modelagem, análise ou mesmo todas essas etapas juntas para compor um dashboard, como iremos fazer aqui hoje.

Assim, o problema que iremos resolver aqui é: mostrar de maneira dinâmica as principais características das empresa listadas na bolsa brasileira, a ibovespa, além de aplicar um modelo preditivo para tentar prever o fechamento de cada ticker nos dias seguintes ao acesso da dashboard, de modo que o usuário possa ter uma visão geral daquela empresa e tomar suas decisões de negócio baseada em dados.

Ciclo de vida de desenvolvimento de software — Fonte: Trybe

Assim, pensando no ciclo acima e no problema exposto, seguiremos com os seguintes passos:

Coleta de dados

Vamos entender como, quando e de onde coletaremos os dados. Dessa forma, a partir disso poderemos ver onde existe necessidade de adaptar a forma como usamos a fonte de dados para “plugar” da melhor maneira no nosso dashboard.

Desenvolvimento da aplicação

Construir o painel em Shiny, pensando já que esse painel deverá “se manter sozinho”. Digo isso, pois se estamos acostumados a sempre construir uma análise para ser mantida localmente, criamos alguns hábitos como o uso de variáveis que armazenam os dados para uso linear durante o código, sofrendo mudanças que muitas vezes não podem ser desfeitas durante a compilação, como por exemplo, a limpeza de dados faltantes.

Deploy

Por fim, chegamos ao ponto de publicar no Shiny Apps. Sempre tenha em mente algumas boas práticas nessa etapa, como: verificar se o arquivo do shiny está como app.R, se esse arquivo está em uma pasta própria para o projeto e se os possíveis arquivos utilizados estão dentro dessa pasta.

Coleta de dados

Pensando nos dados que alimentaram nosso painel, teremos duas fontes, sendo elas a API do Yahoo!, a Yahoo Finance, e um scrap da Wikipedia. A escolha dessas fontes têm motivos bem simples:

A API do Yahoo é gratuita, tendo um limite de requests razoável para o nosso objetivo e a latência de atualização é viável, pensando que iremos querer somente fechamento dos tickers e não sua cotação em tempo real.
A Wikipedia em sua natureza possui um bom padrão de publicação, de modo que uma rotina de webscraping consegue facilmente consumir seus dados.

Veja que o primeiro parágrafo de uma página de empresa conta com uma introdução simples e direta da mesma.

Além disso, o site disponibiliza um card que pode ser transformado em um “cartão de apresentação” da empresa em forma de tabela.

Por fim, a própria Wikipedia disponibiliza também uma tabela com as principais empresas listadas na bolsa de valores, implantando em cada um dos nomes o link que guia para sua página na enciclopédia digital, de modo que possamos usar essa lista para construir a escolha do usuário de qual empresa ele gostaria de ver em sua tela, guiando qual “vertente” da Wikipedia devemos puxar os dados.

Desenvolvimento e deploy da aplicação

Dado que o Shiny possui um server gratuito disponível para deploy, isto é, podemos deixar nosso painel disponível para quem queira acessar (podendo até implementar uma página de autenticação, se necessário), iremos programar o dashboard em R e publicar no shinyapps.io.

É legal ressaltar que além do shinyapps, outra alternativa muito interessante para quem programa em python e deseja colocar seus dashboards em produção é o Streamlit , pelo qual podemos vincular um código no github para virar um painel.

Agora que já sabemos de todos os passos a serem seguidos, é hora de por a mão na massa!

library(tidyr)
library(dplyr)
library(rvest)
library(dygraphs)
library(BatchGetSymbols)
library(shiny)
library(forecast)# tabela de acoes
wiki1 <- "https://pt.wikipedia.org/wiki/Lista_de_companhias_citadas_no_Ibovespa"
doc1 <- read_html(wiki1) 
doc1 %>% 
    html_nodes(xpath = '//*[@id="mw-content-text"]/div/table[1]') %>%
    html_table() -> tabela_b3 
tabela_acoes <- as.data.frame(tabela_b3)

Importando as bibliotecas que serão utilizadas, podemos ver alguns nomes comuns para os mais familiarizados com R, como tidyr, dplyr, rvest e shiny. Quanto as outras bibliotecas, temos a seguinte composição:

Dygraphs: biblioteca que entrega gráficos interativos de “candle”, famosos no mundo da renda variável.
BatchGetSymbols: API do Yahoo! Finance
Forecast: algoritmos de manipulação e modelagem de séries temporais

Dito isso, começamos com o scrap de dados da Wikipedia, e para esse tarefa iremos iniciar com a coleta dos dados da tabela de tickers. Nesse momento, a ideia é que apontemos a página, por meio de uma URL, a qual iremos escolher o componente HTML que queremos coletar, e por fim, passamos o dado coletado para um dataframe.

links = doc1 %>% html_nodes(xpath = "//td/a") %>% 
    html_attr("href")
links = data.frame(links)
links = links %>% filter(!grepl("/wiki/Ficheiro",links) &  !grepl("http://www.taesa.com.br/",links))

Visto que sabemos que os links para cada empresa estão como hiperlinks, passamos novamente um “filtro” no HTML, pegando esses dados e retirando alguns erros de processamento, como duplicação ou termos que não gostaríamos que aparecesse no dataframe de links.

tabela_acoes = tabela_acoes %>% filter(`Código` != "BBDC3" & `Código` !="PETR3" & `Código` !="BRML3" & `Código` != "CCRO3" & `Código` != "ELET3")
acesso = cbind(tabela_acoes,links)
acesso = acesso %>% select(`Código`,links)

Por fim, retiramos alguns casos onde a tabela está mesclada, de modo que o join entre os links de cada empresa no Wikipedia e o ticker permaneçam na mesma ordem. Unimos os dados em um único dataframe e fechamos a etapa de coleta.

ui <- fluidPage(
    theme = shinythemes::shinytheme("united"),titlePanel("Conhecendo a B3"),sidebarLayout(
        sidebarPanel(
            h3("Escolha uma ação"),
            selectInput("escolha_acao", "Ação:", 
                        choices = acesso$Código)
        ),
        mainPanel(
            textOutput("nome_empresa"),
            tags$hr(style="border-color: white;"),tags$hr(style="border-color: white;"),
            textOutput("primeiro_paragrafo"),
            tags$hr(style="border-color: white;"),tags$hr(style="border-color: white;"),
            DT::dataTableOutput("card_wiki"),
            tags$hr(style="border-color: white;"),tags$hr(style="border-color: white;"),
            h3("Cotação Histórica da empresa"),
            dygraphOutput("candle"),
            tags$hr(style="border-color: white;"),tags$hr(style="border-color: white;"),
            h3("Previsão para os próximos dias (fechamento)"),
            tags$hr(style="border-color: white;"),
            DT::dataTableOutput("prev"),
        )
    )
)

Partindo para a construção da interface, codificamos um painel simples de seleção do ticker com SidebarPanel, alinhado a dois componentes de texto dinâmicos (título e primeiro parágrafo), uma tabela dinâmica, um gráfico candle e uma outra tabela para soltar a previsão do ticker.

server <- function(input, output) {
    
    output$card_wiki = DT::renderDataTable({
        
        acesso = acesso %>% filter(`Código`== input$escolha_acao)
        
        wiki1 <- paste0("https://pt.wikipedia.org/",acesso$links[1])
        doc1 <- read_html(wiki1) 
        doc1 %>% 
            html_nodes(xpath = '//*[@id="mw-content-text"]/div/table[1]') %>%
            html_table() -> tabela_carac_acao 
        tabela_carac_acao  <- as.data.frame(tabela_carac_acao)
        tabela_carac_acao <- tabela_carac_acao[-1,]
        
        DT::datatable(
            tabela_carac_acao , options = list(paging = FALSE,searching = FALSE))
    })
    
    output$primeiro_paragrafo <- renderText({acesso = acesso %>% filter(`Código`== input$escolha_acao)
        
        wiki2 <- paste0("https://pt.wikipedia.org/",acesso$links[1])
        doc2 <- read_html(wiki2) 
        doc2 %>% 
            html_nodes(xpath = '//*[@id="mw-content-text"]/div/p[1]') %>%
            html_text() -> primeiro_par
        primeiro_par
    })
    
    output$nome_empresa <- renderText({
        
        acesso = acesso %>% filter(`Código`== input$escolha_acao)
        
        wiki2 <- paste0("https://pt.wikipedia.org/",acesso$links[1])
        doc2 <- read_html(wiki2) 
        doc2 %>% 
            html_nodes(xpath = '//*[@id="firstHeading"]') %>%
            html_text() -> nome_empresa
        nome_empresa
    })
    
    output$candle <- renderDygraph({
        
        acesso = acesso %>% filter(`Código`== input$escolha_acao)
        
        inicio <- "2018-01-01" 
        final <- Sys.Date()
        bench.ticker <- "^BVSP"
        saida <- BatchGetSymbols(tickers = paste0(acesso$Código,".SA"), first.date = inicio, last.date = final, 
                                 bench.ticker = bench.ticker)
        saida <- as.data.frame(saida$df.tickers)
        
        row.names(saida) <- saida$ref.date
        m <- saida %>% dplyr::select(-ref.date,-price.adjusted,-volume,-ticker,-ret.adjusted.prices,-ret.closing.prices)
        colnames(m) <- c("Open","High","Low","Close")
        
        dygraph(m) %>%
            dyCandlestick()
        
    })
    
    output$prev = DT::renderDataTable({
        
        acesso = acesso %>% filter(`Código`== input$escolha_acao)
        
        inicio <- "2018-01-01" 
        final <- Sys.Date()
        bench.ticker <- "^BVSP"
        saida <- BatchGetSymbols(tickers = paste0(acesso$Código,".SA"), first.date = inicio, last.date = final, 
                                 bench.ticker = bench.ticker)
        saida <- as.data.frame(saida$df.tickers)
        
        row.names(saida) <- saida$ref.date
        d <- saida %>% dplyr::select(-ref.date,-price.adjusted,-volume,-ticker,-ret.adjusted.prices,-ret.closing.prices)
        colnames(d) <- c("Open","High","Low","Close")
        
        tabela = as.data.frame(forecast(nnetar(ts(d$Close,start = c(2018), frequency = 365)),h=4))
        tabela = format(round(tabela, 2))
        rownames(tabela) <- c(Sys.Date()+1,Sys.Date()+2,Sys.Date()+3,Sys.Date()+4)
        
        DT::datatable(tabela, options = list(paging = FALSE,searching = FALSE))
    })}

Passando para a codificação do “backend”, iniciamos a construção do server. O nome da empresa, primeiro parágrafo e tabela da Wikipedia são configurados para terem a dinâmica de usar o que o usuário escolheu, juntando com o link da Wikipedia e fazendo uma varredura na página da empresa.

Para o gráfico candle e a previsão, usamos a escolha do usuário para fazer um request na API do Yahoo! em dados de 2018 em diante, de modo que seja possível plotar e realizar uma previsão através de uma Rede Neural Feed-forward para os próximos 4 dias.

Concluindo nosso trabalho, é só publicar no Shinyapps!

O resultado pode ser visto em https://matheusduzzi.shinyapps.io/wiki/

O post Do scrap ao deploy com Shiny apareceu primeiro em Estatidados.

Otimizando carteiras de investimentos com Data Science

admin — Fri, 24 Sep 2021 10:04:42 +0000

As decisões financeiras na prática não são tomadas em ambiente de total certeza com relação a seus resultados. Por essas decisões estarem fundamentalmente voltadas para o futuro, é imprescindível que se introduza a variável incerteza (risco) como um dos mais significativos aspectos do estudo das finanças corporativas. Saber mensurar corretamente o risco e retorno de um negócio, ou seja, saber exatamente com o que está lidando, é uma das principais habilidades que um empreendedor ou um gestor de fundos precisa ter para obter sucesso.

Como então mensuramos o risco? Primeiro precisamos definir uma medida de risco. De maneira geral, medimos o risco pelo quanto de capital precisamos adicionar à nossa posição de risco para termos uma posição aceitável. Por exemplo, suponha que você tenha 1000 reais para investir no mercado de ações e quer ganhar 1 milhão de reais em três anos. O grau de incerteza de obter esse retorno seria ridiculamente alto, (mas teoricamente seria possível, bastando investir no início do dia, na ação que vai dar maior retorno no final dia, e depois trocando para a ação que vai dar maior retorno no final do dia seguinte, sucessivamente) e deveríamos adicionar um capital bastante expressivo nesse investimento para obtermos uma posição aceitável de risco.

Existe várias maneiras de medir um risco de uma carteira de investimentos. Vamos avaliar neste artigo as três mais importantes: Modelo de Markowitz, Valor em Risco (VaR) e Valor em Risco Condicional (CVaR). Mas antes disso, vamos entender o que é ter uma carteira “coerente”. A noção de coerência foi introduzida por Artzner et al e atualmente, é um conceito fundamental relacionado à aceitabilidade de uma medida de risco. A literatura introduz um número de propriedades que são usadas para determinar um medida de risco. As propriedades mais importantes para a medida de risco são

1) Invariância à translação: Se adicionarmos ou subtrairmos uma quantidade certa de nossa carteira, a medida de risco aumenta ou diminui. Matematicamente, se A é o quanto queremos adicionar aos ganhos da carteira X e p a nossa medida de risco, então p(X+A)=p(X)+A. Veja que, se trocarmos instrumentos de renda varável e alocarmos em renda fixa (nessa caso, A é negativo) a carteira diminui o risco no mesmo montante.

2) Subaditividade: Na minha opinião, é a propriedade mais importante ao se avaliar uma medida de risco. Esta medida é intimamente relacionada com o efeito da diversificação do portfólio. A medida do risco total da carteira (conjunto de ativos) é menor ou igual que a medida do risco da soma individual dos ativos da carteira (p(X1)+p(X2)). É o princípio da Teoria Moderno do Portfólio, do grande Markowitz. O VaR falha na subaditivade. Isso significa que, minimizar o VaR não garante que você vá diversificar os investimentos da carteira considerada.

3) Monotonicidade: Se os ganhos na carteira X são menores que os da carteira Y para todos os cenários possíveis, então o risco na carteira X é menor que na carteira Y (Se X1, então p(X1). Claro, num portfólio devidamente otimizado, se você quiser arriscar mais, espera que sua possibilidade de ganho seja maior. Markowitz falha na monotonicidade :(.

4) Homogeneidade Positiva: Ao aumentar o tamanho de cada posição da carteira o risco da carteira aumenta em igual proporção (p(bX)=bp(X)), sendo b uma constante). Isso significa que, se você trocar a moeda de uma carteira, ou dobrar seu investimento em cada ação, seu risco aumentará na mesma proporção. Se você aposta 100 reais num jogo de poker e depois triplica a aposta, seu risco triplica também, pois você pode perder (ou ganhar) três vezes mais do que antes.

Pronto, agora vamos entender essas três medidas de risco que comentei anteriormente.

Markowitz, VaR e CVaR. O que são?

São basicamente medidas de riscos, meios de quantificar o risco do investimento. Minimizar essas medidas significa escolher um conjunto de ativos e juntá-los com uma certa proporção específica, de tal forma que a carteira tenha o menor risco possível para um determinado retorno esperado. Vejamos cada uma delas:

Markowitz

Até a década de 50, os modelos para risco e retorno eram em grande parte subjetivos e variavam de investidor para investidor. A partir do desenvolvimento da moderna teoria do portfólio por pesquisadores como Markowitz, Sharp, Black, Scholes entres outros, foi desenvolvido um arcabouço teórico quantitativo com base na teoria econômica neoclássica. O desenvolvimento da teoria do portfólio em 1952 por Markowitz, revolucionou o estudo das finanças, fato que lhe rendeu o prêmio Nobel de economia em 1990.

O principal aspecto da teoria do portfólio é que o risco individual de um ativo é diferente de seu risco na carteira, tornando a diversificação capaz de minimizar o risco não-sistemático dos ativos em conjunto. Com a minimização, é possível escolher a proporção ideal de cada ativo no portfólio, otimizando a relação retorno/risco da carteira de títulos. A figura abaixo representa bem essa ideia: Para mais de 30 ativos, é possível mitigar praticamente todo o risco não-sistemático da carteira. O resto é risco de mercado, crédito, liquidez ou operacional.

Como exatamente é feita essa diversificação? Suponha duas empresas diretamente concorrentes, A e B, num mercado promissor. Há três possibilidades: A empresa A vence a competição, B vence ou as duas compartilham o mercado. Se você investiu seu dinheiro em uma delas você corre o risco de perder tudo caso a empresa desmorone. Investindo nas duas fará com que você reduza esse risco, pois uma parte certamente vai para a empresa vencedora. E caso as duas percam? Nesse caso, pode ter sido causado por algum fator externo que afetou o mercado, como a pandemia, por exemplo. O modelos de otimização de risco tenta minimizar o risco não-sistemático, via diversificação dos ativos. O risco sistemático não pode ser minimizado.

Como já comentei, essa medida não é coerente, pois não satisfaz a monotonicidade. Outra coisa é que o modelo CAPM (Capital Asset Pricing Models), muito conhecido no mercado financeiro, é uma simplificação da Teoria de Markowitz para tentar reduzir a complexidade computacional do método.

Valor em Risco e Valor em Risco Condicional

Aqui a ideia é entender o risco como o quanto você aceita perder. Muito simples não? Suponha que você vai fazer um investimento de 1000 reais. Seu gerente lhe diz que na carteira X você pode ter um retorno de 300% no ano e que você pode perder no máximo R$ 900 com chance de 5%. O VaR é a perda máxima esperada (não confundir com a perda máxima possível), os R$900,00, e o alfa do VaR é a chance de você perder mais que isso (no exemplo 5%). Minimizar o VaR significa escolher o melhor conjunto de ativos que, com um mesmo retorno, diminua essa perda máxima esperada.

Como já mencionei, o VaR falha na subaditividade. E pior, falha numa propriedade que o pessoal da otimização adora (eu também!), a convexidade. Felizmente, temos uma medida que, além de ser convexa, é coerente. O Valor em risco condicional (CVaR) examina as perdas que excedem o limite do Valor em Risco (VaR). No exemplo que demos da carteira X, isso significa analisar as perdas para 5%, 4%,… de chance e tirar uma média disso. O VaR e o CVaR estão intimamente relacionados e, ao minimizar o CVaR, também levará a uma redução do VaR da carteira. A figura abaixo expressa uma curva normal com as perdas esperadas do Var e CVaR e as probabilidades esperadas.

Resumindo de maneira matemática o que explicamos:

O VaR tenta resumir em um único número, a perda máxima esperada dentro de um certo prazo com um certo grau de confiança estatística

2. O CVaR pode ser definido como a esperança condicional de perdas das carteiras superiores ao VaR:

O problema de otimização

Resolver um problema de otimização é buscar a melhor utilização de recursos e processos (técnico, econômico, social ou político), através de aplicação de modelos matemáticos, visando otimizar a satisfação (utilidade) do usuário. Compreende o problema de alocar recursos escassos para realização de atividades e cita alguns exemplos de técnicas particulares da otimização:

Programação Linear: aplicada em áreas relativas à alocação de pessoal, mistura de materiais, distribuição, transporte, etc.;
Programação Dinâmica: utilizada principalmente para problemas de otimização combinatória, tem aplicações em a áreas como planejamento de despesas de publicidade, distribuição do esforço de vendas e programação de produção;
Teoria das Filas: área que estuda analisar a formação de filas, é aplicada na solução de problemas relativos a congestionamento de tráfego, máquinas de serviços sujeitas à quebra, determinação do nível de uma força de serviço, etc.;
Programação Não Linear: é um modelo matemático onde a função objetivo, as restrições ou ambas, apresentam não linearidade em seus coeficientes.

Na área de investimentos, é utilizado métodos de programação linear ou não-linear para maximizar ou minimizar a função objetivo. Um modelo de otimização para investimentos envolve os seguintes conceitos:

Função objetivo: Representa o principal objetivo do tomador de decisão. No modelo de VaR é dada pela minimização da perda máxima esperada ou maximização do retorno da carteira. É uma função multi-objetivo, então a solução é uma curva, a fronteira eficiente, com a perda mínima para cada retorno.
Restrições: Diz o que é possível ou não fazer e quais são as limitações dos recursos ou atividades que estão associados ao modelo. No modelo em questão, as limitações são: a participação dos ativos precisa ser maior que zero, a soma de as participações deve ser igual a 1, e colocar um retorno mínimo exigido pelo cliente, ou um risco máximo, dependendo do objetivo do investido.
Variáveis de decisão: variáveis que podem ser controladas pelo tomador de decisão. No modelo correspondem à participação ao peso de cada ativo no portfólio.

Vejamos o modelo para o problema de minimização do CVaR. A partir de uma série da manipulações matemáticas, Rockafellar e Uryasev (2000) reescreve o cálculo do CVaR em termos de uma função, dada por

Para o caso de valores discretos, a equação acima pode ser reescrita como:

Dessa maneira, Rockafellar e Uryasev (2000) usa a função F linear para definir a forma para a otimização de uma carteira de ações utilizando o CVaR como medida de risco:

onde n é o tamanho da amostra e w_i a proporção de cada ativo na carteira.

Resultados na Prática

Vamos avaliar o modelo para otimização do VaR e CVaR utilizando 30 ações da bolsa de valores do Brasil. Utilizaremos como histórico o retorno das ações desde o começo da pandemia (para evitar envasamento histórico de análise, já que a pandemia alterou a dinâmica do mercado de ações).

Agora, utilizando a biblioteca de otimização scipy do python, conjuntamente com bibliotecas que fazem interpretações das integrais, traduzimos a função objetivo e as restrições para o código e, usando como técnica de otimização linear o simplex revisado, construímos a fronteira fronteira eficiente para o VaR e CVaR.

Os gráficos abaixo expressam o retorno para cada valor em risco considerado. Devido ao fato da otimização do VaR não ser convexa, a fronteira eficiente da otimização com o VaR tem um comportamento mais “caótico” comparada à otimização com o CVaR, que tem um comportamento mais suave.

O CVaR varia de 10% a 30% com retorno de 6% a 16 % do valor investido. Essa abordagem também levou a uma redução no VaR, uma vez que é um fator envolvido no processo de minimização do CVaR. Vale lembra que o CVaR é uma medida mais conservadora, o que explica um risco maior do CVaR, dado o mesmo retorno, que o VaR.

O gráfico de área abaixo expressa a proporção de ativos na carteira para cada valor em risco considerado.

O resultado final é, para um dado valor em risco, as ações que devo investir e em qual proporção, para o meu portfólio ótimo. Exemplo, caso eu queira assumir um CVar de 20%, o conjunto de ativos que me trariam o melhor retorno seria:

Trans Paulista (TRPL4) – 82%, Suzano Papel (SUZB3) – 13%, Bradespar (BRAP4) – 3%,

Itausa (ITSA4) – 2%.

Backtest

Para validarmos o modelo, é importante fazer uma análise de backtest. O objetivo do backtest é analisar quais seriam os resultados de um carteira ótima criada num período anterior ao atual, verificando a evolução do retorno da carteira desde o instante em que ela foi criada, até o instante atual.

Analisando a evolução do retorno para 5 níveis de risco diferentes, podemos notar o seguinte:

Quanto maior o risco, mais volátil será a carteira;
Em nenhum dos casos a perda ultrapassou a perda máxima esperada. Exemplo, para um CVaR de 20%, o ponto mínimo foi de 4600 (8% de perda);
Para esse caso em particular, o CVaR de 25% acabou perfomando melhor, inclusive gerando um retorno de 6,72% durante o período avaliado (dentro do esperado ao verificar a fronteira eficiente).

Bônus: Minimizando medidas de risco usando a Teoria da Evolução

O que a Teoria da Evolução tem a ver com tudo isso que fizemos? Bom, se você entendeu a matemática da função objetivo, sabe que essas fórmulas do VaR e CVaR são bastante “cabeludas”. Existem algoritmos de otimização específicos para cada um dos problemas (programação linear para o CVaR, programação quadrática para Markowitz e algum método de otimização não-convexa para o VaR), mas não que minimiza os três com o mesmo método. Para minimizar o risco das três carteiras que estudamos, podemos usar um algoritmo genético da inteligência artificial que é baseado na Teoria de Darwin, o Differential Evolution (DE). O DE tem se apresentado como um simples, mas poderoso algoritmo de otimização numérica para busca da solução ótima global, sendo aplicado com sucesso na solução de vários problemas de otimização complexa.

Para otimizar um portfólio utilizando o algoritmo DE, melhoramos iterativamente uma solução candidata de uma população gerada de carteiras, c1,…,c𝑖, 𝑖 = 1,…, n onde cada carteira contém N elementos e representa as variáveis objetivas, ou seja, os retornos históricos dos ativos do portfólio. A DE visa otimizar o trade-off entre risco e retorno, em vez de minimizar o risco de um determinado retorno específico, ou seja, teremos uma avaliação de retorno para diversos riscos possíveis. Isso é o que chamamos de fronteira eficiente da carteira.

A ideia básica do DE é produzir uma nova solução para cada carteira atual, onde a nova solução é uma combinação de quatro soluções atuais na população. Funciona da seguinte maneira:

1) Selecione uma carteira (c0) da população atual, que será nossa carteira-pai. Em seguida, selecione aleatoriamente três carteiras diferentes, usando um deles como uma carteira-base e adicione a diferença ponderada das outras duas para construir uma nova solução,

cm=c1+F*(c2-c3),

onde 𝐹 é um fator de mutação entre 0 e 1 que controla a taxa na qual a população de carteiras evolui. A solução dessa fórmula, cm, será nossa carteira-mutante.

2) Agora, realizamos um cruzamento entre a carteira-pai e a carteira-mutante. Cada elemento na carteira-filha será determinado por uma taxa de crossover (CR – razão de cruzamento) definida pelo usuário, onde 𝐶𝑅 está entre 0 e 1, e um número gerado pseudo-aleatório ε. O cruzamento controla a fração de valores de parâmetros copiados da carteira-mutante, de modo que, se o número gerado for menor que a razão de cruzamento, a carteira-filho herdará o elemento 𝑗 da carteira-pai. Da mesma forma, se o número gerado for maior ou igual à razão de cruzamento, a carteira-filho herdará o elemento 𝑗 da carteira-mutante. A figura abaixo dá a visualização gráfico disso:

3) Há ainda algumas medidas para evitar que os ativos saiam do espaço viável de soluções, pois não podemos ter carteiras com ativos que, somados, dão pesos maiores que 100%. Para resolver isso, lembre-se de normalizar todas as carteiras de sua população.

Hora da prática

Apresentamos aqui a escolha de parâmetros para o algoritmo DE e comparamos seus resultados com outras técnicas de otimização. Consideramos uma carteira composta apenas por ações e assumimos que os retornos diários dos registros são normalmente distribuídos. Com relação aos dados, vamos utilizar 25 ações da BM&Fbovespa, usando cotações históricas diárias de 5 anos. Além disso, vamos assumir que há 252 dias de negociação por ano e, assim, escalaremos os retornos proporcionalmente ao tempo. Para a programação dos algoritmos, eu utilizei o software Matlab.

Primeiro veremos a medida de Markowitz. Para o caso da volatilidade, na figura abaixo fizemos uma comparação entre o método de otimização quadrática e a evolução diferencial, com parâmetros N = 25, F = 0,5, CR = 0,7 e ε = 1%. A fronteira da carteira indica o quanto de risco você você assume para cada retorno esperado. Podemos ver que o retorno esperado ideal sobre o investimento varia de 16% a 35%, e a volatilidade de 13% a 22%, ou seja, a tendência de movimento da carteira. Além disso, ao analisar os retornos e riscos dos ativos individualmente, vemos que a diversificação representa um risco menor e, ao mesmo tempo, produz um retorno maior, onde cada portfólio ideal fica ao longo da fronteira eficiente.

Para mostrar que o DE pode lidar com qualquer medida de risco, usamos a abordagem de R. T Rockafellar e S. Uryasev para minimizar o CVaR comparando as soluções do algoritmo DE com o de programação linear. Usamos aqui a mesma suposição do último caso e aproximamos os retornos. Em seguida, vamos otimizar o CVaR usando os mesmos parâmetros de antes. Esses valores foram escolhidos pois são que oferecem melhor acurácia em um tempo admissível (Dependendo dos parâmetros que você escolhe, pode ficar até dias esperando sua carteira “evoluir”). Temos então a seguinte fronteira:

O CVaR varia de 30 % a 100 % do valor investido, que é a proporção média de um capital de investidores que será perdido para o nível de probabilidade de perda de 5%. Essa abordagem também levou a uma redução no VaR, uma vez que é um fator envolvido no processo de minimização do CVaR. Para o VaR, na figura abaixo, vemos que o valor varia de 22% a 70%. De qualquer forma, vemos que o DE está na fronteira eficiente e podemos confirmar que as soluções são as mesmas para os métodos específicos de cada método, investigando novamente a distribuição do peso do portfólio.

Percebeu que a fronteira do VaR é um pouco “deformada”? Isso é justamente devido ao fato de não termos aqui aquela propriedade da convexidade envolvida.

Bom, agora vamos para o que importa. Quais os ativos e quanto investir em cada um para formar uma carteira eficiente evoluída? vEis os resultados de acordo com Markowitz e o CVaR:

Nesses gráficos, para cada Volatilidade (Risco) e CVaR, temos uma proporção de ativos diferentes. Por exemplo, para termos um CVaR de 65%, temos que investir 27% na ITUB4 28% na EMBR3 e 45% na B3SA3.

Concluindo, mostramos como fazer uma carteira eficiente e também verificamos que a Evolução Diferencial é um algoritmo de busca robusto que pode ser aplicado ao problema do minimização de uma carteira. Com relação ao tempo médio de execução do algoritmo, outras estratégias no processo de mutação poderiam ser úteis no processo de obtenção de um tempo mais rápido.

#cienciadedados #pesquisaoperacional #financas

O post Otimizando carteiras de investimentos com Data Science apareceu primeiro em Estatidados.

Using RSelenium for task automation and web scraping

admin — Mon, 12 Jul 2021 16:25:19 +0000

image by unDraw

1. Introduction

This article aims to present the RSelenium package’s basic functionalities and show how it can help you to perform many useful daily tasks automatically in your internet browser. RSelenium also offers a great opportunity to observe object-oriented programming (OOP) fully implemented in R.

In order to use RSelenium, first you need to install it with the install.packages("RSelenium") command. Be carefull to write the first two letter as capital ones. Besides, the Java software needs to be installed in your machine too, or later you will face the following error: error in java_check () : PATH to JAVA not found. A very few functions from the tidyverse will also appear in our code, so install it with install.packages("tidyverse") if you haven’t yet. Also, the package getPass might be useful if we want to send sensitive login information in our code.

In our examples of browser manipulation, we used the version 91.0.4472.77 of Google Chrome in a Windows environment and R version 4.0.5. However, RSelenium can be used with other combinations of internet browser and operational system. Check out the RSelenium official documentation page for more information about these topics.

The following images in this article are all mines, except the few times when the webpages https://quotes.toscrape.com/ and http://httpbin.org/forms/post (two popular sites for webscraping exercises) or their HTML code are reproduced here. I used an R Jupyter Notebook during development but the code can be run in RStudio for sure too. You will find both a Jupyter Notebook and an R script with the complete code on my Github repository.

For people who might be interested in learning Selenium for Python, there is another notebook on the same Github repository with the code translated to this programming language.

2. Importing packages and writing a helper function

Let’s start by importing the libraries to be used in our code.

# Import libraries library("RSelenium") library("tidyverse") library("getPass") # This line makes R show messages in English. # Use "pt" if you want them to be displayed in Portuguese Sys.setenv("LANG" = "en")

I also created a customized function called check_object that will print the class and typeof functions info, which will help us to analyze the new RSelenium objects we will find on our way.

# Customized function to check class() and typeof() at once: check_object <- function(object) { cat("\nclass: ", class(object), "\ntypeof: ", typeof(object), "\n") }

3. First RSelenium objects: rsClientServer and remoteDriver

The next step is to create an RSelenium rsClientServer, which we will save in the computational variable called client_server. The code below will automatically open a new Chrome window and give us more information about the object we have just created.

# Create rsClientServer object with Google Chrome browser. # Change the chromever argument for the Chrome version used in your machine client_server <- RSelenium::rsDriver(browser=c("chrome"), chromever="91.0.4472.101", port=4545L, verbose=F) check_object(client_server)

Note that I passed a specific Chrome version as a string in the chromever argument. So, you will need to adjust it according to your reality. Some arguments in RSelenium::rsDriver() use "latest" as default value, which can cause errors if an installed version from Selenium or the chosen browser is different from the latest available version, even if it is a beta one. I experienced that issue with Chrome while finishing this article and I want you to be prepared if you wind up facing a similar obstacle.

Now it is time to save the RSelenium remoteDriver into the computational variable called driver. This object is by far the most important one in our code. As we will discover later, we will spend most of the time calling methods from the remoteDriver object to manipulate the browser and get the information we need.

# Save the remoteDriver object in the computational variable called "driver" driver <- client_server[["client"]] check_object(driver)

4. Navigate to a new webpage

We will start by telling the remote driver to open the site https://quotes.toscrape.com/. One can do that by calling the navigate() method from the remoteDriver object and using the URL as the method argument:

# Navigate to the page to be scraped url <- "https://quotes.toscrape.com/" driver$navigate(url)

After running this code, the Chrome window controlled by RSelenium will open the chosen site.

Whenever you need your code to return the current webpage URL, you can call driver$getCurrentUrl(). And if you want to work with a maximized browser window, just call driver$maxWindowSize().

# Get the current url driver$getCurrentUrl() # Maximize window driver$maxWindowSize()

Here I would like to make a very important observation: the browser window controlled by RSelenium will close automatically if there is no new activity for a while. If that happens, you will probably have to run the code below in order to free the port you last used in your RSelenium program. I found this line of code on StackOverflow after facing this problem for the first fime and now I use it whenever I run into such an issue.

# This line is very important: run it if your Selenium # remoteDriver crashes and you can't open another one in the same port system("taskkill /im java.exe /f", intern=FALSE, ignore.stdout=FALSE)

5. The driver$findElement() method

The first element to be manipulated will be the login link, located in the webpage upper right corner. We will do that later by calling the driver$findElement() method with its two arguments (using and value).

However, since this method is so important, let’s take a quick look at all options available to the using parameter. Running driver$findElement, without the parentheses, will return information about this method. Please note that only the first lines from the output are reproduced below.

driver$findElement

As we can observe from the last reproduced output, the using parameter accepts one of the following strings:

"xpath" => find the element in the page by using the Xpath query language;
"css selector" => use a selector from the CSS style sheet language to find the element;
"id" | "name" | "class name" => these three options use respectively the id attribute, the name attribute, and the class attribute from the HTML tags to find an element in the webpage;
"link text" | "partial link text" => when you deal with an HTML anchor tag (example: this is the link text), you can find them by searching for either the partial or the complete link text.

6. Working with an RSelenium webElement

So, let’s use the Xpath to find the login link element. One can do that on Chrome by right-clicking on the login link and then choosing the inspect option. This will open the DOM panel and show its HTML code.

Now, in your browser, right-click on the HTML login element (the line highlighted in blue in the image above) and then choose “Copy” and “Copy full Xpath” in the auxiliary menu. Paste the Xpath information into a string and use it inside driver$findElement(), as follow:

# Get the login link element by using xpath login_xpath <- "/html/body/div/div[1]/div[2]/p/a" login_link <- driver$findElement(using = "xpath", value = login_xpath) check_object(login_link)

As one can observe, the method driver$findElement() returns an RSelenium webElement object. When saved in a computational variable like login_link, this webElement can be used to call other methods too, as shown below:

# This method returns the element tag name login_link$getElementTagName() # This method returns the element inner text login_link$getElementText() # This method returns an element attribute (in this case, "href") login_link$getElementAttribute("href")

You can also click on a webElement. In the current example, this will send us to the login page.

# Click on the element login_link$clickElement()

7. Make your code take a little break with Sys.sleep()

We will manipulate this login page later. By now, let’s run the following code so that we can go back to the main page and wait for 2.5 seconds. Then we return to the login page and wait for another 2 seconds:

# Go back to the last page and wait 2.5 seconds driver$goBack() Sys.sleep(2.5) cat("ok")

# Go forward in the browser history and wait 2 seconds driver$goForward() Sys.sleep(2) cat("ok")

When we work with RSelenium, asking the program to wait a couple of seconds before moving to a new page is an excellent strategy. Actually, this additional time before moving on is almost a mandatory strategy in order to avoid errors that can crash the code.

For example, if we go to a new page and ask RSelenium to find an HTML element that has not been loaded yet, we will get a NoSuchElement Error. And if that happens during a long loop and a lot of data has already been scraped, all the effort done by then might get lost. Thus, waiting a few seconds is a more preferable approach. You could also use try() and tryCatch() statements so that your code can be prepared for some of the most common errors before they occur.

8. Write a function to go back to the first page

If we were to click on the Quotes to Scrape link, the browser goes back to the first page. The image below shows this link HTML code:

Let’s find this link now with RSelenium by using the following CSS selector:

# This code uses a css selector to get the link to the main page css_selector <- "div.header-box.row > div.col-md-8 > h1 > a" main_page_link <- driver$findElement("css selector", css_selector) check_object(main_page_link)

In CSS, class attributes are represented by a dot, and id attributes are represented by a hashtag symbol. The css_selector string we reproduced above can be read as follow: “find the first div HTML tag that has both the header-box and row classes, then find a div with the col-md-8 class inside it. Next, find a h1 heading, and then return the first link element inside it”.

We can get some info from this new element and click on it too so that the browser goes to the first page.

# Get the element info main_page_link$getElementTagName() main_page_link$getElementText() main_page_link$getElementAttribute("style") # Click on the link main_page_link$clickElement()

Now we are ready to write our first customized function using RSelenium code, which will be helpful whenever we want to go back to the first page in this website. Note here the phenomenon of method-chaining (a method called right after another method), which is a very common practice when working with OOP. This new function of ours will not return a webElement object, since the last action it performs is to click on the link. So, the function will return NULL because that is the value returned by the clickElement() method.

# This function makes the browser return to the main page return_to_main_page <- function() { css_selector <- "div.header-box.row > div.col-md-8 > h1 > a" driver$findElement("css selector", css_selector)$clickElement() }

9. Gather all links in a webpage with driver$findElements()

Our next action will be to scrape all links in the first page. This can be done by the findElements() method (note the additional letter s in the end). While findElement() (singular) returns the first webElement object in the DOM to match the search criteria, findElements() (plural) returns a list with ALL webElements objects with given criteria. findElements() will also demand the same using and value parameters we talked about earlier. If no webElement is found with the arguments passed to findElements(), an empty list will be returned by it.

If we perform a search using only the tag name, we will find 55 links in the first page.

# The method findElements() returns a list of Web Elements. # This code finds all links in page 1 by using the tag name return_to_main_page() all_links_page_1 <- driver$findElements("tag name", "a") cat(paste("number of links in main page: ", length(all_links_page_1), "\n\n") ) cat("object", quote(all_links_page_1), "\n") check_object(all_links_page_1) cat("\n\nseventh object in", quote(all_links_page_1), "list:\n") check_object(all_links_page_1[[7]])

We can choose to print to the console the inner text and URL from all the link elements in the first page. In order to do that, let’s first create another function.

# The function below, when used in a webElement with the "a" tag name, # returns the link inner text and its url. # Both info are also printed on the console if print_output = TRUE show_links_info <- function(link_element, print_output = TRUE) { text <- as.character(link_element$getElementText()) url <- as.character(link_element$getElementAttribute("href")) if (print_output) { cat(paste0(text, ": "), url, "\n") # line below makes the info be displayed during iteration flush.console() } c(text, url) }

This new function must receive an RSelenium webElement with an HTML tag, since we will look for its inner text and href attibute. So, if the print_output parameter is set to TRUE, the code inside the if statement is executed and the element inner text and URL will be printed to the console gradually, since flush.console() is called there. A vector with text and urlis returned by the function.

The code below with lapply will print all the information from the all_links_page_1 list. The computational variable saved_list allows to access this info in a list of lists too, if necessary. Only part of the output is reproduced below:

# Use lapply to apply the show_links_info function to the list with # all the links in the first page saved_list <- lapply(all_links_page_1, show_links_info)

If we prefer to save the links information into a data frame, that can be done by a for loop, with each iteration calling show_links_info() and appending this info to a new computational variable called links_dataframe.

# The code below saves all links from page 1 in a dataframe links_dataframe <- data.frame() for (i in 1:length(all_links_page_1)) { links_info <- show_links_info(all_links_page_1[[i]], print = FALSE) temp_data_frame <- data.frame(index = nrow(links_dataframe) + 1, text = stringr::str_trim(links_info[1]), url = links_info[2]) links_dataframe <- rbind(links_dataframe, temp_data_frame)

10. Go through all pages in a website

Another very common task we might need to perform is to visit all pages in a website by following a next link, for example. And in each page, we can perform an action, like scraping some information.

Since we cannot be sure of how many pages a site has beforehand, we need code that keeps repeating an action until a condition becomes true and the code stops executing. That is right, this is a perfect scenario to use a repeat loop with a break inside an if statement. At first, this loop of ours will only go through every page and then print the page number to the console.

# This code clicks on the "next" link and moves along the pages. # When the last page is reached and there is no next link, break the loop. return_to_main_page() i <- 1 repeat { cat("\npage ", i) flush.console() i <- i + 1 next_link_as_list <- driver$findElements(using="css selector", "li.next > a") if (length(next_link_as_list) == 0) { break } next_link_as_list[[1]]$clickElement() Sys.sleep(2) } cat("\nwe reached the last page") return_to_main_page() cat("\nback to page 1\n")

Note that the next link is located by using driver$findElements() in line 11. So, this code will return either a list with one webElement or a list with no element at all. This is a nice way of avoiding the NoSuchElement Error that would have been raised in the last page if we had used the driver$findElement() method instead. So, when next_link_as_list has a length of zero, the code will enter the conditional and break the loop, and we will have accomplished our goal of going through all pages in the website.

11. Writing code to open a specific page in the website

After the last code execution, we discovered that the site has only 10 pages with quotes. Besides, all pages from 2 to 10 share the following url pattern: https://quotes.toscrape.com/page/ plus the page number added to its end. This kind of situation is a very desirable one because it allows you to move to new pages by just sending the specific url pattern directly to the driver$navigate() method. So, if you know all the pages range beforehand, this approach will be much easier than finding link elements and clicking on them to change pages.

Let’s now create a function that will send us directly to a chosen page in our website. We will add some boolean conditions in it so that the function can check the argument class and raise an exception if it is a character one. The function will also truncate decimal numbers and raise an error if the number passed to it is not between 1 to 10.

# From the code above, we discovered that there are 10 pages in the website. # The function below goes to a chosen page and it will raise an error # if the argument passed is not an integer number between 1 and 10 go_to_page <- function(page_number=1) { if (is.character(page_number)) { cat("Error: you passed a string as argument.") } if (!is.numeric(page_number) || as.integer(page_number) < 1 || as.integer(page_number) > 10 ) { stop("Provide an integer number between 1 and 10 as argument") } if (page_number %% 1 != 0) { page_number <- trunc(page_number) cat(quote(page_number), "truncated to", page_number) } if (page_number != 1) { base_url_page <- "https://quotes.toscrape.com/page/" driver$navigate(paste(base_url_page, as.character(page_number), sep="")) } else { return_to_main_page() } }

Now, we can go to page 3 and page 7 directly by running this code:

# Go to page 3, wait 2.5 seconds and then go to page 7 go_to_page(3) driver$getCurrentUrl() Sys.sleep(2.5) go_to_page(7) driver$getCurrentUrl()

If we ask to go to page pi by mistake instead of page 3, the function will let us know that it used a truncated version of pi, leading us then to page 3.

# This code truncates 3.14 to 3 and then go to page 3 go_to_page(pi) Sys.sleep(2.5) driver$getCurrentUrl()

And any of the following function calls will return an error:

# The following function calls will return errors go_to_page("page number 3") go_to_page("3") go_to_page("3.1415") go_to_page(25) go_to_page(97.75)

And what if we wanted to retrieve an information from the current URL and save it in a computational variable, like the current page number, for example? The following code will transform the current URL in a string, split it by the / characters and save this info in a list of strings. Then it will get the last element of this list, which will be the page number for any page but the first one.

# The code below will extract the page number from the current url go_to_page(10) my_url <- as.character(driver$getCurrentUrl()) cat(my_url, "\n") split <- base::strsplit(my_url, "/") cat(unlist(split)[length(unlist(split))]) return_to_main_page()

12. Saving the quotes info as strings

Now, it is time for us to tackle the main information in the website: the quotes. Before we can save them all in a nice data frame (R programmers do like saving info in data frames, don’t they?), I will show you a way of accessing all the quotes text information at once. Below we reproduce the HTML structure from one of these quotes (the vertical blue line marks all children tags inside a quote box):

When we use the getElementText() method from a webElement object, we not only access its own inner text but also the inner texts from all its children tags. So, if each quote info is inside a div tag with a quote class, represented in CSS selector by div.quote, we can print all quotes information from page 1 by running the following code (output is only parcially reproduced below):

# This code reproduces all the first ten quotes as a long string. # It shows how you can use the getElementText() method to access the # inner text from all children elements at once. string <- "" quotes_divs_list <- driver$findElements("css selector", "div.quote") string <- unlist(lapply(quotes_divs_list, function(element) { string <- paste(string, as.character(element$getElementText()), "\n\n", sep="") return(string) })) cat(string)

13. Saving the quotes info as a data frame

In our effort to save the quotes information into a data frame, let’s first create the following auxiliary functions:

# Customized functions to be used in the next sapply() and lapply() calls in this code: get_element_text <- function(element) { as.character(element$getElementText()) } get_link_href <- function(element) { as.character(element$getElementAttribute("href")) } click_element <- function(element) { element$clickElement() }

If we run the code below, we can get all quotes info in the first page and save them to computational variables:

# With this code one can get all the info for the quotes in the current page return_to_main_page() quotes_text <- sapply(driver$findElements("css selector", "span.text"), get_element_text) authors_text <- sapply(driver$findElements("css selector", "small.author"), get_element_text) authors_links <- sapply(driver$findElements("partial link text", "(about)"), get_link_href) tags_text <- sapply(driver$findElements("css selector", "div.tags"), get_element_text)

These three functions we created will be used to get the quotes information from each page (like we did for page 1) and save it in vectors that will eventually be appended to the all_quotes data frame. Notice that we will also loop over the pages using the repeat structure we built before, even though we use a while (TRUE) loop here instead.

# Now, we only need to loop over all pages and save the quotes info into a dataframe return_to_main_page() all_quotes <- data.frame() i <- 0 while (TRUE) { quotes_texts <- sapply(driver$findElements("css selector", "span.text"), get_element_text) authors_texts <- sapply(driver$findElements("css selector", "small.author"), get_element_text) authors_links <- sapply(driver$findElements("partial link text", "(about)"), get_link_href) tags_texts <- sapply(driver$findElements("css selector", "div.tags"), get_element_text) page_quotes <- data.frame("sequence" = (i * 10 + 1):(i * 10 +10), "quote" = quotes_texts, "author" = authors_texts, "author_biography_link" = authors_links, "tags" = tags_texts) all_quotes <- rbind(all_quotes, page_quotes) i <- i + 1 cat("\npage", i) flush.console() try(next_link_as_list <- driver$findElements(using="css selector", "li.next > a"), silent = TRUE) if (length(next_link_as_list) == 0) { break } next_link_as_list[[1]]$clickElement() Sys.sleep(2) }

If we want, we can save the all_quotes data frame as a CSV file, check the data frame dimensions and look at its first rows.

# save the all_quots dataframe as a CSV file write.csv(all_quotes, file = "quotes.csv", quote = FALSE, row.names = FALSE, fileEncoding = "UTF-8") cat(paste0("all_quote data frame dimensions: ", nrow(all_quotes), ", ", ncol(all_quotes))) head(all_quotes, 3)

Pretty amazing, right?

14. Saving the authors’ biographical info as a data frame

However, there are still some interesting information in this website waiting to be scraped by us. If you navigate to the first link in the statistical variable all_quotes$author_biography_link, you will find biographical information about Albert Einstein. Every author quoted in the website has a page like that. The good news is that we already gathered all these biographical links, we only need to loop over them and save the scraped information into another data frame called authors_info. The following code accomplishes that task.

# Each author has a biography page. We can get that info too. # This will get all the unique authors biography links unique_links_biographies <- unique(all_quotes$author_biography_link) cat("total of biographical pages:", length(unique_links_biographies)) # Now we can loop over these biography links and save their info in a dataframe authors_info <- data.frame() for (link in unique_links_biographies) { driver$navigate(link) Sys.sleep(3) index <- nrow(authors_info) + 1 name <- driver$findElement("css selector", "h3.author-title")$getElementText() born_date <- driver$findElement("css selector", "span.author-born-date")$getElementText() born_location <- driver$findElement("css selector", "span.author-born-location")$getElementText() description <- driver$findElement("css selector", "div.author-description")$getElementText() cat("\n", index, "of", length(unique_links_biographies)) flush.console() new_row <- data.frame("index" = index, "name" = as.character(name), "born_date" = as.character(born_date), "born_location" = as.character(born_location), "description" = as.character(description)) authors_info <- rbind(authors_info, new_row) } head(authors_info)

After we loop over all the 50 biographical pages, we will have a new nice data frame with all this information and we can saved it in a new CSV file, for example. Notice that this program logic can be reused and applied to many web scraping tasks. Find the data you need, make sure to follow the website robots.txt instructions and be happy!

15. Manipulate text input boxes in the login page

Now it is time for us to start manipulating form elements, which is a very important skill to add to our task automation kit. Let’s go back to the login page and save the two text input boxes into computational variables.

# Now we go to the login page and play a little with the text input boxes. # Go to the login page login_xpath <- "/html/body/div/div[1]/div[2]/p/a" driver$findElement(using = "xpath", value = login_xpath)$clickElement() # Save the text input boxes elements in variables, using their id (two forms): username_input <- driver$findElement("id", "username") password_input <- driver$findElement("css selector", "#password")

When handling text input HTML elements, two methods are definitely very useful: clearElement() and sendKeysToElement(). It is a good idea to start by calling the former so that any previous content might get cleared before you start sending new information to the text box. As for the second method, it receives a list with a string as its sole element.

# Username and password values # (one can also use base::readline() or getPass::getPass() # to ask for user input) username <- "Fabrício" password <- "1234 is not a secure password!" # When dealing with input boxes, it is good practice to clear their value first username_input$clearElement() # Send the username information (it needs to be passed as a list) username_input$sendKeysToElement(list(username)) # Do the same with password password_input$clearElement() password_input$sendKeysToElement(list(password)) # Once you don't need the username and password variables anymore, delete them rm(username, password)

In order to submit the form and login in the site, we still need to press the login button. We can do that by using the submitElement(), available for some HTML elements that have the ability of submiting information to the website.

# Find the submit button submit_button <- driver$findElement("css selector", "input.btn.btn-primary") # Use the submitElement() method to submit the form information submit_button$submitElement()

After we do that, nothing extraordinary will happen: we will be redirected to the first page and the login text will be changed to Logout. But we did perform some fancy activity: we wrote code to login automatically in a website. If we desire, we could do the same operation in many other sites.

Just be careful about letting important information, like passwords, hard-coded in your program. Don’t make the life of bad people who can steal your personal info too easy, ok? A very good option to avoid such problems is to use the getPass package to send sensitive input data.

16. Working with other types of HTML input tags

Even though they are found on the internet very often, textboxes are not the only HTML input we can manipulate with RSelenium code in our browser. We will move now to a new website (http://httpbin.org/forms/post) and automate the boring task of ordering pizza online. Because eating pizza is a lot of fun but ordering it… well, not that much. We can let our R program to do the ordering for us so that we can focus only on the eating, fun part.

As we can observe, besides three text boxes, this form uses radio buttons for the pizza size, checkboxes for the toppings, and a time input for the delivery time. These four elements are all input HTML tags, but they differ in their type attribute value. And depending on the chosen input type, they can have very specific HTML attributes that are not present in the others ones. We also have a textarea tag used in the delivery instructions, and a submit button to the form.

So, I want a large pizza with bacon, extra cheese and mushrooms to be delivered around 19:45 at my home. I just need to let my code to do the ordering for me.

Below you will find my answer to this challenge. However, before you check it out, see if you can imagine how this code would look like. And to make it more interesting, use a one liner to order the three toppings at once with the help of the base::lapply() and the click_element() functions (this last one was created by us earlier).

Another quick tip: radioboxes and checkboxes can be manipulated using the $clickElement() method.

My code to perform this task goes below:

# This code choose the large option in the radio buttons radio_buttons <- driver$findElements("css selector", 'input[type="radio"]') radio_buttons[[3]]$clickElement() # Choose the first, second and fourth toppings to your pizza checkboxes <- driver$findElements("css selector", 'input[name="topping"]') lapply(checkboxes[-3], click_element) # Set delivery time to 19h45 time <- driver$findElement("css selector", 'input[type="time"]') time$sendKeysToElement(list("19:45")) poetry <- " Two households, both alike in dignity\n (In fair Verona, where we lay our scene),\n From ancient grudge break to new mutiny,\n Where civil blood makes civil hands unclean.\n From forth the fatal loins of these two foes\n A pair of star-crossed lovers take their life;\n Whose misadventured piteous overthrows\n Doth with their death bury their parents’ strife.\n The fearful passage of their death-marked love\n And the continuance of their parents’ rage,\n Which, but their children’s end, naught could remove,\n Is now the two hours’ traffic of our stage;\n The which, if you with patient ears attend,\n What here shall miss, our toil shall strive to mend.\n" # Send aditional information to the textarea input textarea <- driver$findElement("tag name", "textarea") textarea$sendKeysToElement(list(poetry)) # Submit form and go back driver$findElement("css selector", "p > button")$submitElement() Sys.sleep(5) driver$goBack() # Refresh the form page: driver$refresh()

17. Finishing your work with RSelenium

Finally, we can ask RSelenium to close the browser window and shut down the server. We should also release the port we were using.

# When you are done working with selenium, # Quit the browser and end the session driver$quit() driver$closeServer() rm(driver, client_server) # This releases the port. system("taskkill /im java.exe /f", intern=FALSE, ignore.stdout=FALSE)

18. Last words

Now, we could create code to order 20 diferent pizzas, for example, if we desired to make a good surprise for our great work colleages. Then, whenever you want to ask another 20 pizzas (or 15, or 1000!), you just need to hit the run button, and RSelenium makes all the work for you.

That’s the beauty of task automation, and with this tutorial, we only scratched the surface of what RSelenium can do for us. However, the information published here is more than enough to allow you to continue your learning path in this area and create fantastic scripts that will save you and your team a lot of time.

And this saved time can be applied later in other important activities, like spending quality time with family or friends, reading, learning new skills, birdwatching, or simply relaxing. You definitely earned it after writing your automation script!

Good luck and happy automation!

P.S.: You will find more info about my work on LinkedIn, Medium, and Github:

https://www.linkedin.com/in/fabriciobrasil

https://fabriciusbr.medium.com/

https://github.com/fabricius1

Link do post original: https://fabriciusbr.medium.com/using-rselenium-for-task-automation-and-web-scraping-250c4f2f5979

#coletadadedadosdaweb #linguagemR #automacao

O post Using RSelenium for task automation and web scraping apareceu primeiro em Estatidados.

Análise da Violência no Rio de Janeiro

admin — Tue, 29 Jun 2021 15:56:18 +0000

A criminalidade no Brasil tem crescido cada vez mais. Segundo o portal G1, após dois anos de queda, a violência voltou a crescer no país, registrando um aumento de 5% nos assassinatos em 2020, ano marcado pela pandemia da COVID-19. Este crescimento atinge diversas cidades. Um estudo realizado pelo Monitor da Violência, relacionado ao ano de 2020, chegou a conclusão de que os estados com maior número de crimes violentos são Bahia (5.276), Ceará (4.039), Pernambuco (3.759) e Rio de Janeiro (3.653) respectivamente.

Com as leis atuais de acesso à informação e a consciêntização de orgãos públicos, é possível ter acesso aos dados, realizar estudos e entender mais a fundo diversos fenômenos da sociedade, inclusive a criminalidade. Um grande exemplo é o governo do Rio de Janeiro, que traz a iniciativa do portal ISPDados.

Este artigo tem como objetivo realizar um estudo da criminalidade no Rio de Janeiro, por meio da extração e análise de informações estatísticas relevantes acerca da violência na cidade maravilhosa.

Obtenção dos Dados

Os dados foram obtidos diretamente do portal ISPDados, página de Dados Abertos do Instituto de Segurança Pública. No portal, é possível acessar as fontes de dados que contém registros criminais e de atividade policial no Rio de Janeiro.

Segundo o portal, as estatísticas são construídas a partir dos Registros de Ocorrência (RO) lavrados nas delegacias da Secretaria do Estado de Polícia Civil do Rio de Janeiro (SEPOL), além de informações complementares que são fornecidas pela Secretaria do Estado de Polícia Militar do Rio de Janeiro (SEPM). Os registros de ocorrência são submetidos ao controle de qualidade realizado pela Corregedoria Geral da Polícia (CGPOL) da Secretaria de Estado de Polícia Civil e, posteriormente, consolidados pelo ISP. As estatísticas produzidas baseiam-se na data em que foi confeccionado o Registro de Ocorrência.

Análise Inicial e Limpeza dos Dados

Com o objetivo de entender o dataset em estudo, extraí algumas informações a respeito, como dimensões, colunas, tipos de variáveis, etc. Além disso, mostro o extenso dicionário de variáveis e verifico a qualidade dos dados, que já foram previamente pré-processados pelo professor Carlos Melo do Sigmoidal. Você pode conferir com detalhes aqui.

Informações Estatísticas da Violência no Rio de Janeiro

Com o conhecimento do conjunto de dados e ciente de sua qualidade, se faz necessário extrair informações estatísticas da violência no Rio para ajudar no combate a criminalidade. A seguir, começarei as análises a respeito de crimes contra a vida e contra o patrimônio.

Crimes Contra o Patrimônio — Veículos

Crimes contra o patrimônio, tais como estelionato, furto e roubo — principalmente de veículos — são bem frequentes em grandes cidades do Brasil. No conjunto de dados, há variáveis relacionadas há esses tipos de crimes, o que possibilita uma análise e extração de informação relevante para que esses tipos de crimes sejam combatidos.

Qual será a média dos roubos e furtos de veículos?

Observa-se que o Rio de Janeiro é fortemente afetado por furtos e roubos a veículos. Será que as pessoas conseguem recuperar seus veículos? É o que veremos a seguir.

O Rio de Janeiro possui uma média geral de veículos recuperados aproximada de 1772, o que equivale a mais de metade das médias de veículos roubados ou furtados, mas isso não nos diz muita coisa. A seguir, analisaremos o quanto as pessoas conseguem recuperar seus veículos através do cálculo percentual da média de recuperados em relação a soma dos perdidos (furtados + roubados).

Observa-se que apenas 43% dos veículos perdidos são recuperados. Tal dado alerta para a elaboração de políticas públicas por parte dos Governos Estaduais que busquem incentivar as vítimas de crimes contra o patrimônio a buscar a recuperação, mas ao mesmo tempo, também é necessário políticas que ajudem estes cidadãos da melhor forma possível durante o processo de recuperação. Além disso, também é uma alerta para que a segurança pública nas ruas, vias e rodovias seja reforçada.

Crimes Contra a Vida

Os crimes contra a vida (homicídios dolosos, latrocínios e lesões corporais seguidas de morte) são recorrentes no Rio de Janeiro e, como dito anteriormente, o Estado figura na 4ª posição daqueles com maior quantidade de mortes violentas, totalizando 3.653 Crimes Violentos Letais Intencionals (CVLI).

Diante do exposto, uma análise se faz necessária para ajudar no combate a esses tipos de crimes. Sendo assim, verificaremos quais foram os anos com menor e maior número de homicídios dolosos respectivamente.

Pode-se observar que foi o ano de 1995 que teve o maior registro de homicídios dolosos (831) e o ano de 2015 teve o menor registro (272). É possível levantar uma hipótese de que a quantidade de homicídios dolosos caiu com o tempo, o que é um bom sinal. Para isso, vamos utilizar de técnicas de visualização de dados para explorar como essa e outras variáveis se comportam ao longo do tempo.

Visualização de Dados

Gráficos de linhas e histogramas são tipos de visualização poderosos que nos ajudam a entender como as variáveis se comportam. O histograma nos auxilia a entender como estão distribuídas as variáveis e o gráfico de linha no estudo em questão é importantíssimo, pois com ele podemos realizar o estudo do comportamento de diferentes crimes ao longo do tempo, como homicídio doloso, estupro e total de furtos.

Primeiramente, vamos buscar confirmar a hipótese que fizemos anteriormente: as ocorrências de homicídios dolosos caíram com o tempo?

Observando o gráfico ao lado, concluímos que as ocorrências de homicídios dolosos caíram ao longo do tempo, o que é um bom sinal! Entre os anos 2000 e 2010, as ocorrências permaneceram em alta, mas caíram próximo do fim da década. A década seguinte foi marcada por altos e baixos.

Casos de Estupro

A cultura do estupro é uma pauta importantíssima a ser debatida e combatida. Segundo o portal Super Interessante, uma pesquisa divulgada em 2016 mostrou que 86% das brasileiras já receberam algum tipo de cantada, e 44% tiveram seus corpos tocados. Pode não parecer, mas esses dados alertam para o silenciamento da violência sexual e a construção desse tipo de comportamento na nossa sociedade. Confira aqui a matéria completa.

Imagem: Super Interessante

A seguir, repetiremos o mesmo processo anterior para verificar as ocorrências de estupros no Rio de Janeiro ao longo dos anos.

Conforme é possível observar, os casos de estupro apresentaram um recorde no ano de 2012, apresentaram queda nos anos posteriores e vieram em uma crescente desde o ano de 2016. É uma informação importante, pois é necessário que as autoridades repensem novas políticas públicas e reforcem campanhas de incentivo no combate ao estupro, para que a curva diminua nos próximos anos.

Imagem: Brasil de Fato

Não deixe de denunciar! Confira aqui o que fazer nestes casos.

Como anda a segurança das pessoas no Rio?

Com o objetivo de verificar como está a segurança da população no Rio de Janeiro, analisaremos como se comportam as ocorrências de furtos gerais nos anos em estudo. Para isso, existe a variável total_furtos, que representa uma soma de todos os tipos de furtos em estudo (de veículos, trausentes, de celular, coletivo, etc).

Observa-se que os casos de furto no geral tiveram uma crescente desde 1995, apresentando altos valores entre 2010 e meados de 2015. Porém, na metade dos anos 2015–2020, as ocorrências voltaram a subir. É uma alerta de que a segurança pública no Rio de Janeiro não vai bem e é necessário que o Governo Estadual volte suas atenções para este fato.

Casos de Pessoas Desaparecidas

Outro fenômeno a ser estudado é o desaparecimento de pessoas. Segundo o Observatório do Terceiro Setor, isto é um perigo ignorado, pois todos os dias, 217 pessoas desaparecem no Brasil. Dessa forma, faz-se necessário ficar atento as estatísticas relacionadas a este fato. Vejamos a quantidade de pessoas desaparecidas no Rio, por ano, desde a última década.

Será que este número aumentou ou diminuiu durante esta década? É o que verificaremos em seguida: quantas pessoas desapareceram ao longo dos anos.

Observa-se que o número de pessoas desaparecidas cresceu bastante do início da década até 2015, ano em que teve o maior número de casos. Felizmente, este número diminuiu drasticamente na segunda metade da década. Todavia, é necessário se atentar para este fato e elaborar políticas eficientes para que a curva seja achatada de uma vez por todas.

Crimes mais Frequentes

Por fim, verificaremos quais são os tipos de crimes por categoria mais frequentes no Rio de Janeiro dos anos 2000 até os dias de hoje. São eles: crimes contra a vida, tipos de roubo mais frequentes.

Primeiramente, observemos os tipos de crimes contra a vida mais frequentes no Rio.

Lesão corporal dolosa e culposa são os tipos de crimes que mais contribuem para o aumento da criminalidade contra a vida na cidade do Rio de Janeiro, totalizando mais de 1 milhão do tipo doloso e aproximadamente 800 mil do tipo culposo. É necessário pensar urgentemente em soluções para este fato.

Por fim, vamos analisar os tipos de roubos e furtos mais frequentes na cidade do Rio de Janeiro.

Roubo transeunte é o tipo de roubo mais frequente no Rio de Janeiro desde o ano 2000, totalidando mais de um milhão de roubos.

Furto transeunte e furto de celulares são os tipos de furtos mais frequentes na cidade maravilhosa de 2000 pra cá. Os furtos transeuntes chegam a quase meio milhão, ao passo que os furtos de celulares chegam a aproximadamente 290 mil.

Dessa forma, vale reforçar que é necessário que as autoridades se atentem a este fato e trabalhem em políticas que reforcem a segurança dos indivíduos enquanto transitam pela cidade maravilhosa.

Finalmentes

Portanto, pode-se concluir que a análise de dados é importantíssima para um estudo mais assertivo, importante e de relevância pública, que é o caso da criminalidade no Rio de Janeiro. Por meio dela, é possível obter muitas informações valiosas dos dados e auxiliar no combate à violência e criminalidade, alertando para casos preocupantes e propondo possíveis caminhos que levem uma solução para as autoridades e que traga segurança para a população do Rio de Janeiro.

Você pode conferir este projeto com mais detalhes no meu github. Conecte-se comigo também no LinkedIn.

Link do post original: https://andremaarinho.medium.com/an%C3%A1lise-da-viol%C3%AAncia-no-rio-de-janeiro-bdccde3338b7

LinkedIn do André: https://www.linkedin.com/in/andremaarinho/

#analisededados #dadosdeviolencia #violenciariodejaneiro

O post Análise da Violência no Rio de Janeiro apareceu primeiro em Estatidados.

Arquivos Professores colaboradores - Estatidados

Por que a Ciência de Dados é uma Carreira Promissora no Mercado Atual em 2023

O que é Data Science e o que faz um Cientista de Dados

CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)

PUBLISHED ON 4 DE JUN DE 2022 — BIG DATA, MACHINE LEARNING, PROGRAMMING, R, STATISTICS

1. Compreensão do Negócio

2. Compreensão dos Dados

3. Preparação dos Dados

4. Modelagem

5. Avaliação

6. Desenvolvimento

Conclusão

“Post gerado com framework HUGO (http://gohugo.io/), R Markdown (http://rmarkdown.rstudio.com/), no qual os resultados são gerados na geração da página.”

TAGS: BIG DATA, MACHINE LEARNING, PROGRAMMING, R, STATISTICS

COMO A TORCIDA INFLUENCIA NO DESEMPENHO DO TIME DA NHL – PARTE II

ESTATÍSTICAS AVANÇADAS QUE VAMOS UTILIZAR

XG (VALOR ESPERADO DE GOLS)

DSV%

DESEMPENHO DOS TIMES

TEMPORADA 2018-19

TEMPORADA 2019-20

TEMPORADA 2020-21

GOLS FEITOS

GOLS SOFRIDOS

DESEMPENHO DOS JOGADORES

DESEMPENHO DOS GOLEIROS

CONCLUSÃO

COMO A TORCIDA INFLUENCIA NO DESEMPENHO DO TIME DA NHL – PARTE I

QUAL A FREQUÊNCIA DE TORCEDORES POR TEMPORADA?

TEMPORADA 2018-2019 DA NHL

REGULAR

PLAYOFFS

TEMPORADA 2019-2020 DA NHL

REGULAR

TEMPORADA 2020-21 DA NHL

O QUE É A VANTAGEM DE CASA (HOME ADVANTAGE)?

SERÁ QUE NA NHL JOGAR EM CASA TRAZ ALGUMA VANTAGEM AOS TIMES ?

PÓS-TEMPORADA 2018-2019

TEMPORADA REGULAR 2020-2021

O que são modelos científicos e como eles funcionam

O que caracteriza um bom modelo?

Teste de hipóteses: como os modelos são avaliados

Teorias do Aprendizado

Como máquinas aprendem

Do scrap ao deploy com Shiny

Coleta de dados

Desenvolvimento e deploy da aplicação

Otimizando carteiras de investimentos com Data Science

Markowitz, VaR e CVaR. O que são?

O problema de otimização

Resultados na Prática

Bônus: Minimizando medidas de risco usando a Teoria da Evolução

Using RSelenium for task automation and web scraping

1. Introduction

2. Importing packages and writing a helper function

3. First RSelenium objects: rsClientServer and remoteDriver

4. Navigate to a new webpage

5. The driver$findElement() method

6. Working with an RSelenium webElement

7. Make your code take a little break with Sys.sleep()

8. Write a function to go back to the first page

9. Gather all links in a webpage with driver$findElements()

10. Go through all pages in a website

11. Writing code to open a specific page in the website

12. Saving the quotes info as strings

13. Saving the quotes info as a data frame

14. Saving the authors’ biographical info as a data frame

15. Manipulate text input boxes in the login page

16. Working with other types of HTML input tags

17. Finishing your work with RSelenium

18. Last words

Análise da Violência no Rio de Janeiro

Obtenção dos Dados

Análise Inicial e Limpeza dos Dados

Informações Estatísticas da Violência no Rio de Janeiro

Crimes Contra o Patrimônio — Veículos

Crimes Contra a Vida

Visualização de Dados

Casos de Estupro

Como anda a segurança das pessoas no Rio?

5. The `driver$findElement()` method

7. Make your code take a little break with `Sys.sleep()`

9. Gather all links in a webpage with `driver$findElements()`