Arquivos ciencia de dados - Estatidados

Por que a Ciência de Dados é uma Carreira Promissora no Mercado Atual em 2023

Ludmila — Mon, 05 Jun 2023 19:40:26 +0000

Em um mundo cada vez mais orientado por dados, a Ciência de Dados emergiu como uma das carreiras mais promissoras e relevantes da atualidade. Com o avanço da tecnologia e a explosão na geração de dados, profissionais especializados em Ciência de Dados são altamente valorizados pelas empresas de todos os setores. Neste artigo, vamos explorar as razões pelas quais a Ciência de Dados é uma carreira tão promissora no mercado atual em 2023.

Explosão de dados:

Vivemos em uma era em que a quantidade de dados gerados diariamente é imensa. Empresas, governos e indivíduos estão capturando e armazenando uma enorme quantidade de informações. A Ciência de Dados permite extrair valor desses dados, transformando-os em insights valiosos que podem impulsionar o sucesso das organizações.

Tomada de decisão baseada em dados:

A tomada de decisão baseada em dados se tornou uma prática essencial para as empresas. Os dados são utilizados para identificar tendências, prever comportamentos e tomar decisões estratégicas fundamentadas. Profissionais de Ciência de Dados desempenham um papel fundamental nesse processo, fornecendo análises e insights que orientam as decisões de negócio.

Demandas por insights acionáveis:

As empresas estão cada vez mais buscando insights acionáveis que as ajudem a obter vantagem competitiva. Os profissionais de Ciência de Dados são treinados para identificar padrões, tendências e relações ocultas nos dados, fornecendo informações valiosas para melhorar processos, otimizar estratégias de marketing, personalizar experiências de cliente e muito mais.

Automação e Inteligência Artificial (IA):

A automação e a Inteligência Artificial estão transformando a forma como as tarefas são realizadas. A Ciência de Dados desempenha um papel importante nesse cenário, ajudando a desenvolver algoritmos e modelos de Machine Learning que permitem automatizar processos, tomar decisões autônomas e oferecer experiências personalizadas. Profissionais de Ciência de Dados são essenciais para impulsionar a inovação nesse campo.

Setores de alto crescimento:

A demanda por profissionais de Ciência de Dados se estende a uma ampla gama de setores. Áreas como saúde, varejo, finanças, marketing e tecnologia estão investindo pesadamente em análise de dados para impulsionar o crescimento e a eficiência. Esses setores oferecem diversas oportunidades de carreira para os especialistas em Ciência de Dados.

Escassez de talentos:

Apesar da alta demanda, há uma escassez de profissionais qualificados em Ciência de Dados. As habilidades necessárias, como programação, estatística, conhecimento em Machine Learning e domínio do negócio, são altamente valorizadas e difíceis de encontrar. Isso coloca os profissionais de Ciência de Dados em uma posição privilegiada, com uma maior oferta de oportunidades e salários competitivos.

Remuneração atrativa:

A natureza especializada e a demanda crescente por profissionais de Ciência de Dados resultam em uma remuneração atrativa. Devido à escassez de talentos, empresas estão dispostas a oferecer salários e pacotes de benefícios generosos para atrair e reter talentos nessa área. Além disso, existem oportunidades de trabalho remoto e flexibilidade, o que aumenta ainda mais o apelo dessa carreira.

Evolução contínua e aprendizado constante:

A Ciência de Dados é uma área em constante evolução. Novas técnicas, algoritmos e ferramentas estão sendo desenvolvidos regularmente. Isso significa que os profissionais de Ciência de Dados têm a oportunidade de continuar aprendendo e se atualizando ao longo de suas carreiras. A constante necessidade de adquirir novos conhecimentos mantém a carreira estimulante e desafiadora.

Impacto na sociedade e no mundo:

A Ciência de Dados tem um impacto significativo na sociedade e no mundo como um todo. Através da análise de dados, é possível identificar problemas, encontrar soluções inovadoras e impulsionar o progresso em diversas áreas, como saúde, sustentabilidade, transporte e muito mais. Os profissionais de Ciência de Dados têm a oportunidade de trabalhar em projetos que fazem a diferença e contribuem para um futuro melhor.

Crescimento profissional e oportunidades de liderança:

A demanda por profissionais de Ciência de Dados está em constante crescimento, o que significa que há amplas oportunidades de crescimento profissional e progressão na carreira. À medida que os profissionais adquirem experiência e habilidades avançadas, eles podem assumir cargos de liderança, como cientista de dados sênior, líder de equipe ou diretor de análise de dados. Isso proporciona um caminho claro de desenvolvimento profissional e reconhecimento no campo da Ciência de Dados.

Conclusão:

A Ciência de Dados continua sendo uma carreira promissora no mercado atual em 2023. Com a explosão de dados, a demanda por insights acionáveis e a necessidade de automação e IA, os profissionais de Ciência de Dados estão na vanguarda da transformação digital. Com remuneração atrativa, escassez de talentos e oportunidades de crescimento, essa área oferece um futuro promissor para aqueles que desejam se especializar em dados e aproveitar as oportunidades de carreira emocionantes que ela oferece.

Se você está procurando uma carreira dinâmica, desafiadora e com um impacto significativo, a Ciência de Dados pode ser a escolha certa para você. Esteja preparado para se dedicar ao aprendizado contínuo e aprimorar suas habilidades técnicas e analíticas. Com uma abordagem orientada por dados e uma compreensão profunda das técnicas estatísticas e de Machine Learning, você estará pronto para enfrentar os desafios e se destacar nessa carreira em constante evolução.

Aproveite as oportunidades disponíveis, busque cursos e certificações relevantes, participe de comunidades e eventos da área e esteja sempre atualizado com as últimas tendências e tecnologias. A Ciência de Dados oferece um vasto campo de possibilidades e uma carreira recompensadora, permitindo que você faça parte da revolução dos dados e contribua para moldar o futuro com base em insights sólidos e análises significativas.

Conheça duas de nossas formações que vão te proporcionar os conhecimentos mencionados no artigo:

Formação em Análise de dados – AD – CECD:

Formação em Análise de dados – AD – CECD

Formação em Estatística – FE – CECD:

Formação em Estatística – FE

Nossos cursos ao vivo:
https://comunidadedeestatistica.com.br/category/ao-vivo/

O post Por que a Ciência de Dados é uma Carreira Promissora no Mercado Atual em 2023 apareceu primeiro em Estatidados.

Os Fundamentos da Ciência de Dados: Uma Visão Geral para Iniciantes – Foco em Estatística

Ludmila — Mon, 05 Jun 2023 19:11:11 +0000

A Ciência de Dados é uma área em crescimento que tem transformado a maneira como as empresas tomam decisões e extraem valor dos dados. Como iniciante interessado nesse campo, é essencial compreender os fundamentos que sustentam a prática da Ciência de Dados. Neste artigo, vamos explorar os conceitos básicos da estatística e sua importância na análise de dados. Vamos mergulhar nos princípios da estatística e como eles são aplicados na Ciência de Dados.

O que é estatística?

A estatística é uma disciplina que envolve a coleta, organização, análise e interpretação de dados. Ela oferece uma maneira sistemática de extrair informações úteis e tomar decisões baseadas em evidências. Na Ciência de Dados, a estatística desempenha um papel crucial na compreensão dos dados e na inferência de conclusões confiáveis.

Coleta e organização de dados:

A primeira etapa na análise estatística é a coleta e organização dos dados relevantes. Isso pode envolver a realização de pesquisas, a extração de dados de fontes públicas ou o acesso a bases de dados internas de uma empresa. É importante garantir que os dados sejam representativos e de alta qualidade para evitar distorções nos resultados.

Tipos de dados:

Existem dois tipos principais de dados na estatística: dados numéricos e dados categóricos. Os dados numéricos são expressos em números e podem ser contínuos (como a altura de uma pessoa) ou discretos (como o número de produtos vendidos). Já os dados categóricos são classificados em categorias ou grupos, como a cor de um carro ou a preferência de um usuário.

Medidas descritivas:

As medidas descritivas são utilizadas para resumir e descrever os dados. Elas incluem medidas de tendência central, como a média, mediana e moda, que fornecem uma ideia da localização dos dados. Além disso, as medidas de dispersão, como o desvio padrão e a amplitude, indicam o quão espalhados estão os dados ao redor da tendência central.

Distribuições de probabilidade:

As distribuições de probabilidade descrevem a forma como os dados estão distribuídos. Algumas distribuições comumente usadas incluem a distribuição normal, a distribuição binomial e a distribuição de Poisson. Compreender as características dessas distribuições permite fazer inferências estatísticas e tomar decisões embasadas.

Testes de hipóteses:

Os testes de hipóteses são usados para verificar afirmações sobre uma população com base em uma amostra de dados. Eles envolvem a formulação de uma hipótese nula (afirmação a ser testada) e uma hipótese alternativa. O objetivo é avaliar se os dados fornecem evidências suficientes para rejeitar ou não a hipótese nula. Esses testes são fundamentais para tomar decisões estatisticamente significativas.

Correlação e regressão:

A correlação é uma medida estatística que indica a relação entre duas variáveis. Ela varia de -1 a 1, onde valores próximos de -1 ou 1 indicam uma correlação forte, enquanto valores próximos de 0 indicam uma correlação fraca. A regressão, por sua vez, é uma análise estatística que busca estabelecer uma relação funcional entre uma variável dependente e uma ou mais variáveis independentes.

Amostragem e inferência estatística:

Em muitos casos, é inviável coletar dados de uma população inteira. Portanto, a amostragem é usada para selecionar uma parte representativa da população para análise. Com base nessa amostra, é possível fazer inferências estatísticas e tirar conclusões sobre a população como um todo, utilizando técnicas como intervalos de confiança e estimativas pontuais.

Visualização de dados:

A visualização de dados é uma parte essencial da análise estatística. Gráficos e gráficos ajudam a apresentar os dados de forma clara e compreensível, permitindo identificar padrões, tendências e anomalias. Alguns exemplos comuns de visualizações de dados incluem gráficos de barras, gráficos de dispersão e histogramas.

Importância da estatística na Ciência de Dados:

A estatística desempenha um papel fundamental na Ciência de Dados. Ela fornece as ferramentas e os métodos necessários para explorar, analisar e interpretar os dados, permitindo tomar decisões baseadas em evidências. Além disso, a estatística permite avaliar a confiabilidade e a validade dos resultados obtidos por meio de técnicas de modelagem e previsão.

Conclusão:

A estatística é um dos fundamentos essenciais da Ciência de Dados. Compreender os conceitos básicos da estatística permite que os iniciantes na área adquiram uma base sólida para realizar análises de dados significativas e tomar decisões embasadas. Ao dominar os princípios estatísticos, os profissionais de Ciência de Dados estão mais bem preparados para enfrentar os desafios complexos e aproveitar as oportunidades oferecidas pelo mundo dos dados.

Conheça duas de nossas formações que vão te proporcionar os conhecimentos mencionados no artigo:

Formação em Análise de dados – AD – CECD:

Formação em Análise de dados – AD – CECD

Formação em Estatística – FE – CECD:

Formação em Estatística – FE

Nossos cursos ao vivo:

https://comunidadedeestatistica.com.br/category/ao-vivo/

O post Os Fundamentos da Ciência de Dados: Uma Visão Geral para Iniciantes – Foco em Estatística apareceu primeiro em Estatidados.

O que é Data Science e o que faz um Cientista de Dados

Ludmila — Mon, 05 Jun 2023 19:00:31 +0000

O que é Data Science e o que faz um Cientista de Dados

No mundo atual, a quantidade de dados gerados pelas empresas e usuários cresce exponencialmente. Nesse cenário, surge a área de Data Science, que tem como objetivo extrair insights valiosos desses dados para auxiliar na tomada de decisões estratégicas. Mas afinal, o que é Data Science e qual é o papel de um Cientista de Dados? Neste artigo, vamos explorar essas questões e descobrir como essa área tem se tornado fundamental para empresas em diferentes setores.

O que é Data Science?

Data Science, ou Ciência de Dados, é uma disciplina interdisciplinar que combina estatística, programação e conhecimentos em domínios específicos para analisar grandes volumes de dados e obter informações relevantes. É um campo que utiliza métodos científicos e tecnológicos para identificar padrões, desenvolver modelos preditivos e encontrar soluções para problemas complexos.

Papel de um Cientista de Dados:

Um Cientista de Dados é o profissional responsável por extrair conhecimento acionável a partir dos dados. Suas principais atribuições incluem:

Coleta e análise de dados: O Cientista de Dados deve identificar e coletar conjuntos de dados relevantes para um determinado problema. Em seguida, ele realiza uma análise exploratória para entender as características dos dados e identificar padrões.
Pré-processamento e limpeza de dados: Antes de aplicar algoritmos e modelos de análise, o Cientista de Dados precisa realizar a limpeza e o pré-processamento dos dados, removendo ruídos, tratando valores faltantes e ajustando escalas, garantindo a qualidade dos dados utilizados nas análises.
Desenvolvimento de modelos preditivos: Com base nos dados coletados e processados, o Cientista de Dados utiliza técnicas estatísticas e algoritmos de aprendizado de máquina para desenvolver modelos preditivos que possam fazer previsões e tomar decisões embasadas.
Comunicação de resultados: Além de realizar as análises, o Cientista de Dados precisa traduzir os insights obtidos em linguagem compreensível para a equipe ou stakeholders. A comunicação eficaz é fundamental para que as descobertas sejam aplicadas nas estratégias de negócio.

Habilidades e conhecimentos necessários:

Para se tornar um Cientista de Dados, é importante adquirir uma combinação de habilidades técnicas e conhecimentos específicos. Algumas competências essenciais incluem:

Conhecimento em programação: Dominar linguagens como Python e R, além de ter habilidades em SQL para manipulação de bancos de dados.
Estatística e matemática: Compreender conceitos estatísticos e matemáticos para realizar análises e desenvolver modelos.
Conhecimento em Machine Learning: Ter familiaridade com algoritmos e técnicas de aprendizado de máquina para desenvolver modelos preditivos.
Domínio do negócio: Entender o contexto em que os dados estão inseridos, conhecendo a fundo o setor de atuação da empresa para identificar oportunidades e desafios específicos.
Pensamento analítico e resolução de problemas: Capacidade de analisar problemas complexos, identificar soluções e aplicar abordagens analíticas para resolvê-los.
Comunicação efetiva: Ser capaz de comunicar de forma clara e concisa os resultados e insights obtidos, seja para uma equipe técnica ou para stakeholders não técnicos.

Aplicações de Data Science:

A área de Data Science tem uma ampla gama de aplicações em diversos setores. Alguns exemplos incluem:

Saúde: Utilização de dados médicos para diagnóstico precoce de doenças, previsão de resultados de tratamentos e desenvolvimento de soluções de medicina personalizada.
Varejo: Análise de dados de vendas, preferências do consumidor e previsão de demanda para otimização de estoques, personalização de experiências de compra e recomendação de produtos.
Finanças: Utilização de algoritmos de aprendizado de máquina para detecção de fraudes, análise de risco de crédito, previsão de mercado e otimização de portfólios.
Marketing: Análise de dados de campanhas publicitárias, segmentação de público-alvo, personalização de mensagens e otimização de investimentos em marketing.

O futuro da Data Science:

Com o avanço da tecnologia e o crescimento contínuo da geração de dados, a importância da Data Science só tende a aumentar. Novas técnicas, como Inteligência Artificial e Aprendizado Profundo (Deep Learning), estão impulsionando descobertas ainda mais significativas. Além disso, a ética e a governança dos dados estão se tornando aspectos fundamentais nesse campo, com a necessidade de garantir a privacidade e a segurança das informações.

Conclusão:

A Ciência de Dados desempenha um papel fundamental na era da informação. Combinando habilidades analíticas, conhecimentos técnicos e domínio do negócio, os Cientistas de Dados são capazes de transformar dados em insights valiosos que impulsionam o sucesso das empresas. Se você está interessado em se tornar um profissional nessa área em expansão, é essencial adquirir as habilidades necessárias e continuar se atualizando para acompanhar as demandas do mercado em constante evolução.

Para tais conhecimentos e criação de networking, nós indicamos as nossas formações completas e reduzidas:

Conheça duas de nossas formações que vão te proporcionar os conhecimentos mencionados no artigo:

Formação em Análise de dados – AD – CECD:

http://comunidadedeestatistica.com.br/formacao-em-analise-de-dados-ad-cecd/embed/#?secret=Adlwmj4GZhFormação em Estatística – FE – CECD

http://comunidadedeestatistica.com.br/formacao-em-estatistica-fe/embed/#?secret=UeA8PrfQDC

O post O que é Data Science e o que faz um Cientista de Dados apareceu primeiro em Estatidados.

CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)

admin — Thu, 09 Jun 2022 18:35:17 +0000

PUBLISHED ON 4 DE JUN DE 2022 — BIG DATA, MACHINE LEARNING, PROGRAMMING, R, STATISTICS

Olá, no texto de hoje será abordado o CRISP-DM, este que é uma das metodologias ou processo (particularmente prefiro esse termo) que pode ser utilizado na jornada de desenvolvimento de soluções com dados. Apesar do foco do texto caminhar pelo CRISP-DM, existem outros processos propostos na literatura, dois deles são o famoso KDD – Knowledge Discovery in Databases (Descoberta de Conhecimento em Bases de Dados) proposto por Fayyad et al (1996) e o SEMMA acrônimo de Sample, Explore, Modify, Model e Assess (Amostra, Explorar, Modificar, Modelar e Avaliar), desenvolvido pelo Instituto SAS.

Desenvolvido em 1999 por meio dos esforços de um consórcio composto inicialmente pela DaimlerChrysler, SPSS e NCR, o CRISP-DM – Cross Industry Standard Process for Data Mining (Processo Padrão Inter-Indústrias para Mineração de Dados) surgiu como forma de apoio ao processo de descoberta do conhecimento e para padronizar os processos de mineração de dados em todos os setores. Desde então, este processo é um dos mais utilizados para projetos de mineração de dados, estatística, análise e ciência de dados.

Os times de ciência de dados que combinam uma implementação flexível do CRISP-DM com abordagens abrangentes de gerenciamento de projetos ágeis baseadas em equipe, provavelmente obterão melhores resultados.

O CRISP-DM é formado por 6 fases, que podemos descrever como:

Compreensão do Negócio: O que o negócio precisa?
Compreensão dos Dados: Que dados temos/precisamos? Está ‘limpo’, tratado, prontos para uso?
Preparação dos Dados: Como organizamos os dados para modelagem?
Modelagem: Quais técnicas de modelagem devemos aplicar?
Avaliação: Qual modelo melhor atende aos objetivos do negócio?
Desenvolvimento:Como as partes interessadas acessam os resultados?

Abaixo é mostrado uma figura que representa o processo CRISP-DM e como as fases se interrelacionam:

Etapas do CRISP-DM.Fonte: próprio autor.

A seguir serão detalhados as etapas como forma de deixar mais claro o que é necessário extrair e executar em cada uma delas.

1. Compreensão do Negócio

Nesta primeira fase de compreensão do negócio, o foco é no entendimento dos objetivos e requisitos do projeto. Conhecer e compreender o problema a ser resolvido é de suma importância neste processo. Perceba que no próprio diagrama existem retornos para esta fase a partir de outras etapas do processo, ou seja, podem ocorrer falhas durante o processo por má compreensão do negócio. Para fins de tentar mitigar estes riscos de má compreensão, o CRISP-DM determina algumas atividades nesta fase, conforme é descrito a seguir:

Determine os objetivos de negócios: entender completamente de uma perspectiva de negócios, o que o cliente realmente deseja realizar e, em seguida, definir os critérios de sucesso do negócio.
Avalie a situação: determine a disponibilidade de recursos, os requisitos do projeto, avalie riscos e contingências e realize uma análise de custo-benefício.
Determine as metas: Além de definir os objetivos de negócios, você também deve definir como é o sucesso de uma perspectiva técnica.
Produza o plano do projeto: selecione tecnologias e ferramentas e defina planos detalhados para cada fase do projeto.

Outros pontos interessantes que podem deixar o entendimento mais completo são:

Identificar os especialistas na organização: Os especialistas da área de negócio (domínio), o pessoal da TI, bem como os responsáveis pela tomada de decisão precisam conhecer o processo. É comum nesta etapa, realizar treinamentos para fins de nivelamento de conhecimento do pessoal em torno do processo e onde o CRISP-DM estará atuando.
Levantar e esboçar as necessidades e expectativas: As pessoas que estarão envolvidas no processo, precisam expor suas necessidades, principalmente aqueles que irão lidar com os dados e informações obtidos para posterior análise e tomada de decisão. É comum serem feitas rodadas de reuniões com estas pessoas para fins de elencar os objetivos e necessidades.
Levantamento dos hardwares e softwares: A organização não é feita apenas de pessoas, mas também de ferramentas e neste sentido se faz necessário conhecer o que existe disponível ou não. O CRISP-DM orienta que o processo seja realizado em plataforma que possua arquitetura expansível, com capacidade de suportar grandes volumes de dados, com grandes chances destes dados serem heterogêneos e que possa ter capacidade de processamento compatível com o volume de dados.
Fazer inventário das bases de dados existentes: É importante conhecer o que a organização possui de bases de dados internas e do acesso e uso de bases de dados externas. Neste momento, se faz necessário também observar potenciais bases de dados externas que guardem relação com o negócio da organização e por isso podem fazer parte do processo.
Verificar a existência de DW (Data Warehouses) na organização: Caso a organização possua dados armazenados em bases multidimensionais, como os Data Lake, Data Warehouses, Data Marts, é possível que ela já tenha estabelecido um processo ETL e neste caso haverá um ganho de esforço no restante do processo.

2. Compreensão dos Dados

Esta fase geralmente é executada juntamente com a fase anterior (Compreensão do Negócio), em que o estudo sobre as informações coletadas se faz necessário e deve ser feita de forma detalhista. Aqui neste caso, o foco é direcionado para identificar, coletar e analisar os conjuntos de dados que podem ajudá-lo a atingir as metas do projeto. Podemos definir essa fase através de algumas tarefas:

Solicite dados iniciais: adquira os dados necessários e (se necessário) carregue-os em sua ferramenta de análise.
Descreva os dados: examine os dados e documente suas propriedades de superfície, como formato de dados, número de registros ou identidades de campo.
Explorar dados: aprofunde-se nos dados. Consulte-o, visualize-o e identifique relacionamentos entre os dados.
Verificar a qualidade dos dados: o quão “limpos/sujos”, “tratados/não tratados” estão os dados? Documente quaisquer problemas de qualidade.
Verificar se a volumetria dos dados atende ao negócio: refere-se a quantidade de dados que será utilizada, pois amostras pequenas de dados podem não ser úteis para o processo, portanto é importante que seja feito um acordo para o fornecimento de volume de dados adequado.

3. Preparação dos Dados

Esta fase, prepara o(s) conjunto(s) de dados final(is) para modelagem. As diversas ferramentas analíticas que podem ser usadas nesta fase, apesar de oferecerem muitos recursos, impõem alguns requisitos sobre os dados quanto ao seu formato, gerando a necessidade de formatações e/ou transformações dos mesmos. Nesta estapa é possível dividir em cinco tarefas distintas:

Selecionar dados: determine quais conjuntos de dados serão usados e documente os motivos da inclusão/exclusão.
Limpeza dos Dados: muitas vezes esta é a tarefa mais demorada. Sem ele, você provavelmente será vítima do "lixo que entra e sai do lixo". Uma prática comum durante esta tarefa é corrigir, imputar ou remover valores incorretos.
Construir dados: Derive novos atributos que serão úteis. Por exemplo, derivar o índice de massa corporal de alguém dos campos de altura e peso.
Integrar dados: crie novos conjuntos de dados combinando dados de várias fontes.
Formatar dados: Reformate os dados conforme necessário. Por exemplo, você pode converter valores de string que armazenam números em valores numéricos para poder realizar operações matemáticas.

4. Modelagem

A modelagem é o principal local onde as técnicas são aplicadas aos dados. É importante ter alguma compreensão dos conceitos de modelagem, incluindo os tipos de técnicas e algoritmos existentes. É aqui que você provavelmente construirá e avaliará vários modelos com base em várias técnicas de modelagem diferentes. Esta fase tem quatro tarefas:

Selecione técnicas de modelagem: Determine quais algoritmos se adequam a problemática, por exemplo: regressão, rede neural, etc.
Gerar design de teste: enquanto aguarda sua abordagem de modelagem, pode ser necessário dividir os dados em conjuntos de treinamento, teste e validação.
Modelo de construção: Aqui é etapa da execução da modelagem dos algoritmos utilizando a tecnologia selecionada.
Modelo de avaliação: Geralmente, vários modelos estão competindo entre si, e o cientista de dados precisa interpretar os resultados do modelo com base no conhecimento do domínio, nos critérios de sucesso predefinidos e no design do teste.

5. Avaliação

O insumo desta fase é a saída da fase anterior em forma de um ou mais modelos. Aqui na fase avaliação, é analisado qual modelo atende melhor ao negócio e o que fazer em seguida. Esta fase possui três tarefas:

Avalie os resultados: os modelos atendem aos critérios de sucesso do negócio? Qual(is) devemos aprovar para o negócio?
Processo de revisão: revise o trabalho realizado. Alguma coisa foi esquecida? Todas as etapas foram executadas corretamente? Resuma as descobertas e corrija qualquer coisa, se necessário.
Determine as próximas etapas: Com base nas três tarefas anteriores, determine se deve continuar com a implantação, iterar mais ou iniciar novos projetos.

6. Desenvolvimento

A fase de desenvolvimento consiste da definição das fases de implantação do projeto, levando em consideração que o modelo resultante da fase de modelagem precisa ser factível de ser usado, ou seja, digamos que um modelo não é particularmente útil a menos que o cliente possa acessar seus resultados. A complexidade desta fase varia muito. Esta fase final tem quatro tarefas:

Planejar a implantação: desenvolva e documente um plano para implantar o modelo.
Plano de monitoramento e manutenção: desenvolva um plano completo de monitoramento e manutenção para evitar problemas durante a fase operacional (ou fase pós-projeto) de um modelo.
Produzir relatório final: a equipe do projeto documenta um resumo do projeto que pode incluir uma apresentação final dos resultados das etapas realizadas.
Revisão do projeto: conduza uma retrospectiva do projeto sobre o que deu certo, o que poderia ter sido melhor e como melhorar no futuro.

Conclusão

Como uma forma de finalização desse post, com uma conclusão, podemos escrever alguns pontos para que seja possível aproveitar ao máximo os benefícios da CRISP-DM, para suprir as fraquezas ou pontos negativos existentes.

Sendo assim, pense sempre em fazer a equipe se concentrar estritamente em entregar lançamentos menores de todas as etapas e frequentemente solicitar feedback ao longo do caminho, evitando dessa forma cair em uma armadilha em cascata trabalhando minuciosamente em todas as etapas do projeto, e raramente retornar a uma etapa anterior, e a entrega ser um “big bang” no final do projeto porque a sua primeira entrega pode não ser muito útil, por estar nas fases iniciais do processo.

As etapas do processo exigem muita documentação, assim o gasto de tempo fazendo documentações poderá ser maior do que fazendo qualquer outra coisa, entretanto, procure sempre documentar o que for suficiente… mas não precisa exagerar. Não se esqueça também das tecnologias atuais: adicione etapas para aproveitar arquiteturas de nuvem e práticas de software modernos, como controle de versão git e pipelines de CI/CD ao seu plano de projeto, quando apropriado.

O CRISP-DM carece de estratégias de comunicação com as partes interessadas. Portanto, certifique-se de definir expectativas e se comunicar com eles com frequência.

E por fim, combine com uma abordagem de gerenciamento de projetos. Como uma declaração mais generalizada do item anterior, o CRISP-DM não é realmente uma abordagem de gerenciamento de projetos. Assim, combine-o com uma estrutura de coordenação de ciência de dados. As abordagens ágeis populares incluem: Kanban, Scrum e Scrum Orientado a Dados.

Fontes:

Azevedo, A. e Manuel, F.S. “KDD, SEMMA and CRISP-DM: a parallel overview.” IADS-DM (2008).

Fayyad, U. M. “Data mining and knowledge discovery: making sense out of data”. IEEE Expert, Vol. 11 No. 5, pp. 20-25 (1996).

https://dnc.group/blog/data-science/metodologia-crisp-dm/

https://www.datascience-pm.com/crisp-dm-2/

https://blog.grancursosonline.com.br/processo-de-mineracao-de-dados-com-crisp-dm/

Texto baseado nas fontes citadas.

“Post gerado com framework HUGO (http://gohugo.io/), R Markdown (http://rmarkdown.rstudio.com/), no qual os resultados são gerados na geração da página.”

TAGS: BIG DATA, MACHINE LEARNING, PROGRAMMING, R, STATISTICS

Post original: https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/

O post CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados) apareceu primeiro em Estatidados.

Live Elaine Figueiredo (IMPROOVA) – Data Science Ágil: modelos para melhorar projetos de ciência de dados – Parte 1

admin — Thu, 17 Mar 2022 21:16:00 +0000

Cronológico: Elaine Figueiredo
Acadêmica:
Técnico em Informática (CEETEPS); Bacharel em Sistemas de Informação (FAIMI-UNIESP); Pós em Psicopedagogia (FAIMI-UNIESP); Mestrado em Ciência da Computação – Linha de Pesquisa em Inteligência Artificial (USP/FACCAMP).
Profissional:
2001 – 2007: Instrutora e Coordenadora de Tecnologias Educacionais no Colégio Santo André – SJRP; Desde 2006 leciono Tecnologia no Ensino Superior e Pós (Presencial e EAD); 2008 à 2019: Projetos de TI como Analista de Negócios, Gerente de Projetos e BI – Business Inteligence
2014 atual – Leciono na Universidade Anhembi Morumbi; 2019 atual – voluntária em Projetos Sociais (liga solidária, velho amigo e Projeto Resgate); 2020 – Parceira e Consultora da IMPROOVA Treinamentos; 2021 – COLÉGIO HARMONIA – TRILHA Digital Leaders
LinkedIn do Palestrante:
https://www.linkedin.com/in/elainefigueiredo/
Faça parte do EstaTiDados:
Saiba mais » https://linktr.ee/estatidados
Grupo Telegram » https://t.me/estatciencia
App portfolio R » https://estatidados.shinyapps.io/portfoliothiagomarques/
#cienciadedados #gestaoagil #projetosageis

O post Live Elaine Figueiredo (IMPROOVA) – Data Science Ágil: modelos para melhorar projetos de ciência de dados – Parte 1 apareceu primeiro em Estatidados.

Live Elaine Figueiredo (IMPROOVA) – Data Science Ágil: modelos para melhorar projetos de ciência de dados – Parte 2

admin — Thu, 17 Mar 2022 14:15:28 +0000

Data Science Ágil Parte I

Cronológico: Elaine Figueiredo

Acadêmica:
Técnico em Informática (CEETEPS); Bacharel em Sistemas de Informação (FAIMI-UNIESP); Pós em Psicopedagogia (FAIMI-UNIESP); Mestrado em Ciência da Computação – Linha de Pesquisa em Inteligência Artificial (USP/FACCAMP).

Profissional:
2001 – 2007: Instrutora e Coordenadora de Tecnologias Educacionais no Colégio Santo André – SJRP; Desde 2006 leciono Tecnologia no Ensino Superior e Pós (Presencial e EAD); 2008 à 2019: Projetos de TI como Analista de Negócios, Gerente de Projetos e BI – Business Inteligence
2014 atual – Leciono na Universidade Anhembi Morumbi; 2019 atual – voluntária em Projetos Sociais (liga solidária, velho amigo e Projeto Resgate); 2020 – Parceira e Consultora da IMPROOVA Treinamentos; 2021 – COLÉGIO HARMONIA – TRILHA Digital Leaders
LinkedIn do Palestrante:
https://www.linkedin.com/in/elainefigueiredo/

Faça parte do EstaTiDados:

Saiba mais » https://linktr.ee/estatidados

Grupo Telegram » https://t.me/estatciencia

App portfolio R » https://estatidados.shinyapps.io/portfoliothiagomarques/
#cienciadedados #gestaoagil #projetosageis

O post Live Elaine Figueiredo (IMPROOVA) – Data Science Ágil: modelos para melhorar projetos de ciência de dados – Parte 2 apareceu primeiro em Estatidados.

Nova Tendência do Mercado: Carreira de Analista de Dados

admin — Fri, 04 Mar 2022 15:38:33 +0000

Por: José Bezerra da Silva Filho, Thiago Marques

Imagine uma situação na qual as empresas correm atrás de você, e não o contrário.

Isso já é realidade para os profissionais da área de análise de dados.

O Bureau of Labor and Statistics dos EUA (www.bls.gov) projeta que, até 2028, haverá um aumento de 72% nas novas carreiras relacionadas à Análise de Dados.

Isso implica que muitas empresas estão à procura de analistas de dados profissionais para integrar as suas equipes. É, portanto, de grande importância que os analistas de dados aprimorem suas habilidades e se tornem competitivos se quiserem estar entre as pessoas mais procuradas para empregos na área de Análise de Dados.

Ter a experiência certa e as habilidades exigidas para um analista de dados atraem salários de seis dígitos, mais de 100 mil por ano, de acordo com a Robert Half Technology, Recrutamento Especializado e Projetos em Tecnologia (www.roberthalf.com.br).

Com um excelente salário você consegue ajudar a sua família, além de poder realizar os sonhos de ter o seu carro, a sua casa e poder viajar pelo Brasil e pelo mundo.

Principais áreas de melhoria para uma carreira de desenvolvedor em análise de dados

Trabalhar para melhorar suas habilidades de análise de dados abrirá portas para novas oportunidades e melhores compensações.

As habilidades essenciais que os analistas de dados precisam melhorar para conseguir um emprego dos sonhos incluem o conhecimento de muitas tecnologias. Tentaremos resumir as mais significativas nesta seção.

R e Python são mais adequados para lidar com um grande conjunto de dados. No entanto, métodos avançados do Excel, como Macros, são usados para conjuntos de dados menores e análises rápidas.

Os analistas de dados que trabalham em startups ou pequenas e médias empresas utilizam bancos de dados Excel; portanto, é uma ferramenta obrigatória para todos os iniciantes em analistas de dados. À medida que progride, você encontrará grandes conjuntos de dados e, portanto, também exigirá que você aprenda a linguagem de programação estatística à medida que avança em sua carreira.

SQL

SQL (sigla em inglês para Standard Query Language): significa Linguagem de Consulta Estruturada. É a linguagem de banco de dados padrão do setor e uma habilidade importante para todos os analistas de dados. SQL permite interagir com grandes conjuntos de dados estruturados que precisam ser armazenados em bancos de dados relacionais.

Como analista de dados, você precisa estar familiarizado com SQL e armazenar, gerenciar e relacionar com eficiência vários conjuntos de dados. Ter uma boa compreensão das fontes de dados será útil em sua carreira, e o SQL lhe dá a capacidade de navegar por grandes bancos de dados e trabalhar em projetos exigentes.

Habilidades Técnicas do Analista de Dados

Analistas de Dados devem possuir as habilidades técnicas corretas, além de serem proficientes no uso de diferentes ferramentas de banco de dados usadas na análise de dados. Eles também devem estar familiarizados com programas de computador, habilidades de codificação, usando SQL, JavaScript, Python, R, XML , Hadoop, SAS e outros programas de aprendizado de máquina.

Programação Estatística em Python

É uma das linguagens de programação usadas na análise de dados. Você precisa entender conceitos como coleta de dados, web scraping e o uso de Python para desenvolver aplicativos da web. Python é uma poderosa linguagem de programação estatística que realiza análises avançadas e análises preditivas em grandes conjuntos de dados. Portanto, todo analista de dados deve melhorar sua habilidade em linguagens de programação Python ou R. R é ideal para explorar vários conjuntos de dados e fazer análises ad-hoc.

Quais são as carreiras de analista de dados?

Existem várias carreiras em análise de dados. Elas incluem:

Engenheiro de big data: engenheiros de big data transformam grandes volumes de dados em insights úteis que os gerentes podem usar para informar sua tomada de decisão. Eles são necessários para recuperar, coletar, interpretar, analisar e relatar dados de negócios. Eles também criam software e processos com os quais outras partes interessadas podem trabalhar para processar dados.
Analista de Business Intelligence: analisa os dados da empresa para obter insights que podem ser adotados pelos executivos para tomar decisões bem informadas. Eles examinam dados e identificam padrões e tendências.
Arquiteto de dados: arquitetos de dados são responsáveis por projetar a estrutura de dados complexas.
Gerente de data warehouse: eles são responsáveis por armazenar e analisar dados em suas respectivas organizações. Eles usam métricas de desempenho e uso para avaliar e analisar a carga de dados. Além disso, eles identificam os riscos potenciais enfrentados pela transferência ou armazenamento de dados e apresentam formas de mitigar esses riscos.
Cientista de dados: eles projetam novas formas de mineração de dados, modelagem e desenvolvem protótipos, algoritmos e modelos preditivos. Ele precisa ser qualificado em análise de regressão, diferentes técnicas de mineração de dados, árvores de decisão e análise.
Gerenciador de banco de dados: o gerenciador de banco de dados é obrigado a identificar quaisquer problemas que os bancos de dados possam ter e tomar medidas corretivas para resolvê-los. Eles ajudam a projetar e implementar a manutenção de armazenamento trabalhando em conjunto com desenvolvedores de banco de dados.
Modelador de dados: os modeladores de dados usam suas habilidades para criar relatórios sobre tendências micro e macro dos dados. Eles têm habilidades em ciência da informação, programação e análise estatística. Suas descobertas sobre tendências de dados os fazem ajudar as organizações a tomar decisões.
Desenvolvedores de banco de dados: esses profissionais analisam principalmente os processos de banco de dados e agilizam ou eliminam aqueles que são ineficientes. Eles também fazem análise de dados e testes de unidade trabalhando em colaboração com outros profissionais de dados.

Quais novas carreiras de analista de dados você deve considerar?

As novas carreiras de analista de dados nas quais os desenvolvedores podem se especializar são:

Analista quantitativo: o analista quantitativo é uma carreira altamente comercializável em empresas financeiras. Os analistas quantitativos usam a análise de dados para identificar potenciais oportunidades de investimento financeiro e gerenciar os riscos que podem surgir a partir disso.
Analista de dados de saúde: são os novos profissionais em análise de dados aplicados na área de saúde. O analista de dados de saúde ajuda a melhorar a qualidade de vida das pessoas, auxiliando os médicos com soluções para os desafios que eles encontram.
Consultor de análise de dados: as funções de um consultor de análise de dados são fornecer insights que a empresa pode adotar em suas operações. Eles se especializam em uma área-chave de pesquisa e trabalham com diferentes organizações.
Especialista em logística de transporte: esses especialistas precisam de experiência em análise de dados para desempenhar suas funções. Sua experiência é necessária em empresas que transportam ou enviam mercadorias físicas com frequência, como a Amazon. Eles são obrigados a identificar as melhores rotas e meios eficientes de transporte das mercadorias.

Existem muitas oportunidades de análise de dados em todo o mundo, por isso os analistas de dados precisam aprimorar suas habilidades.

Considerações Finais

A análise de dados é um campo de rápido crescimento que oferece aos profissionais a oportunidade de adquirir habilidades e contribuir com mudanças positivas em muitas organizações ao redor do mundo. Se você está ansioso para iniciar ou crescer sua carreira em análise de dados, a melhor opção é fazer o treinamento MBA em Data Science e Statistics com Python, do Instituto de Capacitação Business School Brasil – BSBr.com.br.

Neste MBA iremos lhe dar os seguintes Bônus:

Networking – Conseguir uma rede de contatos e fazer novos amigos;

Crescimento profissional – emprego em vários cargos, além de poder subir de cargo até conquistar a gerência, por exemplo;

Currículo relevante – você valoriza seu currículo na hora de entrar para o mercado;

Maior flexibilidade – possibilidade de trabalho remoto, no Brasil e no exterior.

Autores

Prof. Dr. José Bezerra da Silva Filho é entusiasta em Gerenciamento de Projetos, Doutor em Engenharia pela Universidade Federal de Campina Grande – UFCG e University of Maryland at College Park (EUA) e Mestre em Ciência da Computação pela UFCG. Elaborou, implantou e coordenou um curso de Mestrado em Informática Aplicada. Bezerra já coordenou dezenas de turmas de cursos de MBA/Especialização. Trabalhou no Banco do Nordeste do Brasil – BNB por mais de três décadas. É autor de dez livros, dentre os quais: Tecnologia da Informação e Comunicação para Gestores; Na Trilha dos Lucros: Prática de Gestão para Tornar sua Empresa mais lucrativa, e O Guia Definitivo do Gerenciamento Ágil de Projetos: O Segredo da Hiperprodutividade, COMO FAZER UM CURRÍCULO PROFISSIONAL MAGNÉTICO: O Segredo para você ser chamado para entrevista de emprego de imediato. Atualmente Bezerra coordena o MBA em Gerenciamento de Projetos do Instituto de Capacitação Business School Brasil – BSBr e o Treinamento de Preparação para as Certificações PMP e CAPM, que já está na sua 48ª Turma.

Contatos do Autor:

● (85) 9.9921-1675

● E-mail: Professor.Dr.Bezerra@bsbr.com.br

Thiago Marques é Estatístico pela federal do IBGE, a ENCE (Escola Nacional de Ciências Estatísticas), entusiasta na disseminação da Estatística e possui larga experiência na atuação em Estatística no mercado, tendo passado por grandes centros universitários, multinacionais de consultoria, pelo IBRE/FGV (Instituto Brasileiro de Economia) e pelo IBGE (Instituto Brasileiro de Geografia e Estatística), foi professor da pós de ciências de dados do SENAC RJ e da UNISUAM e é o criador do maior canal de Estatística, Ciência de dados da America Latina! O chamado EstaTiDados :). Atualmente é Consultor em Análise Estatística no IBGE, professor na sua Comunidade de Estatística, na Casa da Pesquisa Operacional (CPO), professor da MBA em Ciência de dados da UNIFOR, professor na MBA em Ciência de dados da Farias Brito, professor no MBA Executivo em Data Science para negócios (TREVISAN), professor convidado na MBA em BI, Marketing Digital e Estratégia Data Driven da PUC RS e Professor da MBA em Data Science e Analytics da USP e Coordenador do MBA em Data Science e Analytics e Estatística e o MBA de Marketing Analytics e Estatística no Instituto de Capacitação Business School Brasil – BSBr, realiza palestras e treinamentos para capacitação em Estatística, Pesquisa Operacional, R e Ciência de Dados.

O post Nova Tendência do Mercado: Carreira de Analista de Dados apareceu primeiro em Estatidados.

O que são modelos científicos e como eles funcionam

admin — Fri, 24 Sep 2021 12:15:13 +0000

Com o conhecimento científico foi possível a realização de feitos antes inimagináveis, como a comunicação à velocidade da luz, nanotecnologia, fissão nuclear, viagem ao espaço, inteligência artificial, dentre outras. O poder do conhecimento científico está na criação de modelos que representam a realidade ou um fragmento de um sistema. Eles são usados na construção de teorias científicas, que visam capturar a estrutura ou dinâmica da própria realidade. A validação de uma teoria envolve testar hipóteses, que é baseada na análise de padrões encontrados em dados empíricos. Quer a hipótese seja baseada em dados ou na teoria, um conjunto de dados empíricos precisa estar disponível para testar os resultados do modelo. Em seguida, um processo algorítmico é projetado e implementado com o objetivo de descrever matematicamente a estrutura ou dinâmica de interesse. Posteriormente, o modelo é executado e validado comparando dados simulados com dados empíricos. Os insights resultantes inspiram novas hipóteses científicas e o modelo é refinado iterativamente ou novos modelos são desenvolvidos.

Uma pergunta que instiga muitos filósofos epistemológicos é como modelos são criados. Isso significa entender como ocorre o processo de aprendizado de um conhecimento científico, ou seja, entender como, a partir de dados experimentais, conseguimos extrapolá-los e criar modelos confiáveis. O que significa ser confiável na metodologia científica? Como ocorre o processo de generalização a partir da dedução e da indução do conhecimento empírico para um princípio universal, como as leis de Newton ou a mecânica quântica?

Indo além do mero aprendizado humano, pode-se questionar ainda os atuais modelos de aprendizado de máquina e fazer os mesmos questionamentos: Como máquinas aprendem e geram modelos confiáveis baseados apenas em dados empíricos? O que veremos nesse artigo é um paralelo entre filosofia, ciência e a inteligência artificial para nos aprofundarmos nesses questionamentos. Veremos o que significa um “bom modelo” na ciência e como o teste de hipóteses valida o conhecimento científico. Também será discutido a “fonte do conhecimento”, com suas escolas de pensamento empirista e racionalista e onde o aprendizado de máquina se encontra.

O que caracteriza um bom modelo?

Em certo sentido, todos os modelos estão errados. Isso implica que nenhuma descrição da realidade é a última e todos os modelos atuais estão sujeitos a refinamentos conforme novos dados são apresentados.

“Todos os modelos implicam em esquematizações e simplificações que se traduzem em “suposições”. E cada suposição de um modelo é uma fonte possível de erro.”

Dessa maneira, entendemos que ao criar um modelo, o objetivo não deve ser criar uma descrição última ou perfeita da realidade, e sim minimizar o erro entre a realidade objetiva e a descrição subjetiva dada pelo modelo. Mas existe uma descrição última da realidade que pode ser representada por um modelo matemático perfeito? Esse é um debate filosófico interessante, iniciada por Platão e Aristóteles, e ainda continua sem resposta, com duas correntes filosóficas concorrentes: a realista e a antirrealista.

Platão defende em obras como A República e Fédon, que o conhecimento só é alcançado quando atingimos a “ideia” ou “conceito” do objeto. Essa ideia estaria em um mundo independente das objeto, no “Mundo das Ideias”. Exemplo: Um modelo de um cavalo seria representação ideal (no mundo das ideias) de um cavalo e o cavalo real seria uma forma imperfeita desta ideia. O mesmo pode-se dizer de conceitos como Justiça, Beleza, etc. Existe um único modelo perfeito que descreve esses conceitos, que estão no Mundo das Ideias. Aristóteles, por outro lado, critica Platão justamente por criar uma independência entre a ideia abstrata do objeto e o objeto em si. Ele concorda, por exemplo, que a observação e comparação de diferentes tipos de cavalo levam a um grupo de aspectos que definem o “modelo de cavalo”, mas tal modelo não existe independentemente, e sim são uma maneira de categorizar objetos com atributos semelhantes a “cavalos” observados empiricamente.

Atualmente, o debate se divide entre realistas e antirrealistas. Apesar das diversas interpretações, em geral podemos dizer que o realismo sobre objetos matemáticos, modelos científicos ou processos mentais, se caracteriza pela afirmação de que os objetos em questão “realmente existem”, ou “desfrutam de uma existência independente de qualquer cognição”, ou “estão entre os constituintes últimos do mundo real” [1]. Realistas dizem que os cientistas interpretam “todas as teorias científicas como tentativas de descrições da realidade”. Usando como exemplo a teoria da gravitação universal de Newton, Força, inércia, gravidade, são entidades que realmente existem, pois elas revelam a estrutura causal do mundo. Um antirrealista acredita justamente no contrário. Berkeley, famoso antirrealista, contra-argumentaria Newton afirmando que essas entidades são apenas criações teóricas que compilam a bem e experiência dos sentidos, mas não existem em um “Mundo das Ideias Platônico” ou é a última descrição da realidade. Se você já ouviu a discussão “A matemática é descoberta ou inventada?”, saiba que isso é basicamente uma discussão profunda sobre o realismo e antirrealismo da matemática.

Pensando de maneira mais concreta, independente se tais modelos existem ou são constructos mentais, é importante entender o que caracteriza um bom modelo, seja ele físico, biológico, econômico, etc. As principais características de tais modelos são:

Parcimônia – Aqui temos a questão da simplicidade: Modelos que dependem de menos suposições para explicar um determinado fenômeno são preferíveis. Isso evita o sobreajuste (overffiting), e tais modelos podem falhar em fazer previsões para situações ainda não observadas. Cientistas e analistas de dados conhecem muito bem esse problema, e técnicas rotineiras, como o cross-validation, são tentativas de evitar o overffiting. Na ciência, um exemplo interessante era o debate entre geocentrismo e heliocentrismo. O modelo geocêntrico era demasiadamente complicado, pois ao assumir que a Terra era o centro do Sistema Solar, teria que criar “epiciclos” nas órbitas de outros planetas para explicar os problemas de perspectiva do movimento dos planetas ao serem observados na Terra. Aliás, falharia completamente se tivesse que explicar as órbitas em exoplanetas, algo que não acontece com o heliocentrismo.

Perspicácia – São modelos que revelam propriedades fundamentais do objeto que está sendo representado. Quando Newton, escreveu que sua teoria é “O Sistema do Mundo” ele não estava exagerando: Ele revelou propriedades fundamentais da gravidade, como a teoria da gravitação universal e as famosas Leis de Newton, que revolucionou a física em sua época. Um modelo ainda mais perspicaz é a Teoria da Relatividade Geral, onde Einstein entendeu a gravidade como a distorção causada pela matéria no tecido do próprio Espaço-Tempo.
Generalização – São modelos que podem ser aplicados em uma ampla gama de situações. Por exemplo, as Leis de Newton podem explicar porque as maças caem enquanto a Lua não. As equações de Maxwell são capazes de explicar satisfatoriamente todos os fenômenos elétricos e magnéticos existentes e unificá-lo num único modelo , descrita pela Teoria Eletromagnética. Indo além, físicos buscaram criar modelos ainda mais gerais, buscando unificar as forças fundamentais da natureza: a unificação da força eletromagnética com a força nuclear fraca gerou a Teoria Eletrofraca, e uma unificação ainda maior, adicionando a força nuclear forte, gerou a chamada Grande Teoria Unificada (GUT) que pode explicar fenômenos que aconteceram próximo ao Big Bang, quando tais forças ainda não eram distintas. O Santa Graal da física é a unificação de todas as forças fundamentais numa única teoria (A Teoria de Tudo), mas a gravidade, a mais fraca das forças, ainda é difícil de ser explicada em nível quântico, causando total incompatibilidade entre a Teoria da Relatividade Geral e a Mecânica Quântica.
Falseabilidade – Essa é uma propriedade fundamental da ciência. Todos os modelos científicos devem passar por um teste que possa verificar se determinada ideia, hipótese ou teoria é falsa. Um modelo é falseável se e somente faz previsões não triviais que podem, em princípio, ser falsificadas empiricamente. Se um modelo não faz previsões falsificáveis, então o modelo não pode ser avaliado empiricamente. Tal propriedade está diretamente relacionada com a previsão, já que para passar na falseabilidade, a predição do modelo deve ser avaliada no teste de hipóteses, onde o status quo e a hipótese alternativa (do modelo) são avaliado com dados observáveis. A teoria de Newton foi extensivamente avaliada em diversos fenômenos onde foi comprovado o poder de previsão. Apesar disso, em alguns fenômenos, onde o efeito gravitacional é muito forte ou onde o objeto está próximo à velocidade da luz, a teoria falha, e é necessário considerar efeitos relativísticos, que só podem ser explicadas pela relatividade especial e geral de Einstein. Uma teoria famosa que por enquanto nem teoricamente pode ser falseada é a Teoria da Supercordas, tentativa de unificar todas as forças fundamentais, onde os menores constituintes da realidade são pequenos filamentos de energia semelhantes a pequenas cordas vibrantes. O problema é que para detectar essas cordas seria necessário um acelerador de partículas maior que o sistema solar. Devido a essa impossibilidade de verificar se a teoria está correta ou não, muitos físicos não consideram a Teoria das Supercordas como ciência.

Teste de hipóteses: como os modelos são avaliados

O Teste de hipóteses é um procedimento estatístico fundamental na tomada de decisões, entre aceitar ou não uma hipótese. Na ciência, é utilizado para validar resultados de estudos, com o objetivo de aceitar ou não a hipótese nula, dada um determinado nível de significância (p-value). Para exemplificar como o teste de hipóteses funciona, vamos considerar duas moedas. Gostaria de avaliar se essas moedas são justas ou viciadas. Um modelo de moeda justa teria como resultado de lançamentos um valor próximo a 50% cara e 50% coroa, enquanto um modelo de moeda viciada teria uma proporção diferente. A hipótese nula é sempre o status quo, ou seja, que a moeda é justa (você geralmente recebe uma moeda justa, você que propôs que ela é viciada, que no caso forma a hipótese alternativa). Jogando cada moeda 10 vezes chegamos no seguinte resultado, onde cara é C e coroa é K:

Moeda 1: CKCCKKCCKC

Moeda 2: CCCCCCCKCC

Vamos avaliar a moeda 1: Quais chances de uma moeda justa dar 6 caras e 4 coroas? Usando a distribuição binomial, chegamos em 23%. Se usarmos um p-value de 5%, então a hipótese nula só seria rejeitada caso um evento incomum acontecesse menos que 5% das vezes. Com 23% de chance de ocorrer tal evento, falhamos em rejeitar a hipótese nula.

Agora vamos avaliar a moeda 2: Nessa caso, temos 9 caras e uma coroa. As chances disso acontecer é de 0.9%, valor suficiente para classificá-lo como “raro”, já que é menor que o p-value de 5%. Assim, rejeitamos a hipótese nula, ou seja, a moeda é viciada.

Então, o p-value avalia o quão provável ou improvável é um evento ao considerar a hipótese nula. Se você quer avaliar se uma vacina é segura, precisa fazer um teste em uma amostra significativa de pessoas e, considerando como hipótese nula que a vacina NÃO é segura , obter uma probabilidade baixa o suficiente de alguém ter algum efeito colateral ao tomar a vacina de maneira que te levaria a rejeitar a hipótese nula.

Pra exemplificar o conceito de ter uma amostra significativa, considere que você está avaliando uma terceira moeda, e fez três lançamentos com os seguintes resultados:

Moeda 3: CCC

Tivemos 100% de caras, o que leva a crer que é uma moeda viciada. Mas o p-value, ou seja, as chances de uma moeda justa dar esse resultado, é de 12,8%, o que falharia em rejeitar a hipótese de que a moeda é justa! Isso mostra que o teste de hipóteses é sensível ao tamanho da amostra. Então tenha muitos dados para avaliar.

Teorias do Aprendizado

Uns dos debates mais importantes da filosofia se diz a respeito de como aprendemos, ou seja, de que maneira o conhecimento genuíno e necessário é adquirido, compreendendo as diversas formas de buscá-lo Na filosofia moderna, houveram duas correntes diferentes de pensamento. A primeira, iniciada por René Descartes e que também foi adotada por Leibniz e Noam Chomsky é a racionalista. Como oposição, temos o empirismo, onde temos como maiores defensores dessa corrente Locke, Berkeley e Hume.

No racionalismo, tem-se a razão como principal fonte de conhecimento humane e acredita-se na dedução como principal método investigativo. Temos um “conhecimento inato” como certas categorias de espaço, de tempo e de causa e efeito. Com esse conhecimento, em sua forma mais pura, o racionalismo chega ao ponto de sustentar que todas as nossas crenças racionais, e a totalidade do conhecimento humano, consistem em primeiros princípios e conceitos inatos que são de alguma forma gerados e certificados pela razão, junto com qualquer coisa logicamente dedutível a partir desses primeiros princípios. Esses princípios, os fundamentos do nosso conhecimento, são proposições que são evidentes por si mesmas (auto-evidentes). Por exemplo, Descartes acreditava que deveríamos desconfiar de tudo, menos na própria capacidade de duvidar e, a partir dessa certeza do “Penso, logo existo”, seriam deduzidos novos conhecimentos. Outro exemplo seriam os teoremas matemáticos, onde por dedução podemos chegar a conclusões racionais absolutas.

O empirismo, por outro lado, afirma que a experiência é a fonte do conhecimento, tendo a indução da experiência como principal método investigativo, Para os empiristas, todas as nossas ideias vêm unicamente da experiência sensorial. Nosso conhecimento é a posteriori, na medida em vamos tendo experiência do assunto, e é dependente da experiência dos sentidos. Os empiristas também negam a implicação da tese do conceito inato, correspondente a de que temos ideias inatas na área de assunto. Eles também rejeitam a versão correspondente da tese da superioridade da razão. Visto que a razão por si só não nos dá nenhum conhecimento, certamente não nos dá um conhecimento superior. Os empiristas podem afirmar, como alguns fazem para alguns sujeitos, que os racionalistas estão corretos ao afirmar que a experiência não pode nos dar conhecimento. A conclusão que eles tiram dessa lição racionalista é que não sabemos nada. David Hume, um empirista radical, gostava de usar como exemplo o nascer do sol. Ele dizia que o nascer do sol é um conhecimento adquirido através da indução, já que você viu o sol nascer no leste desde que você nasceu, mas não temos garantias de que ele vai nascer amanhã, isso não pode ser uma afirmação auto-evidente.

Racionalismo e empirismo não precisam entrar em conflito. Podemos ser racionalistas em matemática, já que teoremas como o Teorema de Pitágoras ou o Teorema Fundamental do Cálculo podem ser deduzidos a priori, e podemos ser empiristas em todas ou em algumas das ciências físicas, utilizando o teste de hipóteses para validar experimentos. Racionalismo e empirismo só entram em conflito quando formulados para cobrir o mesmo assunto. E para solucionar esse conflito, chegamos em Immanuel Kant, que revolucionou a epistemologia em sua grande obra “Crítica da Razão Pura”.

Kant cria a Teoria dos Juízos, onde ele dirá que existem o Juízo analítico e o Juízo sintético. Juízos analíticos são aqueles em que o predicado não acrescenta em nada o sujeito, exemplo “Todo triângulo tem três lados” ou “Todos os corpos são extensos. Como não dependem de tempo e lugar, são juízos a priori e universais. Juízos sintéticos são aqueles que acrescentam algo ao sujeito, como por exemplo “Todos os corpos são pesados” e sempre partem da experiência. Podem ser divididos em dois tipo: A priori e A posteriori. O juízo sintético a posteriori é baseado na indução da experiência, enquanto o juízo sintético a priori não necessitam da experiência imediata, como as afirmações matemáticas. Parece confuso à vista, já que se tende a acreditar que a afirmação “7+5=12” é puramente analítica, mas como Kant descreve em “Crítica da Razão Pura” [2]:

Poder-se-ia em verdade crer, à primeira vista, que a proposição 7 + 5 = 12 é puramente analítica, resultante, segundo o princípio de contradição, do conceito de uma soma de sete e cinco. Mas se a considerarmos com mais atenção, acharemos que o conceito de soma de sete e cinco não contém mais do que a união dos dois números em um só, o que não faz pensar qual seja esse número único que compreenda aos outros dois. O conceito de 12 não é de modo algum percebido só pelo pensamento da união de cinco e sete, e posso decompor todo meu conceito dessa soma tanto quanto quiser, sem que por isso encontre o número 12. É preciso, pois, ultrapassar esse conceito recorrendo-se à intuição correspondente a um dos dois números, e aditar sucessivamente ao conceito sete as cinco unidades dadas na intuição. […] A proposição aritmética é, pois, sempre sintética: o que se compreende ainda mais claramente se se tomam números maiores, pois então é evidente que, por mais que volvamos e coloquemos nosso conceito quanto quisermos, nunca poderemos achar a soma mediante a simples decomposição de nossos conceitos e sem o auxilio da intuição.

Um problema que surge imediatamente quando se fala em juízos sintéticos a priori é o verdadeiro problema da razão pura. Como são possíveis os juízos sintéticos a priori? Como se origina o conhecimento da física teórica e da matemática pura? Como são teorizados os modelos científicos que tanto transformaram o mundo? Kant, para responder essa pergunta, cria a Teoria Elementar Transcendental, divididas em estética e lógica transcendental.

A Estética transcendental é a ciência de todos os princípios. É a priori, e diz respeito à capacidade de adquirirmos conhecimento de acordo com a sensibilidade. É apenas através da sensibilidade que podemos ter uma intuição do objetos de estudo. Entenda a intuição como a capacidade de encontrar indícios que levem a alguma correlação, generalização, a algum conhecimento sintético. Conforme afirma Kant:

Todo pensamento deve em última análise, seja direta ou indiretamente, mediante certos caracteres, referir-se às intuições, e, conseguintemente, à sensibilidade, porque de outro modo nenhum objeto nos pode ser dado.

Entremos agora no conceito de lógica transcendental. Quando falamos da lógica geral, abstraímos a matéria do conhecimento intelectual e toda a diversidade de seus objetos, e só nos ocupamos com a forma do pensamento. Como Lógica pura, não tem nenhum princípio empírico e, por conseguinte, não empresta nada da Psicologia, que não exerce influência alguma sobre o cânon do entendimento. É uma doutrina demonstrada, e tudo deve ser nela amplamente “a priori”. Uma Lógica geral é aplicada, quando se ocupa das regras do uso do entendimento, sob as condições empíricas e subjetivas que nos ensina a psicologia. Esta Lógica tem também princípios empíricos, ainda que seja geral enquanto trata da aplicação do entendimento sem distinção de objetos [2]. Para Kant, é preciso fazer a passagem da lógica geral, para a transcendental. A Lógica transcendental está mais relacionado ao entendimento e à organização do pensamento. Esta Lógica investigaria também a origem do nosso conhecimento de objetos, enquanto tal origem não possa ser atribuída aos objetos; a Lógica geral, pelo contrário, não se ocupa com essa origem do conhecimento, e só se limita a examinar as nossas representações sob o ponto de vista das leis com que o entendimento a emprega e reúne entre si, quando pensa. A lógica transcendental isola o entendimento (assim como a estética transcendental isola a sensibilidade). Esse entendimento é formado a partir da intuição, que é determinada a priori pelas formas da sensibilidade que são o espaço e o tempo.

Como máquinas aprendem

O aprendizado de máquina (machine learning) é um ramo da inteligência artificial onde um sistema é capaz de analisar uma grande quantidade de dados, além de usar uma variedade de algoritmos para encontrar padrões no banco de dados. Com base nesses padrões, são gerados modelos (não explicitamente programados por humanos) que conseguem fazer predições. Modelos gerados por algoritmos de machine learning são científicos, pois precisam representar da maneira mais realista o objeto em estudo, satisfazendo princípios como parcimônia, generalização e capacidade de predição.

Já discutimos que modelos científicos são “fundamentalmente errados”. Todos os modelos de machine learning usa esse princípio para otimizar (minimizar) o gap entre a previsão e o valor real. Nenhum algoritmo de machine learning cria um modelo 100% acurado. Tais modelos são construções “artificiais” que captura um aspecto do objeto que nos interessa e que geram predições que são úteis na tomada de decisões.

Mas como tais algoritmos aprendem? Pelo que vimos a respeito das teorias do conhecimento, podemos dizer que tais modelos são empiristas, já que tentam induzir um modelo a partir de observações nos dados históricos. Mas a construção de tais modelos é racionalista, um conhecimento sintético a priori, já que são aplicados métodos dedutivos para criar algoritmos empiristas. Como humanos deduzem tais algoritmos? A partir da sensibilidade e intuição, podemos buscar analogias nas criações da natureza, como o cérebro ou a evolução, ou na forma como descrevemos o mundo, a partir de símbolos, ou na maneira em que atualizamos nossas crenças a partir de nossas observações, etc. No livro de Paulo Domingos, “O Algoritmo Mestre” [3], são classificados cinco tribos de algoritmos de machine learning:

1) Conexionistas: É baseada na simulação de componentes do cérebro e tem como principal algoritmo as redes neurais. Surgiu em 1943, quando McCulloch e Pitts cria o conceito de Percéptron, um neurônio artificial de uma camada. As redes neurais artificiais (ANNs) são compostas por camadas de nós, contendo uma camada de entrada, uma ou mais camadas ocultas e uma camada de saída. Cada nó, ou neurônio artificial, se conecta a outro e tem um peso e limite associados. Se a saída de qualquer nó individual estiver acima do valor limite especificado, esse nó será ativado, enviando dados para a próxima camada da rede. A rede neural aprende ajustando os pesos de conexão dos nós de maneira a minimizar a função de perda (a diferença entre o valor real e previsto), usando uma técnica conhecida como backpropagation, onde os pesos da camada de saída são retro propagados usando a regra da cadeia do cálculo diferencial.

2) Simbolistas: A abordagem baseia-se na suposição de que muitos aspectos da inteligência podem ser alcançados pela manipulação de símbolos, uma suposição definida como a “hipótese dos sistemas de símbolos físicos” por Allen Newell e Herbert Simon em meados dos anos 1960. Os algoritmos de Machine Learning simbólicos são focados no desenvolvimento de sistema de manipulação simbólica e em processos cognitivos. Ou seja, buscam simular a forma com que o ser humano pensa para resolver um determinado problema mas, para isso, é necessário que se entre com as informações sobre o mesmo para que então o algoritmo desenvolva uma forma de resolvê-lo. Um exemplo de algoritmo simbolista é a indução de árvores de decisão, que criam regras automáticas que categorizam as instâncias baseados em suas variáveis. Cada nó na árvore de decisão é uma variável a ser dividida em subnós, e essa estrutura é criada de maneira otimizada de maneira a minimizar a entropia nos nós da folha (leaf nodes) da árvore.

3) Analogistas; aprendem fazendo extrapolações a partir de julgamentos de semelhança nos dados. Os mais conhecidos são os algoritmos KNN e SVM. O KNN é bem simples: Para classificar uma instância X primeiro você encontra os k pontos mais próximo de X e, a seguir, classifica os pontos pela maioria dos votos de seus k vizinhos. Cada objeto vota em sua classe e a classe com mais votos é considerada a previsão. Para encontrar os pontos semelhantes mais próximos, você encontra a distância entre os pontos usando medidas de distância como distância euclidiana, distância de Hamming, distância de Manhattan e distância de Minkowski.

O SVM usam máquinas de vetores de suporte para encontrar a melhor maneira de separar os dados. É usado técnicas de otimização matemática para encontrar a encontrar a equação que define o melhor hiperplano, maximizando as distância dos vetores de suporte (margens do hiperplano).

4) Evolucionários: São algoritmos que abduzem o processo de seleção natural de Darwin e um típico algoritmo funciona seguindo as seguintes etapas:

Initial Population – É inicializado aleatoriamente um conjunto de indivíduos que formará nossa população. No nosso caso, os indivíduos são os modelos com parâmetros escolhidos aleatoriamente;
Fitness – Devemos testar essa população em um ambiente hostil. Somente alguns indivíduos vão sobreviver. Você pode criar um ambiente hostil simplesmente estabelecendo um mínimo para o score do modelo;
Crossover e Mutation – Define os critérios para a próxima geração. Na etapa de crossover, os genes (hiperparâmetros) dos pais serão recombinados, para produzir filhos, cada filho herdando alguns genes de cada pai. Para manter a diversidade, adicionamos um pouco de mutação nos filhos;
Offspring – A próxima geração conterá os pais sobreviventes e os filhos, mantemos os pais sobreviventes para manter os melhores genes, caso o valor dos genes do filho seja pior que os pais. O processo é repetido até que os indivíduos da última geração sejam os mais bem evoluídos.

5) Bayesianos: Tem como principal motivador o famoso teorema de bayes. O pensamento Bayesiano fornece uma abordagem probabilística para a aprendizagem e está baseado na suposição de que as quantidades de interesse são reguladas por distribuições de probabilidades. Para um algoritmo bayesiano, “aprender” significa atualizar as chances a priori de um evento baseado em novas evidências a posteriori. Por exemplo, usando o teorema de Bayes, podemos encontrar a probabilidade de A acontecer, dado que B ocorreu. Aqui, B é a evidência a posteriori e A é a hipótese a priori. A suposição feita aqui é que os preditores / recursos são independentes. Ou seja, a presença de um determinado recurso não afeta o outro. Por isso que tal algoritmo é chamado de ingênuo (naive bayes).

Assim, o machine learning pode ser considerado uma implementação por humanos de técnicas em máquinas para adquirir conhecimento a partir de observações a posteriori. A origem do sucesso do aprendizado de máquina depende de sua capacidade de derivar relações entre fenômenos e potencialmente descobrir o estado oculto (latente) de um sistema (indução), ou seja, potencialmente fornecer um conhecimento verdadeiro intrínseco do sistema. A identificação do sistema e o design baseado no modelo com o auxílio do aprendizado de máquina constituem um primeiro passo para encontrar padrões de um sistema por meio de uma abordagem mista de aprendizagem a priori – a posteriori, que, retrospectivamente, segue a filosofia de Kant.

Para finalizar, cabe uma última questão. Poderá existir um algoritmo de machine learning que poderá pensar como nós? A reposta iria depender da capacidade de máquinas em poder ter uma estética e lógica transcendental, que a permitam extrair conhecimento a partir da sensibilidade com os objetos ao seu redor iue organizar seus pensamentos com o objetivo de gerar novas deduções lógicas capazes de ampliar o conhecimento científico. O principal problema é o paradoxo que surge ao criar tal máquina. Como faríamos para uma máquina procurar princípios a partir da sensibilidade e intuição do mundo, sem que precisássemos explicitamente introduzir esses princípios em suas mentes?

[1] Silva, M. R. D. (1998). Realismo e anti-realismo na ciência: aspectos introdutórios de uma discussão sobre a natureza das teorias. Ciência & Educação (Bauru), 5(1), 07-13.

[2] Kant, I. (2020). Crítica da razão pura. EDIPRO.

[3] Domingos, P. (2017). O algoritmo mestre: como a busca pelo algoritmo de machine learning definitivo recriará nosso mundo. Novatec Editora.

O post O que são modelos científicos e como eles funcionam apareceu primeiro em Estatidados.

Do scrap ao deploy com Shiny

admin — Fri, 24 Sep 2021 10:51:52 +0000

Mostrando as empresas por trás dos tickers da bolsa e prevendo seu fechamento de maneira direta

A partir do momento que você precisa deixar uma análise, modelo ou mesmo um resultado disponível para as pessoas da sua equipe em qualquer momento, é hora de lidar com o que chamamos de deploy de produtos de dados.

O termo deploy remete a ação de automatizar aquilo que você fez na sua própria máquina, deixando o algoritmo executar periodicamente a rotina programada. Esse código pode ser de uma coleta, limpeza, modelagem, análise ou mesmo todas essas etapas juntas para compor um dashboard, como iremos fazer aqui hoje.

Assim, o problema que iremos resolver aqui é: mostrar de maneira dinâmica as principais características das empresa listadas na bolsa brasileira, a ibovespa, além de aplicar um modelo preditivo para tentar prever o fechamento de cada ticker nos dias seguintes ao acesso da dashboard, de modo que o usuário possa ter uma visão geral daquela empresa e tomar suas decisões de negócio baseada em dados.

Ciclo de vida de desenvolvimento de software — Fonte: Trybe

Assim, pensando no ciclo acima e no problema exposto, seguiremos com os seguintes passos:

Coleta de dados

Vamos entender como, quando e de onde coletaremos os dados. Dessa forma, a partir disso poderemos ver onde existe necessidade de adaptar a forma como usamos a fonte de dados para “plugar” da melhor maneira no nosso dashboard.

Desenvolvimento da aplicação

Construir o painel em Shiny, pensando já que esse painel deverá “se manter sozinho”. Digo isso, pois se estamos acostumados a sempre construir uma análise para ser mantida localmente, criamos alguns hábitos como o uso de variáveis que armazenam os dados para uso linear durante o código, sofrendo mudanças que muitas vezes não podem ser desfeitas durante a compilação, como por exemplo, a limpeza de dados faltantes.

Deploy

Por fim, chegamos ao ponto de publicar no Shiny Apps. Sempre tenha em mente algumas boas práticas nessa etapa, como: verificar se o arquivo do shiny está como app.R, se esse arquivo está em uma pasta própria para o projeto e se os possíveis arquivos utilizados estão dentro dessa pasta.

Coleta de dados

Pensando nos dados que alimentaram nosso painel, teremos duas fontes, sendo elas a API do Yahoo!, a Yahoo Finance, e um scrap da Wikipedia. A escolha dessas fontes têm motivos bem simples:

A API do Yahoo é gratuita, tendo um limite de requests razoável para o nosso objetivo e a latência de atualização é viável, pensando que iremos querer somente fechamento dos tickers e não sua cotação em tempo real.
A Wikipedia em sua natureza possui um bom padrão de publicação, de modo que uma rotina de webscraping consegue facilmente consumir seus dados.

Veja que o primeiro parágrafo de uma página de empresa conta com uma introdução simples e direta da mesma.

Além disso, o site disponibiliza um card que pode ser transformado em um “cartão de apresentação” da empresa em forma de tabela.

Por fim, a própria Wikipedia disponibiliza também uma tabela com as principais empresas listadas na bolsa de valores, implantando em cada um dos nomes o link que guia para sua página na enciclopédia digital, de modo que possamos usar essa lista para construir a escolha do usuário de qual empresa ele gostaria de ver em sua tela, guiando qual “vertente” da Wikipedia devemos puxar os dados.

Desenvolvimento e deploy da aplicação

Dado que o Shiny possui um server gratuito disponível para deploy, isto é, podemos deixar nosso painel disponível para quem queira acessar (podendo até implementar uma página de autenticação, se necessário), iremos programar o dashboard em R e publicar no shinyapps.io.

É legal ressaltar que além do shinyapps, outra alternativa muito interessante para quem programa em python e deseja colocar seus dashboards em produção é o Streamlit , pelo qual podemos vincular um código no github para virar um painel.

Agora que já sabemos de todos os passos a serem seguidos, é hora de por a mão na massa!

library(tidyr)
library(dplyr)
library(rvest)
library(dygraphs)
library(BatchGetSymbols)
library(shiny)
library(forecast)# tabela de acoes
wiki1 <- "https://pt.wikipedia.org/wiki/Lista_de_companhias_citadas_no_Ibovespa"
doc1 <- read_html(wiki1) 
doc1 %>% 
    html_nodes(xpath = '//*[@id="mw-content-text"]/div/table[1]') %>%
    html_table() -> tabela_b3 
tabela_acoes <- as.data.frame(tabela_b3)

Importando as bibliotecas que serão utilizadas, podemos ver alguns nomes comuns para os mais familiarizados com R, como tidyr, dplyr, rvest e shiny. Quanto as outras bibliotecas, temos a seguinte composição:

Dygraphs: biblioteca que entrega gráficos interativos de “candle”, famosos no mundo da renda variável.
BatchGetSymbols: API do Yahoo! Finance
Forecast: algoritmos de manipulação e modelagem de séries temporais

Dito isso, começamos com o scrap de dados da Wikipedia, e para esse tarefa iremos iniciar com a coleta dos dados da tabela de tickers. Nesse momento, a ideia é que apontemos a página, por meio de uma URL, a qual iremos escolher o componente HTML que queremos coletar, e por fim, passamos o dado coletado para um dataframe.

links = doc1 %>% html_nodes(xpath = "//td/a") %>% 
    html_attr("href")
links = data.frame(links)
links = links %>% filter(!grepl("/wiki/Ficheiro",links) &  !grepl("http://www.taesa.com.br/",links))

Visto que sabemos que os links para cada empresa estão como hiperlinks, passamos novamente um “filtro” no HTML, pegando esses dados e retirando alguns erros de processamento, como duplicação ou termos que não gostaríamos que aparecesse no dataframe de links.

tabela_acoes = tabela_acoes %>% filter(`Código` != "BBDC3" & `Código` !="PETR3" & `Código` !="BRML3" & `Código` != "CCRO3" & `Código` != "ELET3")
acesso = cbind(tabela_acoes,links)
acesso = acesso %>% select(`Código`,links)

Por fim, retiramos alguns casos onde a tabela está mesclada, de modo que o join entre os links de cada empresa no Wikipedia e o ticker permaneçam na mesma ordem. Unimos os dados em um único dataframe e fechamos a etapa de coleta.

ui <- fluidPage(
    theme = shinythemes::shinytheme("united"),titlePanel("Conhecendo a B3"),sidebarLayout(
        sidebarPanel(
            h3("Escolha uma ação"),
            selectInput("escolha_acao", "Ação:", 
                        choices = acesso$Código)
        ),
        mainPanel(
            textOutput("nome_empresa"),
            tags$hr(style="border-color: white;"),tags$hr(style="border-color: white;"),
            textOutput("primeiro_paragrafo"),
            tags$hr(style="border-color: white;"),tags$hr(style="border-color: white;"),
            DT::dataTableOutput("card_wiki"),
            tags$hr(style="border-color: white;"),tags$hr(style="border-color: white;"),
            h3("Cotação Histórica da empresa"),
            dygraphOutput("candle"),
            tags$hr(style="border-color: white;"),tags$hr(style="border-color: white;"),
            h3("Previsão para os próximos dias (fechamento)"),
            tags$hr(style="border-color: white;"),
            DT::dataTableOutput("prev"),
        )
    )
)

Partindo para a construção da interface, codificamos um painel simples de seleção do ticker com SidebarPanel, alinhado a dois componentes de texto dinâmicos (título e primeiro parágrafo), uma tabela dinâmica, um gráfico candle e uma outra tabela para soltar a previsão do ticker.

server <- function(input, output) {
    
    output$card_wiki = DT::renderDataTable({
        
        acesso = acesso %>% filter(`Código`== input$escolha_acao)
        
        wiki1 <- paste0("https://pt.wikipedia.org/",acesso$links[1])
        doc1 <- read_html(wiki1) 
        doc1 %>% 
            html_nodes(xpath = '//*[@id="mw-content-text"]/div/table[1]') %>%
            html_table() -> tabela_carac_acao 
        tabela_carac_acao  <- as.data.frame(tabela_carac_acao)
        tabela_carac_acao <- tabela_carac_acao[-1,]
        
        DT::datatable(
            tabela_carac_acao , options = list(paging = FALSE,searching = FALSE))
    })
    
    output$primeiro_paragrafo <- renderText({acesso = acesso %>% filter(`Código`== input$escolha_acao)
        
        wiki2 <- paste0("https://pt.wikipedia.org/",acesso$links[1])
        doc2 <- read_html(wiki2) 
        doc2 %>% 
            html_nodes(xpath = '//*[@id="mw-content-text"]/div/p[1]') %>%
            html_text() -> primeiro_par
        primeiro_par
    })
    
    output$nome_empresa <- renderText({
        
        acesso = acesso %>% filter(`Código`== input$escolha_acao)
        
        wiki2 <- paste0("https://pt.wikipedia.org/",acesso$links[1])
        doc2 <- read_html(wiki2) 
        doc2 %>% 
            html_nodes(xpath = '//*[@id="firstHeading"]') %>%
            html_text() -> nome_empresa
        nome_empresa
    })
    
    output$candle <- renderDygraph({
        
        acesso = acesso %>% filter(`Código`== input$escolha_acao)
        
        inicio <- "2018-01-01" 
        final <- Sys.Date()
        bench.ticker <- "^BVSP"
        saida <- BatchGetSymbols(tickers = paste0(acesso$Código,".SA"), first.date = inicio, last.date = final, 
                                 bench.ticker = bench.ticker)
        saida <- as.data.frame(saida$df.tickers)
        
        row.names(saida) <- saida$ref.date
        m <- saida %>% dplyr::select(-ref.date,-price.adjusted,-volume,-ticker,-ret.adjusted.prices,-ret.closing.prices)
        colnames(m) <- c("Open","High","Low","Close")
        
        dygraph(m) %>%
            dyCandlestick()
        
    })
    
    output$prev = DT::renderDataTable({
        
        acesso = acesso %>% filter(`Código`== input$escolha_acao)
        
        inicio <- "2018-01-01" 
        final <- Sys.Date()
        bench.ticker <- "^BVSP"
        saida <- BatchGetSymbols(tickers = paste0(acesso$Código,".SA"), first.date = inicio, last.date = final, 
                                 bench.ticker = bench.ticker)
        saida <- as.data.frame(saida$df.tickers)
        
        row.names(saida) <- saida$ref.date
        d <- saida %>% dplyr::select(-ref.date,-price.adjusted,-volume,-ticker,-ret.adjusted.prices,-ret.closing.prices)
        colnames(d) <- c("Open","High","Low","Close")
        
        tabela = as.data.frame(forecast(nnetar(ts(d$Close,start = c(2018), frequency = 365)),h=4))
        tabela = format(round(tabela, 2))
        rownames(tabela) <- c(Sys.Date()+1,Sys.Date()+2,Sys.Date()+3,Sys.Date()+4)
        
        DT::datatable(tabela, options = list(paging = FALSE,searching = FALSE))
    })}

Passando para a codificação do “backend”, iniciamos a construção do server. O nome da empresa, primeiro parágrafo e tabela da Wikipedia são configurados para terem a dinâmica de usar o que o usuário escolheu, juntando com o link da Wikipedia e fazendo uma varredura na página da empresa.

Para o gráfico candle e a previsão, usamos a escolha do usuário para fazer um request na API do Yahoo! em dados de 2018 em diante, de modo que seja possível plotar e realizar uma previsão através de uma Rede Neural Feed-forward para os próximos 4 dias.

Concluindo nosso trabalho, é só publicar no Shinyapps!

O resultado pode ser visto em https://matheusduzzi.shinyapps.io/wiki/

O post Do scrap ao deploy com Shiny apareceu primeiro em Estatidados.

Otimizando carteiras de investimentos com Data Science

admin — Fri, 24 Sep 2021 10:04:42 +0000

As decisões financeiras na prática não são tomadas em ambiente de total certeza com relação a seus resultados. Por essas decisões estarem fundamentalmente voltadas para o futuro, é imprescindível que se introduza a variável incerteza (risco) como um dos mais significativos aspectos do estudo das finanças corporativas. Saber mensurar corretamente o risco e retorno de um negócio, ou seja, saber exatamente com o que está lidando, é uma das principais habilidades que um empreendedor ou um gestor de fundos precisa ter para obter sucesso.

Como então mensuramos o risco? Primeiro precisamos definir uma medida de risco. De maneira geral, medimos o risco pelo quanto de capital precisamos adicionar à nossa posição de risco para termos uma posição aceitável. Por exemplo, suponha que você tenha 1000 reais para investir no mercado de ações e quer ganhar 1 milhão de reais em três anos. O grau de incerteza de obter esse retorno seria ridiculamente alto, (mas teoricamente seria possível, bastando investir no início do dia, na ação que vai dar maior retorno no final dia, e depois trocando para a ação que vai dar maior retorno no final do dia seguinte, sucessivamente) e deveríamos adicionar um capital bastante expressivo nesse investimento para obtermos uma posição aceitável de risco.

Existe várias maneiras de medir um risco de uma carteira de investimentos. Vamos avaliar neste artigo as três mais importantes: Modelo de Markowitz, Valor em Risco (VaR) e Valor em Risco Condicional (CVaR). Mas antes disso, vamos entender o que é ter uma carteira “coerente”. A noção de coerência foi introduzida por Artzner et al e atualmente, é um conceito fundamental relacionado à aceitabilidade de uma medida de risco. A literatura introduz um número de propriedades que são usadas para determinar um medida de risco. As propriedades mais importantes para a medida de risco são

1) Invariância à translação: Se adicionarmos ou subtrairmos uma quantidade certa de nossa carteira, a medida de risco aumenta ou diminui. Matematicamente, se A é o quanto queremos adicionar aos ganhos da carteira X e p a nossa medida de risco, então p(X+A)=p(X)+A. Veja que, se trocarmos instrumentos de renda varável e alocarmos em renda fixa (nessa caso, A é negativo) a carteira diminui o risco no mesmo montante.

2) Subaditividade: Na minha opinião, é a propriedade mais importante ao se avaliar uma medida de risco. Esta medida é intimamente relacionada com o efeito da diversificação do portfólio. A medida do risco total da carteira (conjunto de ativos) é menor ou igual que a medida do risco da soma individual dos ativos da carteira (p(X1)+p(X2)). É o princípio da Teoria Moderno do Portfólio, do grande Markowitz. O VaR falha na subaditivade. Isso significa que, minimizar o VaR não garante que você vá diversificar os investimentos da carteira considerada.

3) Monotonicidade: Se os ganhos na carteira X são menores que os da carteira Y para todos os cenários possíveis, então o risco na carteira X é menor que na carteira Y (Se X1, então p(X1). Claro, num portfólio devidamente otimizado, se você quiser arriscar mais, espera que sua possibilidade de ganho seja maior. Markowitz falha na monotonicidade :(.

4) Homogeneidade Positiva: Ao aumentar o tamanho de cada posição da carteira o risco da carteira aumenta em igual proporção (p(bX)=bp(X)), sendo b uma constante). Isso significa que, se você trocar a moeda de uma carteira, ou dobrar seu investimento em cada ação, seu risco aumentará na mesma proporção. Se você aposta 100 reais num jogo de poker e depois triplica a aposta, seu risco triplica também, pois você pode perder (ou ganhar) três vezes mais do que antes.

Pronto, agora vamos entender essas três medidas de risco que comentei anteriormente.

Markowitz, VaR e CVaR. O que são?

São basicamente medidas de riscos, meios de quantificar o risco do investimento. Minimizar essas medidas significa escolher um conjunto de ativos e juntá-los com uma certa proporção específica, de tal forma que a carteira tenha o menor risco possível para um determinado retorno esperado. Vejamos cada uma delas:

Markowitz

Até a década de 50, os modelos para risco e retorno eram em grande parte subjetivos e variavam de investidor para investidor. A partir do desenvolvimento da moderna teoria do portfólio por pesquisadores como Markowitz, Sharp, Black, Scholes entres outros, foi desenvolvido um arcabouço teórico quantitativo com base na teoria econômica neoclássica. O desenvolvimento da teoria do portfólio em 1952 por Markowitz, revolucionou o estudo das finanças, fato que lhe rendeu o prêmio Nobel de economia em 1990.

O principal aspecto da teoria do portfólio é que o risco individual de um ativo é diferente de seu risco na carteira, tornando a diversificação capaz de minimizar o risco não-sistemático dos ativos em conjunto. Com a minimização, é possível escolher a proporção ideal de cada ativo no portfólio, otimizando a relação retorno/risco da carteira de títulos. A figura abaixo representa bem essa ideia: Para mais de 30 ativos, é possível mitigar praticamente todo o risco não-sistemático da carteira. O resto é risco de mercado, crédito, liquidez ou operacional.

Como exatamente é feita essa diversificação? Suponha duas empresas diretamente concorrentes, A e B, num mercado promissor. Há três possibilidades: A empresa A vence a competição, B vence ou as duas compartilham o mercado. Se você investiu seu dinheiro em uma delas você corre o risco de perder tudo caso a empresa desmorone. Investindo nas duas fará com que você reduza esse risco, pois uma parte certamente vai para a empresa vencedora. E caso as duas percam? Nesse caso, pode ter sido causado por algum fator externo que afetou o mercado, como a pandemia, por exemplo. O modelos de otimização de risco tenta minimizar o risco não-sistemático, via diversificação dos ativos. O risco sistemático não pode ser minimizado.

Como já comentei, essa medida não é coerente, pois não satisfaz a monotonicidade. Outra coisa é que o modelo CAPM (Capital Asset Pricing Models), muito conhecido no mercado financeiro, é uma simplificação da Teoria de Markowitz para tentar reduzir a complexidade computacional do método.

Valor em Risco e Valor em Risco Condicional

Aqui a ideia é entender o risco como o quanto você aceita perder. Muito simples não? Suponha que você vai fazer um investimento de 1000 reais. Seu gerente lhe diz que na carteira X você pode ter um retorno de 300% no ano e que você pode perder no máximo R$ 900 com chance de 5%. O VaR é a perda máxima esperada (não confundir com a perda máxima possível), os R$900,00, e o alfa do VaR é a chance de você perder mais que isso (no exemplo 5%). Minimizar o VaR significa escolher o melhor conjunto de ativos que, com um mesmo retorno, diminua essa perda máxima esperada.

Como já mencionei, o VaR falha na subaditividade. E pior, falha numa propriedade que o pessoal da otimização adora (eu também!), a convexidade. Felizmente, temos uma medida que, além de ser convexa, é coerente. O Valor em risco condicional (CVaR) examina as perdas que excedem o limite do Valor em Risco (VaR). No exemplo que demos da carteira X, isso significa analisar as perdas para 5%, 4%,… de chance e tirar uma média disso. O VaR e o CVaR estão intimamente relacionados e, ao minimizar o CVaR, também levará a uma redução do VaR da carteira. A figura abaixo expressa uma curva normal com as perdas esperadas do Var e CVaR e as probabilidades esperadas.

Resumindo de maneira matemática o que explicamos:

O VaR tenta resumir em um único número, a perda máxima esperada dentro de um certo prazo com um certo grau de confiança estatística

2. O CVaR pode ser definido como a esperança condicional de perdas das carteiras superiores ao VaR:

O problema de otimização

Resolver um problema de otimização é buscar a melhor utilização de recursos e processos (técnico, econômico, social ou político), através de aplicação de modelos matemáticos, visando otimizar a satisfação (utilidade) do usuário. Compreende o problema de alocar recursos escassos para realização de atividades e cita alguns exemplos de técnicas particulares da otimização:

Programação Linear: aplicada em áreas relativas à alocação de pessoal, mistura de materiais, distribuição, transporte, etc.;
Programação Dinâmica: utilizada principalmente para problemas de otimização combinatória, tem aplicações em a áreas como planejamento de despesas de publicidade, distribuição do esforço de vendas e programação de produção;
Teoria das Filas: área que estuda analisar a formação de filas, é aplicada na solução de problemas relativos a congestionamento de tráfego, máquinas de serviços sujeitas à quebra, determinação do nível de uma força de serviço, etc.;
Programação Não Linear: é um modelo matemático onde a função objetivo, as restrições ou ambas, apresentam não linearidade em seus coeficientes.

Na área de investimentos, é utilizado métodos de programação linear ou não-linear para maximizar ou minimizar a função objetivo. Um modelo de otimização para investimentos envolve os seguintes conceitos:

Função objetivo: Representa o principal objetivo do tomador de decisão. No modelo de VaR é dada pela minimização da perda máxima esperada ou maximização do retorno da carteira. É uma função multi-objetivo, então a solução é uma curva, a fronteira eficiente, com a perda mínima para cada retorno.
Restrições: Diz o que é possível ou não fazer e quais são as limitações dos recursos ou atividades que estão associados ao modelo. No modelo em questão, as limitações são: a participação dos ativos precisa ser maior que zero, a soma de as participações deve ser igual a 1, e colocar um retorno mínimo exigido pelo cliente, ou um risco máximo, dependendo do objetivo do investido.
Variáveis de decisão: variáveis que podem ser controladas pelo tomador de decisão. No modelo correspondem à participação ao peso de cada ativo no portfólio.

Vejamos o modelo para o problema de minimização do CVaR. A partir de uma série da manipulações matemáticas, Rockafellar e Uryasev (2000) reescreve o cálculo do CVaR em termos de uma função, dada por

Para o caso de valores discretos, a equação acima pode ser reescrita como:

Dessa maneira, Rockafellar e Uryasev (2000) usa a função F linear para definir a forma para a otimização de uma carteira de ações utilizando o CVaR como medida de risco:

onde n é o tamanho da amostra e w_i a proporção de cada ativo na carteira.

Resultados na Prática

Vamos avaliar o modelo para otimização do VaR e CVaR utilizando 30 ações da bolsa de valores do Brasil. Utilizaremos como histórico o retorno das ações desde o começo da pandemia (para evitar envasamento histórico de análise, já que a pandemia alterou a dinâmica do mercado de ações).

Agora, utilizando a biblioteca de otimização scipy do python, conjuntamente com bibliotecas que fazem interpretações das integrais, traduzimos a função objetivo e as restrições para o código e, usando como técnica de otimização linear o simplex revisado, construímos a fronteira fronteira eficiente para o VaR e CVaR.

Os gráficos abaixo expressam o retorno para cada valor em risco considerado. Devido ao fato da otimização do VaR não ser convexa, a fronteira eficiente da otimização com o VaR tem um comportamento mais “caótico” comparada à otimização com o CVaR, que tem um comportamento mais suave.

O CVaR varia de 10% a 30% com retorno de 6% a 16 % do valor investido. Essa abordagem também levou a uma redução no VaR, uma vez que é um fator envolvido no processo de minimização do CVaR. Vale lembra que o CVaR é uma medida mais conservadora, o que explica um risco maior do CVaR, dado o mesmo retorno, que o VaR.

O gráfico de área abaixo expressa a proporção de ativos na carteira para cada valor em risco considerado.

O resultado final é, para um dado valor em risco, as ações que devo investir e em qual proporção, para o meu portfólio ótimo. Exemplo, caso eu queira assumir um CVar de 20%, o conjunto de ativos que me trariam o melhor retorno seria:

Trans Paulista (TRPL4) – 82%, Suzano Papel (SUZB3) – 13%, Bradespar (BRAP4) – 3%,

Itausa (ITSA4) – 2%.

Backtest

Para validarmos o modelo, é importante fazer uma análise de backtest. O objetivo do backtest é analisar quais seriam os resultados de um carteira ótima criada num período anterior ao atual, verificando a evolução do retorno da carteira desde o instante em que ela foi criada, até o instante atual.

Analisando a evolução do retorno para 5 níveis de risco diferentes, podemos notar o seguinte:

Quanto maior o risco, mais volátil será a carteira;
Em nenhum dos casos a perda ultrapassou a perda máxima esperada. Exemplo, para um CVaR de 20%, o ponto mínimo foi de 4600 (8% de perda);
Para esse caso em particular, o CVaR de 25% acabou perfomando melhor, inclusive gerando um retorno de 6,72% durante o período avaliado (dentro do esperado ao verificar a fronteira eficiente).

Bônus: Minimizando medidas de risco usando a Teoria da Evolução

O que a Teoria da Evolução tem a ver com tudo isso que fizemos? Bom, se você entendeu a matemática da função objetivo, sabe que essas fórmulas do VaR e CVaR são bastante “cabeludas”. Existem algoritmos de otimização específicos para cada um dos problemas (programação linear para o CVaR, programação quadrática para Markowitz e algum método de otimização não-convexa para o VaR), mas não que minimiza os três com o mesmo método. Para minimizar o risco das três carteiras que estudamos, podemos usar um algoritmo genético da inteligência artificial que é baseado na Teoria de Darwin, o Differential Evolution (DE). O DE tem se apresentado como um simples, mas poderoso algoritmo de otimização numérica para busca da solução ótima global, sendo aplicado com sucesso na solução de vários problemas de otimização complexa.

Para otimizar um portfólio utilizando o algoritmo DE, melhoramos iterativamente uma solução candidata de uma população gerada de carteiras, c1,…,c𝑖, 𝑖 = 1,…, n onde cada carteira contém N elementos e representa as variáveis objetivas, ou seja, os retornos históricos dos ativos do portfólio. A DE visa otimizar o trade-off entre risco e retorno, em vez de minimizar o risco de um determinado retorno específico, ou seja, teremos uma avaliação de retorno para diversos riscos possíveis. Isso é o que chamamos de fronteira eficiente da carteira.

A ideia básica do DE é produzir uma nova solução para cada carteira atual, onde a nova solução é uma combinação de quatro soluções atuais na população. Funciona da seguinte maneira:

1) Selecione uma carteira (c0) da população atual, que será nossa carteira-pai. Em seguida, selecione aleatoriamente três carteiras diferentes, usando um deles como uma carteira-base e adicione a diferença ponderada das outras duas para construir uma nova solução,

cm=c1+F*(c2-c3),

onde 𝐹 é um fator de mutação entre 0 e 1 que controla a taxa na qual a população de carteiras evolui. A solução dessa fórmula, cm, será nossa carteira-mutante.

2) Agora, realizamos um cruzamento entre a carteira-pai e a carteira-mutante. Cada elemento na carteira-filha será determinado por uma taxa de crossover (CR – razão de cruzamento) definida pelo usuário, onde 𝐶𝑅 está entre 0 e 1, e um número gerado pseudo-aleatório ε. O cruzamento controla a fração de valores de parâmetros copiados da carteira-mutante, de modo que, se o número gerado for menor que a razão de cruzamento, a carteira-filho herdará o elemento 𝑗 da carteira-pai. Da mesma forma, se o número gerado for maior ou igual à razão de cruzamento, a carteira-filho herdará o elemento 𝑗 da carteira-mutante. A figura abaixo dá a visualização gráfico disso:

3) Há ainda algumas medidas para evitar que os ativos saiam do espaço viável de soluções, pois não podemos ter carteiras com ativos que, somados, dão pesos maiores que 100%. Para resolver isso, lembre-se de normalizar todas as carteiras de sua população.

Hora da prática

Apresentamos aqui a escolha de parâmetros para o algoritmo DE e comparamos seus resultados com outras técnicas de otimização. Consideramos uma carteira composta apenas por ações e assumimos que os retornos diários dos registros são normalmente distribuídos. Com relação aos dados, vamos utilizar 25 ações da BM&Fbovespa, usando cotações históricas diárias de 5 anos. Além disso, vamos assumir que há 252 dias de negociação por ano e, assim, escalaremos os retornos proporcionalmente ao tempo. Para a programação dos algoritmos, eu utilizei o software Matlab.

Primeiro veremos a medida de Markowitz. Para o caso da volatilidade, na figura abaixo fizemos uma comparação entre o método de otimização quadrática e a evolução diferencial, com parâmetros N = 25, F = 0,5, CR = 0,7 e ε = 1%. A fronteira da carteira indica o quanto de risco você você assume para cada retorno esperado. Podemos ver que o retorno esperado ideal sobre o investimento varia de 16% a 35%, e a volatilidade de 13% a 22%, ou seja, a tendência de movimento da carteira. Além disso, ao analisar os retornos e riscos dos ativos individualmente, vemos que a diversificação representa um risco menor e, ao mesmo tempo, produz um retorno maior, onde cada portfólio ideal fica ao longo da fronteira eficiente.

Para mostrar que o DE pode lidar com qualquer medida de risco, usamos a abordagem de R. T Rockafellar e S. Uryasev para minimizar o CVaR comparando as soluções do algoritmo DE com o de programação linear. Usamos aqui a mesma suposição do último caso e aproximamos os retornos. Em seguida, vamos otimizar o CVaR usando os mesmos parâmetros de antes. Esses valores foram escolhidos pois são que oferecem melhor acurácia em um tempo admissível (Dependendo dos parâmetros que você escolhe, pode ficar até dias esperando sua carteira “evoluir”). Temos então a seguinte fronteira:

O CVaR varia de 30 % a 100 % do valor investido, que é a proporção média de um capital de investidores que será perdido para o nível de probabilidade de perda de 5%. Essa abordagem também levou a uma redução no VaR, uma vez que é um fator envolvido no processo de minimização do CVaR. Para o VaR, na figura abaixo, vemos que o valor varia de 22% a 70%. De qualquer forma, vemos que o DE está na fronteira eficiente e podemos confirmar que as soluções são as mesmas para os métodos específicos de cada método, investigando novamente a distribuição do peso do portfólio.

Percebeu que a fronteira do VaR é um pouco “deformada”? Isso é justamente devido ao fato de não termos aqui aquela propriedade da convexidade envolvida.

Bom, agora vamos para o que importa. Quais os ativos e quanto investir em cada um para formar uma carteira eficiente evoluída? vEis os resultados de acordo com Markowitz e o CVaR:

Nesses gráficos, para cada Volatilidade (Risco) e CVaR, temos uma proporção de ativos diferentes. Por exemplo, para termos um CVaR de 65%, temos que investir 27% na ITUB4 28% na EMBR3 e 45% na B3SA3.

Concluindo, mostramos como fazer uma carteira eficiente e também verificamos que a Evolução Diferencial é um algoritmo de busca robusto que pode ser aplicado ao problema do minimização de uma carteira. Com relação ao tempo médio de execução do algoritmo, outras estratégias no processo de mutação poderiam ser úteis no processo de obtenção de um tempo mais rápido.

#cienciadedados #pesquisaoperacional #financas

O post Otimizando carteiras de investimentos com Data Science apareceu primeiro em Estatidados.