O que a pandemia do Coronavírus pode ter ensinado para quem trabalha com Data Science? Como conceitos da Estatística funcionam na prática?
Se você trabalha com Data Science e gosta de aprender cada vez mais sobre esse universo apaixonante, a pandemia do Coronavírus serviu para aprender como funciona na prática muitos conceitos estatísticos pouco intuitivos!
Resolvi compartilhar com os vocês detalhes por trás desses conceitos porque percebi que muitas dúvidas surgidas na população ao longo desses meses são as mesmas manifestadas por meus alunos nas disciplinas metodológicas que ministro na Universidade Federal de Goiás. Sinta-se livre para deixar seu comentário, enriquecer esse debate e fazer crescer a área de Análise de Dados no Brasil…
1º conceito: Endogeneidade ou comportamento estratégico da população após divulgação das previsões iniciais do número de mortes
Endogeneidade é um nome feio e sua definição pouco intuitiva. Formalmente, é definida como existência de correlação entre o termo de erro de uma regressão e suas variáveis independentes. Como resultado indesejado, a endogeneidade subestima ou superestima os coeficientes da regressão. Ok, mas como isso funciona na realidade do Coronavírus? Vocês perceberam que muitos modelos epidemiológicos erraram muito nas suas previsões?
Bom, isso aconteceu porque assim que foram divulgadas as previsões mais pessimistas sobre a quantidade de mortes, as pessoas ‘adaptaram’ suas ações e mudaram seus comportamentos. Por exemplo: se íamos ao shopping para fazer compras, agora fazemos apenas online. Se antes comíamos em restaurantes, agora pedimos tudo no formato delivery.
Endogeneidade: as pessoas ‘adaptaram’ suas ações e mudaram seus comportamentos
Resultado: Como a população ‘ajustou’ seu comportamento em função da divulgação alarmante do número de mortes, aqueles modelos que se baseavam em premissas ‘fixas’ de comportamento ficaram mais inclinados a errar muito nas suas previsões.
2º conceito: Amostragem não-aleatória que inflaciona a taxa de mortalidade.
Muitas pessoas não conseguem entender porque o Brasil apresenta taxas de mortalidade acima da média, muito superiores do que a apresentada por outros países (5% no Brasil contra 0,5% em alguns lugares do mundo, por exemplo).
Por que isso acontece por aqui?
Como nosso País não vem realizando testagem em massa, a amostragem daqueles que fazem testes se resume às pessoas com maior probabilidade de estarem infectadas. Ou seja, na maioria das vezes quem faz o teste é quem suspeita que está infectado ou apresenta sintomas graves de doenças respiratórias. Esse é um exemplo clássico de amostragem não-aleatória, pois as pessoas que contraíram o vírus e não manifestaram a doença ou aquelas não infectadas não apresentam a mesma probabilidade de serem testadas que as do primeiro grupo.
Amostragem não-aleatória: na maioria das vezes quem faz o teste é quem suspeita que está infectado ou apresenta sintomas graves de doenças respiratórias
3º conceito: Média móvel de mortes e novos casos como forma de suavizar tendências lineares
A Internet está infestada de gráficos e mais gráficos que mostram a média móvel de mortes e novos casos de COVID e pouca gente consegue compreender a racionalidade por trás dessa simples operação matemática.
Conceitualmente, uma média móvel é utilizada para suavizar tendências temporais, eliminar ‘ruídos’ e oscilações mais fortes em dinâmicas de dados em série. Portanto, o uso da média móvel em gráficos para retratar a evolução do COVID-19 tem como objetivo principal eliminar essas diferenças aleatórias e sistemáticas, como diferenças entre dias de registro das mortes, cidades, estados e assim por diante.
Média móvel: o uso da média móvel em gráficos para retratar a evolução do COVID-19 tem como objetivo principal eliminar essas diferenças aleatórias e sistemáticas
Estamos presenciando vários conceitos teóricos de Estatística e Data Science manifestados na realidade. Isso é ao mesmo tempo pouco comum e enriquecedor para aqueles que gostam de aprender sobre o tema. Esse momento é único para quem trabalha com modelagem para explicar fenômenos e comportamentos.
Vamos tentar aproveitá-lo da melhor possível, apesar da difícil situação que a Saúde Pública brasileira enfrenta.
#estatística #data #science #modelos
Vídeos de Marketing Analytics professor Marcos Severo no Estatidados: