Arquivos Machine learning - Estatidados

CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)

admin — Thu, 09 Jun 2022 18:35:17 +0000

PUBLISHED ON 4 DE JUN DE 2022 — BIG DATA, MACHINE LEARNING, PROGRAMMING, R, STATISTICS

Olá, no texto de hoje será abordado o CRISP-DM, este que é uma das metodologias ou processo (particularmente prefiro esse termo) que pode ser utilizado na jornada de desenvolvimento de soluções com dados. Apesar do foco do texto caminhar pelo CRISP-DM, existem outros processos propostos na literatura, dois deles são o famoso KDD – Knowledge Discovery in Databases (Descoberta de Conhecimento em Bases de Dados) proposto por Fayyad et al (1996) e o SEMMA acrônimo de Sample, Explore, Modify, Model e Assess (Amostra, Explorar, Modificar, Modelar e Avaliar), desenvolvido pelo Instituto SAS.

Desenvolvido em 1999 por meio dos esforços de um consórcio composto inicialmente pela DaimlerChrysler, SPSS e NCR, o CRISP-DM – Cross Industry Standard Process for Data Mining (Processo Padrão Inter-Indústrias para Mineração de Dados) surgiu como forma de apoio ao processo de descoberta do conhecimento e para padronizar os processos de mineração de dados em todos os setores. Desde então, este processo é um dos mais utilizados para projetos de mineração de dados, estatística, análise e ciência de dados.

Os times de ciência de dados que combinam uma implementação flexível do CRISP-DM com abordagens abrangentes de gerenciamento de projetos ágeis baseadas em equipe, provavelmente obterão melhores resultados.

O CRISP-DM é formado por 6 fases, que podemos descrever como:

Compreensão do Negócio: O que o negócio precisa?
Compreensão dos Dados: Que dados temos/precisamos? Está ‘limpo’, tratado, prontos para uso?
Preparação dos Dados: Como organizamos os dados para modelagem?
Modelagem: Quais técnicas de modelagem devemos aplicar?
Avaliação: Qual modelo melhor atende aos objetivos do negócio?
Desenvolvimento:Como as partes interessadas acessam os resultados?

Abaixo é mostrado uma figura que representa o processo CRISP-DM e como as fases se interrelacionam:

Etapas do CRISP-DM.Fonte: próprio autor.

A seguir serão detalhados as etapas como forma de deixar mais claro o que é necessário extrair e executar em cada uma delas.

1. Compreensão do Negócio

Nesta primeira fase de compreensão do negócio, o foco é no entendimento dos objetivos e requisitos do projeto. Conhecer e compreender o problema a ser resolvido é de suma importância neste processo. Perceba que no próprio diagrama existem retornos para esta fase a partir de outras etapas do processo, ou seja, podem ocorrer falhas durante o processo por má compreensão do negócio. Para fins de tentar mitigar estes riscos de má compreensão, o CRISP-DM determina algumas atividades nesta fase, conforme é descrito a seguir:

Determine os objetivos de negócios: entender completamente de uma perspectiva de negócios, o que o cliente realmente deseja realizar e, em seguida, definir os critérios de sucesso do negócio.
Avalie a situação: determine a disponibilidade de recursos, os requisitos do projeto, avalie riscos e contingências e realize uma análise de custo-benefício.
Determine as metas: Além de definir os objetivos de negócios, você também deve definir como é o sucesso de uma perspectiva técnica.
Produza o plano do projeto: selecione tecnologias e ferramentas e defina planos detalhados para cada fase do projeto.

Outros pontos interessantes que podem deixar o entendimento mais completo são:

Identificar os especialistas na organização: Os especialistas da área de negócio (domínio), o pessoal da TI, bem como os responsáveis pela tomada de decisão precisam conhecer o processo. É comum nesta etapa, realizar treinamentos para fins de nivelamento de conhecimento do pessoal em torno do processo e onde o CRISP-DM estará atuando.
Levantar e esboçar as necessidades e expectativas: As pessoas que estarão envolvidas no processo, precisam expor suas necessidades, principalmente aqueles que irão lidar com os dados e informações obtidos para posterior análise e tomada de decisão. É comum serem feitas rodadas de reuniões com estas pessoas para fins de elencar os objetivos e necessidades.
Levantamento dos hardwares e softwares: A organização não é feita apenas de pessoas, mas também de ferramentas e neste sentido se faz necessário conhecer o que existe disponível ou não. O CRISP-DM orienta que o processo seja realizado em plataforma que possua arquitetura expansível, com capacidade de suportar grandes volumes de dados, com grandes chances destes dados serem heterogêneos e que possa ter capacidade de processamento compatível com o volume de dados.
Fazer inventário das bases de dados existentes: É importante conhecer o que a organização possui de bases de dados internas e do acesso e uso de bases de dados externas. Neste momento, se faz necessário também observar potenciais bases de dados externas que guardem relação com o negócio da organização e por isso podem fazer parte do processo.
Verificar a existência de DW (Data Warehouses) na organização: Caso a organização possua dados armazenados em bases multidimensionais, como os Data Lake, Data Warehouses, Data Marts, é possível que ela já tenha estabelecido um processo ETL e neste caso haverá um ganho de esforço no restante do processo.

2. Compreensão dos Dados

Esta fase geralmente é executada juntamente com a fase anterior (Compreensão do Negócio), em que o estudo sobre as informações coletadas se faz necessário e deve ser feita de forma detalhista. Aqui neste caso, o foco é direcionado para identificar, coletar e analisar os conjuntos de dados que podem ajudá-lo a atingir as metas do projeto. Podemos definir essa fase através de algumas tarefas:

Solicite dados iniciais: adquira os dados necessários e (se necessário) carregue-os em sua ferramenta de análise.
Descreva os dados: examine os dados e documente suas propriedades de superfície, como formato de dados, número de registros ou identidades de campo.
Explorar dados: aprofunde-se nos dados. Consulte-o, visualize-o e identifique relacionamentos entre os dados.
Verificar a qualidade dos dados: o quão “limpos/sujos”, “tratados/não tratados” estão os dados? Documente quaisquer problemas de qualidade.
Verificar se a volumetria dos dados atende ao negócio: refere-se a quantidade de dados que será utilizada, pois amostras pequenas de dados podem não ser úteis para o processo, portanto é importante que seja feito um acordo para o fornecimento de volume de dados adequado.

3. Preparação dos Dados

Esta fase, prepara o(s) conjunto(s) de dados final(is) para modelagem. As diversas ferramentas analíticas que podem ser usadas nesta fase, apesar de oferecerem muitos recursos, impõem alguns requisitos sobre os dados quanto ao seu formato, gerando a necessidade de formatações e/ou transformações dos mesmos. Nesta estapa é possível dividir em cinco tarefas distintas:

Selecionar dados: determine quais conjuntos de dados serão usados e documente os motivos da inclusão/exclusão.
Limpeza dos Dados: muitas vezes esta é a tarefa mais demorada. Sem ele, você provavelmente será vítima do "lixo que entra e sai do lixo". Uma prática comum durante esta tarefa é corrigir, imputar ou remover valores incorretos.
Construir dados: Derive novos atributos que serão úteis. Por exemplo, derivar o índice de massa corporal de alguém dos campos de altura e peso.
Integrar dados: crie novos conjuntos de dados combinando dados de várias fontes.
Formatar dados: Reformate os dados conforme necessário. Por exemplo, você pode converter valores de string que armazenam números em valores numéricos para poder realizar operações matemáticas.

4. Modelagem

A modelagem é o principal local onde as técnicas são aplicadas aos dados. É importante ter alguma compreensão dos conceitos de modelagem, incluindo os tipos de técnicas e algoritmos existentes. É aqui que você provavelmente construirá e avaliará vários modelos com base em várias técnicas de modelagem diferentes. Esta fase tem quatro tarefas:

Selecione técnicas de modelagem: Determine quais algoritmos se adequam a problemática, por exemplo: regressão, rede neural, etc.
Gerar design de teste: enquanto aguarda sua abordagem de modelagem, pode ser necessário dividir os dados em conjuntos de treinamento, teste e validação.
Modelo de construção: Aqui é etapa da execução da modelagem dos algoritmos utilizando a tecnologia selecionada.
Modelo de avaliação: Geralmente, vários modelos estão competindo entre si, e o cientista de dados precisa interpretar os resultados do modelo com base no conhecimento do domínio, nos critérios de sucesso predefinidos e no design do teste.

5. Avaliação

O insumo desta fase é a saída da fase anterior em forma de um ou mais modelos. Aqui na fase avaliação, é analisado qual modelo atende melhor ao negócio e o que fazer em seguida. Esta fase possui três tarefas:

Avalie os resultados: os modelos atendem aos critérios de sucesso do negócio? Qual(is) devemos aprovar para o negócio?
Processo de revisão: revise o trabalho realizado. Alguma coisa foi esquecida? Todas as etapas foram executadas corretamente? Resuma as descobertas e corrija qualquer coisa, se necessário.
Determine as próximas etapas: Com base nas três tarefas anteriores, determine se deve continuar com a implantação, iterar mais ou iniciar novos projetos.

6. Desenvolvimento

A fase de desenvolvimento consiste da definição das fases de implantação do projeto, levando em consideração que o modelo resultante da fase de modelagem precisa ser factível de ser usado, ou seja, digamos que um modelo não é particularmente útil a menos que o cliente possa acessar seus resultados. A complexidade desta fase varia muito. Esta fase final tem quatro tarefas:

Planejar a implantação: desenvolva e documente um plano para implantar o modelo.
Plano de monitoramento e manutenção: desenvolva um plano completo de monitoramento e manutenção para evitar problemas durante a fase operacional (ou fase pós-projeto) de um modelo.
Produzir relatório final: a equipe do projeto documenta um resumo do projeto que pode incluir uma apresentação final dos resultados das etapas realizadas.
Revisão do projeto: conduza uma retrospectiva do projeto sobre o que deu certo, o que poderia ter sido melhor e como melhorar no futuro.

Conclusão

Como uma forma de finalização desse post, com uma conclusão, podemos escrever alguns pontos para que seja possível aproveitar ao máximo os benefícios da CRISP-DM, para suprir as fraquezas ou pontos negativos existentes.

Sendo assim, pense sempre em fazer a equipe se concentrar estritamente em entregar lançamentos menores de todas as etapas e frequentemente solicitar feedback ao longo do caminho, evitando dessa forma cair em uma armadilha em cascata trabalhando minuciosamente em todas as etapas do projeto, e raramente retornar a uma etapa anterior, e a entrega ser um “big bang” no final do projeto porque a sua primeira entrega pode não ser muito útil, por estar nas fases iniciais do processo.

As etapas do processo exigem muita documentação, assim o gasto de tempo fazendo documentações poderá ser maior do que fazendo qualquer outra coisa, entretanto, procure sempre documentar o que for suficiente… mas não precisa exagerar. Não se esqueça também das tecnologias atuais: adicione etapas para aproveitar arquiteturas de nuvem e práticas de software modernos, como controle de versão git e pipelines de CI/CD ao seu plano de projeto, quando apropriado.

O CRISP-DM carece de estratégias de comunicação com as partes interessadas. Portanto, certifique-se de definir expectativas e se comunicar com eles com frequência.

E por fim, combine com uma abordagem de gerenciamento de projetos. Como uma declaração mais generalizada do item anterior, o CRISP-DM não é realmente uma abordagem de gerenciamento de projetos. Assim, combine-o com uma estrutura de coordenação de ciência de dados. As abordagens ágeis populares incluem: Kanban, Scrum e Scrum Orientado a Dados.

Fontes:

Azevedo, A. e Manuel, F.S. “KDD, SEMMA and CRISP-DM: a parallel overview.” IADS-DM (2008).

Fayyad, U. M. “Data mining and knowledge discovery: making sense out of data”. IEEE Expert, Vol. 11 No. 5, pp. 20-25 (1996).

https://dnc.group/blog/data-science/metodologia-crisp-dm/

https://www.datascience-pm.com/crisp-dm-2/

https://blog.grancursosonline.com.br/processo-de-mineracao-de-dados-com-crisp-dm/

Texto baseado nas fontes citadas.

“Post gerado com framework HUGO (http://gohugo.io/), R Markdown (http://rmarkdown.rstudio.com/), no qual os resultados são gerados na geração da página.”

TAGS: BIG DATA, MACHINE LEARNING, PROGRAMMING, R, STATISTICS

Post original: https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/

O post CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados) apareceu primeiro em Estatidados.

O que são modelos científicos e como eles funcionam

admin — Fri, 24 Sep 2021 12:15:13 +0000

Com o conhecimento científico foi possível a realização de feitos antes inimagináveis, como a comunicação à velocidade da luz, nanotecnologia, fissão nuclear, viagem ao espaço, inteligência artificial, dentre outras. O poder do conhecimento científico está na criação de modelos que representam a realidade ou um fragmento de um sistema. Eles são usados na construção de teorias científicas, que visam capturar a estrutura ou dinâmica da própria realidade. A validação de uma teoria envolve testar hipóteses, que é baseada na análise de padrões encontrados em dados empíricos. Quer a hipótese seja baseada em dados ou na teoria, um conjunto de dados empíricos precisa estar disponível para testar os resultados do modelo. Em seguida, um processo algorítmico é projetado e implementado com o objetivo de descrever matematicamente a estrutura ou dinâmica de interesse. Posteriormente, o modelo é executado e validado comparando dados simulados com dados empíricos. Os insights resultantes inspiram novas hipóteses científicas e o modelo é refinado iterativamente ou novos modelos são desenvolvidos.

Uma pergunta que instiga muitos filósofos epistemológicos é como modelos são criados. Isso significa entender como ocorre o processo de aprendizado de um conhecimento científico, ou seja, entender como, a partir de dados experimentais, conseguimos extrapolá-los e criar modelos confiáveis. O que significa ser confiável na metodologia científica? Como ocorre o processo de generalização a partir da dedução e da indução do conhecimento empírico para um princípio universal, como as leis de Newton ou a mecânica quântica?

Indo além do mero aprendizado humano, pode-se questionar ainda os atuais modelos de aprendizado de máquina e fazer os mesmos questionamentos: Como máquinas aprendem e geram modelos confiáveis baseados apenas em dados empíricos? O que veremos nesse artigo é um paralelo entre filosofia, ciência e a inteligência artificial para nos aprofundarmos nesses questionamentos. Veremos o que significa um “bom modelo” na ciência e como o teste de hipóteses valida o conhecimento científico. Também será discutido a “fonte do conhecimento”, com suas escolas de pensamento empirista e racionalista e onde o aprendizado de máquina se encontra.

O que caracteriza um bom modelo?

Em certo sentido, todos os modelos estão errados. Isso implica que nenhuma descrição da realidade é a última e todos os modelos atuais estão sujeitos a refinamentos conforme novos dados são apresentados.

“Todos os modelos implicam em esquematizações e simplificações que se traduzem em “suposições”. E cada suposição de um modelo é uma fonte possível de erro.”

Dessa maneira, entendemos que ao criar um modelo, o objetivo não deve ser criar uma descrição última ou perfeita da realidade, e sim minimizar o erro entre a realidade objetiva e a descrição subjetiva dada pelo modelo. Mas existe uma descrição última da realidade que pode ser representada por um modelo matemático perfeito? Esse é um debate filosófico interessante, iniciada por Platão e Aristóteles, e ainda continua sem resposta, com duas correntes filosóficas concorrentes: a realista e a antirrealista.

Platão defende em obras como A República e Fédon, que o conhecimento só é alcançado quando atingimos a “ideia” ou “conceito” do objeto. Essa ideia estaria em um mundo independente das objeto, no “Mundo das Ideias”. Exemplo: Um modelo de um cavalo seria representação ideal (no mundo das ideias) de um cavalo e o cavalo real seria uma forma imperfeita desta ideia. O mesmo pode-se dizer de conceitos como Justiça, Beleza, etc. Existe um único modelo perfeito que descreve esses conceitos, que estão no Mundo das Ideias. Aristóteles, por outro lado, critica Platão justamente por criar uma independência entre a ideia abstrata do objeto e o objeto em si. Ele concorda, por exemplo, que a observação e comparação de diferentes tipos de cavalo levam a um grupo de aspectos que definem o “modelo de cavalo”, mas tal modelo não existe independentemente, e sim são uma maneira de categorizar objetos com atributos semelhantes a “cavalos” observados empiricamente.

Atualmente, o debate se divide entre realistas e antirrealistas. Apesar das diversas interpretações, em geral podemos dizer que o realismo sobre objetos matemáticos, modelos científicos ou processos mentais, se caracteriza pela afirmação de que os objetos em questão “realmente existem”, ou “desfrutam de uma existência independente de qualquer cognição”, ou “estão entre os constituintes últimos do mundo real” [1]. Realistas dizem que os cientistas interpretam “todas as teorias científicas como tentativas de descrições da realidade”. Usando como exemplo a teoria da gravitação universal de Newton, Força, inércia, gravidade, são entidades que realmente existem, pois elas revelam a estrutura causal do mundo. Um antirrealista acredita justamente no contrário. Berkeley, famoso antirrealista, contra-argumentaria Newton afirmando que essas entidades são apenas criações teóricas que compilam a bem e experiência dos sentidos, mas não existem em um “Mundo das Ideias Platônico” ou é a última descrição da realidade. Se você já ouviu a discussão “A matemática é descoberta ou inventada?”, saiba que isso é basicamente uma discussão profunda sobre o realismo e antirrealismo da matemática.

Pensando de maneira mais concreta, independente se tais modelos existem ou são constructos mentais, é importante entender o que caracteriza um bom modelo, seja ele físico, biológico, econômico, etc. As principais características de tais modelos são:

Parcimônia – Aqui temos a questão da simplicidade: Modelos que dependem de menos suposições para explicar um determinado fenômeno são preferíveis. Isso evita o sobreajuste (overffiting), e tais modelos podem falhar em fazer previsões para situações ainda não observadas. Cientistas e analistas de dados conhecem muito bem esse problema, e técnicas rotineiras, como o cross-validation, são tentativas de evitar o overffiting. Na ciência, um exemplo interessante era o debate entre geocentrismo e heliocentrismo. O modelo geocêntrico era demasiadamente complicado, pois ao assumir que a Terra era o centro do Sistema Solar, teria que criar “epiciclos” nas órbitas de outros planetas para explicar os problemas de perspectiva do movimento dos planetas ao serem observados na Terra. Aliás, falharia completamente se tivesse que explicar as órbitas em exoplanetas, algo que não acontece com o heliocentrismo.

Perspicácia – São modelos que revelam propriedades fundamentais do objeto que está sendo representado. Quando Newton, escreveu que sua teoria é “O Sistema do Mundo” ele não estava exagerando: Ele revelou propriedades fundamentais da gravidade, como a teoria da gravitação universal e as famosas Leis de Newton, que revolucionou a física em sua época. Um modelo ainda mais perspicaz é a Teoria da Relatividade Geral, onde Einstein entendeu a gravidade como a distorção causada pela matéria no tecido do próprio Espaço-Tempo.
Generalização – São modelos que podem ser aplicados em uma ampla gama de situações. Por exemplo, as Leis de Newton podem explicar porque as maças caem enquanto a Lua não. As equações de Maxwell são capazes de explicar satisfatoriamente todos os fenômenos elétricos e magnéticos existentes e unificá-lo num único modelo , descrita pela Teoria Eletromagnética. Indo além, físicos buscaram criar modelos ainda mais gerais, buscando unificar as forças fundamentais da natureza: a unificação da força eletromagnética com a força nuclear fraca gerou a Teoria Eletrofraca, e uma unificação ainda maior, adicionando a força nuclear forte, gerou a chamada Grande Teoria Unificada (GUT) que pode explicar fenômenos que aconteceram próximo ao Big Bang, quando tais forças ainda não eram distintas. O Santa Graal da física é a unificação de todas as forças fundamentais numa única teoria (A Teoria de Tudo), mas a gravidade, a mais fraca das forças, ainda é difícil de ser explicada em nível quântico, causando total incompatibilidade entre a Teoria da Relatividade Geral e a Mecânica Quântica.
Falseabilidade – Essa é uma propriedade fundamental da ciência. Todos os modelos científicos devem passar por um teste que possa verificar se determinada ideia, hipótese ou teoria é falsa. Um modelo é falseável se e somente faz previsões não triviais que podem, em princípio, ser falsificadas empiricamente. Se um modelo não faz previsões falsificáveis, então o modelo não pode ser avaliado empiricamente. Tal propriedade está diretamente relacionada com a previsão, já que para passar na falseabilidade, a predição do modelo deve ser avaliada no teste de hipóteses, onde o status quo e a hipótese alternativa (do modelo) são avaliado com dados observáveis. A teoria de Newton foi extensivamente avaliada em diversos fenômenos onde foi comprovado o poder de previsão. Apesar disso, em alguns fenômenos, onde o efeito gravitacional é muito forte ou onde o objeto está próximo à velocidade da luz, a teoria falha, e é necessário considerar efeitos relativísticos, que só podem ser explicadas pela relatividade especial e geral de Einstein. Uma teoria famosa que por enquanto nem teoricamente pode ser falseada é a Teoria da Supercordas, tentativa de unificar todas as forças fundamentais, onde os menores constituintes da realidade são pequenos filamentos de energia semelhantes a pequenas cordas vibrantes. O problema é que para detectar essas cordas seria necessário um acelerador de partículas maior que o sistema solar. Devido a essa impossibilidade de verificar se a teoria está correta ou não, muitos físicos não consideram a Teoria das Supercordas como ciência.

Teste de hipóteses: como os modelos são avaliados

O Teste de hipóteses é um procedimento estatístico fundamental na tomada de decisões, entre aceitar ou não uma hipótese. Na ciência, é utilizado para validar resultados de estudos, com o objetivo de aceitar ou não a hipótese nula, dada um determinado nível de significância (p-value). Para exemplificar como o teste de hipóteses funciona, vamos considerar duas moedas. Gostaria de avaliar se essas moedas são justas ou viciadas. Um modelo de moeda justa teria como resultado de lançamentos um valor próximo a 50% cara e 50% coroa, enquanto um modelo de moeda viciada teria uma proporção diferente. A hipótese nula é sempre o status quo, ou seja, que a moeda é justa (você geralmente recebe uma moeda justa, você que propôs que ela é viciada, que no caso forma a hipótese alternativa). Jogando cada moeda 10 vezes chegamos no seguinte resultado, onde cara é C e coroa é K:

Moeda 1: CKCCKKCCKC

Moeda 2: CCCCCCCKCC

Vamos avaliar a moeda 1: Quais chances de uma moeda justa dar 6 caras e 4 coroas? Usando a distribuição binomial, chegamos em 23%. Se usarmos um p-value de 5%, então a hipótese nula só seria rejeitada caso um evento incomum acontecesse menos que 5% das vezes. Com 23% de chance de ocorrer tal evento, falhamos em rejeitar a hipótese nula.

Agora vamos avaliar a moeda 2: Nessa caso, temos 9 caras e uma coroa. As chances disso acontecer é de 0.9%, valor suficiente para classificá-lo como “raro”, já que é menor que o p-value de 5%. Assim, rejeitamos a hipótese nula, ou seja, a moeda é viciada.

Então, o p-value avalia o quão provável ou improvável é um evento ao considerar a hipótese nula. Se você quer avaliar se uma vacina é segura, precisa fazer um teste em uma amostra significativa de pessoas e, considerando como hipótese nula que a vacina NÃO é segura , obter uma probabilidade baixa o suficiente de alguém ter algum efeito colateral ao tomar a vacina de maneira que te levaria a rejeitar a hipótese nula.

Pra exemplificar o conceito de ter uma amostra significativa, considere que você está avaliando uma terceira moeda, e fez três lançamentos com os seguintes resultados:

Moeda 3: CCC

Tivemos 100% de caras, o que leva a crer que é uma moeda viciada. Mas o p-value, ou seja, as chances de uma moeda justa dar esse resultado, é de 12,8%, o que falharia em rejeitar a hipótese de que a moeda é justa! Isso mostra que o teste de hipóteses é sensível ao tamanho da amostra. Então tenha muitos dados para avaliar.

Teorias do Aprendizado

Uns dos debates mais importantes da filosofia se diz a respeito de como aprendemos, ou seja, de que maneira o conhecimento genuíno e necessário é adquirido, compreendendo as diversas formas de buscá-lo Na filosofia moderna, houveram duas correntes diferentes de pensamento. A primeira, iniciada por René Descartes e que também foi adotada por Leibniz e Noam Chomsky é a racionalista. Como oposição, temos o empirismo, onde temos como maiores defensores dessa corrente Locke, Berkeley e Hume.

No racionalismo, tem-se a razão como principal fonte de conhecimento humane e acredita-se na dedução como principal método investigativo. Temos um “conhecimento inato” como certas categorias de espaço, de tempo e de causa e efeito. Com esse conhecimento, em sua forma mais pura, o racionalismo chega ao ponto de sustentar que todas as nossas crenças racionais, e a totalidade do conhecimento humano, consistem em primeiros princípios e conceitos inatos que são de alguma forma gerados e certificados pela razão, junto com qualquer coisa logicamente dedutível a partir desses primeiros princípios. Esses princípios, os fundamentos do nosso conhecimento, são proposições que são evidentes por si mesmas (auto-evidentes). Por exemplo, Descartes acreditava que deveríamos desconfiar de tudo, menos na própria capacidade de duvidar e, a partir dessa certeza do “Penso, logo existo”, seriam deduzidos novos conhecimentos. Outro exemplo seriam os teoremas matemáticos, onde por dedução podemos chegar a conclusões racionais absolutas.

O empirismo, por outro lado, afirma que a experiência é a fonte do conhecimento, tendo a indução da experiência como principal método investigativo, Para os empiristas, todas as nossas ideias vêm unicamente da experiência sensorial. Nosso conhecimento é a posteriori, na medida em vamos tendo experiência do assunto, e é dependente da experiência dos sentidos. Os empiristas também negam a implicação da tese do conceito inato, correspondente a de que temos ideias inatas na área de assunto. Eles também rejeitam a versão correspondente da tese da superioridade da razão. Visto que a razão por si só não nos dá nenhum conhecimento, certamente não nos dá um conhecimento superior. Os empiristas podem afirmar, como alguns fazem para alguns sujeitos, que os racionalistas estão corretos ao afirmar que a experiência não pode nos dar conhecimento. A conclusão que eles tiram dessa lição racionalista é que não sabemos nada. David Hume, um empirista radical, gostava de usar como exemplo o nascer do sol. Ele dizia que o nascer do sol é um conhecimento adquirido através da indução, já que você viu o sol nascer no leste desde que você nasceu, mas não temos garantias de que ele vai nascer amanhã, isso não pode ser uma afirmação auto-evidente.

Racionalismo e empirismo não precisam entrar em conflito. Podemos ser racionalistas em matemática, já que teoremas como o Teorema de Pitágoras ou o Teorema Fundamental do Cálculo podem ser deduzidos a priori, e podemos ser empiristas em todas ou em algumas das ciências físicas, utilizando o teste de hipóteses para validar experimentos. Racionalismo e empirismo só entram em conflito quando formulados para cobrir o mesmo assunto. E para solucionar esse conflito, chegamos em Immanuel Kant, que revolucionou a epistemologia em sua grande obra “Crítica da Razão Pura”.

Kant cria a Teoria dos Juízos, onde ele dirá que existem o Juízo analítico e o Juízo sintético. Juízos analíticos são aqueles em que o predicado não acrescenta em nada o sujeito, exemplo “Todo triângulo tem três lados” ou “Todos os corpos são extensos. Como não dependem de tempo e lugar, são juízos a priori e universais. Juízos sintéticos são aqueles que acrescentam algo ao sujeito, como por exemplo “Todos os corpos são pesados” e sempre partem da experiência. Podem ser divididos em dois tipo: A priori e A posteriori. O juízo sintético a posteriori é baseado na indução da experiência, enquanto o juízo sintético a priori não necessitam da experiência imediata, como as afirmações matemáticas. Parece confuso à vista, já que se tende a acreditar que a afirmação “7+5=12” é puramente analítica, mas como Kant descreve em “Crítica da Razão Pura” [2]:

Poder-se-ia em verdade crer, à primeira vista, que a proposição 7 + 5 = 12 é puramente analítica, resultante, segundo o princípio de contradição, do conceito de uma soma de sete e cinco. Mas se a considerarmos com mais atenção, acharemos que o conceito de soma de sete e cinco não contém mais do que a união dos dois números em um só, o que não faz pensar qual seja esse número único que compreenda aos outros dois. O conceito de 12 não é de modo algum percebido só pelo pensamento da união de cinco e sete, e posso decompor todo meu conceito dessa soma tanto quanto quiser, sem que por isso encontre o número 12. É preciso, pois, ultrapassar esse conceito recorrendo-se à intuição correspondente a um dos dois números, e aditar sucessivamente ao conceito sete as cinco unidades dadas na intuição. […] A proposição aritmética é, pois, sempre sintética: o que se compreende ainda mais claramente se se tomam números maiores, pois então é evidente que, por mais que volvamos e coloquemos nosso conceito quanto quisermos, nunca poderemos achar a soma mediante a simples decomposição de nossos conceitos e sem o auxilio da intuição.

Um problema que surge imediatamente quando se fala em juízos sintéticos a priori é o verdadeiro problema da razão pura. Como são possíveis os juízos sintéticos a priori? Como se origina o conhecimento da física teórica e da matemática pura? Como são teorizados os modelos científicos que tanto transformaram o mundo? Kant, para responder essa pergunta, cria a Teoria Elementar Transcendental, divididas em estética e lógica transcendental.

A Estética transcendental é a ciência de todos os princípios. É a priori, e diz respeito à capacidade de adquirirmos conhecimento de acordo com a sensibilidade. É apenas através da sensibilidade que podemos ter uma intuição do objetos de estudo. Entenda a intuição como a capacidade de encontrar indícios que levem a alguma correlação, generalização, a algum conhecimento sintético. Conforme afirma Kant:

Todo pensamento deve em última análise, seja direta ou indiretamente, mediante certos caracteres, referir-se às intuições, e, conseguintemente, à sensibilidade, porque de outro modo nenhum objeto nos pode ser dado.

Entremos agora no conceito de lógica transcendental. Quando falamos da lógica geral, abstraímos a matéria do conhecimento intelectual e toda a diversidade de seus objetos, e só nos ocupamos com a forma do pensamento. Como Lógica pura, não tem nenhum princípio empírico e, por conseguinte, não empresta nada da Psicologia, que não exerce influência alguma sobre o cânon do entendimento. É uma doutrina demonstrada, e tudo deve ser nela amplamente “a priori”. Uma Lógica geral é aplicada, quando se ocupa das regras do uso do entendimento, sob as condições empíricas e subjetivas que nos ensina a psicologia. Esta Lógica tem também princípios empíricos, ainda que seja geral enquanto trata da aplicação do entendimento sem distinção de objetos [2]. Para Kant, é preciso fazer a passagem da lógica geral, para a transcendental. A Lógica transcendental está mais relacionado ao entendimento e à organização do pensamento. Esta Lógica investigaria também a origem do nosso conhecimento de objetos, enquanto tal origem não possa ser atribuída aos objetos; a Lógica geral, pelo contrário, não se ocupa com essa origem do conhecimento, e só se limita a examinar as nossas representações sob o ponto de vista das leis com que o entendimento a emprega e reúne entre si, quando pensa. A lógica transcendental isola o entendimento (assim como a estética transcendental isola a sensibilidade). Esse entendimento é formado a partir da intuição, que é determinada a priori pelas formas da sensibilidade que são o espaço e o tempo.

Como máquinas aprendem

O aprendizado de máquina (machine learning) é um ramo da inteligência artificial onde um sistema é capaz de analisar uma grande quantidade de dados, além de usar uma variedade de algoritmos para encontrar padrões no banco de dados. Com base nesses padrões, são gerados modelos (não explicitamente programados por humanos) que conseguem fazer predições. Modelos gerados por algoritmos de machine learning são científicos, pois precisam representar da maneira mais realista o objeto em estudo, satisfazendo princípios como parcimônia, generalização e capacidade de predição.

Já discutimos que modelos científicos são “fundamentalmente errados”. Todos os modelos de machine learning usa esse princípio para otimizar (minimizar) o gap entre a previsão e o valor real. Nenhum algoritmo de machine learning cria um modelo 100% acurado. Tais modelos são construções “artificiais” que captura um aspecto do objeto que nos interessa e que geram predições que são úteis na tomada de decisões.

Mas como tais algoritmos aprendem? Pelo que vimos a respeito das teorias do conhecimento, podemos dizer que tais modelos são empiristas, já que tentam induzir um modelo a partir de observações nos dados históricos. Mas a construção de tais modelos é racionalista, um conhecimento sintético a priori, já que são aplicados métodos dedutivos para criar algoritmos empiristas. Como humanos deduzem tais algoritmos? A partir da sensibilidade e intuição, podemos buscar analogias nas criações da natureza, como o cérebro ou a evolução, ou na forma como descrevemos o mundo, a partir de símbolos, ou na maneira em que atualizamos nossas crenças a partir de nossas observações, etc. No livro de Paulo Domingos, “O Algoritmo Mestre” [3], são classificados cinco tribos de algoritmos de machine learning:

1) Conexionistas: É baseada na simulação de componentes do cérebro e tem como principal algoritmo as redes neurais. Surgiu em 1943, quando McCulloch e Pitts cria o conceito de Percéptron, um neurônio artificial de uma camada. As redes neurais artificiais (ANNs) são compostas por camadas de nós, contendo uma camada de entrada, uma ou mais camadas ocultas e uma camada de saída. Cada nó, ou neurônio artificial, se conecta a outro e tem um peso e limite associados. Se a saída de qualquer nó individual estiver acima do valor limite especificado, esse nó será ativado, enviando dados para a próxima camada da rede. A rede neural aprende ajustando os pesos de conexão dos nós de maneira a minimizar a função de perda (a diferença entre o valor real e previsto), usando uma técnica conhecida como backpropagation, onde os pesos da camada de saída são retro propagados usando a regra da cadeia do cálculo diferencial.

2) Simbolistas: A abordagem baseia-se na suposição de que muitos aspectos da inteligência podem ser alcançados pela manipulação de símbolos, uma suposição definida como a “hipótese dos sistemas de símbolos físicos” por Allen Newell e Herbert Simon em meados dos anos 1960. Os algoritmos de Machine Learning simbólicos são focados no desenvolvimento de sistema de manipulação simbólica e em processos cognitivos. Ou seja, buscam simular a forma com que o ser humano pensa para resolver um determinado problema mas, para isso, é necessário que se entre com as informações sobre o mesmo para que então o algoritmo desenvolva uma forma de resolvê-lo. Um exemplo de algoritmo simbolista é a indução de árvores de decisão, que criam regras automáticas que categorizam as instâncias baseados em suas variáveis. Cada nó na árvore de decisão é uma variável a ser dividida em subnós, e essa estrutura é criada de maneira otimizada de maneira a minimizar a entropia nos nós da folha (leaf nodes) da árvore.

3) Analogistas; aprendem fazendo extrapolações a partir de julgamentos de semelhança nos dados. Os mais conhecidos são os algoritmos KNN e SVM. O KNN é bem simples: Para classificar uma instância X primeiro você encontra os k pontos mais próximo de X e, a seguir, classifica os pontos pela maioria dos votos de seus k vizinhos. Cada objeto vota em sua classe e a classe com mais votos é considerada a previsão. Para encontrar os pontos semelhantes mais próximos, você encontra a distância entre os pontos usando medidas de distância como distância euclidiana, distância de Hamming, distância de Manhattan e distância de Minkowski.

O SVM usam máquinas de vetores de suporte para encontrar a melhor maneira de separar os dados. É usado técnicas de otimização matemática para encontrar a encontrar a equação que define o melhor hiperplano, maximizando as distância dos vetores de suporte (margens do hiperplano).

4) Evolucionários: São algoritmos que abduzem o processo de seleção natural de Darwin e um típico algoritmo funciona seguindo as seguintes etapas:

Initial Population – É inicializado aleatoriamente um conjunto de indivíduos que formará nossa população. No nosso caso, os indivíduos são os modelos com parâmetros escolhidos aleatoriamente;
Fitness – Devemos testar essa população em um ambiente hostil. Somente alguns indivíduos vão sobreviver. Você pode criar um ambiente hostil simplesmente estabelecendo um mínimo para o score do modelo;
Crossover e Mutation – Define os critérios para a próxima geração. Na etapa de crossover, os genes (hiperparâmetros) dos pais serão recombinados, para produzir filhos, cada filho herdando alguns genes de cada pai. Para manter a diversidade, adicionamos um pouco de mutação nos filhos;
Offspring – A próxima geração conterá os pais sobreviventes e os filhos, mantemos os pais sobreviventes para manter os melhores genes, caso o valor dos genes do filho seja pior que os pais. O processo é repetido até que os indivíduos da última geração sejam os mais bem evoluídos.

5) Bayesianos: Tem como principal motivador o famoso teorema de bayes. O pensamento Bayesiano fornece uma abordagem probabilística para a aprendizagem e está baseado na suposição de que as quantidades de interesse são reguladas por distribuições de probabilidades. Para um algoritmo bayesiano, “aprender” significa atualizar as chances a priori de um evento baseado em novas evidências a posteriori. Por exemplo, usando o teorema de Bayes, podemos encontrar a probabilidade de A acontecer, dado que B ocorreu. Aqui, B é a evidência a posteriori e A é a hipótese a priori. A suposição feita aqui é que os preditores / recursos são independentes. Ou seja, a presença de um determinado recurso não afeta o outro. Por isso que tal algoritmo é chamado de ingênuo (naive bayes).

Assim, o machine learning pode ser considerado uma implementação por humanos de técnicas em máquinas para adquirir conhecimento a partir de observações a posteriori. A origem do sucesso do aprendizado de máquina depende de sua capacidade de derivar relações entre fenômenos e potencialmente descobrir o estado oculto (latente) de um sistema (indução), ou seja, potencialmente fornecer um conhecimento verdadeiro intrínseco do sistema. A identificação do sistema e o design baseado no modelo com o auxílio do aprendizado de máquina constituem um primeiro passo para encontrar padrões de um sistema por meio de uma abordagem mista de aprendizagem a priori – a posteriori, que, retrospectivamente, segue a filosofia de Kant.

Para finalizar, cabe uma última questão. Poderá existir um algoritmo de machine learning que poderá pensar como nós? A reposta iria depender da capacidade de máquinas em poder ter uma estética e lógica transcendental, que a permitam extrair conhecimento a partir da sensibilidade com os objetos ao seu redor iue organizar seus pensamentos com o objetivo de gerar novas deduções lógicas capazes de ampliar o conhecimento científico. O principal problema é o paradoxo que surge ao criar tal máquina. Como faríamos para uma máquina procurar princípios a partir da sensibilidade e intuição do mundo, sem que precisássemos explicitamente introduzir esses princípios em suas mentes?

[1] Silva, M. R. D. (1998). Realismo e anti-realismo na ciência: aspectos introdutórios de uma discussão sobre a natureza das teorias. Ciência & Educação (Bauru), 5(1), 07-13.

[2] Kant, I. (2020). Crítica da razão pura. EDIPRO.

[3] Domingos, P. (2017). O algoritmo mestre: como a busca pelo algoritmo de machine learning definitivo recriará nosso mundo. Novatec Editora.

O post O que são modelos científicos e como eles funcionam apareceu primeiro em Estatidados.

Identificação e Detecção de Anomalias de Processo usando Análise de Componentes Principais

admin — Mon, 26 Oct 2020 13:51:58 +0000

Introdução

A qualidade é uma das coisas mais importantes que é necessário trabalhar nas indústrias e nos processos produtivos atuais.

Quando pensamos em metodologias enxutas (como o Lean Manufacturing ou o Sistema Toyota de Produção), não podemos deixar de lembrar que a ocorrência de defeitos é um dos 7 desperdícios visuais, que devem ser combatidos com a aplicação das ferramentas e com a mudança de mentalidade das pessoas envolvidas no processo.

Tomando como outro exemplo o sistema de gestão TPM (do inglês, Total Productive Maintenance), um dos objetivos do Pilar de Qualidade é identificar as maiores vozes de ocorrências de defeitos e traçar ações para reduzir tais ocorrências de defeitos. Através da estratificação das ocorrências de defeitos (utilizando ferramentas como diagramas de Pareto), é possível identificar os principais tipos de defeitos e assim, aplicar ferramentas de resolução de problemas para a respectiva tratativa.

De forma simplista, a ocorrência de defeitos em processo ocorre devido à variabilidade presente nas diversas etapas necessárias para a transformação da matéria prima no produto final. Muitas vezes, no entanto, essas variabilidades são tão sutis e específicas que nem podem ser medidas, de forma a dificultar sua identificação e correlação com a ocorrência de defeitos.

Desta forma, verifica-se uma significativa oportunidade para aplicação de técnicas mais modernas e da tecnologia na detecção das falhas (anomalias) e também na identificação das principais causas dos problemas.

Dentre essas técnicas, pode-se citar a aplicação da tecnologia da Internet das Coisas (IoT) e de aprendizado de máquina (Machine Learning) na obtenção e processamento dos sinais obtidos por diversos sensores aplicados no monitoramento dos processos. O IoT é aplicado para monitorar e obter continuamente os sinais de medições de diversos sensores instalados, promovendo um fluxo contínuo de dados para algoritmos inteligentes processarem esses dados e determinarem a ocorrência (ou não) de uma anomalia.

Na estatística multivariada, as anomalias de processos são determinadas por meios de testes de hipóteses que levam em consideração as correlações e colinearidades entre as variáveis medidas. Uma técnica comumente aplicada é a de Análise de Componentes Principais (PCA, do inglês Principal Component Analysis), que determina a anomalia do processo com base na distância dos pontos medidos em relação a uma “média geral” de todas as medições.

A vantagem é que o algoritmo de PCA realiza a transformação do conjunto de dados de forma que as potenciais correlações entre as variáveis medidas não atrapalhe na determinação dos maiores ofensores de variabilidade do processo. No entanto, a principal desvantagem do algoritmo de PCA é que somente correlações lineares são possíveis de serem tratadas.

Com base no grande volume de dados gerados por sensores modernos, esse tipo de algoritmo e análise pode ser aplicado para determinar a ocorrência de uma anomalia de processo e, na sequência, determinar a localização exata do maior ofensor para essa anomalia. Com base na identificação do “sensor problemático”, pode-se então utilizar ferramentas de qualidade e de resolução de problemas para que o problema seja resolvido e as variabilidades de processo, atenuadas.

Objetivo

O principal objetivo desse artigo é demonstrar a aplicação da análise de componentes principais para detectar e identificar anomalias em dados de processo que são obtidos de sensores montados em campo.

Dentre os objetivos específicos, pode-se citar:

simular um processo industrial com variabilidade
analisar correlações e distribuições das variáveis medidas do processo
determinar o número de componentes principais a serem retidas na análise de PCA
aplicar o treinamento do algoritmo de PCA em dados normais de operação
aplicar os testes de hipóteses para determinar potenciais anomalias
plotar os gráficos de contribuição para identificar potenciais ofensores da anomalia
identificar as causas da anomalia por meio dos histogramas de variáveis

Descrição do Processo

O processo escolhido para a demonstração desse artigo foi a produção de uma mistura líquida simples num tanque de mistura, conforme pode ser verificado na Figura 1.

Figura 1. Desenho esquemático do processo modelado

O processo consiste num tanque de mistura com três correntes de entrada (água, componente A e componente B) e uma corrente de saída (mistura). Existem 7 variáveis monitoradas:

vazão de água (mW)
vazão de componente A (mA)
vazão de componente B (mB)
concentração de componente A na entrada (xA1)
concentração de componente B na entrada (xB2)
concentração de componente A na saída (xA3)
concentração de componente B na saída (xB3)

A Tabela 1 apresenta os valores nominais (de projeto) para esse processo. Sabe-se que existem as seguintes especificações de mercado para a concentração de componente A na saída (2,45 % – 2,55 %).

Tabela 1. Valores nominais de projeto para o processo em questão

Metodologia

Simulação de Processo com variabilidade

A simulação do processo foi realizada com base em cálculos de balanço de massa e de diluição, visto que não ocorre reação química no interior no tanque de mistura.

Foram simulados cenários nos quais a vazão de água é variada de 80 % a 120 % da vazão nominal, sendo que as outras variáveis de entrada foram corrigidas adequadamente para cada situação. Foram simulados 70000 pontos.

Depois das simulações, ainda foi adicionado um “ruído” de sensor, amostrado de uma distribuição normal com média zero e desvio padrão equivalente a 0,5 % do valor médio de cada variável (esse valor foi escolhido verificando a variabilidade de alguns sensores comerciais).

Visualização dos Dados e seleção dos dados normais

Os dados obtidos na simulação foram visualizados de três formas: matriz de correlação, matriz de diagramas de dispersão e relatório de capacidade e controle estatístico de processo.

A matriz de correlação, essencialmente, consiste num mapa de calor mostrando como as variáveis se correlacionam entre si. Com isso, é possível verificar quais são as variáveis que mais influenciam no comportamento de outras.

A matriz de diagramas de dispersão apresenta a mesma informação que a matriz de correlação, porém de forma gráfica. Com ela, é possível verificar o formato da correlação apontada pela matriz de correlação, visto que mesmo quando uma correlação é fraca, ela pode existir e não ser linear. Esse gráfico também serve para verificar as hipóteses da aplicação de correlações lineares nas variáveis, como pede o algoritmo PCA.

Por último, o relatório de capacidade de processo é uma ferramenta mais clássica de se analisar o processo, pois mostra a capacidade do processo de produzir dentro das especificações (voz do cliente) e também de produzir de forma controlada e previsível.

A etapa de obtenção de dados normais de operação foi realizada usando-se somente os dados que correspondiam a situações cuja concentração do componente A na saída que estivesse dentro das especificações do processo.

Escalonamento dos dados

O algoritmo de análise de componentes principais é baseado no cálculo de distâncias entre pontos. Desse modo, quando existem discrepâncias muito grandes entre as grandezas trabalhadas, isso pode ocasionar um viés no treinamento do modelo PCA, visto que variáveis com maiores escalas podem ter maior influência no cálculo de variâncias em relação às variáveis com as menores escalas.

A solução para a aplicação do algoritmo é realizar o escalonamento dos dados, de forma a deixar todas as variáveis com a mesma escala. Nesse estudo, o escalonamento utilizado foi aquele que deixou todas as variáveis com média zero e desvio padrão igual a 1.

Método da Análise Paralela e treinamento do modelo PCA

Uma etapa importante para o treinamento do algoritmo PCA é determinar a quantidade de componentes principais a serem retidas no modelo. Para isso, a literatura cita o método da análise paralela.

Nesse método, compara-se a quantidade de variância retida em cada componente em dois conjuntos de dados distintos: o primeiro é aquele que contém todas as correlações naturais do processo, ou seja, a base de dados que se deseja analisar; o segundo é um conjunto de dados com as mesmas variáveis, porém criado de forma que todos os dados sejam independentes entre si. O número de componentes principais retidas é aquele que iguala a variância explicada nos dois modelos.

Nesse estudo, o conjunto de dados independentes foi criado simulando-se de uma distribuição normal com média e desvio padrão iguais aos dos dados originais

Após a determinação da quantidade de componentes principais a serem retidas, treinou-se o modelo nos dados normais de operação.

Aplicação dos testes de hipóteses

Para determinar a ocorrência de uma anomalia num conjunto de dados multivariado, característico daqueles obtidos de medições de sensores industriais, faz-se necessária a aplicação de testes estatísticos de hipóteses a respeito dos dados. Nesse sentido, o teste mais conhecido da literatura é o do T² de Hotelling.

Além disso, pode-se verificar a ocorrência de anomalia observando-se a qualidade de ajuste do modelo de PCA aos pontos “candidatos” a anomalias, através do cálculo do erro quadrático de ajuste. Naturalmente, caso o erro seja muito grande, a lógica diz que o ponto está muito distante do que se esperaria para um dado “normal” de processo (lembrando o modelo foi treinado sobre os dados normais).

T² de Hotelling

A estatística T² de Hotelling identifica variações não usuais dentro do conjunto de dados avaliado pelo algoritmo. É uma estimativa de quanto o ponto “candidato” a anomalia está da média multivariada dos dados, que consiste na nova origem do sistema de coordenadas modificada pela PCA.

O teste de hipóteses aplicado nessa etapa está baseado nas seguintes premissas:

Hipótese Nula: os dados candidatos provêm de um conjunto de dados normais de operação e a variabilidade observada é devido somente ao acaso
Hipótese Alternativa: os dados realmente são uma anomalia e a variabilidade observada é causada por algum agente externo

Sem entrar nos detalhes técnicos, mas o teste de hipóteses é feito comparando-se o cálculo da estatística T² em relação a um “valor crítico”, que depende do grau de confiança que desejamos tomar como aceitável, do número de dados e também do número de componentes principais retidas no modelo PCA. Caso o T² calculado seja maior que o valor crítico, então existem evidências estatísticas suficientes para rejeitar a hipótese nula.

Erro Quadrático de Predição

O erro quadrático de predição, por sua vez, representa o quão bem o modelo PCA treinado nos dados normais de operação se ajusta aos dados do ponto candidato a anomalia. Analogamente, ele nos diz “o quão parecido” o ponto candidato é em relação aos pontos do modelo PCA.

De forma semelhante ao T² de Hotelling, o erro quadrático de predição possui um “valor crítico” que depende do grau de confiança desejado para a tomada de decisão e também da variabilidade dos dados. Caso o valor do erro quadrático de predição seja maior que o valor crítico, então o ponto tem grande possibilidade de ser uma anomalia de processo.

Detecção e Identificação de Anomalias

Depois que uma anomalia é detectada no processo, é necessário entender suas potenciais causas e assim, traçar ações de correção para que os problemas não voltem acontecer.

De maneira clássica, a investigação de problemas é feita por meio de ferramentas de solução de problemas como ciclos PDCA, 5 W 2 H e 5 Porquês. São ferramentas poderosas de análise de causas utilizadas em todas as grandes indústrias atualmente.

No entanto, essas ferramentas podem ser potencializadas ao se utilizar o algoritmo de decomposição de falhas proposto. Para isso, foram construídos alguns gráficos de barras mostrando as maiores contribuições dos maiores erros quadráticos de predição, de forma a indicar em quais sensores os valores medidos mais caracterizam uma anomalia de processo. Além dessa ferramenta, foi possível traçar o histograma da variável de interesse e mostrar em qual região da distribuição o ponto de anomalia se encontra.

Resultados Obtidos

Visualização dos Dados e Análise do Processo

O primeiro resultado que pode ser observado é a visualização dos dados obtidos na simulação do processo estudado. A Figura 2 apresenta a matriz de correlação de Pearson dos dados, enquanto que a Figura 3 apresenta as correlações observadas na Figura 2 na forma de diagramas de dispersão.

A Figura 2 apresenta o fato de que as variáveis de monitoramento da entrada no reator (vazão de entrada de água, vazão de entrada e concentração de componente A, vazão de entrada e concentração de componente B) são praticamente independentes entre si, no caso desse conjunto de dados, visto que seus coeficientes são bem próximos do valor zero. Isso também pode ser verificado nos diagramas de dispersão dessas variáveis, visto que não pode ser identificado nenhum tipo de padrão claro na distribuição dos pontos no gráfico.

Figura 2. Matriz de correlação entre as variáveis medidas

Por outro lado, quando se observa os coeficientes de correlação das variáveis de saída (concentração de saída de A e de B) em relação às variáveis de entrada, verifica-se significativas correlações lineares. Isso é coerente com o que se espera desse tipo de processo, visto que existem as operações unitárias e restrições de balanço de massa que relacionam as variáveis de entrada com as variáveis de saída. Do ponto de visto de análise de processos, pode-se estabelecer as seguintes “regras de negócio”:

se a vazão de entrada do componente A for aumentada, então a concentração de A na saída vai aumentar – correlação de 0,5
se a vazão de entrada do componente B for aumentada, então a concentração de B na saída vai aumentar – correlação de 0,6

Figura 3. Diagramas de Dispersão entre as variáveis medidas

se a vazão de água na entrada aumentar, então tanto a concentração de A quanto de B vai diminuir na saída – correlação de -0,5 para ambos
se a concentração de A aumentar na entrada, então a concentração de A na saída vai aumentar – correlação de 0,6
se a concentração de B aumentar na entrada, então a concentração de B na saída vai aumentar – correlação de 0,6

É interessante observar uma colinearidade entre a concentração de A na saída e a concentração de B na saída (correlação de 0,2). Isso ocorre devido à correlação que ambas as variáveis compartilham com a variável vazão de entrada de água. Devido à correlação negativa comum, quando a vazão de água aumenta, ambas as variáveis de saída diminuem, proporcionalmente.

É importante também verificar, na Figura 3, que para aquelas variáveis que apresentaram correlação de Pearson significativa, o formato da distribuição dessas variáveis é linear, o que confirma a hipótese de aplicação do algoritmo de análise de componentes principais (PCA). Verifica-se também que os dados não estão perfeitamente distribuídos em torno do que se esperaria de uma reta devido ao ruído de sensor adicionado na modelagem. Adicionalmente, pode-se notar que o formato da distribuição dos dados reflete o que foi dito sobre as “regras de negócio” identificadas na análise de processo.

A última forma utilizada de analisar os processos foi a elaboração de um relatório de capabilidade e controle estatístico de processo, conforme Figuras 4 e 5. O gráfico da Figura 4 apresenta a distribuição dos dados do processo em relação aos limites de especificação ditados pelo mercado. Como se pode verificar, esse processo apresenta desempenho muito inferior ao que se esperaria de um processo adequado, visto que podem ser observados muitos resultados fora das especificações

Figura 4. Análise de Capabilidade do Processo

O baixo desempenho também é verificado pelos parâmetros Pp e Ppk, apresentados no título de gráfico da Figura 4. De forma simplificada, o índice Pp indica que a amplitude dos valores dos dados obtidos no processo (considerando o intervalo de 6 desvios padrão) é cerca de 30 vezes maior que a amplitude das especificações. Fazendo um cálculo simples, verificou-se que apenas 7 % dos dados está dentro das especificações, o que representa um processo com desempenho bem ruim. Além disso, verifica-se que o índice Ppk não possui valor igual ao Pp. O Ppk avalia o desempenho do processo, tomando também em consideração a centralização do mesmo. Pode-se concluir que, além de ter um desempenho ruim, a média do processo não está próximo do alvo da especificação. Dessa forma, existem dois problemas com o processo avaliado: centralização e dispersão.

Os gráficos da Figura 5, por sua vez, apresentam o desempenho ponto a ponto do processo. O gráfico superior apresenta a amplitude móvel, ou seja, a mudança de valor de um ponto para outro. O inferior mostra o valor da variável, ponto a ponto.

Com base na observação de ambos os gráficos, conclui-se que esse processo está descontrolado estatisticamente, visto que existem pontos que superam a linha azul superior (o limite superior de controle estatístico). Ou seja, isso significa que esse processo não é estável, podendo permitir flutuações que superam o que se esperaria de uma variabilidade comum (problema de dispersão). Pode-se observar no gráfico inferior que a linha azul média se encontra um pouco acima do valor de 0,025, que seria o valor alvo da especificação, confirmando o que o índice Ppk havia apontado sobre a descentralização do processo.

Figura 5. Cartas de Controle Estatístico de Processo

Treinamento do Algoritmo PCA

Conforme descrito na seção de métodos, o método de Análise Paralela foi utilizado para definir quantas componentes principais foram retidas no modelo final. O gráfico da Figura 6 apresenta o resultado mostrando a fração da variância retida em cada componente principal, tanto para os dados do processo, quanto para os dados simulados e independentes.

Figura 6. Seleção de componentes principais a serem retidas no modelo – Método da Análise Paralela

A Figura 6 mostra que a PCA aplicada para os dados de processo retém mais informação (mais variância) até a quarta componente principal, visto que a partir da mesma, todas as componentes retêm menos informações do que seria retido num conjunto totalmente independente de informações. Isso não representa vantagem do ponto de vista de processo, visto que o conjunto de dados simulados representaria as variabilidades de causas comuns e aleatórias (podendo ser ruídos de medição, por exemplo).

Dessa forma, o método aplicado aponta que 4 componentes principais devem ser retidas no modelo a ser treinado utilizando os dados normais de operação. Desta maneira, o gráfico da Figura 8 apresenta como a variância retida se comportou em cada uma das componentes do modelo final aplicado. Verifica-se que as 4 componentes principais retidas conseguiram explicar 84 % da variabilidade dos dados. Os outros 16 % restantes, no caso deste modelo, foram classificados como variabilidades incomuns (ou anomalias).

Figura 8. Retenção de informação em função do número de componentes principais retidas no modelo final

Depois de treinado o modelo de PCA no conjunto de dados normais de operação, os dados com anomalias foram submetidos aos testes de hipóteses para determinação da anomalia: o teste de T² de Hotelling e o cálculo do erro de predição.

Testes de Hipóteses – Determinação da Anomalia

A Tabela 2 apresenta os valores calculados para os limites de confiança dos testes estatísticos utilizados para determinar se os dados observados são ou não classificados como anomalia.

Tabela 2. Limites de 99,0 % de confiança para as estatísticas

A Tabela 2 apresenta apenas o limite superior de confiança pois o dado é considerado como anomalia somente se o valor da estatística superar o limite de confiança – nesse caso, haverá evidência estatística suficiente para rejeitar a hipótese nula. Com base nesses valores de limite de confiança, é possível realizar observações estatísticas sobre a probabilidade de um determinado dado ser uma anomalia. AS Figuras 9 e 10 apresentam a comparação do conjunto de dados do processo em relação aos limites de confiança calculados.

No caso desse estudo, muitos pontos acabaram caindo fora do limite superior de confiança de ambas as estatísticas, de forma a serem considerados potenciais anomalias. Isso se deveu ao fato de que as oscilações do sinal de cada sensor foram simuladas aleatoriamente. Num processo real, somente cairiam fora dos limites, os pontos do processo que realmente se comportassem de maneira anômala.

No entanto, pode-se enxergar uma oportunidade ao observar o comportamento de ambos os diagramas. Com base na contagem de pontos fora do limite superior, de ambas as estatísticas, é possível estabelecer uma correlação entre a variabilidade observada no processo e a quantidade de potenciais anomalias identificadas.

Figura 9. Gráfico de estatísticas calculadas T² de Hotelling em comparação com o limite superior de confiança de 99,0 %.

Figura 10. Gráfico de erros quadráticos de predição em comparação com o limite superior de confiança de 99,0 %

Lembrando que o T² de Hotelling nos diz a respeito variações não usuais dentro do processo. Segundo a carta mostrada na Figura 9, a variabilidade observada no processo foi suficiente para que cerca de 0,23 % dos dados fossem considerados anomalias somente em relação ao T² de Hotelling. No caso do erro quadrático de predição (que aponta o “quão parecido” o dado é em relação ao modelo ajustado), a carta da Figura 10 apresenta que cerca de 3,10 % dos dados apresentaram distância significativa em relação ao modelo ajustado.

Para tornar a avaliação mais rigorosa, optou-se por considerar como “anomalia verdadeira” apenas aqueles pontos que apresentaram estatísticas acima em ambos os casos, ou seja, tanto em caso de variações não usuais como em caso de disparidade em relação ao modelo ajustado. No caso desse estudo, a intersecção de ambos os grupos resultou na identificação de 44 “anomalias verdadeiras”.

Identificação das Anomalias

Depois que uma anomalia de processo é detectada, é necessário identificá-la e qualificá-la, de modo a entender os motivos que a causam. É nessa parte que mais tempo e esforço deve ser empregado, se possível por times multidisciplinares de modo que a análise de causas possa abranger as possibilidades mais amplas possíveis. Dessa forma, a probabilidade de se encontrar a causa raiz do problema é mais elevada.

Uma das etapas principais da análise de causas é realizar a estratificação dos efeitos dos problemas observados, de modo a direcionar o foco no momento da tratativa. Com o algoritmo proposto neste estudo, foi possível construir uma estratificação automática e direcionada naqueles pontos que apresentaram, por exemplo, erro de predição maior que o limite superior de confiança. A Figura 11 apresenta o chamado “Gráfico de Contribuições”, para várias amostras identificadas como anomalias pelo algoritmo aplicado.

O princípio de construção do gráfico de contribuição é baseado no fato de que cada sensor contribui com uma parcela para o erro quadrático de predição. Ou seja, quando se somam as contribuições de todos os sensores, obtém-se o erro quadrático de predição calculado para o teste de hipóteses. Assim, se um determinado sensor apresenta alta contribuição para o erro de predição, então convém examinar essa variável como uma das ofensoras para a ocorrência da anomalia.

Figura 11. Gráficos de Contribuições para diversas amostras de anomalias

Tomando como exemplo as amostras apresentadas na Figura 11, pode-se observar as seguintes propriedades num exame rápido, como exemplo.

para a amostra 30779 – os maiores ofensores para a anomalia foram os sensores de entrada de água, entrada de componente B e concentração de entrada de componente A
para a amostra 30182 – houve problemas com a vazão de entrada de componente B, a vazão de entrada de componente A e novamente a concentração de entrada de componente A

Com base nessas duas análises rápidas e na observação dos outros gráficos apresentados na Figura 11, nota-se que alguns sensores apresentam recorrência de altas contribuições, o que pode dar mais dicas de onde pode estar localizada a anomalia do processos. Uma forma mais simples de avaliar a concentração de anomalias por sensor é traçar um diagrama de Pareto, contando as ocorrências de altas contribuições de erro de predição. Além disso, essa ferramenta também pode ser utilizada para mensurar o impacto de determinadas anomalias num período específico de tempo, de modo a poder ser usado como forma de relatório de ações ou justificar a compra de um novo dispositivo ou ainda de mudanças necessárias no processo de produção. Um exemplo desse tipo de ferramenta é apresentado na Figura 12, que traz a frequência de ocorrências nas quais cada sensor apresentou a maior contribuição ao erro de predição.

Figura 12. Ocorrências de Anomalias por Sensor

Segundo as informações do gráfico da Figura 12, o sensor de vazão de entrada de componente B no tanque foi o que mais apresentou contribuições máximas para o erro de predição, logo seguido pelo sensor de concentração de componente A na entrada. O gráfico aponta que esses dois sensores são responsáveis por 93,4 % das contribuições máximas encontradas no conjunto de dados desse processo. Ou seja, a estratificação automática permitiu a identificação rápida dos maiores ofensores do processo.

A partir desse ponto, é necessário aprofundar a análise das causas. Questionar o porquê dessas anomalias estarem se apresentando nesses dois sensores, majoritariamente. Por enquanto, só foi possível entender onde os efeitos mais se manifestam. Nesse contexto, é importante notar que uma alta contribuição para o erro de predição não significa, necessariamente que o valor da variável esteja alto demais em relação aos níveis nominais de trabalho. Variáveis que estejam muito abaixo de seu valor nominal também oferecem grandes contribuições para o erro quadrático de predição. Assim faz-se necessária uma forma de entender, depois de identificada e estratificada a anomalia, qual é exatamente o problema que ela está apontando.

O algoritmo criado nesse estudo permite essa identificação a partir da observação da posição dos valores das variáveis do ponto de anomalia em relação à variabilidade do processo. Desta maneira, é possível checar se, por exemplo, a vazão de entrada de água no tanque está muito alta ou muito baixa em relação ao restante dos pontos do processo. A Figura 13 apresenta essas visualizações de estados de variáveis a amostra 30779.

Conforme observado na análise dos gráficos de contribuição para o erro de predição da amostra 30779, os maiores ofensores nesse caso são as variáveis vazão de entrada de água, vazão de entrada de componente B e concentração de entrada de componente A. A Figura 13 confirma a anomalia observada, pois nela se observa (as linhas vermelhas verticais representam o valor de cada variável para o ponto classificado como anomalia).:

a vazão de entrada de componente A (mA) e de componente B (mB) estão muito acima dos respectivos valores nominais de operação.
a vazão de entrada de água (mW) está muito abaixo do valor nominal de operação
a concentração de componente A na entrada (xA1) está bem acima do valor nominal
a concentração de componente B na entrada (xB2) está bem abaixo do valor nominal
com base em todas essas anomalias do processo, verifica-se que a concentração de A na saída (xA3) está muito acima da especificação permitida.

Figura 13. Estados de variáveis de processo para a amostra 30779

Na Figura 13 também se pode observar o valor da estatística T² de Hotelling para a amostra selecionada (gráfico mais à direita na linha inferior). Como se pode verificar, o valor calculado para a estatística nessa amostra se encontra significativamente acima da maior densidade de dados do histograma, de forma a fornecer evidência estatística de uma variabilidade não usual do processo nessa amostra selecionada.

É importante enfatizar que a metodologia permite, além da identificação de anomalias de processo, encontrar as potenciais causas de um processo apresentar baixa capacidade de atendimento às especificações, conforme mostrado na discussão do gráfico de capacidade da Figura 4. Esse processo estudado não atende às especificações para as quais ele foi projetado, e uma análise cuidadosa dos histogramas apresentados na Figura 13 pode ajudar a traçar correlações e entender como o processo pode ser ajustado.

Conclusões

O algoritmo de PCA mostrou efetividade na detecção e identificação de anomalias de processo, pois permitiu, por meio de testes de hipóteses, classificar um determinado ponto de medição como uma anomalia ou não.

O primeiro passo para o bom entendimento do processo de classificação de anomalias é o entendimento do funcionamento do processo e das correlações existentes entre as variáveis que são medidas. Através do estudo da matriz de correlação e dos diagramas de dispersão, pode-se observar o comportamento das relações existentes. Além disso, essas duas ferramentas também permitiram a verificação da linearidade nas correlações, condição necessária para a validade do algoritmo de PCA.

Após o treinamento e aplicação do algoritmo de PCA, os testes de hipóteses mostraram a ocorrência de pontos candidatos a anomalias. Com base na avaliação concomitante de ambas as estatísticas calculadas, foi possível estabelecer um padrão de “anomalia verdadeira” e utilizar tal critério para futuras análises.

Além de permitir detectar as anomalias, verificou-se que o algoritmo permitiu identificar os maiores ofensores de cada anomalia, por meio da construção de gráficos de contribuição. Nesses gráficos, foi possível observar quais sensores apresentam maior erro de predição em relação ao modelo PCA. Além da construção dos gráficos de contribuição, o algoritmo permitiu a estratificação automática dos sensores de processo que apresentaram a maior quantidade de ocorrência de anomalias num determinado conjunto de dados, por meio da construção de um gráfico de Pareto.

Finalmente, o algoritmo apresentou a possibilidade de verificar os valores das variáveis de processo nos pontos que foram classificados como anomalia. Dessa forma, é possível saber se determinada variável está significativamente acima ou abaixo do valor nominal de operação. Além de permitir a identificação do estado da anomalia, o algoritmo também permite o entendimento dos motivos do não atendimento às especificações. Com isso, o algoritmo apresenta vantagem na identificação de causas raízes e direcionamento dos esforços para solucionamento de problemas de processos.Denunciar

Publicado por

Status: on-lineÍcaro Augusto Maccari Zelioli Machine Learning Specialist | Data Scientist | Big Data AnalystPublicado • 4 d3 artigosSeguirOlá rede ! Conforme prometido, eu publico par vocês meu estudo de detecção de anomalias de processo com utilização de algoritmos de aprendizado de máquina ! Uma ótima oportunidade de integrar a análise de processo juntamente com a aplicação de ferramentas tecnológicas! Imaginem isso rodando online e fazendo o monitoramento de todo o processo produtivo de forma automática… coisa do futuro certo? Gostei demais de trabalhar nesse projeto e espero poder trabalhar em mais aplicações do tipo! Espero que todos aproveitem ! #datascience hashtag#machinelearning hashtag#dataanalytics hashtag#artificialintelligence hashtag#analytics hashtag#bigdata hashtag#datamining hashtag#datamodeling hashtag#engineering hashtag#ia hashtag#chemicalengineering hashtag#engenhariaquimica hashtag#engenhariadeprocessos hashtag#qualidade hashtag#quality

O post Identificação e Detecção de Anomalias de Processo usando Análise de Componentes Principais apareceu primeiro em Estatidados.

Utilizando Aprendizado de Máquina para predizer falhas na Ferrovia

admin — Wed, 29 Jul 2020 14:59:15 +0000

AUTOR: MÁIRON CÉSAR SIMÕES CHAVES

INTRODUÇÃO

Quando o trilho atinge certas temperaturas muito baixas, o risco de acidentes de diversos portes aumenta significativamente, portanto é uma variável constantemente monitorada. Com o objetivo de aumentar a segurança operacional e reduzir custos, surgiu a hipótese de implementar um modelo preditivo que deve ser capaz de capturar padrões nas temperaturas enviadas pelo termômetro do trilho e estimar a probabilidade de que nas próximas 12 horas, ocorra uma temperatura crítica no trilho, dessa forma é possível emitir avisos de segurança e enviar veículos batedores para avaliar a condição do trilho preventivamente. A ideia inicial é coletar o histórico de medições de um termômetro específico e ajustar um algoritmo de aprendizado de máquina aos seus dados históricos.

Se trata de uma demanda onde não há variável resposta e nem variáveis preditoras. As únicas informações que estavam no histórico de dados eram os registros de data / hora e a temperatura do trilho medida em cada instante. Então deverá ser criada uma variável resposta para tratar o problema como uma tarefa de classificação binária, e um forte trabalho de engenharia de variáveis, criando diversos preditores como médias móveis, desvios padrões móveis e informações de momentos passados da temperatura do trilho.

O problema no trilho devido à baixa temperatura é um evento extremamente raro. Basicamente em 99% dos dados observados não ocorrem temperaturas críticas, portanto foi necessário recorrer a uma abordagem algorítmica para trabalhar esse desequilíbrio entre os eventos, para que o algoritmo de aprendizado de máquina possa capturar da melhor forma os padrões nas mudanças da temperatura que levam a ocorrência de uma temperatura crítica nas próximas 12 horas bem como o padrões que levam a não ocorrência de uma temperatura crítica nas próximas 12 horas.

Dentre os algoritmos de aprendizado de máquina testados na modelagem preditiva, a regressão logística com a adição de restrições na sua função objetivo foi o algoritmo que melhor performou, chegando a praticamente zerar os falsos negativos, que são os mais críticos para este contexto, já que, é mais custoso o algoritmo informar que não vai ocorrer a temperatura crítica e ela ocorrer (falso negativo) do que informar que vai ocorrer a temperatura crítica e não ocorrer (falso positivo).

DIAGNÓSTICO

Obtendo os dados

Os dados utilizados para ajuste do modelo preditivo foram as medições da temperatura do trilho de uma determinada região em Minas Gerais, de janeiro/2017 até março/2019, contendo 24.105 medições observadas, que são enviadas do termômetro do trilho diretamente ao banco de dados da empresa, em uma interação máquina vs máquina.

Figura 1 – Amostra do histórico de temperaturas enviadas pelo termômetro do trilho

As medições são enviadas pelo termômetro, geralmente, em intervalos de 15 minutos. Então,

para manter um histórico de medições com intervalos equidistantes, os dados foram agregados por hora, e ao agregar, foram tomadas estatísticas descritivas da temperatura em cada hora, para auxiliar na análise exploratória dos dados bem como ajudar no processo de criação de variáveis preditoras.

Figura 2 – Amostra do histórico de temperaturas agrupados por data e hora

Análise Exploratória dos Dados

Conforme definido por Pinheiro, Cunha, Carvajal e Gomes (2009), analisar dados é identificar comportamentos médios e comportamentos discrepantes, comparar comportamentos e investigar a interdependência entre variáveis. Portanto, a análise exploratória de dados é uma forma eficiente de resumir dados e ajudar a revelar informações contidas neles, e assim utilizar o conhecimento para auxílio a tomada de decisão.

A análise exploratória de dados trata-se de um conjunto de técnicas que nos ajudam a fazer uma sondagem dos dados, ou seja, tomar um primeiro contato com a informação disponível.

Através de um histograma, é possível visualizar a distribuição das temperaturas médias em cada uma das vinte e quatro horas do dia, durante janeiro de 2017 até março de 2019, que é o histórico de dados disponível. O histograma é uma distribuição das frequências dos dados, semelhante a um gráfico de barras, porém cada barra representa a frequência de um intervalo de valores.

Figura 3 – Distribuição das temperaturas médias e estatísticas descritivas

Por motivo de sigilo de informações a temperatura limiar exata para ser considerada crítica será omitada, mas para fins didáticos e de forma a não distorcer o presente artigo, uma temperatura bastante aproximada será utilizada. Será assumido que, se o trilho atingir uma temperatura menor ou igual a seis graus, será considerado estado crítico. E como é de se esperar, esse padrão ocorre com maior frequência no inverno.

Em um gráfico sequencial, com as temperaturas ordenadas ao longo do tempo, fica mais intuitivo visualizar quando ocorrem as temperaturas críticas com maior frequência.

Figura 4 –Evolução das temperaturas médias e mínimas ao longo do histórico de dados

Também foram exploradas, as variações das temperaturas mínimas dentro de cada mês.

Figura 5 – Variações das temperaturas mínimas intra mês

Fica claro que em alguns meses a temperatura apresenta comportamento mais homogênio, já em alguns ocorrem grande variabilidade. O mês de maio é bastante crítico, pois seu boxplot na figura 5, a dispersão nas temperaturas é grande, ocorrem desde temperaturas críticas (abaixo de seis graus) até temperaturas mais elevadas. Também foram analisadas as distribuições das temperaturas mínimas dentro dos trimestres.

Figura 6 – Variações das temperaturas mínimas dentro dos trimestres

Modelando a relação entre as temperaturas mínimas e os trimestres através de uma regressão de mínimos quadrados e tomando o primeiro trimestre (Q1) como nível de referência, temos que, o segundo trimestre (Q2) apresenta, em média, temperaturas 4,72 graus menores. O terceiro trimestre (Q3) apresenta, em média, temperaturas 6,46 graus menores. E o quarto trimestre (Q4) não apresentou diferenças significativas em suas temperaturas mínimas quando comparado ao primeiro trimestre.

Também foi explorada a relação entre as temperaturas médias e a hora do dia durante o período histórico.

Figura 7 – Relação entre as temperaturas médias por hora do dia

A temperatura média apresenta uma relação não linear com as horas do dia, as temperaturas mínimas ocorrem por volta das seis da manhã e as máximas por volta das 15 horas. A curva de vermelho na figura 7 é um ajuste polinomial da relação entre as duas variáveis.

Além disso, também foi avaliado se existe correlação entre a temperatura do trilho com ela própria em diferentes instantes temporais. Para isso, um correlograma foi utilizado. Um correlograma é um gráfico de barras, onde cada barra corresponde ao coeficiente de correlação linear da variável com ela mesma defasada no tempo.

Figura 8 – Correlograma da temperatura do trilho

Através do correlograma da figura 8, vemos que a temperatura no instante zero, tem uma alta correlação negativa com ela mesma no instante doze (primeira barra amarela da esquerda pra direita) e outra forte correlação com ela mesma, porém positiva, no instante vinte e quatro (segunda barra amarela da esquerda para direita). Ou seja, existe um forte padrão entre a temperatura medida em um instante atual com as temperaturas medidas 12 e 24 horas atrás. Isso é ótimo, pois a ideia do modelo é predizer a ocorrência de uma temperatura crítica (abaixo de seis graus) com doze horas de antecedência.

A covariância de uma variável ordenada ao longo do tempo com ela mesma em um período temporal diferente fica:

Onde Y_t é a variável em seu instante atual, y_t-p é a variável defasada em p períodos temporais, µ é a média da variável e n é a quantidade de observações.

Para obter o coeficiente de correlação linear deve-se normalizar o produto interno no numerador da equação pelo raiz quadrada do produto entre a variância da variável no período t pela variância da variável no período t-p.

2) Engenharia de Variáveis

Após compreender o comportamento da temperatura do trilho através das análises exploratórias, seguiu-se para próxima etapa que foi a engenharia de variáveis. A engenharia de variáveis, ou engenharia de atributos, ou feature engineering, é a arte de criar novas variáveis a partir das variáveis disponíveis.

De início foram criadas médias móveis de diferentes ordens. Médias móveis de ordem grande reagem de forma mais lenta as variações recentes na temperatura, enquanto médias móveis de ordem menor reagem mais rapidamente as variações na temperatura.

A média móvel de ordem n da temperatura do trilho pode ser obtida por:

Onde y_t é a temperatura no instante t e n é a ordem da média móvel. O nome média móvel é utilizado porque, a cada período, a observação mais antiga é substituída pela mais recente, calculando-se uma média nova.

Pelo gráfico exibido na figura 9 é possível visualizar que quando uma média móvel muda de nível com a outra, é indicativo de mudança na direção da temperatura, ou seja, é uma forma do algoritmo “aprender” quando a temperatura deixa de subir para diminuir, e vice-versa.

Figura 9 – Média móvel de ordem 24 vs média móvel de ordem 72

Conforme identificado na figura 4, as temperaturas críticas ocorrem com maior frequência nos meses de maio, junho, julho e agosto. Portanto, foi criada uma variável binária para capturar o padrão desse período de inverno. Nos registros cujo mês for igual a maio, junho, julho, julho ou agosto a variável assume o valor 1(sim), caso contrário, assume o valor 0(não).

Figura 10 – Distribuição das temperaturas de acordo com a nova variável binária

Observa-se claramente que a mediana das temperaturas no inverno é menor quando comparada a mediana das temperaturas quando não é inverno. E mediante uma ANOVA, comprovou-se que a diferença é estatisticamente diferente (Pr(>F) ≅ 0).

O próximo passo foi criar a variável resposta. Para isso o seguinte looping foi desenvolvido:

Figura 11 – Looping em linguagem R para criar a variável resposta binária

A lógica do looping é percorrer da linha 1 até a n-ésima do conjunto de dados, se a i-ésima temperatura for menor ou igual a seis graus, então a linha de posição i – 12 recebe o valor

Temperatura_Critica, caso contrário, recebe o valor Temperatura_Nao_Critica. A linha de posição i – 12 que recebe o valor pois a ideia é registrar se 12 horas após a medição de posição i – 12 ocorreu uma temperatura crítica.

Ainda foram criadas outras variáveis preditoras. Por exemplo, desvio padrão móvel de ordem 2 e 12. Um desvio padrão móvel pode ser obtido pela equação:

Onde n é a ordem do desvio padrão móvel.

Na figura 12, é apresentada uma função de densidade para medir o quão bem os desvios padrões móveis separam as classes da variável resposta, ou seja, o quão diferente é o padrão das variações das preditoras criadas quando há temperatura crítica e quando não há.

Quanto menos intersecção as funções de densidade tiverem, melhor elas separam os eventos, e consequentemente, contribuirão para a aprendizagem do algoritmo.

Figura 12 – Densidade das variáveis criadas para Temperaturas Críticas e Não Críticas

Também foram criadas variáveis de potência maior da variável hora, como hora ao quadrado e hora ao cubo. Com o objetivo de capturar o comportamento polinomial apresentado na figura 7.

Figura 13 – Densidade das variáveis criadas para Hora em relação as Temperaturas Críticas e Não Críticas

Com o objetivo de capturar mais informações de instantes passado da temperatura, foram utilizadas as temperaturas de 1, 2, 3, 4, 5, 6, e 12 horas atrás. A amplitude (temperatura máxima – temperatura mínima) de 1, 2 ,3, 4, 5, 6 e 12 horas atrás. A temperatura mínima ocorrida a 3, 4, 5, 6, e 12 horas atrás. Também foi criada uma correlação linear móvel, que captura a correlação linear entre a temperatura no instante atual com a temperatura de 12 horas atrás.

Figura 14 – Densidade das variáveis defasadas (lag) no tempo para temperaturas críticas e não críticas

Para concluir a engenharia de variáveis, foi criada uma variável que vai de 1 até 365, para capturar variação linear das temperaturas ao longo dos dias dos anos.

Ao término da engenharia de variáveis, foram criadas 34 variáveis preditoras. Outras variáveis além das aqui apresentadas também foram criadas, mas não tiveram sucesso em separar os eventos de temperatura crítica dos eventos de temperatura não crítica.

3) Gerando Dados Sintéticos para Classe Minoritária

No aprendizado de máquina e na ciência de dados, geralmente encontramos um termo chamado distribuição de dados desequilibrada, geralmente acontece quando as proporções de observações em uma classe da variável resposta são muito maiores ou menores que as outras classes.

Neste estudo de caso, no período histórico disponível, das 18.572 observações de temperaturas disponíveis (após agregar os dados por hora), dessas, apenas em 138 observações ocorreram temperaturas menor ou igual a seis graus, ou seja, o evento que o algoritmo deve predizer com 12 hora de antecedência que é ‘Ocorrer uma temperatura crítica’, ocorreu em 0,74% do histórico disponível.

Algoritmos de aprendizado de máquina como Árvore de Decisão e Regressão Logística, têm uma tendência para a classe majoritária e tendem a ignorar a classe minoritária. Eles tendem apenas a prever a classe majoritária e, portanto, apresentam grandes erros de classificação da classe minoritária em comparação com a classe majoritária.

Para trabalhar esse desequilíbrio, foi utilizado um algoritmo para gerar dados sintéticos da classe minoritária, chamado SMOTE (Synthetic Minority Oversampling Technique). O objetivo é equilibrar a distribuição de classes aumentando aleatoriamente exemplos de classes minoritárias, replicando-os.

O SMOTE sintetiza novas observações entre as observações existentes da classe minoritária. O algoritmo gera essas novas observações sintéticas por interpolação linear. São gerados pela seleção aleatória de um ou mais vizinhos mais próximos para cada observação na classe minoritária.

O SMOTE funciona da seguinte forma:

Passo 1: Defina o conjunto da classe minoritária A, para cada x ∊ A, os k-vizinhos mais próximos de x são obtidos tomando a distância euclidiana entre x e outra amostra do conjunto A. A distância euclidiana entre dois elementos amostrais pode ser obtida pela fórmula:

Onde k é o número de variáveis preditoras. Ou seja, a distância entre o par de observações x_i e x_j utilizando a distância euclidiana é raiz quadrada do somatório das diferenças ao quadrado entre cada variável, para todo i diferente de j, pois se calcular a distância da observação com ela mesma, a distância será zero.

Passo 2: Para cada x ∊ A, n elementos amostrais são selecionados aleatoriamente a partir de seus k-vizinhos mais próximos e formam o conjunto A₁.

Passo 3: Para cada elemento amostral contido em A₁, a seguinte fórmula é usada para gerar um novo elemento amostral sintético:

Onde o argumento ‘aleatório’ é um valor contínuo entre zero e um gerado aleatoriamente.

Para apresentar em três dimensões a proporção de elementos amostrais onde ocorreram temperaturas críticas antes e após a aplicação do SMOTE, as variáveis preditoras no conjunto de dados foram combinadas linearmente através dos 3 primeiros autovetores obtidos a partir de sua matriz de covariâncias. Ou seja, sendo X uma matriz contendo as p variáveis preditoras, Σ_pxpa matriz quadrada de covariâncias de ordem p, 𝝺₁≥ 𝝺₂≥ …𝝺_pos autovalores da matriz Σ_pxp, e v_1, v_2,… v_pseus respectivos autovetores normalizados. As três dimensões plotadas nas figuras 15 e 16 são obtidas da seguinte maneira:

Figura 15 – Apresentação em três dimensões dos dados antes do balanceamento de classes pelo SMOTE

Figura 16 – Apresentação em três dimensões dos dados após o balanceamento de classes pelo SMOTE

4) Regressão Logística

A literatura fornece uma rica variedade de algoritmos de aprendizado de máquina para modelagem preditiva, é esperado que diversos algoritmos sejam ajustados aos dados e aquele que apresentar a melhor capacidade preditiva de acordo com o contexto é escolhido para ser implementado em produção. Neste estudo, o objetivo é apresentar o contexto e como foi solucionado utilizando aprendizado de máquina, e a modelagem preditiva utilizando a Regressão Logística foi a que apresentou melhores resultados. Outros algoritmos também foram testados, incluindo algoritmos baseados em árvores de decisões como o Random Forest e o Gradient Boosting Machine, e algoritmos baseados em funções discriminantes como o Discriminante Linear de Fisher e o Discriminante Quadrático. Porém foge do objetivo do artigo apresentar comparações entre a performance preditiva dos algoritmos, portanto o foco será apenas na Regressão Logística.

A Regressão Logística faz parte dos modelos lineares generalizados, que é uma variação da regressão de mínimos quadrados ordinários. Portanto, apesar de conter a palavra Regressão em seu nome, a Regressão Logística é utilizada para tarefa de classificação pois é baseada na distribuição binomial, que é utilizada para mensurar a probabilidade de que determinado número de sucesso ocorra em n tentativas. E pode ser representada pela equação:

Onde n é o número de tentativas, x é o número de sucessos e p é a probabilidade de sucesso.

Outro exemplo dos modelos lineares generalizados é a Regressão Poisson e a Regressão Binomial Negativa, que são utilizados para dados de contagem.

A regressão logística modela a probabilidade de uma observação pertencer a uma determinada categoria de saída, que neste contexto, as categorias são 1 = Ocorrerá uma temperatura crítica no trilho em doze horas e 0 = Não ocorrerá uma temperatura crítica no trilho em doze horas.

O modelo de Regressão Logística ajustado tem a forma:

Como alternativa pode ser escrito como:

Isso pode ser interpretado como o log da razão de chances do evento a ser predito y = 1 ocorrer dado os valores dos preditores x, pelas chances do evento a ser predito não ocorrer y = 0 dado os valores dos preditores x.

Os coeficientes β da equação são estimados maximizando função de verossimilhança sobre o conjunto de dados históricos:

Levando em conta quem os preditores podem ser correlacionados entre si e que nem todos preditores podem contribuir de maneira significativa para a predição, restrições foram adicionadas na função de verossimilhança. Restrições conhecidas como Restrição L₁(também chamada de Lasso) e a restrição L₂(também chamada de Ridge). Ao adicionar as duas restrições na função objetivo, o modelo de penalização é chamado de Elastic Net.

Figura 17 – Restrições L₁ (Lasso), L₂ (Ridge) e L₁ + L₂ (Elastic Net) – Fonte https://stanford.io/2YPUjcz

O valor para a constante α na restrição Elastic Net indica o peso que a restrição L₁ e a L₂ terão sobre a função de verossimilhança, estes podem variar de 0 a 1. Valores abaixo de 0,5 dão maior peso a restrição L₂ e valores acima de 0.5 dão maior peso a restrição L₁. O valor para α deve ser escolhido pelo pesquisador. Uma observação importante é que na figura 17 o autor utilizou a notação θ para representar os coeficientes que nesse artigo estão sendo representados por 𝜷.

O valor para a constante λ (também conhecida como multiplicador de Lagrange) de cada restrição, pode ser estimado via validação cruzada.

No processo de validação cruzada o conjunto de dados é dividido em k partes, um modelo preditivo é ajustado nas k-1 partes, e aplicado na parte que ficou de fora. Esse processo é repetido k vezes e o modelo final é ajustado ao conjunto completo de dados. O erro das predições é então calculado tomando a média aritmética dos erros nos k modelos ajustados.

Figura 18 – Processo de Validação Cruzada (k-fold cross validation) – Fonte https://stanford.io/2YPUjcz

O procedimento de adicionar as restrições L₁ e L₂ na função de verossimilhança, que também é chamado de regularização da função de verossimilhança, visa evitar que o modelo super ajuste os dados e seja capaz de lidar com os problemas de alta variância. Um detalhe interessante da restrição L₁é que automaticamente é feita uma seleção de variáveis, pois o coeficiente β de uma variável preditora que não esteja contribuindo de forma significativa para a predição pode ser ponderado pelo multiplicado pela constante de penalização λ até se tornar igual a zero.

A função de verossimilhança com as restrições fica:

Onde p é a quantidade de preditores.

Muitos pacotes estatísticos utilizam o algoritmo de Newton para otimizar a função de verossimilhança, em um processo chamado de mínimos quadrados reponderados iterativos (IRLS), entretanto, devido a adição das restrições, o método utilizado foi a Descida Coordenada, que se baseia na ideia de otimizar uma função multivariada em uma direção de cada vez. Os passos matemáticos do algoritmo de otimização estão além do escopo do presente artigo mas há bastante literatura disponível.

4) Avaliação da Performance Preditiva do Algoritmo

Uma das formas de avaliar o quão bem ajustado aos dados o algoritmo de aprendizado de máquina está, é aplicar o algoritmo nos próprios dados históricos e comparar a classe real de cada observação com a classe predita pelo algoritmo e obter a taxa de acerto. Entretanto essa abordagem pode gerar uma conclusão enviesada pois o algoritmo já “conhece” os dados em que ele foi ajustado, dados estes que também são chamados de conjunto de treino. Sendo assim, o processo de validação cruzada seria bastante pertinente aqui.

Entretanto, no contexto apresentado, a validação cruzada não será efetiva. Pois o SMOTE foi utilizado para gerar observações sintéticas e equilibrar as classes. Dessa forma a proporção de observações que possuem a temperatura crítica não reflete a realidade. Finalmente, o procedimento utilizando para avaliar a performance preditiva do algoritmo, em dados que ele ainda não “conhece”, foi o chamado Hold-Out. Que consiste em utilizar um percentual do histórico de dados para treinar o algoritmo e separar o percentual restante para validação. Então é avaliada a taxa de acertos do algoritmo nesse conjunto de validação.

No estudado apresentado, os dados são ordenados ao longo tempo, portanto as medições do período de janeiro de 2017 até dezembro de 2018 foram utilizadas para formar o conjunto de treinamento, e as medições de janeiro a março de 2019 utilizadas para formar o conjunto de validação. Importante observar que o SMOTE foi aplicado somente no conjunto de treino, para que no conjunto de validação seja refletida a proporção real entre as ocorrências e não ocorrências de temperaturas críticas.

Para avaliar a taxa de acertos do algoritmo, uma tabela cruzando a coluna da variável resposta original e a variável resposta predita é obtida. Essa tabela leva o nome de matriz de confusão, que é uma tabela que nos informa os erros e acertos de predição do algoritmo. A matriz de confusão é calculada utilizando apenas duas colunas, a variável resposta que já estava no conjunto de dados e uma nova coluna informando a classe que o algoritmo predisse para cada observação. Independente do contexto, sempre que trabalhamos com uma tarefa de classificação, deve ser definida qual será a classe positiva e a negativa da variável resposta. A classe positiva não necessariamente é algo bom, mas é o que se busca predizer com o algoritmo. Neste contexto a classe positiva é “Ocorrer_Temperatura_Crítica”, pois é esse evento que estamos interessado em prever.

Figura 19 – Estrutura geral da matriz de confusão para um classificador binário

A célula A trará a quantidade de observações da classe positiva que foram preditas como pertencentes da classe positiva. Ou seja, o quanto o algoritmo acertou para a classe positiva (verdadeiro positivo).

A célula B trará a quantidade de observações da classe positiva que foram preditas como pertencentes da classe negativa. Ou seja, o quanto o algoritmo errou para a classe negativa (falso negativo).

A célula C trará a quantidade de observações da classe negativa que foram preditas como pertencentes da classe positiva. Ou seja, o quanto o algoritmo errou para a classe positiva (falso positivo).

A célula D trará a quantidade de observações preditas como pertencentes da classe negativa e que realmente eram da classe negativa. Ou seja, o quanto o algoritmo acertou para a classe negativa (verdadeiro negativo).

Observe que os elementos da diagonal principal da matriz (células A e D) correspondem a quantidade de acertos, e os elementos fora da diagonal principal (células B e C) correspondem aos erros.

O output da regressão logística é uma probabilidade, então um ponto de corte (threshold) deve ser definido, de forma que, se a probabilidade estimada for acima do ponto de corte, a predição será considerada como pertencente ao evento positivo (ocorrerá temperatura crítica), caso contrário, a predição será considerada como pertencente ao evento negativo (não ocorrerá temperatura crítica).

Na literatura existem diversas métricas para orientar o pesquisador a identificar o melhor ponto de corte de acordo com o contexto do experimento.

A princípio a métrica chamada F2 foi considerada, pois é uma métrica que penaliza alta quantidade de falsos negativos, e esse é o erro mais crítico no contexto desse artigo. Pois se o algoritmo predizer que não ocorrerá temperatura crítica no trilho nas próximas doze horas, e ocorrer, os danos podem ser catastróficos. Ou seja, o ponto de corte escolhido deve ser aquele que resulte no maior valor de F2. Seu valor varia entre zero e um e quanto maior melhor. A medida F2 pode ser obtida pela seguinte equação:

Onde VP são os verdadeiros positivos, FP os falsos positivos e os FN os falsos negativos.

Entretanto, devido ao enorme desbalanceamento entre as classes de interesse no conjunto de dados de validação, essa métrica não foi útil na prática. Finalmente, a métrica adotada foi o Erro Médio por Classes (mean per class error), que consiste em obter um ponto de corte que irá gerar a menor média entre a taxa de erros para classe de interesse e a classe de não interesse. Ou seja, o ponto de corte deve minimizar a seguinte equação:

Onde FN são os falsos negativos, FP os falsos positivos, n₁ é a quantidade de observações pertencentes a classe 1, e n₀ é a quantidade de observações pertencentes a classe 0.

ANÁLISE DOS RESULTADOS

Foram testados cem valores para a constante λ de penalização, sendo o valor mínimo λ= 1.881E-4 e valor máximo λ = 0.3525. Para cada valor foi realizado um procedimento de validação cruzada com k=5. Ou seja, foram ajustadas 500 regressões logísticas. O valor de λ que obteve a melhor performance preditiva foi 2.065E-4.

Para o valor de alfa α foi utilizada uma grade de busca (grid search) testando valores de α=0.0 até α=1.0, incrementando de 0.1. O melhor valor foi α=0.99, que é basicamente uma regressão L₁(lasso).

O algoritmo de Descida Coordenada gastou 163 interações para otimizar a função objetivo.

O modelo iniciou com 32 preditores e finalizou com 24 preditores. Ou seja, a restrição L₁ zerou o coeficiente de algumas das variáveis.

Figura 20 – Variáveis consideradas mais importantes pelo algoritmo

Na figura 20 pode-se visualizar as variáveis que o algoritmo considerou mais importante para predição. As variáveis Hora, Hora ao cubo e a temperatura de 12 horas atrás (lag 12) foram as três variáveis mais importantes. E as variáveis partir Temperatura Mínima Lag4 foram removidas do modelo pela restrição L₁ .

Na figura 21 pode-se visualizar a matriz de confusão na amostra de validação, utilizando o ponto de corte de 49%.

Figura 21 – Matriz de confusão na base de validação

Das 28 observações que ocorreram temperaturas críticas, 27 o algoritmo acertou e 1 ele errou (falso negativo). Houveram 231 falsos positivos, que são alarmes falsos, mas que são menos custosos e mais administráveis que os falsos negativos.

CONCLUSÕES

Após todos os experimentos científicos com os dados e algoritmos foi possível compreender que é possível utilizar aprendizado de máquina para predizer com doze horas de antecedência com uma taxa de acerto bastante interessante. Como próximos passos, está prevista a expansão desse conceito de modelagem preditiva a outros termômetros em outros corredores logísticos. Pois o algoritmo ajustado “aprendeu” os padrões nas temperaturas para esse termômetro, em outros, o comportamento da temperatura será diferente, portanto um novo modelo preditivo deve ser ajustado aos dados.

REFERÊNCIAS BIBLIOGRÁFICAS

BOLDRINI, Costa; WETZLER, Figueiredo. Álgebra Linear. 3. ed. São Paulo: HARBRA, 1986.

CHAWLA, N. V., BOWYER, K. W., Hall, L. O., and KEGELMEYER, W. P. (2002). Smote: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 16:321-357.

GUJARATI, Damodar N.; PORTER, Dawn C.. Econometria Básica. Tradução de Denise Durante et al. 5. ed. Porto Alegra: AMGH Editora Ltda., 2011.

HASTIE, Trevor et al. An Introduction to Statistical Learning: with Applications in R. 1. ed. New York: Springer, 2013.

HASTIE, Trevor; TIBSHIRANI, Robert; FRIEDMAN, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2. ed. New York: Springer, 2009.

MINGOTI, Sueli Aparecida. Análise de Dados Através de Métodos de Estatística Multivariada: Uma Abordagem Aplicada. 1. ed. Belo Horizonte: Editora UFMG, 2005.

Mineração de Dados – Página 106 de 106

TORGO, L. (2010) Data Mining using R: learning with case studies, CRC Press (ISBN: 9781439810187)

#Aprendizadodemaquina #machinelearning #estatistica #previsao #cienciadedados

Linkedin Prof. Máiron Chaves:

https://www.linkedin.com/in/maironchaves/

Playlist Prof. Mairon Chaves Estatidados:

O post Utilizando Aprendizado de Máquina para predizer falhas na Ferrovia apareceu primeiro em Estatidados.

Machine Learning: Conceitos e Modelos — Parte I: Aprendizado Supervisionado*

admin — Tue, 21 Jul 2020 20:50:25 +0000

Machine Learning — ou Aprendizado de Máquina — é uma das técnicas utilizadas na Inteligência Artificial que usa algoritmos baseados em matemática e estatística para realizar a tarefa de aprendizado. Machine Learning surge da necessidade de processar e obter informação útil a partir dos dados e, uma vez que é inviável realizar manualmente o processamento e análise da grande quantidade de dados que temos disponíveis atualmente, é necessário automatizar tarefas, simulando o comportamento humano.

Desta forma, podemos definir Machine Learning como a utilização de algoritmos com a finalidade de extrair informações de dados brutos e representá-los por meio de algum tipo de modelo matemático. Este modelo é então usado para fazer inferências — ou predições — a partir de novos conjuntos de dados. Machine Learning busca, em geral, descobrir padrões ou fórmulas matemáticas que expliquem o relacionamento entre os dados, e estuda formas de automatização de tarefas inteligentes que seriam difíceis ou até mesmo impossíveis de serem realizadas manualmente por seres humanos.

Vale a pena ressaltar que a maioria das técnicas de Machine Learning é antiga e, em sua grande parte, provenientes da Estatística. Porém, elas só passaram a ser efetivamente utilizadas para exploração de dados nos últimos anos devido a diversos fatores, como a disponibilidade de maior volume de dados devido a popularização de aplicativos e dispositivos móveis, popularização de técnicas de Data Warehousing (grandes armazéns de dados com arquitetura voltada para a tomada de decisão), melhoria exponencial da potência dos recursos computacionais, como capacidade de processamento, e forte competição empresarial.

Em Machine Learning, o aprendizado é o objetivo principal. Aprendizado é a capacidade de se adaptar, modificar e melhorar seu comportamento e suas respostas, sendo uma das propriedades mais importantes dos seres inteligentes (humanos ou não). Diz-se que se está aprendendo (treinando, construindo, formulando ou induzindo um modelo de conhecimento) a partir de um conjunto de dados quando se procura por padrões nestes dados. Quando se faz uma estimativa (teste, predição) dos valores desconhecidos para atributos do conjunto de dados, diz-se que o modelo está sendo aplicado.

Podemos dividir o aprendizado em Machine Learning em dois grandes tipos: supervisionado e não-supervisionado. No aprendizado supervisionado, o modelo (ou algoritmo) é construído a partir dos dados de entrada (também chamados de dataset), que são apresentados na forma de pares ordenados (entrada — saída desejada). Dizemos que estes dados são rotulados, pois sabemos de antemão a saída esperada para cada entrada de dados. Neste caso, o aprendizado (ou treinamento) consiste em apresentarmos para o algoritmo um número suficiente de exemplos (também chamados de registros ou instâncias) de entradas e saídas desejadas (já rotuladas previamente). Assim, o objetivo do algoritmo é aprender uma regra geral que mapeie as entradas nas saídas corretamente, o que consiste no modelo final. Os dados de entrada podem ser divididos em dois grupos:

X, com os atributos (também chamados de características) a serem utilizados na determinação da classe de saída (também chamados de atributos previsores ou de predição)
Y, com o atributo para o qual se deseja fazer a predição do valor de saída categórico ou numérico (também chamado de atributo-alvo ou target).

É comum que particionemos os dados de entrada (rotulados) em dois conjuntos: o conjunto de treinamento, que servirá para construir o modelo, e o conjunto de teste (também chamado na literatura de conjunto de validação), que servirá para verificar como o modelo se comportaria em dados não vistos, de forma que possamos ajustá-lo, se necessário para a construção final do modelo, a ser aplicado em novos dados que ainda não conhecemos a saída esperada. A figura a seguir ilustra o funcionamento de um modelo de aprendizado supervisionado:

Esquema do aprendizado supervisionado

Apesar da essência principal de Machine Learning consistir na construção de algoritmos de aprendizado supervisionado ou não supervisionado, esta não é a única etapa em que devemos nos concentrar. É muito importante que entendamos bem o problema a ser resolvido para que possamos traçar os objetivos principais. Em seguida, será necessário coletar e analisar os dados adequados para o problema e prepará-los, pois na maioria das vezes eles virão com informações faltantes, incompletas ou inconsistentes. Após estas etapas é que podemos construir o modelo de Machine Learning, que deve ser avaliado e criticado e, se necessário voltar à etapa de coleta e análise de dados, para a obtenção de mais dados, ou mesmo retornar à etapa de construção do modelo, usando diferentes estratégias. Quando se chegar a um modelo satisfatório para o problema, será necessário apresentar os resultados para o demandante e distribuir o modelo em ambiente produtivo. A sequência a seguir resume estas 7 etapas que, idealmente, devem ser realizadas em todos os projetos de Machine Learning.

Entender o problema e definir objetivos — Que problema estou resolvendo?
Coletar e analisar os dados — De que informações preciso?
Preparar os dados — Como preciso tratar os dados?
Construir o modelo — Quais são os padrões nos dados que levam a soluções?
Avaliar e criticar o modelo — O modelo resolve meu problema?
Apresentar resultados — Como posso resolver o problema?
Distribuir o modelo — Como resolver o problema no mundo real?

A figura a seguir resume este fluxo:

Esquema de um projeto completo de Machine Learning. Fonte: (ESCOVEDO & KOSHIYAMA, 2020)

São exemplos de problemas de aprendizado supervisionado a Classificação e a Regressão, queserão detalhados a seguir.

Classificação

Um exemplo típico de problema de Classificação é a detecção de clientes com perfis fraudulentos. Imagine a seguinte situação: um determinado cliente deseja obter um empréstimo de R$ 10.000,00. O gestor deste sistema poderia se perguntar: “Será que este cliente vai pagar o empréstimo?”. Ou ainda, “Qual é o melhor modelo de financiamento para este cliente (juros, prazo etc.)?”. Este é um problema típico de Classificação, pois deseja-se classificar um cliente em uma das possíveis classes do problema, por exemplo, bom pagador/mau pagador ou juros/prazo/outros.

A Classificação é uma das categorias de problemas de Machine Learning mais importantes e mais populares e o objetivo do algoritmo é aprender uma regra geral que mapeie as entradas nas saídas corretamente. Conforme já mencionamos, os dados de entrada podem ser divididos em dois grupos: X, com os atributos a serem utilizados na determinação da classe de saída e Y, que representa a classe de saída (o atributo para o qual se deseja fazer a predição do valor da classe), sendo que em problemas de Classificação, o Y é sempre categórico.

Informalmente, um problema de Classificação pode ser definido como a busca por uma função matemática que permita associar corretamente cada exemplo Xi de um conjunto de dados a um único rótulo categórico, Yi, denominado classe. Esta função, uma vez identificada, poderá ser aplicada a novos dados para prever suas respectivas classes. A figura a seguir ilustra este problema:

Problema de Classificação. Fonte: (ESCOVEDO & KOSHIYAMA, 2020)

O fluxo resumido de um problema de Classificação inicia gerando, a partir de uma base de dados rotulada (aquela em que para cada exemplo, conhecemos a sua respectiva classe), dois subconjuntos disjuntos: a base de treino (contendo, por exemplo, 70% dos dados originais) e a base de teste (contendo, o restante dos dados originais, no caso, 30%).

Em seguida, é realizado o treinamento do modelo: a base de treino é submetida ao modelo (classificador) para que seus parâmetros sejam calibrados de acordo com os dados apresentados. Após esta etapa, ocorre a etapa de predição de classes: os exemplos da base de teste são apresentados para o modelo treinado para que este realize a predição de suas classes. Medimos a qualidade do modelo comparando as classes preditas com as classes verdadeiras da base de teste, permitindo medir sua habilidade em classificar corretamente exemplos não vistos durante o treinamento. Este fluxo pode ser resumido pela figura a seguir.

Fluxo resumido de problemas de Classificação. Fonte: (ESCOVEDO & KOSHIYAMA, 2020)

Existem diversas medidas para estimar o desempenho de um classificador, sendo a acurácia uma das mais utilizadas, que representa o percentual de acertos do classificador. Outra métrica bastante utilizada para problemas de classificação é a matriz de confusão, que oferece um detalhamento do desempenho do modelo de classificação, mostrando, para cada classe, o número de classificações corretas em relação ao número de classificações preditas pelo modelo. A matriz de confusão pode ser usada para calcular outras métricas, tais como o número de Falsos Positivos (quando o resultado esperado é negativo, mas o modelo resulta em positivo), Falsos Negativos (quando o resultado esperado é positivo, mas o modelo resulta em negativo), Verdadeiros Positivos (quando o resultado esperado é positivo e o modelo resulta em positivo) e Verdadeiros Negativos (quando o resultado esperado é negativo e o modelo resulta em negativo).

A figura a seguir ilustra a matriz de confusão para um problema de classificação binária, no qual há somente duas classes possíveis, C1 e C2. Para problemas de classificação múltipla (no qual há mais de duas classes possíveis), a matriz de confusão pode ser um pouco confusa de se interpretar, sendo desencorajado o seu uso como única métrica de avaliação neste caso.

Matriz de confusão para problema de classificação binária. Fonte: (ESCOVEDO & KOSHIYAMA, 2020)

Regressão

O problema de Classificação, apresentado anteriormente, pode ser considerado um subtipo do problema de Regressão, pois ambos são bem similares. Sua principal diferença consiste na saída do modelo: na Classificação, o resultado é categórico e na Regressão, o resultado é numérico (contínuo ou discreto). Um exemplo de problema de Regressão é a predição do valor estimado das vendas em uma nova filial de uma determinada cadeia de lojas. Se esta pergunta for mapeada em um problema de Classificação, as respostas possíveis poderiam ser: Alto/Médio/Baixo. Se mapeada em um problema de Regressão, as respostas poderiam ser valores monetários. As tarefas de separação em conjuntos de treino e teste, treinamento e teste são feitas de forma equivalente para ambos os problemas.

Assim como na Classificação, a Regressão consiste em realizar aprendizado supervisionado a partir de dados históricos. Além do tipo do resultado de saída do modelo, os dois problemas também se diferem quanto às métricas utilizadas para a avaliação de saída: na Regressão, verifica-se a distância ou o erro entre a saída do modelo e a saída desejada. A saída do modelo é um valor numérico que deve ser o mais próximo possível do valor desejado, e a diferença entre esses valores fornece uma medida de erro de estimação do algoritmo.

Podemos definir um problema de Regressão como: dado um conjunto de n padrões, cada um deles composto por variáveis explicativas (independentes) e por uma variável resposta contínua ou discreta (dependente), busca-se construir um modelo de Regressão que estime o valor mais esperado para a variável resposta dado um novo padrão i. Assim, seja di o valor de resposta desejada para o padrão i e seja zi a resposta predita do algoritmo, obtida a partir da entrada do padrão i, então di — zi é o erro observado para o objeto i. O processo de treinamento do modelo de regressão tem por objetivo “corrigir” este erro observado e, para tal, busca ajustar os parâmetros do modelo de forma a aproximar as saídas preditas dos valores de saída desejados.

Dentre as diversas métricas de avaliação utilizadas para problemas de regressão, uma das mais usadas é a RMSE (Root Mean Square Error, ou raiz do erro quadrático médio). Quanto menor o valor de RMSE, melhor é o modelo de regressão analisado. Outra métrica muito utilizada é o Coeficiente de Determinação, ou R2. Quanto mais próximo de 1, melhor é o ajuste do modelo.

Para cada um dos problemas de Machine Learning existem diversos algoritmos que podem ser utilizados. Entretanto, vale a pena mencionar o conhecido teorema “não existe almoço grátis”: não existe um algoritmo de aprendizado que seja superior a todos os demais quando considerados todos os problemas possíveis. A cada problema, os algoritmos disponíveis devem ser experimentados a fim de identificar aqueles que obtêm melhor desempenho. Em seguida, apresentaremos alguns dos modelos mais utilizados para aprendizagem supervisionada.

Algoritmos de Machine Learning

Árvore de Decisão

A Árvore de Decisão é inspirada na forma como humanos tomam decisão e, por este motivo, um dos modelos mais simples de se entender. Uma das principais vantagens deste algoritmo é a apresentação visual da informação, facilitando o entendimento pelo ser humano. As árvores podem ser usadas para problemas de Classificação (Árvores de Classificação) ou Regressão (Árvores de Regressão). De forma resumida, uma árvore de decisão usa amostras das características dos dados para criar regras de decisão no formato de árvore, mapeando os dados em um conjunto de regras que podem ser usadas para uma decisão.

As árvores de decisão costumam ter bons resultados e boa interpretabilidade, e podem realizar automaticamente a seleção de variáveis para compor suas estruturas. Cada nó interno representa uma decisão sobre uma característica, que determina como os dados serão particionados pelos seus nós filhos. Para aplicar o modelo a um novo exemplo, basta testar os valores dos atributos em cada nó da árvore e percorrê-la até se atingir um nó folha, que representará a classe ou o valor predito, dependendo do problema ser de Classificação ou de Regressão. A figura a seguir ilustra uma Árvore de Classificação.

Exemplo de Árvore de Classificação

Existem diferentes algoritmos para a elaboração de uma Árvore de Decisão. Alguns exemplos são: ID3, C4.5, C5.0 e CART. A ideia geral de todos estes algoritmos é bem parecida: a construção da árvore é realizada, em geral, de acordo com alguma abordagem recursiva de particionamento do conjunto de dados. A principal distinção entre os algoritmos está nos processos de seleção de variáveis, critério de particionamento e critério de parada para o crescimento da árvore.

K-Vizinhos mais próximos (KNN)

O algoritmo KNN (k-Nearest Neighbours ou k-Vizinhos Mais Próximos) é um algoritmo de simples entendimento e que funciona muito bem na prática, podendo ser utilizado tanto para problemas de Classificação quanto para problemas de Regressão. Sua ideia principal é considerar que os exemplos vizinhos são similares ao exemplo cuja informação se deseja inferir, uma ideia parecida com “Diga-me com quem andas e eu te direi quem tu és!”. O KNN considera que os registros do conjunto de dados correspondem a pontos no espaço Rn, em que cada atributo corresponde a uma dimensão deste espaço. A figura a seguir ilustra um exemplo no espaço R2.

Exemplo de funcionamento do KNN. Fonte: (ESCOVEDO & KOSHIYAMA, 2020)

No KNN, o conjunto de dados de treinamento é armazenado e, quando um novo exemplo chega, ele é comparado a todos os exemplos armazenados para identificar os k (que é um parâmetro de entrada do algoritmo) vizinhos mais próximos (mais semelhantes) de acordo com alguma métrica de distância (por exemplo, distância euclidiana). No caso de ser um problema de classificação, a classe do novo registro é determinada por inspeção das classes dos k vizinhos mais próximos, de acordo com a métrica escolhida. No caso de um problema de regressão, em vez da classe, examina-se o valor de Y dos k vizinhos. Na maioria das implementações do KNN, os atributos são normalizados no início do algoritmo, para que contribuam igualmente na predição da classe ou do valor.

As etapas a seguir resumem o algoritmo KNN:

Definição da métrica de distância utilizada e valor de k.
Cálculo da distância do novo exemplo a cada um dos exemplos existentes no conjunto inicial de entrada.
Identificação dos k exemplos do conjunto de referência que apresentaram menor distância em relação ao novo exemplo (mais similares).
Apuração da classe mais frequente entre os k exemplos identificados no passo anterior, usando votação majoritária (para problemas de classificação) ou estimação do valor Y como a média aritmética dos k-vizinhos mais próximos.

Regressão Linear

A Regressão Linear é um algoritmo utilizado apenas para problemas de Regressão, e, resumidamente, consiste em escolher coeficientes para construir uma reta que minimize a soma dos quadrados dos erros (SQE) entre os valores reais dos exemplos de treinamento e esta reta. Observe um exemplo de regressão linear para o problema de se estimar o faturamento esperado para uma filial em um bairro, considerando a renda per capita deste bairro, ilustrado na figura a seguir:

Exemplo de regressão linear. Fonte: (ESCOVEDO & KOSHIYAMA, 2020)

Neste caso, os coeficientes da reta de regressão linear são -24,49 e 0,15, e este modelo significa que, a cada aumento de R$100 na renda per capita do bairro, espera-se que isso reflita em 0,15 ∗ 100 = 15 mil de faturamento para a filial. Esta solução é dita ótima porque ela representa a reta que passa mais perto dos pontos (considerando a distância euclidiana), como ilustra a figura a seguir:

Exemplo de cálculo de erro para um exemplo na regressão linear. Fonte: (ESCOVEDO & KOSHIYAMA, 2020)

Assim, para cada escolha dos parâmetros β0 e β1 na equação (que especificam, respectivamente, o intercepto do eixo y e a inclinação da reta):

podemos calcular os erros (ou desvios) dessa escolha. Porém, observe que se somarmos todos os erros individuais para calcular o erro total do modelo eles irão se anular, uma vez que os erros individuais são positivos e negativos. Desta forma, é mais indicado trabalhar com a magnitude do erro, como, por exemplo, o erro ao quadrado.

É importante ressaltar que neste exemplo consideramos apenas a relação entre faturamento e renda per capita, mas, em problemas reais, dificilmente haverá uma única variável x capaz de prever a saída y. Assim, se quiséssemos adicionar uma ou mais variáveis x ao problema, teríamos uma Regressão Linear Múltipla, acrescentando mais coeficientes à equação, um para cada variável de X, e estendendo a equação da reta para a equação de um plano ( quando temos 3 dimensões) ou hiperplano (quanto temos mais de 3 dimensões).

Formalmente, a Regressão Linear modela a relação entre a variável de resposta y e as variáveis preditoras X, e corresponde ao problema de estimar uma função a partir de pares entrada-saída, considerando que y pode ser explicado por uma combinação linear de X. Assim, a solução de um problema de regressão consiste em encontrar valores para os coeficientes de regressão de forma que a reta (ou plano/hiperplano) se ajuste aos valores assumidos pelas variáveis no conjunto de dados.

A saída do modelo é um valor numérico contínuo que deve ser o mais próximo possível do valor desejado, e a diferença entre esses valores fornece uma medida de erro do algoritmo. Se a equação de regressão aproxima suficientemente bem os dados de treinamento, então ela pode ser usada com novos dados (nos quais não conhecemos o valor de y) para estimar y a partir do valor das variáveis X, assumindo uma relação linear entre estas variáveis. Em suma, a Regressão Linear procura pelos coeficientes da reta que minimizam a distância dos objetos à reta.

Regressão Logística

A Regressão Logística, apesar do nome, é um algoritmo utilizado exclusivamente para problemas de Classificação, mas seu funcionamento lembra muito o funcionamento do algoritmo de Regressão Linear. A Regressão Logística é usada para estimar valores discretos de classes binárias (valores como 0/1, sim/não, verdadeiro/falso) com base em um conjunto de variáveis independentes. Internamente, a Regressão Logística calcula a probabilidade de ocorrência de um evento, ajustando os dados a uma função logit, uma função que mapeia a saída em valores entre 0 e 1.

De forma similar à Regressão Linear, a Regressão Logística usa uma equação como representação: os valores de entrada X são combinados linearmente usando coeficientes para prever um valor de saída y. A diferença é que o valor de saída é modelado em valor de classe binário em vez de um valor numérico.

A Regressão Logística modela a probabilidade da classe padrão do problema. Por exemplo, se estivermos modelando o perfil de um cliente (bom ou mau pagador) dado seu salário, podemos escolher considerar a classe “bom pagador” como padrão, e iremos modelar a probabilidade de uma entrada X pertencer à classe padrão. Os melhores coeficientes resultarão em um modelo que vai prever um valor muito próximo de 1 para a classe padrão e um valor muito próximo de 0 para a outra classe. Após determinados os coeficientes e construir a equação resultante, basta utilizá-la para fazer predições para novos exemplos.

Naïve Bayes

O Naïve Bayes (Bayes Ingênuo), é um dos métodos mais utilizados para Classificação por ser computacionalmente rápido e por necessitar de poucos dados de treinamento. Por este motivo, é um modelo especialmente adequado quando o problema tem um grande número de atributos (características). Basicamente, este modelo determina a probabilidade de um exemplo pertencer a uma determinada classe.

O Naïve Bayes é chamado de ingênuo (naïve) porque desconsidera completamente qualquer correlação existente entre os atributos do dataset. Por exemplo, em um problema de classificação de animais, se determinado animal é considerado um “Gato” se tiver bigodes, rabo e aproximadamente 30 cm de altura, o algoritmo não vai levar em consideração a correlação entre esses fatores e tratará cada um deles de forma independente.

Além disso, este modelo foi assim batizado por ser baseado no Teorema de Bayes, estando relacionado com o cálculo de probabilidades condicionais. O Teorema de Bayes determina a probabilidade de um evento com base em um conhecimento prévio (a priori) que pode estar relacionado a este evento.

Formalmente, seja X(A1, A2, …, An, C) um conjunto de dados. Considere que c1, c2, …, cn são as classes do problema (valores possíveis do atributo alvo C) e que R é um novo exemplo que deve ser classificado. Sejam ainda a1, a2, …, ak os valores que R assume para os atributos previsores A1, A2, …, An, respectivamente. Resumidamente, o algoritmo consiste em dois passos:

Calcular as probabilidades condicionais P(C=ci|R), i = 1, 2, …, k
Indicar como saída do algoritmo a classe c tal que P(C=c|R) seja máxima, quando considerados todos os valores possíveis do atributo alvo C.

A intuição por trás do algoritmo é dar mais peso para as classes mais frequentes, considerando que os atributos são estatisticamente independentes entre si. Apesar de isto não ocorrer em muitos casos práticos, o método mostra-se bastante efetivo mesmo nos casos em que os atributos não sejam estatisticamente independentes.

Support Vector Machines (SVM)

O algoritmo Support Vector Machine (SVM, ou Máquina de Vetores de Suporte), é um dos algoritmos mais populares efetivos para problemas de classificação (apesar de também poder ser usado para problemas de regressão). Apesar de o treinamento do SVM geralmente ser lento, esses modelos exigem poucos ajustes e tendem a apresentar boa acurácia, conseguindo modelar fronteiras de decisão complexas e não lineares.

Resumidamente, o SVM realiza um mapeamento não linear (utilizando funções kernel) para transformar os dados de treino originais em uma dimensão maior, buscando nesta nova dimensão um hiperplano que separe os dados linearmente de forma ótima. Com um mapeamento apropriado para uma dimensão suficientemente alta, dados de duas classes poderão ser sempre separados por um hiperplano. O SVM encontra este hiperplano usando vetores de suporte (exemplos essenciais para o treinamento) e margens, definidas pelos vetores de suporte.

A figura a seguir ilustra um classificador linear (ilustrado pela reta sólida) e duas retas paralelas a este classificador, pontilhadas. Cada uma das retas pontilhadas é movida a partir da posição da reta sólida, e determina quando a reta paralela intercepta o primeiro ponto do conjunto de dados, que é denominado vetor de suporte. A margem é a distância construída entre estas duas retas paralelas pontilhadas.

Exemplo de classificador linear, margem e vetores de suporte. Fonte: (ESCOVEDO & KOSHIYAMA, 2020)

Como na maioria das vezes infinitas retas (ou hiperplanos) dividem corretamente o conjunto de treinamento em duas classes, o SVM deve, então, realizar um processo de escolha da reta separadora dentre o conjunto infinito de retas possíveis. Assim como existem infinitas retas que separam os pontos em duas classes, há diversos tamanhos de margem possíveis dependendo da reta escolhida como classificador. A figura a seguir ilustra dos possíveis classificadores para um mesmo problema, com dois tamanhos de margem diferentes.

Diferentes tamanhos de margem possíveis para um mesmo problema. Fonte: (ESCOVEDO & KOSHIYAMA, 2020)

O classificador associado ao valor máximo de margem é denominado classificador linear de margem máxima, e geralmente é o classificador do SVM que apresenta o melhor resultado e então, é ele que procuramos. Os vetores de suporte são os pontos mais difíceis de classificar e, por construção, todos os vetores de suporte possuem a mesma distância em relação a reta do classificador linear (a metade do comprimento da margem).

Assim, o SVM realiza um processo de otimização, por meio do qual são determinados os parâmetros (coeficientes) do classificador linear que produzam o valor máximo para o comprimento da margem. A reta correspondente a este classificador linear é dita ótima porque, se ela for deslocada em alguma das duas direções das retas perpendiculares a ela, a probabilidade é menor de haver um erro de classificação. Assim, a posição do classificador linear correspondente ao comprimento de margem máximo é a mais segura possível com relação a eventuais erros de classificação, e quanto maior a distância de x para o hiperplano, maior a confiança sobre a classe a que x pertence. Uma vez obtidos os valores dos coeficientes e encontrado o classificador linear de margem máxima, aplica-se uma função de decisão para classificar um novo exemplo, cuja classe, é dada pelo sinal do resultado desta função.

Na prática, o SVM é implementado usando funções kernel, objetos matemáticos que permitem que trabalhemos um espaço de dimensão maior. Os tipos de kernel mais utilizados são linear, polinomial e radial. Para um conjunto de dados que não é linearmente separável, o SVM utiliza funções kernel para mapear o conjunto de dados para um espaço de dimensão maior que a original, e o classificador é ajustado neste novo espaço. Assim, o SVM é, na verdade, a combinação do classificador linear com um kernel não linear. O processo de mapeamento de um espaço em outro de dimensão maior é ilustrado pela figura a seguir:

Exemplo de mapeamento de um conjunto não linearmente separável em um linearmente separável. Fonte: (ESCOVEDO & KOSHIYAMA, 2020)

Este artigo apresentou de forma resumida os principais conceitos e algoritmos de aprendizado supervisionado relacionados a Machine Learning. Caso você tenha interesse em se aprofundar no assunto, recomendamos a leitura dos seguintes livros:

Tatiana Escovedo & Adriano S. Koshiyama. “Introdução a Data Science — Algoritmos de Machine Learning e métodos de análise”. Ed. Casa do Código, São Paulo, 2020. (Para comprar: https://www.casadocodigo.com.br/products/livro-data-science)
Ronaldo Goldschmidt, Emmanuel Passos e Eduardo Bezerra. “Data Mining: Conceitos, Técnicas, Algoritmos, Orientações e Aplicações”. Rio de Janeiro, Elsevier, 2005.
Tom Fawcett e Foster Provost. “Data Science para Negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados”. Alta Books Editora, 2018.
Jason Brownlee. “Machine Learning Mastery with Python”. Machine Learning Mastery Pty Ltd, 2016. (Para comprar: https://machinelearningmastery.com/machine-learning-with-python/)
Laura Igual e Santi Seguí. “Introduction to Data Science: A Python Approach to Concepts, Techniques and Applications”. Springer, Cham, 2017.

A Parte II deste artigo, que trata de aprendizado não-supervisionado, está disponível em https://medium.com/@tatianae_79457/machine-learning-conceitos-e-modelos-parte-ii-aprendizado-n%C3%A3o-supervisionado-fb6d83e4a520.

Referências:

(ESCOVEDO & KOSHIYAMA, 2020) Tatiana Escovedo & Adriano S. Koshiyama. “Introdução a Data Science — Algoritmos de Machine Learning e métodos de análise”. São Paulo, Ed. Casa do Código, 2020.

*Este texto faz parte do livro colaborativo Jornada Python — Uma Jornada imersiva na aplicabilidade de uma das mais poderosas linguagens de programação do mundo, previsto para lançamento ainda em 2020 pela editora Brasport.

Github da Professora Tatiana Escovedo:

https://tatianaesc.github.io/portfolio/

#estatística #datascience #modelos #supervisionados

O post Machine Learning: Conceitos e Modelos — Parte I: Aprendizado Supervisionado* apareceu primeiro em Estatidados.