APRENDENDO DATA SCIENCE


Este material apresenta um conjunto de POST´s relacionados a Machine Learning, onde iremos começar estudando: conceitos, cenários e previsões para a Inteligência Artificial (IA), além de alguns conceitos básicos de Estatística. Em seguida iremos mostrar algumas ferramentas que nos auxiliam no dia a dia quando trabalhamos com Machine Learning (Aprendizado de Máquina). Veremos também uma breve descrição sobre Dados e Big Data, passando por Bancos de Dados não Relacionais (NOSQL).

Após essa base, entraremos no assunto principal: Machine Learning, onde será apresentado diversos materiais detalhando algoritmos, técnicas, bibliotecas (librarys) e etc, daremos um foco maior para Algoritmos de Classificação e Natural Language Processing (NLP) e por fim e não menos importante, as Métricas que podem ser aplicadas.

Em seguida, falaremos sobre Ciência de Dados (Data Science), essa área que vem crescendo e tende a crescer cada vez mais… explicação do que é, o que faz um Cientista de Dados (data scientist), ferramentas utilizadas, uma POST com diversos vídeos que mostram as técnicas e ferramentas utilizadas no dia a dia de um Cientista de Dados.

No final, veremos algumas aplicações que utilizam Machine Learning.

É isso, espero que gostem da compilação de post´s, e possa possa ajudar de alguma forma em seus estudos! Esse post será constantemente atualizado e conto com o feedback de todos para que possamos melhorar ainda mais esse material. Se quiserem sugerir artigos, podem sugerir que adiciono aqui, a ideia é ser uma fonte de estudos.

CONCEITOS, CENÁRIOS, PREVISÕES…
Artigos relacionados a conceitos relacionados a Machine Learning, Previsões e Cenários da IA.

120 PREVISÕES DA IA ​​PARA 2020

ARTIFICIAL INTELLIGENCE INDEX – REPORT 2019

O CENÁRIO DE DADOS E IA DE 2019

O QUE HÁ DE NOVO NO HYPE CYCLE DA GARTNER PARA IA, 2019

THE AGE OF A.I. (SÉRIE ORIGINAL – YOUTUBE)
Série muito boa explicando os avanços da IA

MATERIAIS SOBRE INTELIGÊNCIA ARTIFICIAL, MACHINE LEARNING, STATISTICS E ETC…

CONCEITOS ESTATÍSTICOS EXPLICADOS EM INGLÊS SIMPLES

MORE ABOUT STATISTICS

POR QUE AS INICIATIVAS DE ANÁLISE DE DADOS AINDA FALHAM?

MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Material voltado à Matemática, Probabilidade e Estatística, excelente base…

Estatidados – Comunidade de Estatística do Mestre Thiago Marques

PROBABILITY THEORY

Probability Learning I : Bayes’ Theorem

Probability Scoring Methods in Python

Common Probability Distributions: The Data Scientist’s Crib Sheet

Probabilistic Model Selection with AIC, BIC, and MDL

High-performance mathematical paradigms in Python

A Simple Introduction to Complex Stochastic Processes

CURSO MATEMÁTICA – KHAN ACADEMY
Pré-Cálculo | Cálculo diferencial | Cálculo integral | Equações diferenciais | Cálculo multivariável | Álgebra linear | Estatística e probabilidade | Estatística avançada (AP®︎ Statistics) )

FERRAMENTAS
Apresentam algumas das ferramentas mais utilizadas nesse universo…

7 FERRAMENTAS GRATUITAS DE ANÁLISE DE DADOS QUE VOCÊ DEVE CONHECER

TOP 27 FREE SOFTWARE FOR TEXT ANALYSIS, TEXT MINING AND TEXT ANALYTICS

SCIKIT-LEARN E KERAS (CHEAT SHEET)

SCIKIT-LEARN – USER GUIDE
– Desafio: Mestres do Scikit-Learning (com Mario Filho)

GITHUB (como utilizar)

DADOS e BIG DATA
Conceitos de Dados, onde encontrar fontes de dados, Big Data, NOSQL e também SQL.

DADOS
Dados são códigos que constituem a matéria prima da informação, ou seja, é a informação não tratada. Os dados representam um ou mais significados que isoladamente não podem transmitir uma mensagem ou representar algum conhecimento.

FONTES DE DADOS, ONDE ENCONTRAR?

COMO SER UMA EMPRESA MOVIDA POR FATOS E DADOS

MCKINSEY: COMPETINDO EM UM MUNDO GUIADO POR DADOS

DATA-DRIVEN PRECISA SER CULTURA E NÃO UM PROJETO.

IN 60 SECONDS (o que é feito em 60 segundos na Internet, com uma base histórica desde 2016)

DATA e IA Landscape

BIG DATA – INFOGRÁFICO

CONHEÇA O PODER DO BIG DATA – INFOGRÁFICO

EXTRACTING BUSINESS VALUE FROM THE 4 V’S OF BIG DATA

BIG DATA COMO TRANSFORMAR UM BANDO DE DADOS EM ESTRATÉGIA

NOSQL
Bancos de Dados NÃO Relacionais

MYSQL JSON DOCUMENT STORE

SQL – Structured Query Language”, ou seja, Linguagem Estruturada de Consulta. Ela foi a forma encontrada para que a comunicação com um banco de dados pudesse ser feita de uma maneira descomplicada, ágil e que pudesse ser facilmente entendida e aprendida pelos desenvolvedores.

MACHINE LEARNING
Tudo que precisa saber para começar em Machine Learning, confiram…

UM POUCO DE HISTÓRIA… A Brief History of Machine Learning

O QUE VOCÊ PRECISA SABER SOBRE O APRENDIZADO DE MÁQUINA…

COMO O MACHINE LEARNING EVOLUIU AO LONGO DO PERÍODO

DIFERENÇA ENTRE DATA MINING (MINERAÇÃO DE DADOS) E MACHINE LEARNING (APRENDIZADO DE MÁQUINA)

FUNDAMENTOS DOS ALGORITMOS DE APRENDIZADO DE MÁQUINA (COM CÓDIGOS PYTHON E R)

SEU PRIMEIRO PROJETO DE MACHINE LEARNING EM PYTHON (PASSO A PASSO)

Tutorial de Machine Learning com o dataset do Titanic
Mario Filho – Sequencia de Vídeos

MACHINE LEARNING YEARNING (Excelente livro)

14 TIPOS DIFERENTES DE APRENDIZADO NO APRENDIZADO DE MÁQUINA
Aprendizado supervisionado (Supervised Learning)
Aprendizagem não supervisionada (Unsupervised Learning)
Aprendizado por Reforço (Reinforcement Learning)
Aprendizagem Semi-Supervisionada (Semi-Supervised Learning)
Aprendizagem auto-supervisionada (Self-Supervised Learning)
Aprendizagem em várias instâncias (Multi-Instance Learning)
Aprendizagem Indutiva (Inductive Learning)
Inferência dedutiva (Deductive Inference)
Aprendizagem Transdutiva (Transductive Learning)
Aprendizagem multitarefa (Multi-Task Learning)
Aprendizado ativo (Active Learning)
Aprendizagem online (Online Learning)
Transferência de Aprendizado (Transfer Learning)
Aprendizagem em conjunto (Ensemble Learning)

UM GUIA ESSENCIAL PARA NUMPY PARA MACHINE LEARNING EM PYTHON

7 TÉCNICAS PARA REDUÇÃO DA DIMENSIONALIDADE

DATA REPRESENTATION IN MACHINE LEARNING

AS MELHORES BIBLIOTECAS PARA PYTHON E PROCESSAMENTO DE LINGUAGEM NATURAL

# Algoritmos de Classificação, Regressão, Redes Neurais, Clustering

DECISION TREES E RANDOM FORESTS PARA CLASSIFICAÇÃO E REGRESSÃO

CLASSIFICAÇÃO DESEQUILIBRADA (IMBALANCED CLASSIFICATION)

ROTULANDO COM O ACTIVE LEARNING

INTRODUÇÃO AO ALGORITMO K-NEAREST NEIGHBOUR (CÓDIGO PYTHON)

ALGORITMO SVM (MÁQUINA DE VETORES DE SUPORTE) A PARTIR DE EXEMPLOS E CÓDIGO (PYTHON E R)

O QUE É UMA REDE NEURAL ARTIFICIAL? (CÓDIGO PYTHON)

NLP – Natural Language Processing (é um campo de Inteligência Artificial que dá às máquinas a capacidade de ler, entender e extrair significado das linguagens humanas)

TOP 10 POSTS +1 SOBRE NLP DE 2019…

SEU GUIA PARA PROCESSAMENTO DE LINGUAGEM NATURAL (NLP)

PROCESSAMENTO DE LINGUAGEM NATURAL COM DEEP LEARNING (PALESTRA – VÍDEO)

UMA LISTA COMPLETA DE ESTRUTURAS IMPORTANTES DE PROCESSAMENTO DE LINGUAGEM NATURAL QUE VOCÊ DEVE CONHECER (INFOGRÁFICO DE NLP)

7 APLICAÇÕES DO APRENDIZADO PROFUNDO PARA PROCESSAMENTO DE LINGUAGEM NATURAL

AVANÇANDO O PROCESSAMENTO DE LINGUAGEM NATURAL (NLP) PARA DOMÍNIOS CORPORATIVOS

SISTEMAS DE RECOMENDAÇÃO NA PRÁTICA

PROTÓTIPO DE UM SISTEMA RECOMENDADOR PASSO A PASSO PARTE 1: FILTRAGEM COLABORATIVA BASEADA EM ITENS DO KNN

O WORD2VEC ILUSTRADO

UMA INTRODUÇÃO À MODELAGEM DE TÓPICOS UTILIZANDO ANÁLISE SEMÂNTICA LATENTE (EM PYTHON)

THE AMAZING POWER OF WORD VECTORS

WORD EMBEDDING – VISUAL INSPECTOR

INTRODUÇÃO AOS WORD EMBEDDINGS

DEEP LEARNING EVOLUTION

DEEP LEARNING BOOK
Livro em Português sobre Deep Learning disponibilizado pela Data Science Academy.

ÁLGEBRA LINEAR DO DEEP LEARNING BOOK DE GOODFELLOW, I., BENGIO, Y., E COURVILLE, A. (2016)

RECUPERAÇÃO DA INFORMAÇÃO (Information Retrieval)

# MÉTRICAS
Métricas de avaliação de modelos mais utilizadas em Machine Learning

VALIDAÇÃO CRUZADA: CONCEITO E EXEMPLO EM R

INTERPRETANDO MODELOS DE MACHINE LEARNING (EN)

AVALIAÇÃO DO MODELO DE CLASSIFICAÇÃO

TUNAR HIPERPARÂMETROS

CURVA ROC EXPLICADA EM UMA IMAGEM

DATA SCIENCE
Ciência de dados é um termo que foge a qualquer definição completa única, o que dificulta o uso, principalmente se o objetivo é usá-lo corretamente. A maioria dos artigos e publicações usa o termo livremente, com a suposição de que ele é universalmente entendido. No entanto, a ciência de dados – seus métodos, objetivos e aplicativos – evolui com o tempo e a tecnologia. A ciência de dados há 25 anos se referia à coleta e limpeza de conjuntos de dados e à aplicação de métodos estatísticos a esses dados. Em 2018, a ciência de dados cresceu para um campo que abrange análise de dados, análise preditiva, mineração de dados, inteligência de negócios, aprendizado de máquina e muito mais.

Mais Definição, Cargos, Métodos, Pacotes, vídeos e muito mais sobre Data Science, confiram abaixo…

DEFININDO A CIÊNCIA DE DADOS: O QUÊ, ONDE E COMO É A CIÊNCIA DE DADOS

HABILIDADES DO CIENTISTA DE DADOS

COMPARISON – JOBS IN DATA SCIENCE

10 MÉTODOS DE APRENDIZADO DE MÁQUINA QUE TODO CIENTISTA DE DADOS DEVE CONHECER

5 PACOTES PYTHON QUE UM CIENTISTA DE DADOS NÃO PODE VIVER SEM

45 TÉCNICAS UTILIZADAS PELOS CIENTISTAS DE DADOS

12 ALGORITHMS EVERY DATA SCIENTIST SHOULD KNOW

TOP USED DATA SCIENCE LIBRARIES FOR PYTHON, R AND SCALA

DATA SCIENCE RESOURCES : CHEAT SHEETS (R, PYTHON…)

[CHEAT SHEET] PYTHON BASICS FOR DATA SCIENCE

APRENDA DATA SCIENCE COM O MINERANDO DADOS
Coleção de Vídeos sobre Data Science (Algoritmos, Gráficos, Dicas, Modelos em Produção)

10 CENÁRIOS DE COMO ENTREGAR UM PROJETO DE MACHINE LEARNING

COMO PRECIFICAR UM PROJETO DE DATA SCIENCE, MACHINE LEARNING OU IA

COMO COMEÇAR NA ÁREA DE DATA SCIENCE
Esse é um assunto muito comentado, surgem várias dúvidas tais como:

  • Qual curso devo fazer para me tornar um data scientist?
  • Tem vagas no mercado?
  • Como faço para ficar mais visível e lutar por uma vaga em data science?
  • Como faço pra ganhar R$ 20.000,00, ou mais, por mês como vi em matérias na televisão?

Segue algumas dicas e comentários pessoais em relação as perguntas acima:

  • Não existe um curso que irá lhe tornar um cientista de dados, existem diversos cursos bons nessa área que irá lhe ajudar na caminhada rumo ao seu objetivo. A dica é faça um curso e absorva o máximo de conteúdo, anote os pontos que precisa melhorar (exemplo: programação, estatística, álgebra linear…), pesquise e estude esses pontos por fora (se preferir, faça cursos específicos dessas áreas);
  • Sim, tem muitas vagas no Mercado, tanto para Cientista de Dados quanto para Engenheiro de Dados (o Engenheiro de Dados é o que monta o alicerce para o Cientista de Dados, é uma área que também tá crescendo muito e no meu ver, as empresas com grandes projetos de Inteligência Artificial devem iniciar por essa área, antes de chamar um Cientista de Dados – isso vai variar de empresa pra empresa, dependendo do tamanho dos projetos e de seus objetivos);
  • Se você ainda não tem, monte um Portfólio (no Github por exemplo, ou em um um blog) contemplando os trabalhos que já realizou, pode ser os trabalhos que já fez na universidade, trabalhos pessoais e etc (procure sempre fazer um projeto do inicio até o final (deploy)), ou seja, mostre seu potencial! Com isso, ficará mais visível para o mercado.
  • Não se iluda, esse valor não é bem o praticado principalmente aqui no Brasil, claro que tem grandes instituições que pagam esse valor ou até mais, mas são exceções e não regra! Mas a dica é, estude e poderá sim chegar a ganhar esse valor!

VISUALIZAÇÃO DE DADOS
Segue abaixo a indicação de um livro que mostra como montar melhores gráficos e Dashboards mais atrativos. Do que adianta toda uma boa análise de dados senão sabemos como demonstrar de uma forma limpa e clara?!?!? Boa leitura

Storytelling com Dados: um Guia Sobre Visualização de Dados Para Profissionais de Negócios
Storytelling com Dados é admiravelmente bem escrito, uma amostra magistral de rara arte no mundo dos negócios. Cole Nussbaumer Knaflic possui uma habilidade única ― um dom ― em contar histórias usando dados. No JPMorgan Chase, ela ajudou a melhorar nossa capacidade de explicar análises complicadas para a gerência executiva e para os reguladores com quem trabalhamos. O livro de Cole reúne seus talentos em um guia fácil de ler, com exemplos excelentes que qualquer um pode aprender para estimular a tomada de decisão mais inteligente.”
― Mark R. Hillis, diretor-chefe do setor de riscos de hipoteca bancária do JPM Chase

Algumas ferramentas que podem utilizar para visualização de Dados:
– Microsoft Power BI
– Tableau

# APLICAÇÕES DE MACHINE LEARNING
Confiram algumas aplicações que utilizam Machine Learning, sabe de mais de alguma? Elaborou uma? Envie nos comentários que adiciono aqui!

LUPPAR NEWS-REC (RECOMENDADOR INTELIGENTE DE NOTÍCIAS)

PREVISÃO DE POPULARIDADE DE NOTÍCIAS EM BLOGS

DETECÇÃO DE MAL DE PARKINSON ATRAVÉS DE GRAVAÇÕES DE VOZ

MODELOS PREDITIVOS DE NOTAS DE REDAÇÃO DO ENEM 2015

APLICAÇÕES DE REDES NEURAIS E ALGORITMOS GENÉTICOS (GOOGLE´S DINOSAUR AND FLAPPY BIRD)

GERANDO GRÁFICOS DE FORECAST UTILIZANDO R PARA PREVISÃO DE MEDALHAS NAS OLIMPÍADAS

TEXT ANALYTICS COM R, EXEMPLO PRÁTICO: ANALISANDO DADOS DE FUTEBOL DO TWITTER

5 APLICAÇÕES DE INTELIGÊNCIA ARTIFICIAL EM MEDICINA

INTELIGÊNCIA ARTIFICIAL APRENDE QUÍMICA PARA PREVER COMO FAZER MEDICAMENTOS

GALERIA COM CÓDIGOS INTERESSANTES EM JUPYTER NOTEBOOKS

Era isso pessoal, espero que tenham gostado e conto com o apoio de todos enviando sugestões de materiais que possamos colocar aqui e deixar o material ainda melhor!

Linkedin:

https://www.linkedin.com/in/alex-souza/

Alex Souza

#datascience #bigdata #cienciadedados