Arquivo da tag: R

Top used Data Science libraries for Python, R and Scala

Clique na imagem para ver maiores informações!

lib

Validação Cruzada: Conceito e Exemplo em R

O que é validação cruzada (cross-validation)?

No Aprendizado de Máquina, a validação cruzada é um método de re-amostragem usado para avaliação de modelo para evitar o teste de um modelo no mesmo conjunto de dados no qual ele foi treinado. Este é um erro comum, especialmente que um conjunto de dados de teste separado nem sempre está disponível. No entanto, isso geralmente leva a medidas de desempenho imprecisas (já que o modelo terá uma pontuação quase perfeita, pois está sendo testado nos mesmos dados em que foi treinado). Para evitar esse tipo de erro, a validação cruzada é geralmente preferida.

O conceito de validação cruzada é realmente simples: em vez de usar todo o conjunto de dados para treinar e, em seguida, testar nos mesmos dados, poderíamos dividir aleatoriamente nossos dados em conjuntos de dados de treinamento e teste.

Continuar lendo Validação Cruzada: Conceito e Exemplo em R

Algoritmo SVM (Máquina de Vetores de Suporte) a partir de exemplos e código (Python e R)

Índice

  1. O que é a máquina de vetores de suporte?
  2. Como funciona?
  3. Como implementar o SVM em Python e R?
  4. Como ajustar os parâmetros do SVM?
  5. Prós e contras associados ao SVM

O que é a Máquina de Vetores de Suporte?

“Support Vector Machine” (SVM) é um algoritmo de aprendizado de máquina supervisionado que pode ser usado para desafios de classificação ou regressão. No entanto, é usado principalmente em problemas de classificação. Nesse algoritmo, plotamos cada item de dados como um ponto no espaço n-dimensional (onde n é o número de recursos que você tem), com o valor de cada recurso sendo o valor de uma determinada coordenada. Então, nós executamos a classificação encontrando o hiperplano que diferencia muito bem as duas classes (veja a imagem abaixo).

Continuar lendo Algoritmo SVM (Máquina de Vetores de Suporte) a partir de exemplos e código (Python e R)

Fundamentos dos Algoritmos de Aprendizado de Máquina (com Códigos Python e R)

Introdução

Os carros e robôs autônomos do Google recebem muita publicidade, mas o futuro real da empresa é o aprendizado de máquina, a tecnologia que permite que os computadores fiquem mais inteligentes e pessoais.

Eric Schmidt (presidente do Google)

Estamos vivendo no período mais marcante da história humana. O período em que a computação passou de grandes mainframes para a nuvem. Mas o que o torna definidor não é o que aconteceu, mas o que está por vir.

O que torna esse período empolgante e atraente é a democratização das várias ferramentas e técnicas, que seguiram com o impulso da computação. Bem-vindo ao mundo da ciência de dados !

Quem pode se beneficiar ao máximo deste guia?

Esse post tem como objetivo simplificar a jornada de aspirantes a cientistas de dados e entusiastas de aprendizagem de máquina. Através deste, permitirá que você trabalhe em problemas de aprendizado de máquina e ganhe experiência.

As estatísticas por trás dessas técnicas, não esta contido aqui, já que você não precisa entendê-las no começo. Então, se você está procurando uma compreensão estatística desses algoritmos, você deve procurar em outro lugar. Mas, se você está querendo se equipar para começar a construir um projeto de aprendizado de máquina, você está no lugar certo, vamos começar!

Continuar lendo Fundamentos dos Algoritmos de Aprendizado de Máquina (com Códigos Python e R)

Data Science Resources : Cheat Sheets (R, Python…)

R

Text Analytics com R, exemplo prático: analisando dados de futebol do Twitter

Blog Dataficação

Durante o programa Bate Bola, da ESPN, do dia 12/12/2016, foi solicitado aos telespectadores que enviassem suas seleções ideais dos melhores jogadores do Campeonato Brasileiro 2016 utilizando a hashtag #bateboladebate. A ideia deste post é mostrar como obter dados dos tweets enviados no programa neste dia e realizar a contagem dos nomes dos jogadores que foram mais citados. Assim, conseguiremos demonstrar uma aplicação real da utilização de Text Mining, extraindo dados do Twitter e montando uma seleção com os jogadores mais mencionados pelos torcedores. Vamos utilizar a ferramenta R, que permite trabalharmos com dados de redes sociais e realizarmos a limpeza dos dados. Pra quem não conhece, o R é uma ferramenta de análise de dados e que possui uma linguagem própria para manipulação dos dados.

Extraindo os tweets

Para realizar a captura dos dados do Twitter, são necessárias 3 etapas:

1- Criar uma aplicação do Twitter utilizando o

Ver o post original 779 mais palavras