Dados, Data Science, Deep Learning, Inteligencia Artificial, Machine Learning

Sistemas de recomendação na prática

Empresas como Amazon, Netflix, Linkedin e Pandora aproveitam os sistemas de recomendação para ajudar os usuários a descobrir itens novos e relevantes (produtos, vídeos, trabalhos, músicas), criando uma experiência agradável para o usuário enquanto impulsiona a receita incremental.

Nesse artigo do Houtao Deng é fornecido uma visão prática dos sistemas de recomendação. Primeiro, três sistemas principais são revisados: filtragem baseada em conteúdo, colaborativa e híbrida, seguida de discussões sobre inicialização a frio, escalabilidade, interpretabilidade e exploração / exploração.

Recomendação baseada em conteúdo

Na Pandora, uma equipe de músicos rotulou cada música com mais de 400 atributos. Então, quando um usuário seleciona uma estação de música, as músicas que correspondem aos atributos da estação serão adicionadas à lista de reprodução (Projeto Genoma da Música | Pandora, Howe | Pandora).

Esta é uma recomendação baseada em conteúdo. Usuários ou itens têm perfis que descrevem suas características e o sistema recomendaria um item a um usuário se os dois perfis corresponderem. A caixa de moda do Stitch Fix é outro exemplo de recomendação baseada em conteúdo. Os atributos de um usuário são coletados (altura, peso, etc.) e os produtos de moda correspondentes são colocados em uma caixa entregue ao usuário (Stitch Fix | 2013).

Continuar lendo

Anúncios
Data Science, IA, Machine Learning

Top used Data Science libraries for Python, R and Scala

Clique na imagem para ver maiores informações!

lib

Data Science, Machine Learning, Recuperação da Informação

Validação Cruzada: Conceito e Exemplo em R

O que é validação cruzada (cross-validation)?

No Aprendizado de Máquina, a validação cruzada é um método de re-amostragem usado para avaliação de modelo para evitar o teste de um modelo no mesmo conjunto de dados no qual ele foi treinado. Este é um erro comum, especialmente que um conjunto de dados de teste separado nem sempre está disponível. No entanto, isso geralmente leva a medidas de desempenho imprecisas (já que o modelo terá uma pontuação quase perfeita, pois está sendo testado nos mesmos dados em que foi treinado). Para evitar esse tipo de erro, a validação cruzada é geralmente preferida.

O conceito de validação cruzada é realmente simples: em vez de usar todo o conjunto de dados para treinar e, em seguida, testar nos mesmos dados, poderíamos dividir aleatoriamente nossos dados em conjuntos de dados de treinamento e teste.

Continuar lendo

Data Science, Machine Learning, Recuperação da Informação

Introdução ao Algoritmo K-Nearest Neighbour (código Python)

Dentre todos os algoritmos de aprendizado de máquina, KNN é o mais simples de aprender. Apesar da simplicidade, provou ser incrivelmente eficaz em certas tarefas (como veremos a seguir).

E mais, pode ser utilizado para problemas de classificação e regressão! É muito mais popularmente usado para problemas de classificação, no entanto, raramente vemos o KNN sendo implementado em qualquer tarefa de regressão.

Continuar lendo

Categorias, Data Science, Machine Learning

Algoritmo SVM (Máquina de Vetores de Suporte) a partir de exemplos e código (Python e R)

Índice

  1. O que é a máquina de vetores de suporte?
  2. Como funciona?
  3. Como implementar o SVM em Python e R?
  4. Como ajustar os parâmetros do SVM?
  5. Prós e contras associados ao SVM

O que é a Máquina de Vetores de Suporte?

“Support Vector Machine” (SVM) é um algoritmo de aprendizado de máquina supervisionado que pode ser usado para desafios de classificação ou regressão. No entanto, é usado principalmente em problemas de classificação. Nesse algoritmo, plotamos cada item de dados como um ponto no espaço n-dimensional (onde n é o número de recursos que você tem), com o valor de cada recurso sendo o valor de uma determinada coordenada. Então, nós executamos a classificação encontrando o hiperplano que diferencia muito bem as duas classes (veja a imagem abaixo).

Continuar lendo

Data Science, Machine Learning

Seu primeiro Projeto de Machine Learning em Python (Passo a Passo)

Aqui você irá montar seu primeiro projeto de Machine Learning (Aprendizado de máquina) usando a linguagem Python.

O que veremos:

  1. Baixar e instalar o Python SciPy e obter o pacote mais útil para aprendizado de máquina em Python.
  2. Carregar um conjunto de dados e entender sua estrutura usando resumos estatísticos e visualização de dados.
  3. Criar 6 modelos de aprendizado de máquina e escolher o melhor.

Se você é um iniciante em aprendizado de máquina e quer finalmente começar a usar o Python, este tutorial foi pensado em sua necessidade, vamos lá!

Continuar lendo

Data Science, Machine Learning, Recuperação da Informação

Galeria com códigos interessantes em Jupyter Notebooks

Esta página é uma coleção com notebooks Jupyter / IPython que são úteis no seu dia a dia, são diversas áreas de atuação, confiram!

Breve alinhamento:
Para quem não conhece com maiores detalhes, o Jupyter notebook é um ambiente computacional web, interativo para criação de  documentos “Jupyter Notebooks”.

O documento é um documento JSON com um esquema e contém uma lista ordenada de células que podem conter código, texto, fórmulas matemáticas, plotagens e imagens. A extensão dos notebooks é “.ipynb”.

Continuar lendo

Data Science, Machine Learning, Recuperação da Informação

Avaliação do Modelo de Classificação

O que é avaliação de modelo?

A avaliação do modelo é o processo de escolher entre modelos, diferentes tipos de modelo, parâmetros de ajuste e recursos. Melhores processos de avaliação levam a modelos melhores e mais precisos em seus aplicativos.

Aqui sera discutido a avaliação de modelos para modelos de classificação supervisionada. Cobriremos procedimentos de avaliação, métricas de avaliação e onde aplicá-los.

Pré-requisitos

  • Python 3.
  • Anaconda (Scikit Aprenda, Numpy, Pandas, Matplotlib, Seaborn)
  • Jupyter Notebook.
  • Compreensão básica de métodos supervisionados de aprendizado de máquina – especificamente classificação.

Continuar lendo

Data Science, Estatística, Machine Learning

Conceitos estatísticos explicados em inglês simples

Série sobre tópicos específicos relacionados à Conceitos Estatísticos na Ciência de Dados: regressão, clustering, redes neurais, aprendizagem profunda (deep learning), árvores de decisão (decision tree), conjuntos, correlação, Python, R, Tensorflow, SVM (support vector machine), redução de dados, seleção de recursos, design experimental, validação cruzada (cross-validation), montagem de modelos e muito mais. 

Continuar lendo

Data Science, Machine Learning, Recuperação da Informação

Uma introdução à Modelagem de Tópicos utilizando Análise Semântica Latente (em Python)

Introdução

Você já esteve em uma biblioteca bem cuidada? Fico impressionado com a maneira como os bibliotecários mantêm tudo organizado, por nome, conteúdo e outros tópicos. Mas se você deu a esses bibliotecários milhares de livros e pediu que eles organizassem cada livro com base em seu gênero, eles se esforçariam para realizar essa tarefa em um dia, quanto mais uma hora!

No entanto, isso não acontecerá com você se esses livros vierem em formato digital, certo? Todo o arranjo parece acontecer em questão de segundos, sem exigir nenhum esforço manual. Ai é onde entra o Processamento de Linguagem Natural (PNL).

Continuar lendo