Dados, Data Science, Deep Learning, Inteligencia Artificial, Machine Learning

Sistemas de recomendação na prática

Empresas como Amazon, Netflix, Linkedin e Pandora aproveitam os sistemas de recomendação para ajudar os usuários a descobrir itens novos e relevantes (produtos, vídeos, trabalhos, músicas), criando uma experiência agradável para o usuário enquanto impulsiona a receita incremental.

Nesse artigo do Houtao Deng é fornecido uma visão prática dos sistemas de recomendação. Primeiro, três sistemas principais são revisados: filtragem baseada em conteúdo, colaborativa e híbrida, seguida de discussões sobre inicialização a frio, escalabilidade, interpretabilidade e exploração / exploração.

Recomendação baseada em conteúdo

Na Pandora, uma equipe de músicos rotulou cada música com mais de 400 atributos. Então, quando um usuário seleciona uma estação de música, as músicas que correspondem aos atributos da estação serão adicionadas à lista de reprodução (Projeto Genoma da Música | Pandora, Howe | Pandora).

Esta é uma recomendação baseada em conteúdo. Usuários ou itens têm perfis que descrevem suas características e o sistema recomendaria um item a um usuário se os dois perfis corresponderem. A caixa de moda do Stitch Fix é outro exemplo de recomendação baseada em conteúdo. Os atributos de um usuário são coletados (altura, peso, etc.) e os produtos de moda correspondentes são colocados em uma caixa entregue ao usuário (Stitch Fix | 2013).

Continuar lendo

Anúncios
Comandos SQL, Erros

Converter valores float “grandes” em varchar

Converter valores float “grandes” em varchar

Ao tentar converter o valor: 11223115414414 (float) em um varchar, esta vindo assim: 1.12231e+013, e o que foi feito… segue abaixo passo a passo:

Declare @float float = 11223115414414;

Select @float
— Retorna: 11223115414414

— Mas preciso converter em varchar:
Select CONVERT(varchar, @float)
— Retorna: 1.12231e+013

— Solução:
Select cast((convert(bigint, @float)) as varchar)
— retorna: 11223115414414

— Contribuição do Sr. Joel Almeida

— Sites relacionados:
https://stackoverflow.com/questions/3715675/how-to-convert-float-to-varchar-in-sql-server

Importantes

O que é Algoritmo?

Em ciência da computação, um algoritmo é uma sequência finita de ações executáveis que visam obter uma solução para um determinado tipo de problema.
Segundo Dasgupta, Papadimitriou e Vazirani, “algoritmos são procedimentos precisos, não ambíguos, mecânicos, eficientes e corretos”.

Continuar lendo

Data Science, IA, Machine Learning

Top used Data Science libraries for Python, R and Scala

Data Science, Machine Learning, Recuperação da Informação

Validação Cruzada: Conceito e Exemplo em R

O que é validação cruzada (cross-validation)?

No Aprendizado de Máquina, a validação cruzada é um método de re-amostragem usado para avaliação de modelo para evitar o teste de um modelo no mesmo conjunto de dados no qual ele foi treinado. Este é um erro comum, especialmente que um conjunto de dados de teste separado nem sempre está disponível. No entanto, isso geralmente leva a medidas de desempenho imprecisas (já que o modelo terá uma pontuação quase perfeita, pois está sendo testado nos mesmos dados em que foi treinado). Para evitar esse tipo de erro, a validação cruzada é geralmente preferida.

O conceito de validação cruzada é realmente simples: em vez de usar todo o conjunto de dados para treinar e, em seguida, testar nos mesmos dados, poderíamos dividir aleatoriamente nossos dados em conjuntos de dados de treinamento e teste.

Continuar lendo

Data Science, Machine Learning, Recuperação da Informação

Introdução ao Algoritmo K-Nearest Neighbour (código Python)

Dentre todos os algoritmos de aprendizado de máquina, KNN é o mais simples de aprender. Apesar da simplicidade, provou ser incrivelmente eficaz em certas tarefas (como veremos a seguir).

E mais, pode ser utilizado para problemas de classificação e regressão! É muito mais popularmente usado para problemas de classificação, no entanto, raramente vemos o KNN sendo implementado em qualquer tarefa de regressão.

Continuar lendo

Categorias, Data Science, Machine Learning

Algoritmo SVM (Máquina de Vetores de Suporte) a partir de exemplos e código (Python e R)

Índice

  1. O que é a máquina de vetores de suporte?
  2. Como funciona?
  3. Como implementar o SVM em Python e R?
  4. Como ajustar os parâmetros do SVM?
  5. Prós e contras associados ao SVM

O que é a Máquina de Vetores de Suporte?

“Support Vector Machine” (SVM) é um algoritmo de aprendizado de máquina supervisionado que pode ser usado para desafios de classificação ou regressão. No entanto, é usado principalmente em problemas de classificação. Nesse algoritmo, plotamos cada item de dados como um ponto no espaço n-dimensional (onde n é o número de recursos que você tem), com o valor de cada recurso sendo o valor de uma determinada coordenada. Então, nós executamos a classificação encontrando o hiperplano que diferencia muito bem as duas classes (veja a imagem abaixo).

Continuar lendo

Data Science, Machine Learning

Seu primeiro Projeto de Machine Learning em Python (Passo a Passo)

Aqui você irá montar seu primeiro projeto de Machine Learning (Aprendizado de máquina) usando a linguagem Python.

O que veremos:

  1. Baixar e instalar o Python SciPy e obter o pacote mais útil para aprendizado de máquina em Python.
  2. Carregar um conjunto de dados e entender sua estrutura usando resumos estatísticos e visualização de dados.
  3. Criar 6 modelos de aprendizado de máquina e escolher o melhor.

Se você é um iniciante em aprendizado de máquina e quer finalmente começar a usar o Python, este tutorial foi pensado em sua necessidade, vamos lá!

Continuar lendo

Data Science, Machine Learning, Recuperação da Informação

Galeria com códigos interessantes em Jupyter Notebooks

Esta página é uma coleção com notebooks Jupyter / IPython que são úteis no seu dia a dia, são diversas áreas de atuação, confiram!

Breve alinhamento:
Para quem não conhece com maiores detalhes, o Jupyter notebook é um ambiente computacional web, interativo para criação de  documentos “Jupyter Notebooks”.

O documento é um documento JSON com um esquema e contém uma lista ordenada de células que podem conter código, texto, fórmulas matemáticas, plotagens e imagens. A extensão dos notebooks é “.ipynb”.

Continuar lendo