Dados, Data Science, Deep Learning, Machine Learning, NLP, Python, Recuperação da Informação

Luppar News-Rec (Recomendador Inteligente de Notícias)

O Luppar News-Rec (Versão 1) é fruto da minha dissertação de Mestrado,  mais detalhes sobre – visualize aqui! É um Sistema Recomendador de Notícias (SRN) composto por algoritmos clássicos de classificação que trabalham em conjunto com representações de documentos para solucionar o problema de classificação de notícias de forma a trazer os documentos(notícias) que atendam a necessidade do usuário. A metodologia que segue esse trabalho divide os esforços da implementação do SRN em três etapas: Subsistema de Captura, Pré-Processamento e Armazenamento, Subsistema de Classificação de Notícias e Subsistema de Aquisição de Perfil de Assinantes e Distribuição.

Recursos do Luppar News-Rec

News Recommender System using Word Embeddings for study and research.

Disponível em: http://luppar.com/recommender

Coleções de documentos

  • Z5News (Coleção em Inglês com 5 tópicos)
    • sportsNews, politicsNews, technologyNews, PersonalFinance e brazil-news
  • Z5NewsBrasil (Coleção em Portugues com 5 tópicos)
    • esporteNews, politicaNews, tecnologiaNews, financaPessoal e educacaonews
  • Z12News (Coleção em Inglês com 12 tópicos)
    • sportsnews, politicsNews, technologyNews, PersonalFinance, brazil-news, aerospace-defense, autos, commoditiesNews, fundsNews, foreignexchangeNews, healthnews e environmentnews

Continuar lendo

Data Science, Deep Learning, Machine Learning, Recuperação da Informação

Materiais sobre Inteligência Artificial, Machine Learning, Statistics e etc…

Abaixo uma coleção de links de materiais de diversos assuntos relacionados a Inteligência Artificial, Machine Learning, Statistics, Processamento de Linguagem Natural e etc…

Dicas diversas

Manipulando Strings com Python
https://www.linkedin.com/pulse/manipulando-strings-com-python-fernanda-santos

140 Machine Learning Formulas
https://www.datasciencecentral.com/profiles/blogs/140-machine-learning-formulas

40 Techniques Used by Data Scientists
https://www.datasciencecentral.com/profiles/blogs/40-techniques-used-by-data-scientists

24 Uses of Statistical Modeling (Part I | Part II)
https://www.datasciencecentral.com/profiles/blogs/top-20-uses-of-statistical-modeling
https://www.datasciencecentral.com/profiles/blogs/24-uses-of-statistical-modeling-part-ii

29 Statistical Concepts Explained in Simple English
https://www.datasciencecentral.com/profiles/blogs/32-statistical-concepts-explained-in-simple-english-part-12

Continuar lendo

Dados, Data Science, Deep Learning, Recuperação da Informação

Rotulando com o Active Learning

A verdade feia por trás de todos esses dados

Estamos na era dos dados. Nos últimos anos, muitas empresas já começaram a coletar grandes quantidades de dados sobre seus negócios. Por outro lado, muitas empresas estão apenas começando. Se você trabalha em uma dessas empresas, pode estar se perguntando o que pode ser feito com todos esses dados.

Que tal usar os dados para treinar um algoritmo de aprendizado de máquina supervisionado (ML – Machine Learning)? O algoritmo ML poderia executar a mesma tarefa de classificação que um ser humano faria, muito mais rápido! Poderia reduzir custos e ineficiências. Pode funcionar com os dados combinados, como imagens, documentos de texto e apenas números simples. Poderia fazer todas essas coisas e até obter essa vantagem sobre a concorrência.

No entanto, antes que você possa treinar qualquer modelo supervisionado decente, você precisa de dados básicos da verdade. Geralmente, os modelos supervisionados de ML são treinados em registros de dados antigos que já estão rotulados de alguma forma. Os modelos treinados são aplicados para executar previsões de rótulos em novos dados. E esta é a verdade feia: antes de prosseguir com qualquer treinamento de modelo, qualquer definição de problema de classificação ou qualquer entusiasmo adicional na coleta de dados, você precisa de um conjunto suficientemente grande de registros de dados rotulados corretamente para descrever seu problema. E a rotulagem de dados – especialmente em uma quantidade suficientemente grande – é … cara.

Continuar lendo

Machine Learning, Recuperação da Informação

Machine Learning Yearning

IA (Inteligência Artificial), Machine Learning

O que você precisa saber sobre o aprendizado de máquina…

Tradução e referência de: What You Need To Know About Machine Learning (Forbes)

O aprendizado de máquina é uma daquelas palavras que são usadas como sinônimo de inteligência artificial (AI). Mas isso realmente não é exato. Observe que o aprendizado de máquina é um subconjunto da IA.

Este campo também existe há algum tempo, com as raízes remontando ao final dos anos 50. Foi durante esse período que Arthur L. Samuel da IBM criou o primeiro aplicativo de aprendizado de máquina, que jogava xadrez.

Então, como isso foi diferente de qualquer outro programa? Bem, de acordo com Venkat Venkataramani, co-fundador e CEO da Rockset , o aprendizado de máquina é “o ofício de computadores tomarem decisões sem fornecer instruções explícitas, permitindo que os computadores padronizem as situações complexas e prevejam o que acontecerá”.

Para conseguir isso, é preciso haver grandes quantidades de dados de qualidade, além de algoritmos sofisticados e computadores de alta potência. Considere que quando Samuel construiu seu programa, tais fatores foram severamente limitados. Portanto, não foi até a década de 1990 que o aprendizado de máquina tornou-se comercialmente viável.

Continuar lendo

Data Science, IA (Inteligência Artificial), Machine Learning

45 Técnicas utilizadas pelos cientistas de dados

Essas técnicas cobrem a maioria dos dados que os cientistas e profissionais relacionados estão usando em suas atividades diárias, quer eles usem soluções oferecidas por um fornecedor ou se eles criam ferramentas proprietárias. Quando você clica em qualquer um dos 40 links abaixo, você encontrará uma seleção de artigos relacionados à entrada em questão. A maioria desses artigos é difícil de encontrar com uma pesquisa do Google, por isso, de certa forma, isso lhe dá acesso à literatura escondida sobre ciência dos dados, aprendizado de máquinas e ciência estatística. Muitos desses artigos são fundamentais para a compreensão da técnica em questão, e vem com mais referências e código fonte. (Fonte: BI com Vatapá)

As 45 técnicas de ciência de dados:
  1. Regressão linear
  2. Regressão Logística
  3. Regressão Jackknife  *
  4. Estimativa de densidade
  5. Intervalo de confiança
  6. Teste de Hipóteses
  7. Reconhecimento de padrões
  8. Clustering  – (também conhecido como Learning não supervisionado)
  9. Aprendizagem supervisionada
  10. Série de tempo
  11. Árvores de decisão
  12. Números aleatórios
  13. Simulação de Monte-Carlo
  14. Estatísticas Bayesianas
  15. Bayes nao
  16. Análise de componentes principais  – (PCA)
  17. Conjuntos
  18. Redes neurais
  19. Support Vector Machine  – (SVM)
  20. Vizinhos mais próximos  – (k-NN)
  21. Seleção de características  – (também conhecido como Redução de variável)
  22. Indexação / Catalogação  *
  23. (Geo-) Modelagem espacial
  24. Recomendação Engine  *
  25. Search Engine  *
  26. Modelagem de Atribuição  *
  27. Filtragem colaborativa  *
  28. Sistema de Regra
  29. Análise de ligação
  30. Regras da Associação
  31. Motor de pontuação
  32. Segmentação
  33. Modelagem Preditiva
  34. Gráficos
  35. Aprendizagem profunda
  36. Teoria do jogo
  37. Imputação
  38. Análise de sobrevivência
  39. Arbitragem
  40. Modelagem de elevação
  41. Otimização de rendimento
  42. Validação cruzada
  43. Montagem de modelo
  44. Algoritmo de Relevância  *
  45. Design experimental


Vejam também: