Data Science, Deep Learning, Machine Learning, Recuperação da Informação

Materiais sobre Inteligência Artificial, Machine Learning, Statistics e etc…

Abaixo uma coleção de links de materiais de diversos assuntos relacionados a Inteligência Artificial, Machine Learning, Statistics, Processamento de Linguagem Natural e etc…

Dicas diversas

Manipulando Strings com Python
https://www.linkedin.com/pulse/manipulando-strings-com-python-fernanda-santos

140 Machine Learning Formulas
https://www.datasciencecentral.com/profiles/blogs/140-machine-learning-formulas

40 Techniques Used by Data Scientists
https://www.datasciencecentral.com/profiles/blogs/40-techniques-used-by-data-scientists

24 Uses of Statistical Modeling (Part I | Part II)
https://www.datasciencecentral.com/profiles/blogs/top-20-uses-of-statistical-modeling
https://www.datasciencecentral.com/profiles/blogs/24-uses-of-statistical-modeling-part-ii

29 Statistical Concepts Explained in Simple English
https://www.datasciencecentral.com/profiles/blogs/32-statistical-concepts-explained-in-simple-english-part-12

Continuar lendo

Anúncios
Dados, Data Science, Deep Learning, Recuperação da Informação

Rotulando com o Active Learning

A verdade feia por trás de todos esses dados

Estamos na era dos dados. Nos últimos anos, muitas empresas já começaram a coletar grandes quantidades de dados sobre seus negócios. Por outro lado, muitas empresas estão apenas começando. Se você trabalha em uma dessas empresas, pode estar se perguntando o que pode ser feito com todos esses dados.

Que tal usar os dados para treinar um algoritmo de aprendizado de máquina supervisionado (ML – Machine Learning)? O algoritmo ML poderia executar a mesma tarefa de classificação que um ser humano faria, muito mais rápido! Poderia reduzir custos e ineficiências. Pode funcionar com os dados combinados, como imagens, documentos de texto e apenas números simples. Poderia fazer todas essas coisas e até obter essa vantagem sobre a concorrência.

No entanto, antes que você possa treinar qualquer modelo supervisionado decente, você precisa de dados básicos da verdade. Geralmente, os modelos supervisionados de ML são treinados em registros de dados antigos que já estão rotulados de alguma forma. Os modelos treinados são aplicados para executar previsões de rótulos em novos dados. E esta é a verdade feia: antes de prosseguir com qualquer treinamento de modelo, qualquer definição de problema de classificação ou qualquer entusiasmo adicional na coleta de dados, você precisa de um conjunto suficientemente grande de registros de dados rotulados corretamente para descrever seu problema. E a rotulagem de dados – especialmente em uma quantidade suficientemente grande – é … cara.

Continuar lendo

Data Science, Deep Learning, IA (Inteligência Artificial), Recuperação da Informação

O que há de novo no Hype Cycle da Gartner para IA, 2019

Gartner-Hype-Cycle-For-Artificial-Intelligence-2019

  • Entre 2018 e 2019, as organizações que implantaram inteligência artificial (IA) aumentaram de 4% para 14%, de acordo com a pesquisa CIO Agenda 2019 da Gartner.
  • A IA de conversação permanece no topo das agendas corporativas estimuladas pelo sucesso mundial do Amazon Alexa, Google Assistant e outros.
  • As empresas estão progredindo com a IA à medida que ela cresce mais e também cometem mais erros que contribuem para sua curva de aprendizado acelerada.

Continuar lendo

Data Science, Recuperação da Informação

Uma lista completa de estruturas importantes de processamento de linguagem natural que você deve conhecer (Infográfico de PNL)

Visão global

  • Aqui está uma lista das estruturas mais importantes de processamento de linguagem natural (PNL) que você precisa conhecer nos últimos dois anos
  • Do Transformer do Google AI ao XLM / mBERT do Facebook Research, traçamos o aumento da PNL através das lentes dessas descobertas sísmicas.

Introdução

Você já ouviu falar sobre a estrutura mais recente de processamento de linguagem natural lançada recentemente? Eu não culpo você se você ainda está atualizando a excelente biblioteca StanfordNLP ou a estrutura PyTorch-Transformers!

Houve um aumento notável na quantidade de pesquisas e avanços ocorrendo na PNL nos últimos dois anos.

Posso rastrear essa recente ascensão a um artigo (sísmico) – “Atenção é tudo que você precisa” do Google AI em junho de 2017. Essa descoberta gerou tantas novas e empolgantes bibliotecas de PNL que nos permitem trabalhar com o texto de maneiras anteriormente limitado à nossa imaginação (ou Hollywood).

A seguir, o interesse no processamento de idiomas naturais, de acordo com as pesquisas do Google nos últimos 5 anos nos EUA:

estruturas de PNL

Continuar lendo

Machine Learning, Recuperação da Informação

Machine Learning Yearning

Categorias

Data Representation in Machine Learning

Everything about Data Analytics

In implementing most of the machine learning algorithms, we represent each data point with a feature vector as the input. A vector is basically an array of numerics, or in physics, an object with magnitude and direction. How do we represent our business data in terms of a vector?

Primitive Feature Vector

Whether the data are measured observations, or images (pixels), free text, factors, or shapes, they can be categorized into four following types:

  1. Categorical data
  2. Binary data
  3. Numerical data
  4. Graphical data

The most primitive representation of a feature vector looks like this:

Screen Shot 2019-09-15 at 3.58.09 PM A typical feature vector. (Source: https://www.researchgate.net/publication/318740904_Chat_Detection_in_an_Intelligent_Assistant_Combining_Task-oriented_and_Non-task-oriented_Spoken_Dialogue_Systems/figures?lo=1)

Numerical Data

Numerical data can be represented as individual elements above (like Tweet GRU, Query GRU), and I am not going to talk too much about it.

Categorical Data

However, for categorical data, how do we represent them? The first basic way is to use one-hot encoding:

Screen Shot 2019-09-15 at 4.02.51 PM One-hot encoding of…

Ver o post original 717 mais palavras

Data Science, Python

Decision Trees e Random Forests para Classificação e Regressão

Matéria original e direitos reservados ao autor.

Traduzida pelo Google Translate com uma pequena melhorada!

Highlights: Deseja usar algo mais interoperável, algo que treine mais rápido e tenha um desempenho tão bom quanto a antiga Regressão Logística ou mesmo as Redes Neurais? Você deve considerar as Árvores de Decisão (Decision Tree) para classificação e regressão. Parte 2 sobre florestas aleatórias (Random Forest) aqui.

  • Treinamento muito mais rápido do que redes neurais simples para desempenho comparável (a complexidade do tempo das árvores de decisão é uma função de [número de recursos, número de linhas no conjunto de dados], enquanto nas redes neurais é uma função de [número de recursos, número de linhas no conjunto de dados, número de camadas ocultas, número de nós em cada camada oculta])
  • Facilmente interpretável, adequado para seleção de variáveis
  • Bastante robusto em conjuntos de dados menores
  • Árvores de decisão e aprendizado de árvore de decisão são simples de entender

Continuar lendo

Categorias

BACKUP DATABASE DB TO URL = ‘BLOB STORAGE’

Comunidade SQL Server

Introdução

Ano passado comecei a trabalhar com Azure e tive que adaptar minhas rotinas de Backup para a nuvem. Ao estudar um pouco mais sobre as opções de backups para a nuvem, vi que existiam várias e que bastaria verificar qual melhor se encaixaria à minha realidade. Após ter escolhido de qual forma realizaria os meus backups, esbarrei em algumas limitações e vi também que mais soluções apareciam. Então, quero realizar uma série de posts ao longo de algumas semanas que mostram opções de realizar backups para a nuvem.

A agenda será dividida da seguinte forma:

Ver o post original 187 mais palavras

Machine Learning, Recuperação da Informação

Protótipo de um sistema recomendador passo a passo Parte 1: Filtragem colaborativa baseada em itens do KNN

Sistemas de recomendação de filmes

Matéria original (Todos os direitos reservados ao autor: Kevin Liao)
A Parte 2 dos sistemas de recomendação pode ser encontrada aqui

Sistemas Recomendadores

A maioria dos produtos de internet que usamos hoje são equipados com sistemas de recomendação. Youtube, Netflix, Amazon, Pinterest e uma longa lista de outros produtos da Internet dependem de sistemas de recomendação para filtrar milhões de conteúdos e fazer recomendações personalizadas para seus usuários. Os sistemas de recomendação são bem estudados e comprovadamente fornecem valores tremendos para as empresas da Internet e seus consumidores. De fato, fiquei chocado com a notícia de que a Netflix concedeu um prêmio de US $ 1 milhão a uma equipe de desenvolvedores em 2009, por um algoritmo que aumentou a precisão do sistema de recomendações da empresa em 10%.

Continuar lendo