Data Science, Recuperação da Informação

Uma lista completa de estruturas importantes de processamento de linguagem natural que você deve conhecer (Infográfico de NLP)

Visão global

  • Aqui está uma lista das estruturas mais importantes de processamento de linguagem natural (do inglês NLPNatural Language Processing) que você precisa conhecer nos últimos dois anos
  • Do Transformer do Google AI ao XLM / mBERT do Facebook Research, traçamos o aumento da NLP através das lentes dessas descobertas sísmicas.

Introdução

Você já ouviu falar sobre a estrutura mais recente de processamento de linguagem natural lançada recentemente? Eu não culpo você se você ainda está atualizando a excelente biblioteca StanfordNLP ou a estrutura PyTorch-Transformers!

Houve um aumento notável na quantidade de pesquisas e avanços ocorrendo na NLP nos últimos dois anos.

Posso rastrear essa recente ascensão a um artigo (sísmico) – “Atenção é tudo que você precisa” do Google AI em junho de 2017. Essa descoberta gerou tantas novas e empolgantes bibliotecas de NLP que nos permitem trabalhar com o texto de maneiras anteriormente limitado à nossa imaginação (ou Hollywood).

A seguir, o interesse no processamento de idiomas naturais, de acordo com as pesquisas do Google nos últimos 5 anos nos EUA:

estruturas de PNL

Continuar lendo

Arquitetura / Modelagem, Banco de Dados

AdventureWorks 2008 – OLTP Schema

Machine Learning, Recuperação da Informação

Machine Learning Yearning

Categorias

Data Representation in Machine Learning

Everything about Data Analytics

In implementing most of the machine learning algorithms, we represent each data point with a feature vector as the input. A vector is basically an array of numerics, or in physics, an object with magnitude and direction. How do we represent our business data in terms of a vector?

Primitive Feature Vector

Whether the data are measured observations, or images (pixels), free text, factors, or shapes, they can be categorized into four following types:

  1. Categorical data
  2. Binary data
  3. Numerical data
  4. Graphical data

The most primitive representation of a feature vector looks like this:

Screen Shot 2019-09-15 at 3.58.09 PM A typical feature vector. (Source: https://www.researchgate.net/publication/318740904_Chat_Detection_in_an_Intelligent_Assistant_Combining_Task-oriented_and_Non-task-oriented_Spoken_Dialogue_Systems/figures?lo=1)

Numerical Data

Numerical data can be represented as individual elements above (like Tweet GRU, Query GRU), and I am not going to talk too much about it.

Categorical Data

However, for categorical data, how do we represent them? The first basic way is to use one-hot encoding:

Screen Shot 2019-09-15 at 4.02.51 PM One-hot encoding of…

Ver o post original 717 mais palavras

Data Science, Python

Decision Trees e Random Forests para Classificação e Regressão

Matéria original e direitos reservados ao autor.

Traduzida pelo Google Translate com uma pequena melhorada!

Highlights: Deseja usar algo mais interoperável, algo que treine mais rápido e tenha um desempenho tão bom quanto a antiga Regressão Logística ou mesmo as Redes Neurais? Você deve considerar as Árvores de Decisão (Decision Tree) para classificação e regressão. Parte 2 sobre florestas aleatórias (Random Forest) aqui.

  • Treinamento muito mais rápido do que redes neurais simples para desempenho comparável (a complexidade do tempo das árvores de decisão é uma função de [número de recursos, número de linhas no conjunto de dados], enquanto nas redes neurais é uma função de [número de recursos, número de linhas no conjunto de dados, número de camadas ocultas, número de nós em cada camada oculta])
  • Facilmente interpretável, adequado para seleção de variáveis
  • Bastante robusto em conjuntos de dados menores
  • Árvores de decisão e aprendizado de árvore de decisão são simples de entender

Continuar lendo

Categorias

BACKUP DATABASE DB TO URL = ‘BLOB STORAGE’

Comunidade SQL Server

Introdução

Ano passado comecei a trabalhar com Azure e tive que adaptar minhas rotinas de Backup para a nuvem. Ao estudar um pouco mais sobre as opções de backups para a nuvem, vi que existiam várias e que bastaria verificar qual melhor se encaixaria à minha realidade. Após ter escolhido de qual forma realizaria os meus backups, esbarrei em algumas limitações e vi também que mais soluções apareciam. Então, quero realizar uma série de posts ao longo de algumas semanas que mostram opções de realizar backups para a nuvem.

A agenda será dividida da seguinte forma:

Ver o post original 187 mais palavras

Machine Learning, Recuperação da Informação

Protótipo de um sistema recomendador passo a passo Parte 1: Filtragem colaborativa baseada em itens do KNN

Sistemas de recomendação de filmes

Matéria original (Todos os direitos reservados ao autor: Kevin Liao)
A Parte 2 dos sistemas de recomendação pode ser encontrada aqui

Sistemas Recomendadores

A maioria dos produtos de internet que usamos hoje são equipados com sistemas de recomendação. Youtube, Netflix, Amazon, Pinterest e uma longa lista de outros produtos da Internet dependem de sistemas de recomendação para filtrar milhões de conteúdos e fazer recomendações personalizadas para seus usuários. Os sistemas de recomendação são bem estudados e comprovadamente fornecem valores tremendos para as empresas da Internet e seus consumidores. De fato, fiquei chocado com a notícia de que a Netflix concedeu um prêmio de US $ 1 milhão a uma equipe de desenvolvedores em 2009, por um algoritmo que aumentou a precisão do sistema de recomendações da empresa em 10%.

Continuar lendo

Data Science, Machine Learning, Recuperação da Informação

10 métodos de aprendizado de máquina que todo cientista de dados deve conhecer

Todos os direitos reservados à Jorge Castanon

O aprendizado de máquina (machine learning (ML)) é um tópico importante na pesquisa e na indústria, com novas metodologias desenvolvidas o tempo todo. A velocidade e a complexidade do campo dificultam o acompanhamento de novas técnicas, mesmo para especialistas – e potencialmente esmagadoras para iniciantes.

Para desmistificar o aprendizado de máquina e oferecer um caminho de aprendizado para aqueles que são novos nos conceitos principais, vejamos dez métodos diferentes, incluindo descrições simples, visualizações e exemplos para cada um.

Um algoritmo de aprendizado de máquina, também chamado de modelo, é uma expressão matemática que representa dados no contexto de um problema, geralmente um problema de negócios. O objetivo é passar de dados a insights. Por exemplo, se um varejista on-line quiser antecipar as vendas para o próximo trimestre, ele poderá usar um algoritmo de aprendizado de máquina que prevê essas vendas com base em vendas anteriores e outros dados relevantes. Da mesma forma, um fabricante de moinho de vento pode monitorar visualmente equipamentos importantes e alimentar os dados de vídeo através de algoritmos treinados para identificar rachaduras perigosas.

Os dez métodos descritos oferecem uma visão geral – e uma base na qual você pode desenvolver enquanto aprimora seus conhecimentos e habilidades de aprendizado de máquina:

  1. Regressão
  2. Classificação
  3. Agrupamento
  4. Redução de dimensionalidade
  5. Métodos de conjunto
  6. Redes Neurais e Aprendizagem Profunda
  7. Transferência de Aprendizado
  8. Aprendizagem por Reforço
  9. Processamento de linguagem natural
  10. Incorporação de palavras

Continuar lendo

Data Science, IA (Inteligência Artificial), Python

5 pacotes Python que um cientista de dados não pode viver sem

Se você estiver interessado em aprender mais sobre esses pacotes, aqui está a documentação oficial: