Arquivo da categoria: Dados

Monitoramento online do Coronavírus (usando PowerBI)

Um assunto que vem cada dia mais repercutindo nas mídias, o Coronavírus, pra ajudar de alguma forma, segue uma análise que fiz utilizando Power BI, que acompanha online a evolução do vírus!

Confiram clicando na imagem ou no link!!! 

Corona

Continuar lendo Monitoramento online do Coronavírus (usando PowerBI)

Artificial Intelligence Index – Report 2019

O AI Index Report rastreia, coleta, destila e visualiza dados relacionados à inteligência artificial. Sua missão é fornecer dados imparciais e rigorosamente examinados para que formuladores de políticas, pesquisadores, executivos, jornalistas e o público em geral desenvolvam intuições sobre o campo complexo da IA. Expandindo anualmente, o Relatório procura incluir dados sobre o desenvolvimento da IA de comunidades em todo o mundo.

Visualize clicando na imagem abaixo, ou no link.

IAIndex2019

 

Luppar News-Rec (Recomendador Inteligente de Notícias)

O Luppar News-Rec (Versão 1) é fruto da minha dissertação de Mestrado,  mais detalhes sobre – visualize aqui! É um Sistema Recomendador de Notícias (SRN) composto por algoritmos clássicos de classificação que trabalham em conjunto com representações de documentos para solucionar o problema de classificação de notícias de forma a trazer os documentos(notícias) que atendam a necessidade do usuário. A metodologia que segue esse trabalho divide os esforços da implementação do SRN em três etapas: Subsistema de Captura, Pré-Processamento e Armazenamento, Subsistema de Classificação de Notícias e Subsistema de Aquisição de Perfil de Assinantes e Distribuição.

Recursos do Luppar News-Rec

News Recommender System using Word Embeddings for study and research.

Disponível em: http://luppar.com/recommender

Coleções de documentos

  • Z5News (Coleção em Inglês com 5 tópicos)
    • sportsNews, politicsNews, technologyNews, PersonalFinance e brazil-news
  • Z5NewsBrasil (Coleção em Portugues com 5 tópicos)
    • esporteNews, politicaNews, tecnologiaNews, financaPessoal e educacaonews
  • Z12News (Coleção em Inglês com 12 tópicos)
    • sportsnews, politicsNews, technologyNews, PersonalFinance, brazil-news, aerospace-defense, autos, commoditiesNews, fundsNews, foreignexchangeNews, healthnews e environmentnews

Continuar lendo Luppar News-Rec (Recomendador Inteligente de Notícias)

Manchas de Óleo no Litoral Brasileiro – Uma análise usando Power BI

Exemplo de uso do PowerBI usando dados públicos, no caso, do Ibama! Confiram!
Atualizado diariamente!

Manchas

Avançando o processamento de linguagem natural (NLP) para domínios corporativos

Por Salim Roukos, IBM Fellow (todos os direitos reservados ao autor – matéria (EN))

Segundo Salim Roukos, encontrar informações no vasto acervo de documentos e bases de conhecimento de uma empresa para responder às perguntas dos usuários nunca é tão fácil quanto deveria ser. As respostas podem muito bem existir, mas geralmente permanecem fora de alcance por vários motivos.

Para iniciantes, ao contrário da Web, onde as informações são conectadas através de um rico conjunto de links e geralmente são capturadas de forma redundante em várias formas (facilitando a localização), o conteúdo corporativo geralmente é armazenado em silos com muito menos repetição das informações principais. Além disso, os usuários que pesquisam conteúdo corporativo geralmente fazem perguntas complexas e esperam respostas mais detalhadas do que receberiam de um mecanismo de pesquisa na Web. Isso pode incluir perguntas sobre suporte ao produto, faturas, o regulamento mais recente aplicável a contratos com clientes, as implicações de eventos descobertos em sites de notícias e assim por diante. Por fim, as empresas costumam relutar em confiar na IA da ‘caixa preta’ que não pode explicar suas recomendações e pode exigir técnicas explicáveis ​​aos tomadores de decisão ou usuários finais.

O processamento de linguagem natural (do inglês: Natural Language ProcessingNLP) é uma grande promessa para ajudar a encontrar informações tão profundas no conteúdo da empresa, permitindo que os usuários expressem mais livremente suas necessidades de informações e fornecendo respostas precisas para perguntas cada vez mais complexas. No entanto, os sistemas empresariais de NLP são frequentemente desafiados por vários fatores, que incluem compreender silos heterogêneos de informações, lidar com dados incompletos, treinar modelos precisos a partir de pequenas quantidades de dados e navegar em um ambiente em mudança no qual novos conteúdos, produtos, termos e outras informações são continuamente adicionadas.

Continuar lendo Avançando o processamento de linguagem natural (NLP) para domínios corporativos

Rotulando com o Active Learning

A verdade feia por trás de todos esses dados

Estamos na era dos dados. Nos últimos anos, muitas empresas já começaram a coletar grandes quantidades de dados sobre seus negócios. Por outro lado, muitas empresas estão apenas começando. Se você trabalha em uma dessas empresas, pode estar se perguntando o que pode ser feito com todos esses dados.

Que tal usar os dados para treinar um algoritmo de aprendizado de máquina supervisionado (ML – Machine Learning)? O algoritmo ML poderia executar a mesma tarefa de classificação que um ser humano faria, muito mais rápido! Poderia reduzir custos e ineficiências. Pode funcionar com os dados combinados, como imagens, documentos de texto e apenas números simples. Poderia fazer todas essas coisas e até obter essa vantagem sobre a concorrência.

No entanto, antes que você possa treinar qualquer modelo supervisionado decente, você precisa de dados básicos da verdade. Geralmente, os modelos supervisionados de ML são treinados em registros de dados antigos que já estão rotulados de alguma forma. Os modelos treinados são aplicados para executar previsões de rótulos em novos dados. E esta é a verdade feia: antes de prosseguir com qualquer treinamento de modelo, qualquer definição de problema de classificação ou qualquer entusiasmo adicional na coleta de dados, você precisa de um conjunto suficientemente grande de registros de dados rotulados corretamente para descrever seu problema. E a rotulagem de dados – especialmente em uma quantidade suficientemente grande – é … cara.

Continuar lendo Rotulando com o Active Learning

Data Representation in Machine Learning

Everything about Data Analytics

In implementing most of the machine learning algorithms, we represent each data point with a feature vector as the input. A vector is basically an array of numerics, or in physics, an object with magnitude and direction. How do we represent our business data in terms of a vector?

Primitive Feature Vector

Whether the data are measured observations, or images (pixels), free text, factors, or shapes, they can be categorized into four following types:

  1. Categorical data
  2. Binary data
  3. Numerical data
  4. Graphical data

The most primitive representation of a feature vector looks like this:

Screen Shot 2019-09-15 at 3.58.09 PM A typical feature vector. (Source: https://www.researchgate.net/publication/318740904_Chat_Detection_in_an_Intelligent_Assistant_Combining_Task-oriented_and_Non-task-oriented_Spoken_Dialogue_Systems/figures?lo=1)

Numerical Data

Numerical data can be represented as individual elements above (like Tweet GRU, Query GRU), and I am not going to talk too much about it.

Categorical Data

However, for categorical data, how do we represent them? The first basic way is to use one-hot encoding:

Screen Shot 2019-09-15 at 4.02.51 PM One-hot encoding of…

Ver o post original 717 mais palavras

Sistemas de recomendação na prática

Empresas como Amazon, Netflix, Linkedin e Pandora aproveitam os sistemas de recomendação para ajudar os usuários a descobrir itens novos e relevantes (produtos, vídeos, trabalhos, músicas), criando uma experiência agradável para o usuário enquanto impulsiona a receita incremental.

Nesse artigo do Houtao Deng é fornecido uma visão prática dos sistemas de recomendação. Primeiro, três sistemas principais são revisados: filtragem baseada em conteúdo, colaborativa e híbrida, seguida de discussões sobre inicialização a frio, escalabilidade, interpretabilidade e exploração / exploração.

Recomendação baseada em conteúdo

Na Pandora, uma equipe de músicos rotulou cada música com mais de 400 atributos. Então, quando um usuário seleciona uma estação de música, as músicas que correspondem aos atributos da estação serão adicionadas à lista de reprodução (Projeto Genoma da Música | Pandora, Howe | Pandora).

Esta é uma recomendação baseada em conteúdo. Usuários ou itens têm perfis que descrevem suas características e o sistema recomendaria um item a um usuário se os dois perfis corresponderem. A caixa de moda do Stitch Fix é outro exemplo de recomendação baseada em conteúdo. Os atributos de um usuário são coletados (altura, peso, etc.) e os produtos de moda correspondentes são colocados em uma caixa entregue ao usuário (Stitch Fix | 2013).

Continuar lendo Sistemas de recomendação na prática

Microsoft libera nova preview do SQL Server 2019 denominada 2.4

Junior Galvão - MVP - Data Platform

Ontem a Microsoft através do seu time MSSQLTiger, disponibilizou a nova versão preview da próxima versão do Microsoft SQL Server 2019.

Este novo preview foi batizado de SQL Server 2019 2.4 (quinta versão), vale ressaltar que nos últimos meses a Microsoft vem trabalhando fortemente para liberação de novas versões preliminares.

Novidades

Um dos destaques desta nova versão preliminar faz referência a integração do SQL Server com o Apache Spark™ e o HDFS com o SQL Server, criando assim  uma nova plataforma de dados unificada, que possibilita um grande salto no produto relacionado com os novos padrões de dados e processamento em larga escala.

Segundo informações fornecidas pela Microsoft, o SQL Server 2019 oferece mais segurança, disponibilidade e desempenho para todas as cargas de dados, além de trazer novas ferramentas de conformidade (relacionadas a GDPR e LGPD), melhor desempenho em hardware moderno e alta disponibilidade em Windows, Linux e contêineres.

Ver o post original 277 mais palavras

O que se faz em 1 minuto na Internet?

O infográfico abaixo, de @LoriLewis e @OfficiallyChadd agrega a atividade online de bilhões de pessoas globalmente, para ver como um minuto na Internet se parece.

internet-minute-820

 

In 60 Seconds em 2016