Dados, Data Science, Deep Learning, Machine Learning, NLP, Python, Recuperação da Informação

Luppar News-Rec (Recomendador Inteligente de Notícias)

O Luppar News-Rec (Versão 1) é fruto da minha dissertação de Mestrado,  mais detalhes sobre – visualize aqui! É um Sistema Recomendador de Notícias (SRN) composto por algoritmos clássicos de classificação que trabalham em conjunto com representações de documentos para solucionar o problema de classificação de notícias de forma a trazer os documentos(notícias) que atendam a necessidade do usuário. A metodologia que segue esse trabalho divide os esforços da implementação do SRN em três etapas: Subsistema de Captura, Pré-Processamento e Armazenamento, Subsistema de Classificação de Notícias e Subsistema de Aquisição de Perfil de Assinantes e Distribuição.

Recursos do Luppar News-Rec

News Recommender System using Word Embeddings for study and research.

Disponível em: http://luppar.com/recommender

Coleções de documentos

  • Z5News (Coleção em Inglês com 5 tópicos)
    • sportsNews, politicsNews, technologyNews, PersonalFinance e brazil-news
  • Z5NewsBrasil (Coleção em Portugues com 5 tópicos)
    • esporteNews, politicaNews, tecnologiaNews, financaPessoal e educacaonews
  • Z12News (Coleção em Inglês com 12 tópicos)
    • sportsnews, politicsNews, technologyNews, PersonalFinance, brazil-news, aerospace-defense, autos, commoditiesNews, fundsNews, foreignexchangeNews, healthnews e environmentnews

Continuar lendo

BI, Business Intelligence (BI), Dados

Manchas de Óleo no Litoral Brasileiro – Uma análise usando Power BI

Exemplo de uso do PowerBI usando dados públicos, no caso, do Ibama! Confiram!
Atualizado diariamente!

Manchas

Dados, Data Science, Deep Learning, NLP, Recuperação da Informação

Avançando o processamento de linguagem natural (NLP) para domínios corporativos

Por Salim Roukos, IBM Fellow (todos os direitos reservados ao autor – matéria (EN))

Encontrar informações no vasto acervo de documentos e bases de conhecimento de uma empresa para responder às perguntas dos usuários nunca é tão fácil quanto deveria ser. As respostas podem muito bem existir, mas geralmente permanecem fora de alcance por vários motivos.

Para iniciantes, ao contrário da Web, onde as informações são conectadas através de um rico conjunto de links e geralmente são capturadas de forma redundante em várias formas (facilitando a localização), o conteúdo corporativo geralmente é armazenado em silos com muito menos repetição das informações principais. Além disso, os usuários que pesquisam conteúdo corporativo geralmente fazem perguntas complexas e esperam respostas mais detalhadas do que receberiam de um mecanismo de pesquisa na Web. Isso pode incluir perguntas sobre suporte ao produto, faturas, o regulamento mais recente aplicável a contratos com clientes, as implicações de eventos descobertos em sites de notícias e assim por diante. Por fim, as empresas costumam relutar em confiar na IA da ‘caixa preta’ que não pode explicar suas recomendações e pode exigir técnicas explicáveis ​​aos tomadores de decisão ou usuários finais.

O processamento de linguagem natural (do inglês: Natural Language ProcessingNLP) é uma grande promessa para ajudar a encontrar informações tão profundas no conteúdo da empresa, permitindo que os usuários expressem mais livremente suas necessidades de informações e fornecendo respostas precisas para perguntas cada vez mais complexas. No entanto, os sistemas empresariais de NLP são frequentemente desafiados por vários fatores, que incluem compreender silos heterogêneos de informações, lidar com dados incompletos, treinar modelos precisos a partir de pequenas quantidades de dados e navegar em um ambiente em mudança no qual novos conteúdos, produtos, termos e outras informações são continuamente adicionadas.

Continuar lendo

Dados, Data Science, Deep Learning, Recuperação da Informação

Rotulando com o Active Learning

A verdade feia por trás de todos esses dados

Estamos na era dos dados. Nos últimos anos, muitas empresas já começaram a coletar grandes quantidades de dados sobre seus negócios. Por outro lado, muitas empresas estão apenas começando. Se você trabalha em uma dessas empresas, pode estar se perguntando o que pode ser feito com todos esses dados.

Que tal usar os dados para treinar um algoritmo de aprendizado de máquina supervisionado (ML – Machine Learning)? O algoritmo ML poderia executar a mesma tarefa de classificação que um ser humano faria, muito mais rápido! Poderia reduzir custos e ineficiências. Pode funcionar com os dados combinados, como imagens, documentos de texto e apenas números simples. Poderia fazer todas essas coisas e até obter essa vantagem sobre a concorrência.

No entanto, antes que você possa treinar qualquer modelo supervisionado decente, você precisa de dados básicos da verdade. Geralmente, os modelos supervisionados de ML são treinados em registros de dados antigos que já estão rotulados de alguma forma. Os modelos treinados são aplicados para executar previsões de rótulos em novos dados. E esta é a verdade feia: antes de prosseguir com qualquer treinamento de modelo, qualquer definição de problema de classificação ou qualquer entusiasmo adicional na coleta de dados, você precisa de um conjunto suficientemente grande de registros de dados rotulados corretamente para descrever seu problema. E a rotulagem de dados – especialmente em uma quantidade suficientemente grande – é … cara.

Continuar lendo

Dados, Data Science, Deep Learning, IA (Inteligência Artificial), Machine Learning

Sistemas de recomendação na prática

Empresas como Amazon, Netflix, Linkedin e Pandora aproveitam os sistemas de recomendação para ajudar os usuários a descobrir itens novos e relevantes (produtos, vídeos, trabalhos, músicas), criando uma experiência agradável para o usuário enquanto impulsiona a receita incremental.

Nesse artigo do Houtao Deng é fornecido uma visão prática dos sistemas de recomendação. Primeiro, três sistemas principais são revisados: filtragem baseada em conteúdo, colaborativa e híbrida, seguida de discussões sobre inicialização a frio, escalabilidade, interpretabilidade e exploração / exploração.

Recomendação baseada em conteúdo

Na Pandora, uma equipe de músicos rotulou cada música com mais de 400 atributos. Então, quando um usuário seleciona uma estação de música, as músicas que correspondem aos atributos da estação serão adicionadas à lista de reprodução (Projeto Genoma da Música | Pandora, Howe | Pandora).

Esta é uma recomendação baseada em conteúdo. Usuários ou itens têm perfis que descrevem suas características e o sistema recomendaria um item a um usuário se os dois perfis corresponderem. A caixa de moda do Stitch Fix é outro exemplo de recomendação baseada em conteúdo. Os atributos de um usuário são coletados (altura, peso, etc.) e os produtos de moda correspondentes são colocados em uma caixa entregue ao usuário (Stitch Fix | 2013).

Continuar lendo

Dados, Data Science, Segurança da Informação, SQL Server

Microsoft libera nova preview do SQL Server 2019 denominada 2.4

Junior Galvão - MVP - Data Platform

Ontem a Microsoft através do seu time MSSQLTiger, disponibilizou a nova versão preview da próxima versão do Microsoft SQL Server 2019.

Este novo preview foi batizado de SQL Server 2019 2.4 (quinta versão), vale ressaltar que nos últimos meses a Microsoft vem trabalhando fortemente para liberação de novas versões preliminares.

Novidades

Um dos destaques desta nova versão preliminar faz referência a integração do SQL Server com o Apache Spark™ e o HDFS com o SQL Server, criando assim  uma nova plataforma de dados unificada, que possibilita um grande salto no produto relacionado com os novos padrões de dados e processamento em larga escala.

Segundo informações fornecidas pela Microsoft, o SQL Server 2019 oferece mais segurança, disponibilidade e desempenho para todas as cargas de dados, além de trazer novas ferramentas de conformidade (relacionadas a GDPR e LGPD), melhor desempenho em hardware moderno e alta disponibilidade em Windows, Linux e contêineres.

Ver o post original 277 mais palavras

Big Data, Dados

O que se faz em 1 minuto na Internet?

Big Data, Dados, Segurança da Informação

Lei Geral de Proteção de Dados (LGPD)

Projeto de Lei: 5762 – 2019 (Ementa – Altera a Lei nº 13.709, de 2018, prorrogando a data da entrada em vigor de dispositivos da Lei Geral de Proteção de Dados Pessoais – LGPD – para 15 de agosto de 2022.)

LEI Nº 13.709, DE 14 DE AGOSTO DE 2018
Dispõe sobre a proteção de dados pessoais e altera a Lei nº 12.965, de 23 de abril de 2014 (Marco Civil da Internet).

No dia 14/08/2018 foi sancionada a Lei Geral de Proteção de Dados pessoal, selecionei duas matérias que julgo importante e nos dá uma base de como funcionará essa lei, que entra em vigor em 18 meses.

Vejam as matérias abaixo:

Fonte e direitos: Tecnoblog

O presidente Michel Temer sancionou nesta terça-feira (14) o projeto de lei da Câmara 53/2018, que estabelece regras para a coleta e o tratamento de dados pessoais no Brasil. A lei, que entra em vigor daqui a 18 meses, é inspirada no Regulamento Geral sobre a Proteção de Dados (GDPR), que passou a valer na União Europeia em maio com o objetivo de assegurar a privacidade dos cidadãos.

A autoridade que seria criada para garantir a aplicação da lei, batizada de Agência Nacional de Proteção de Dados (ANPD), foi vetada por ser inconstitucional. Temer diz que houve “vício de iniciativa”, ou seja, a proposta não partiu do órgão competente. O presidente afirma, no entanto, que vai enviar ao Congresso um projeto sobre o mesmo tema, proposto pelo Executivo.

O que muda com a Lei de Geral de Proteção de Dados (LGPD)

Continuar lendo

Banco de Dados, Dados, Disponibilidade

Gestão de Dados: 10 questões básicas sobre seu uso

Em tempos de Big Data, a Gestão de Dados começa a despertar o interesse das empresas brasileiras. Este artigo esclarece uma lista com dez questões básicas sobre o uso e a adoção da disciplina Gestão de Dados nas empresas brasileiras.

Autor: Bergson Lopes

Os 10 pontos sitados no artigo são os seguintes:

1 – Afinal, qual o termo correto: Gestão de Dados ou Gestão da Informação?
2 – A preocupação em gerir os dados das empresas é algo novo?
3 – Quais as premissas da Gestão de Dados?
4 – Quais as funções relacionadas à gestão de dados?
5 – Qual a diferença entre Gestão de Dados e Governança de Dados?
6 – Quais os principais ganhos de uma gestão de dados eficiente? A Gestão de Dados gera vantagem competitiva para as empresas?
7 – Quais perfis profissionais são necessários para promover a Gestão de Dados nas empresas?
8 – O que considerar na escolha de um funcionário? Qual a formação do profissional para o setor?
9 – O que é mais viável: fazer a gestão dos dados com recursos internos ou contratar empresas especializadas?
10 – A Gestão de Dados é mais uma moda ou veio realmente para ficar?

Veja o artigo na integra clicando aqui!

image02