Arquivo da categoria: Recuperação da Informação

Aprendendo DATA SCIENCE

Este material apresenta um conjunto de POST´s relacionados a Machine Learning, onde iremos começar vendo conceitos, cenários e previsões para a IA, alguns conceitos básicos de Estatística. Em seguida iremos mostrar algumas ferramentas que nos auxiliam no dia a dia quando trabalhamos com Machine Learning. Veremos também uma breve descrição sobre Dados e Big Data, passando por Bancos de Dados não Relacionais (NOSQL).

Após essa base, entraremos no assunto principal: Machine Learning, onde será mostrado diversos materiais detalhando Algoritmos, técnicas, bibliotecas (librarys) e etc, onde daremos um foco maior para Algoritmos de Classificação e Natural Language Processing (NLP) e por fim, Métricas que podem ser aplicadas.

Em seguida, falaremos sobre Ciência de Dados (Data Science), explicação do que é, o que faz um Cientista de Dados (data scientist), ferramentas utilizadas, uma POST com diversos vídeos que mostram as técnicas e ferramentas utilizadas no dia a dia de um Cientista de Dados.

No final, veremos algumas aplicações utilizando Machine Learning.

É isso, espero que gostem da compilação de post´s, e possa possa lhe ajudar de alguma forma em seus estudos! Esse post será constantemente atualizado e conto com o feedback de todos para que possamos melhorar ainda mais esse material. Se quiserem sugerir artigos, podem sugerir que adiciono aqui, a ideia é ser uma fonte de estudos.

Continuar lendo Aprendendo DATA SCIENCE

TOP 10 Posts +1 sobre NLP de 2019…

Tempo de Leitura: 5 minutos

Natural-Language-Processing-03-1

Compartilhando com vocês os “TOP 10 artigos sobre NLP (Natural Language Processing) de 2019, isto é, os Posts que publiquei em 2019 e que teve maiores audiências. Espero que gostem dessa relação e que alguns destes possam ser úteis no seu dia a dia, caso ainda não tenha visto. Vamos lá…

#10 – LUPPAR NEWS-REC (RECOMENDADOR INTELIGENTE DE NOTÍCIAS)

Luppar News-Rec (Versão 1) é fruto da minha dissertação de Mestrado! É um Sistema Recomendador de Notícias (SRN) composto por algoritmos clássicos de classificação que trabalham em conjunto com representações de documentos para solucionar o problema de classificação de notícias de forma a trazer os documentos(notícias) que atendam a necessidade do usuário.

#9 – AVANÇANDO O PROCESSAMENTO DE LINGUAGEM NATURAL (NLP) PARA DOMÍNIOS CORPORATIVOS

O processamento de linguagem natural (do inglêsNatural Language Processing – NLP) é uma grande promessa para ajudar a encontrar informações tão profundas no conteúdo da empresa, permitindo que os usuários expressem mais livremente suas necessidades de informações e fornecendo respostas precisas para perguntas cada vez mais complexas. No entanto, os sistemas empresariais de NLP são frequentemente desafiados por vários fatores, que incluem compreender silos heterogêneos de informações, lidar com dados incompletos, treinar modelos precisos a partir de pequenas quantidades de dados e navegar em um ambiente em mudança no qual novos conteúdos, produtos, termos e outras informações são continuamente adicionadas.

Continuar lendo TOP 10 Posts +1 sobre NLP de 2019…

Artificial Intelligence Index – Report 2019

O AI Index Report rastreia, coleta, destila e visualiza dados relacionados à inteligência artificial. Sua missão é fornecer dados imparciais e rigorosamente examinados para que formuladores de políticas, pesquisadores, executivos, jornalistas e o público em geral desenvolvam intuições sobre o campo complexo da IA. Expandindo anualmente, o Relatório procura incluir dados sobre o desenvolvimento da IA de comunidades em todo o mundo.

Visualize clicando na imagem abaixo, ou no link.

IAIndex2019

 

Luppar News-Rec (Recomendador Inteligente de Notícias)

O Luppar News-Rec (Versão 1) é fruto da minha dissertação de Mestrado,  mais detalhes sobre – visualize aqui! É um Sistema Recomendador de Notícias (SRN) composto por algoritmos clássicos de classificação que trabalham em conjunto com representações de documentos para solucionar o problema de classificação de notícias de forma a trazer os documentos(notícias) que atendam a necessidade do usuário. A metodologia que segue esse trabalho divide os esforços da implementação do SRN em três etapas: Subsistema de Captura, Pré-Processamento e Armazenamento, Subsistema de Classificação de Notícias e Subsistema de Aquisição de Perfil de Assinantes e Distribuição.

Recursos do Luppar News-Rec

News Recommender System using Word Embeddings for study and research.

Disponível em: http://luppar.com/recommender

Coleções de documentos

  • Z5News (Coleção em Inglês com 5 tópicos)
    • sportsNews, politicsNews, technologyNews, PersonalFinance e brazil-news
  • Z5NewsBrasil (Coleção em Portugues com 5 tópicos)
    • esporteNews, politicaNews, tecnologiaNews, financaPessoal e educacaonews
  • Z12News (Coleção em Inglês com 12 tópicos)
    • sportsnews, politicsNews, technologyNews, PersonalFinance, brazil-news, aerospace-defense, autos, commoditiesNews, fundsNews, foreignexchangeNews, healthnews e environmentnews

Continuar lendo Luppar News-Rec (Recomendador Inteligente de Notícias)

Avançando o processamento de linguagem natural (NLP) para domínios corporativos

Por Salim Roukos, IBM Fellow (todos os direitos reservados ao autor – matéria (EN))

Segundo Salim Roukos, encontrar informações no vasto acervo de documentos e bases de conhecimento de uma empresa para responder às perguntas dos usuários nunca é tão fácil quanto deveria ser. As respostas podem muito bem existir, mas geralmente permanecem fora de alcance por vários motivos.

Para iniciantes, ao contrário da Web, onde as informações são conectadas através de um rico conjunto de links e geralmente são capturadas de forma redundante em várias formas (facilitando a localização), o conteúdo corporativo geralmente é armazenado em silos com muito menos repetição das informações principais. Além disso, os usuários que pesquisam conteúdo corporativo geralmente fazem perguntas complexas e esperam respostas mais detalhadas do que receberiam de um mecanismo de pesquisa na Web. Isso pode incluir perguntas sobre suporte ao produto, faturas, o regulamento mais recente aplicável a contratos com clientes, as implicações de eventos descobertos em sites de notícias e assim por diante. Por fim, as empresas costumam relutar em confiar na IA da ‘caixa preta’ que não pode explicar suas recomendações e pode exigir técnicas explicáveis ​​aos tomadores de decisão ou usuários finais.

O processamento de linguagem natural (do inglês: Natural Language ProcessingNLP) é uma grande promessa para ajudar a encontrar informações tão profundas no conteúdo da empresa, permitindo que os usuários expressem mais livremente suas necessidades de informações e fornecendo respostas precisas para perguntas cada vez mais complexas. No entanto, os sistemas empresariais de NLP são frequentemente desafiados por vários fatores, que incluem compreender silos heterogêneos de informações, lidar com dados incompletos, treinar modelos precisos a partir de pequenas quantidades de dados e navegar em um ambiente em mudança no qual novos conteúdos, produtos, termos e outras informações são continuamente adicionadas.

Continuar lendo Avançando o processamento de linguagem natural (NLP) para domínios corporativos

Materiais sobre Inteligência Artificial, Machine Learning, Statistics e etc…

Abaixo uma coleção de links de materiais de diversos assuntos relacionados a Inteligência Artificial, Machine Learning, Statistics, Processamento de Linguagem Natural e etc…

Dicas diversas

Manipulando Strings com Python
https://www.linkedin.com/pulse/manipulando-strings-com-python-fernanda-santos

140 Machine Learning Formulas
https://www.datasciencecentral.com/profiles/blogs/140-machine-learning-formulas

40 Techniques Used by Data Scientists
https://www.datasciencecentral.com/profiles/blogs/40-techniques-used-by-data-scientists

Continuar lendo Materiais sobre Inteligência Artificial, Machine Learning, Statistics e etc…

Rotulando com o Active Learning

A verdade feia por trás de todos esses dados

Estamos na era dos dados. Nos últimos anos, muitas empresas já começaram a coletar grandes quantidades de dados sobre seus negócios. Por outro lado, muitas empresas estão apenas começando. Se você trabalha em uma dessas empresas, pode estar se perguntando o que pode ser feito com todos esses dados.

Que tal usar os dados para treinar um algoritmo de aprendizado de máquina supervisionado (ML – Machine Learning)? O algoritmo ML poderia executar a mesma tarefa de classificação que um ser humano faria, muito mais rápido! Poderia reduzir custos e ineficiências. Pode funcionar com os dados combinados, como imagens, documentos de texto e apenas números simples. Poderia fazer todas essas coisas e até obter essa vantagem sobre a concorrência.

No entanto, antes que você possa treinar qualquer modelo supervisionado decente, você precisa de dados básicos da verdade. Geralmente, os modelos supervisionados de ML são treinados em registros de dados antigos que já estão rotulados de alguma forma. Os modelos treinados são aplicados para executar previsões de rótulos em novos dados. E esta é a verdade feia: antes de prosseguir com qualquer treinamento de modelo, qualquer definição de problema de classificação ou qualquer entusiasmo adicional na coleta de dados, você precisa de um conjunto suficientemente grande de registros de dados rotulados corretamente para descrever seu problema. E a rotulagem de dados – especialmente em uma quantidade suficientemente grande – é … cara.

Continuar lendo Rotulando com o Active Learning

O que há de novo no Hype Cycle da Gartner para IA, 2019

Gartner-Hype-Cycle-For-Artificial-Intelligence-2019

  • Entre 2018 e 2019, as organizações que implantaram inteligência artificial (IA) aumentaram de 4% para 14%, de acordo com a pesquisa CIO Agenda 2019 da Gartner.
  • A IA de conversação permanece no topo das agendas corporativas estimuladas pelo sucesso mundial do Amazon Alexa, Google Assistant e outros.
  • As empresas estão progredindo com a IA à medida que ela cresce mais e também cometem mais erros que contribuem para sua curva de aprendizado acelerada.

Continuar lendo O que há de novo no Hype Cycle da Gartner para IA, 2019

Uma lista completa de estruturas importantes de processamento de linguagem natural que você deve conhecer (Infográfico de NLP)

Visão global

  • Aqui está uma lista das estruturas mais importantes de processamento de linguagem natural (do inglês NLPNatural Language Processing) que você precisa conhecer nos últimos dois anos
  • Do Transformer do Google AI ao XLM / mBERT do Facebook Research, traçamos o aumento da NLP através das lentes dessas descobertas sísmicas.

Introdução

Você já ouviu falar sobre a estrutura mais recente de processamento de linguagem natural lançada recentemente? Eu não culpo você se você ainda está atualizando a excelente biblioteca StanfordNLP ou a estrutura PyTorch-Transformers!

Houve um aumento notável na quantidade de pesquisas e avanços ocorrendo na NLP nos últimos dois anos.

Posso rastrear essa recente ascensão a um artigo (sísmico) – “Atenção é tudo que você precisa” do Google AI em junho de 2017. Essa descoberta gerou tantas novas e empolgantes bibliotecas de NLP que nos permitem trabalhar com o texto de maneiras anteriormente limitado à nossa imaginação (ou Hollywood).

A seguir, o interesse no processamento de idiomas naturais, de acordo com as pesquisas do Google nos últimos 5 anos nos EUA:

estruturas de PNL

Continuar lendo Uma lista completa de estruturas importantes de processamento de linguagem natural que você deve conhecer (Infográfico de NLP)

Machine Learning Yearning

Machine Learning Yearning – Technical Strategy for AI Engineers, In the Era of Deep Learning

MLY