Dados, Data Science, Deep Learning, Machine Learning, NLP, Python, Recuperação da Informação

Luppar News-Rec (Recomendador Inteligente de Notícias)

O Luppar News-Rec (Versão 1) é fruto da minha dissertação de Mestrado,  mais detalhes sobre – visualize aqui! É um Sistema Recomendador de Notícias (SRN) composto por algoritmos clássicos de classificação que trabalham em conjunto com representações de documentos para solucionar o problema de classificação de notícias de forma a trazer os documentos(notícias) que atendam a necessidade do usuário. A metodologia que segue esse trabalho divide os esforços da implementação do SRN em três etapas: Subsistema de Captura, Pré-Processamento e Armazenamento, Subsistema de Classificação de Notícias e Subsistema de Aquisição de Perfil de Assinantes e Distribuição.

Recursos do Luppar News-Rec

News Recommender System using Word Embeddings for study and research.

Disponível em: http://luppar.com/recommender

Coleções de documentos

  • Z5News (Coleção em Inglês com 5 tópicos)
    • sportsNews, politicsNews, technologyNews, PersonalFinance e brazil-news
  • Z5NewsBrasil (Coleção em Portugues com 5 tópicos)
    • esporteNews, politicaNews, tecnologiaNews, financaPessoal e educacaonews
  • Z12News (Coleção em Inglês com 12 tópicos)
    • sportsnews, politicsNews, technologyNews, PersonalFinance, brazil-news, aerospace-defense, autos, commoditiesNews, fundsNews, foreignexchangeNews, healthnews e environmentnews

Continuar lendo

Dados, Data Science, Deep Learning, NLP, Recuperação da Informação

Avançando o processamento de linguagem natural (NLP) para domínios corporativos

Por Salim Roukos, IBM Fellow (todos os direitos reservados ao autor – matéria (EN))

Encontrar informações no vasto acervo de documentos e bases de conhecimento de uma empresa para responder às perguntas dos usuários nunca é tão fácil quanto deveria ser. As respostas podem muito bem existir, mas geralmente permanecem fora de alcance por vários motivos.

Para iniciantes, ao contrário da Web, onde as informações são conectadas através de um rico conjunto de links e geralmente são capturadas de forma redundante em várias formas (facilitando a localização), o conteúdo corporativo geralmente é armazenado em silos com muito menos repetição das informações principais. Além disso, os usuários que pesquisam conteúdo corporativo geralmente fazem perguntas complexas e esperam respostas mais detalhadas do que receberiam de um mecanismo de pesquisa na Web. Isso pode incluir perguntas sobre suporte ao produto, faturas, o regulamento mais recente aplicável a contratos com clientes, as implicações de eventos descobertos em sites de notícias e assim por diante. Por fim, as empresas costumam relutar em confiar na IA da ‘caixa preta’ que não pode explicar suas recomendações e pode exigir técnicas explicáveis ​​aos tomadores de decisão ou usuários finais.

O processamento de linguagem natural (do inglês: Natural Language ProcessingNLP) é uma grande promessa para ajudar a encontrar informações tão profundas no conteúdo da empresa, permitindo que os usuários expressem mais livremente suas necessidades de informações e fornecendo respostas precisas para perguntas cada vez mais complexas. No entanto, os sistemas empresariais de NLP são frequentemente desafiados por vários fatores, que incluem compreender silos heterogêneos de informações, lidar com dados incompletos, treinar modelos precisos a partir de pequenas quantidades de dados e navegar em um ambiente em mudança no qual novos conteúdos, produtos, termos e outras informações são continuamente adicionadas.

Continuar lendo