Dados, Data Science, Deep Learning, NLP, Recuperação da Informação

Avançando o processamento de linguagem natural (NLP) para domínios corporativos

Por Salim Roukos, IBM Fellow (todos os direitos reservados ao autor – matéria (EN))

Encontrar informações no vasto acervo de documentos e bases de conhecimento de uma empresa para responder às perguntas dos usuários nunca é tão fácil quanto deveria ser. As respostas podem muito bem existir, mas geralmente permanecem fora de alcance por vários motivos.

Para iniciantes, ao contrário da Web, onde as informações são conectadas através de um rico conjunto de links e geralmente são capturadas de forma redundante em várias formas (facilitando a localização), o conteúdo corporativo geralmente é armazenado em silos com muito menos repetição das informações principais. Além disso, os usuários que pesquisam conteúdo corporativo geralmente fazem perguntas complexas e esperam respostas mais detalhadas do que receberiam de um mecanismo de pesquisa na Web. Isso pode incluir perguntas sobre suporte ao produto, faturas, o regulamento mais recente aplicável a contratos com clientes, as implicações de eventos descobertos em sites de notícias e assim por diante. Por fim, as empresas costumam relutar em confiar na IA da ‘caixa preta’ que não pode explicar suas recomendações e pode exigir técnicas explicáveis ​​aos tomadores de decisão ou usuários finais.

O processamento de linguagem natural (do inglês: Natural Language ProcessingNLP) é uma grande promessa para ajudar a encontrar informações tão profundas no conteúdo da empresa, permitindo que os usuários expressem mais livremente suas necessidades de informações e fornecendo respostas precisas para perguntas cada vez mais complexas. No entanto, os sistemas empresariais de NLP são frequentemente desafiados por vários fatores, que incluem compreender silos heterogêneos de informações, lidar com dados incompletos, treinar modelos precisos a partir de pequenas quantidades de dados e navegar em um ambiente em mudança no qual novos conteúdos, produtos, termos e outras informações são continuamente adicionadas.

O IBM Research AI está explorando três temas diferentes para enfrentar esses desafios e melhorar a NLP para domínios corporativos. O primeiro visa avançar a IA, onde os sistemas podem aprender com pequenas quantidades de dados, alavancar o conhecimento externo e usar técnicas que incluem abordagens neuros simbólicas da linguagem que combinam processamento neural e simbólico. O segundo se concentra em Trusting AI, onde é fornecida a explicabilidade sobre como um sistema chega a uma decisão. A terceira abordagem envolve o dimensionamento da IA ​​para permitir adaptação contínua e melhor monitoramento e teste de sistemas para suportar a implantação de sistemas de idiomas sob as rigorosas expectativas das empresas.

Aqui é fornecido alguns detalhes sobre o trabalho da NLP corporativa da IBM Research, destacando quatro trabalhos apresentados na conferência do ACL 2019 (uma lista completa de todos os nossos trabalhos do ACL está aqui). Os dois primeiros trabalhos abordam a análise semântica: o primeiro usa a linguagem AMR (Abstract Meaning Representation) para representar o significado de uma sentença e o segundo cria um analisador semântico que converte a pergunta do usuário em um programa para consultar uma base de conhecimento. Também é explorado o trabalho do autor (Salim Roukos), integrando bases de conhecimento incompletas com texto para melhorar a cobertura nas respostas a perguntas. O quarto artigo descreve um sistema que permite que especialistas no assunto ajustem as regras de um sistema interpretável baseado em regras.

1. Representação de Significado Abstrato (AMR):
AMR é uma linguagem de representação semântica destinada a permitir que sentenças semelhantes tenham a mesma representação, mesmo que não tenham palavras idênticas. Mostramos o gráfico AMR que representa a pergunta “Como excluo os arquivos de log circulares?” (em inglês: “How do I delete the circular log files?“), Onde o conceito amr-unknown representa o que está sendo solicitado (nesse caso, a maneira de delete-01 do ARG1 por ARG0) .

img111No trabalho anterior, o autor apresenta o analisador de AMR baseado em transição Stack-LSTM (Ballesteros e Al-Onaizan, 2017 [1]) com uma precisão semântica, ou SMATCH, pontuação de 65,9%. Neste artigo, descrevemos várias técnicas para melhorar o SMATCH para 75,5%, o que é melhor do que o estado da arte anterior de 74,4%. Uma técnica que contribuiu com 1,9% foi aumentar o treinamento com o Reinforcement Learning para reduzir o tamanho menor dos dados de treinamento.

Usamos a amostragem de possíveis gráficos de AMR na esperança de encontrar melhores gráficos para aprender melhores parâmetros: em particular, queremos encontrar parâmetros para maximizar a recompensa esperada do SMATCH.

Para cada frase, produzimos dois gráficos usando os parâmetros do modelo atual: um melhor gráfico ganancioso e um gráfico produzido por amostragem do espaço de ação. O gradiente é aproximado como em (Rennie et al., 2017 [2]).

O SMATCH do gráfico ganancioso serve como uma linha de base que pode reduzir a variação na estimativa do gradiente (Williams, 1992 [3]). Recursos adicionais são descritos no documento para atingir 75,5% no AMR 2.0 (LDC2017T10), que é principalmente conteúdo de notícias. Atualmente, estamos explorando métodos de transferência de aprendizado para estender o analisador de AMR orientado a notícias para o conteúdo da empresa.

2. Análise semântica unificada em várias bases de conhecimento:
Em muitos contextos, a pergunta de um usuário precisa ser respondida consultando uma base de conhecimento. O Autor desenvolveu uma abordagem que unifica a análise semântica em várias bases de conhecimento (KBs) e explora a semelhança estrutural entre os programas de consulta para pesquisar as várias KBs. O compartilhamento entre os KBs reduz a escassez de dados de treinamento para criar o analisador semântico. Utilizando uma abordagem de supervisão fraca apenas com o par de perguntas do usuário e sua resposta, obtida com o k-ésimo KB para treinamento. Para superar o desafio de pesquisar em todos os programas possíveis k KB, foi usado uma destilação de várias políticas. Primeiro, treinado modelos de análise (professores) com fraca supervisão para cada domínio separadamente. Segundo, destilados todos os k analisadores no analisador semântico unificado (aluno) usando a destilação de várias políticas com perda de entropia cruzada entre o aluno e os professores K. Observe que é  conhecido o ID de KB correto no treinamento, mas essas informações não são usadas durante a inferência. Realizado experimentos no conjunto de dados OVERNIGHT, que é um conjunto de dados comum com sete KBs, e encontrado melhorias de desempenho na precisão ao usar o analisador unificado destilado (aluno) em comparação com o caso em que cada professor é treinado separadamente.

O artigo fornece mais detalhes sobre os experimentos e resultados.

3. Perguntas respondidas sobre KBs incompletos aumentadas com texto:
A maioria dos KBs está incompleta, mas pode fornecer conhecimento útil para mesclar um corpus de texto para encontrar respostas para perguntas que não foram totalmente respondidas, nem nos KBs nem nos documentos. Este trabalho aborda o conteúdo heterogêneo de KBs e corpora comuns na empresa, e usamos uma combinação de (1) um leitor de KB baseado em atenção gráfica (SGREADER) e (2) um leitor de texto com conhecimento de conhecimento (KAREADER).

O componente SGREADER emprega técnicas de atenção gráfica para acumular conhecimento de cada entidade subgráfica (e) de seus vizinhos vinculados. O mecanismo de atenção gráfica é especialmente projetado para levar em consideração dois aspectos importantes: (1) se a relação de vizinhos é relevante para a questão; e (2) se a entidade vizinha é uma entidade de tópico mencionada pela pergunta. Após a propagação, o SGREADER finalmente gera uma representação vetorizada para cada entidade, codificando o conhecimento específico da pergunta indicado por seus vizinhos vinculados.

O KAREADER substitui a representação da pergunta por uma mistura bloqueada do codificador de perguntas auto-atento por uma representação da entidade do tópico da pergunta usando um mecanismo de bloqueio. Uma representação semelhante é derivada para a passagem. O sistema de compreensão de leitura usa essas representações de perguntas e passagens fundidas para derivar a resposta.

O artigo fornece mais detalhes sobre os experimentos e resultados.

4. HEIDL: Expressões linguísticas humanas no loop com aprendizado profundo (deep learning):

Um dos maiores desafios na adoção da NLP pela empresa é a capacidade de criar modelos interpretáveis ​​por humanos a partir de textos maiores e complicados. Isso é necessário para que a empresa se sinta confortável em implantar a solução e, mais importante, para alavancar especialistas em domínio humano para entender e melhorar ainda mais a saída do sistema de NLP. HEIDL, abreviação de Human-in-the-loop linguistic Expressions wIth Deep Learning, é uma ferramenta criada pela IBM para classificar expressões geradas por máquina por precision e recall.

Para avaliar o HEIDL, a IBM Research e a Universidade de Michigan conduziram um estudo classificando sentenças em contratos legais do mundo real. Os dados foram rotulados por advogados da IBM que analisaram 20.000 frases em quase 150 contratos para anotar frases relacionadas a cláusulas-chave como rescisão, comunicação e pagamento.

As regras foram aprendidas nos contratos de compras da IBM com deep learning; O HEIDL forneceu conceitos de alto nível para os humanos interpretarem o que o sistema está fazendo e melhorá-lo. Trabalhando com quatro cientistas de dados que usaram o HEIDL para modificar as regras; todos alcançaram F acima de 75% no conjunto de 28k frases de treinamento. Além disso, quando testamos novos contratos não IBM, o sistema HEIDL alcança melhor desempenho (55%) em comparação com um sistema tradicional de aprendizado profundo, usando uma rede LSTM treinada nas mesmas frases de 28k (44%). Por fim, os cientistas de dados puderam identificar uma média de sete regras que rotulavam automaticamente quase 150 contratos com alta precision e recall em cerca de 30 minutos. Esse mesmo exercício sem o protótipo HEIDL levaria uma semana ou mais se realizado manualmente. Planejam realizar mais avaliações para confirmar que os sistemas baseados em HEIDL são mais robustos que os sistemas de aprendizado profundo.

References
1. Miguel Ballesteros and Yaser Al-Onaizan. 2017. Amr parsing using stack-lstms. In Proceedings of the2017 Conference on Empirical Methods in Natural Language Processing, pages 1269–1275. Association for Computational Linguistics.

2. Steven J Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and Vaibhava Goel. 2017. Self-critical sequence training for image captioning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7008–7024.

3. Ronald J Williams. 1992. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine learning, 8(3–4):229–256.

Traduzido pelo Google Translate e dados uma breve revisão por Alex Souza.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s