O cenário de dados e IA de 2019

Segundo Matt Turck, em seu artigo original – aqui traduzido, disse que 2019:

Foi outro ano intenso no mundo dos dados, cheio de emoção, mas também de complexidade.

À medida que mais mundo fica on-line, a “informação de dados” de tudo continua a acelerar. Essa mega-tendência continua ganhando força, alimentada pela interseção de avanços separados em infraestrutura, computação em nuvem, inteligência artificial, código aberto e a digitalização geral de nossas economias e vidas.

Alguns anos atrás, a discussão sobre “Big Data” era principalmente técnica, centrada no surgimento de uma nova geração de ferramentas para coletar, processar e analisar grandes quantidades de dados. Muitas dessas tecnologias agora são bem compreendidas e implantadas em escala. Além disso, nos últimos dois anos, em particular, começamos a adicionar camadas de inteligência por meio de ciência de dados, aprendizado de máquina e IA em muitos aplicativos, que agora estão cada vez mais em produção em todos os tipos de produtos de consumo e B2B.

À medida que essas tecnologias continuam melhorando e se expandindo além do grupo inicial de adotantes (FAANG e startups) para a economia e o mundo em geral, a discussão está mudando do puramente técnico para uma conversa necessária sobre o impacto em nossas economias, sociedades e vidas.

Estamos apenas começando a realmente entender a natureza da interrupção à frente . Em um mundo em que a automação orientada a dados se torna a regra (produtos automatizados, carros automatizados, empresas automatizadas), qual é a nova natureza do trabalho? Como lidamos com o impacto social? Como pensamos em privacidade, segurança, liberdade?

Enquanto isso, as tecnologias subjacentes continuam a evoluir em ritmo acelerado, com um ecossistema sempre vibrante de startups, produtos e projetos, anunciando talvez mudanças ainda mais profundas pela frente. Nesse ecossistema, o ano foi caracterizado pelas primeiras entradas de uma consolidação esperada, e talvez pela passagem da guarda de uma época para outra, à medida que as primeiras tecnologias começaram a dar lugar à próxima geração.

Para tentar entender tudo isso, esta é a nossa sexta paisagem e o “estado da união” dos dados e do ecossistema de IA. Para quem estiver interessado em acompanhar a evolução, aqui estão as versões anteriores: 2012 , 2014 , 2016 , 2017 e 2018 .

Vale a pena notar: como o termo “Big Data” já entrou no museu de chavões antes quentes, este ano o gráfico será apenas o “Data & AI Landscape”.

Além disso, para tornar a leitura mais digerível, dividiremos a postagem em duas partes:

A Parte I incluirá algumas idéias introdutórias sobre o contexto em rápida evolução em torno da privacidade e regulamentação de dados, que terão um impacto profundo no que pode / não pode ser feito com as tecnologias de dados; também incluirá a própria paisagem.

A Parte II (logo mais abaixo) incluirá um resumo das principais tendências em infraestrutura de dados, análise e ML / AI.

Dados, IA e sociedade: a maré está mudando 

Em 2018, observamos como o mundo dos dados começou a revelar alguns tons mais escuros e mais assustadores, na sequência do escândalo da Cambridge Analytica em particular.

Essa tendência continuou a se desenvolver em 2019. Houve mais violações de dados, mais escândalos de privacidade . Mais histórias do estado de vigilância na China (incluindo este relatório em uma cidade muçulmana no noroeste da China). Mais exemplos esquisitos de deepfakes de IA, para os quais estamos muito despreparados .

Como resultado, a maré começou a mudar a sério.

Certamente, o debate em torno dos perigos da IA, com todas as suas conotações de ficção científica, já havia captado a imaginação, e este ano houve mais iniciativas em torno de pensar nessas questões, como o lançamento do Instituto de Arte Artificial Centrada no Homem .

Mas até recentemente, as perguntas sobre propriedade de dados, privacidade e segurança foram atendidas, para quase todos, exceto uma minoria vocal, com um bocejo retumbante.

Talvez mais do que nunca, as questões de privacidade saltaram para a vanguarda do debate público em 2019 e agora estão na frente, na esquerda e no centro. O fato de muitas dessas questões estarem relacionadas ao Facebook, um serviço conhecido por bilhões de pessoas, provavelmente desempenhou um papel importante na sensibilização de um grupo muito mais amplo de pessoas ao redor do mundo para a gravidade das questões.

O cenário de privacidade de dados também está mudando, à medida que os governos estão se envolvendo cada vez mais.

A regulamentação certamente está se espalhando com força total:

  • O GDPR, o regulamento europeu de proteção de dados e privacidade, entrou em vigor em maio de 2018 e, desde então, algumas multas de alto nível foram anunciadas, incluindo uma multa de € 50 milhões emitida ao Google em janeiro de 2019 pelo regulador francês de proteção de dados e um valor de £ 500.000 multa emitida no Facebook em outubro de 2018 pelo Information Commissioner’s Office do Reino Unido.
  • A Lei de Privacidade do Consumidor da Califórnia (CCPA) entrará em vigor em 1º de janeiro de 2020.
  • A conta de privacidade de Nova York é ” ainda mais ousada ” do que a da Califórnia.
  • San Francisco acabou de votar para proibir o uso de reconhecimento facial pelas agências da cidade.
  • Illinois se opôs aos bots de vídeo por contratar entrevistas.
  • LGPD – Lei Geral de Proteção de dados – Brasil.

No entanto, ações governamentais mais duras podem ocorrer. Para iniciantes, o Facebook provavelmente será multado em US $ bilhões pela FTC por questões de privacidade. Talvez o mais importante seja o número de chamadas para acabar com as maiores franquias da Internet – muita energia, muitos dados e pouca privacidade. O alvo mais claro foi o Facebook (veja este artigo de opinião bem divulgado por um de seus fundadores, Chris Hughes), mas a discussão incluiu outros também (uma proposta da candidata presidencial Elizabeth Warren visa o Google e a Amazon).

A Big Tech já estava sob pressão de dentro de seu próprio meio. Funcionários do Google, Amazon e Microsoft protestaram contra a comercialização de sua tecnologia de reconhecimento facial. Google cedeu . A Amazon não o fez – alguns acionistas e funcionários ativistas tentaram colocar uma proibição em vigor , mas foram derrotados.

Para os FAANGs, a privacidade tornou-se um novo campo de batalha, forçando seus líderes a adotar muito mais uma postura pública sobre o assunto:

  • Tim Cook, CEO da Apple, nos alertou sobre a “armação de dados”, que está nos levando a um ” complexo industrial de dados “.
  • Sundar Pichai, CEO do Google, tomou uma posição pública sobre o assunto no NY Times.
  • Mark Zuckerberg, CEO do Facebook, prometeu transformar o Facebook em uma plataforma de mensagens e redes sociais com foco na privacidade.

Até que ponto essas declarações devem ser tomadas como valor de face, é claro, é uma incógnita e provavelmente depende da empresa e do líder específicos.

No caso do Facebook, o lançamento do Libra, uma criptomoeda global, poderia ser considerado uma maneira de continuar a ganhar dinheiro em um mundo de privacidade pós-dados, onde a empresa ficaria menos dependente de um modelo de publicidade puro baseado em dados do usuário – ou como uma maneira de coletar ainda mais dados pessoais.

O debate em torno do impacto dos dados e da IA ​​na privacidade e na sociedade é obviamente extremamente importante, e é fundamentalmente saudável que tenha se tornado muito mais central nos últimos anos.

No entanto, é uma discussão complexa, que envolve muitas nuances.

Nosso relacionamento com a privacidade continua sendo complicado , cheio de sinais mistos. As pessoas dizem que se preocupam com a privacidade , mas continuam comprando todos os tipos de dispositivos conectados com proteção incerta à privacidade. Eles dizem que estão indignados com as violações da privacidade do Facebook, mas o Facebook continua a adicionar usuários e superar as estimativas (tanto no quarto trimestre de 2018 quanto no primeiro trimestre de 2019).

Da mesma forma, como decidimos lidar com a IA envolve muitas vantagens e desvantagens.   Como todas as tecnologias, a IA é intrinsecamente neutra , e se cria bom ou ruim para a sociedade é, em última análise, uma decisão humana. Tomemos o reconhecimento facial, por exemplo: pode ser uma ferramenta para vigilância estatal, mas também pode ajudar a localizar vítimas de tráfico sexual.  Decidir como regular ou restringir a IA, na medida em que tal coisa seja possível, envolveria todos os tipos de segunda ordem consequências difíceis de prever. Por exemplo, se você regula a IA no Ocidente, acaba perdendo vantagem competitiva a longo prazo contra a China, que possui um conjunto de regras diferente (deixando de lado qualquer discussão sobre valores)?

Tecnologias de dados: um cenário vibrante, mas em evolução

Embora seja impossível em 2019 ignorar as questões mais amplas de privacidade, segurança e regulamentação em torno de dados e IA, o ecossistema de tecnologias e produtos de dados é o mais empolgante (e completo!) De sempre.

O ecossistema também está evoluindo para algumas maneiras interessantes, pois algumas tecnologias pioneiras, como o Hadoop, podem estar saindo, substituídas por computação em nuvem e Kubernetes, e segmentos inteiros, como Business Intelligence, parecem estar se consolidando rapidamente .

Vamos explorar essas várias tendências com mais detalhes, mas primeiro, aqui está o cenário de dados e IA de 2019:

Alguns recursos principais:

  • Ver em tamanho real : clique aqui
  • Lista subjacente: apesar de quão movimentada é a paisagem, não podemos caber em todas as empresas interessantes no próprio gráfico. Como resultado, temos uma planilha inteira que não apenas lista todas as empresas do cenário, mas também outras centenas – clique aqui .

Alguns comentários adicionais:

  • Sim, você pode ampliar ! A imagem e todos os logotipos são de alta resolução, para que você possa navegar na paisagem em detalhes, ampliando. Também funciona muito bem no celular!
  • Este ano, minha colega do FirstMarkLisa Xu, forneceu imensa ajuda com a paisagem.
  • Nós detalhamos algumas de nossa metodologia nas notas no final deste post.
  • Pensamentos e sugestões são bem-vindos – use a seção de comentários deste post. Provavelmente publicaremos duas ou três revisões do gráfico até que seja totalmente final.

Quem está dentro, quem está fora?

O último ano (desde a nossa paisagem de 2018) esteve ativo de uma perspectiva de saída.

Várias empresas do cenário foram abertas. Crowdstrike (NASDAQ: CRWD) e Elastic (NYSE: ESTC) alcançaram grandes avaliações no momento do IPO – US $ 7 bilhões e US $ 5 bilhões, respectivamente. Outros IPOs incluíram PagerDuty (US $ 1,8 bilhão), Anaplan (US $ 1,8 bilhão) e Domo (US $ 500 milhões).

Algumas aquisições muito grandes ocorreram no ano passado, incluindo Qualtrics (adquirida pela SAP por US $ 8 bilhões), Medidata (adquirida após IPO da Dassault por US $ 5,8 bilhões), Hortonworks (fusão de US $ 5,2 bilhões com a Cloudera), Imperva (adquirida pela Thoma Bravo para US $ 2,1 bilhões), AppNexus (adquirido pela AT&T por até US $ 2 bilhões), Cylance (adquirido pela BlackBerry por US $ 1,4 bilhões), Datorama (adquirido pela Salesforce por US $ 800 milhões), Treasure Data (adquirido pela Arm por US $ 600 milhões), Attunity (adquirido pós-IPO da Qlik por US $ 560 milhões), Dynamic Yield (adquirido pelo McDonald’s por US $ 300 milhões) e Figura Oito (adquirida pela Appen por US $ 300 milhões).

Notavelmente, houve uma onda de consolidação na inteligência de negócios apenas no último trimestre: Tableau (adquirido pela Salesforce por US $ 15,7 bilhões), Looker (adquirido pelo Google por US $ 2,6 bilhões), Periscope Data (adquirido pela Sisense por US $ 100 milhões), ClearStory Dados (adquiridos pela Alteryx por US $ 20 milhões) e Zoomdata (adquiridos pela Logi Analytics).

Muitas outras empresas no cenário de 2018 foram adquiridas por valores menores: Alooma (Google), Bonsai (Microsoft), Euclid Analytics (WeWork), Sailthru (Campaign Monitor), Data Artisans (Alibaba), GRIDSMART (Cubic), Drawbridge (LinkedIn) , Citus Data (Microsoft), Quandl (NASDAQ), Connotate (import.io), Datafox (Oracle), Market Track (Vista Equity Partners), Lattice Engines (Dun & Bradstreet), Blue Yonder (JDA Software), SimpleReach (Nativo) )

Também digno de nota, o contrato de aquisição de inteligência artificial por grandes empresas de Internet, um dispositivo de 2016-2017, não está completamente morto: o Twitter adquiriu a Fabula AI para fortalecer sua experiência em aprendizado de máquina, por exemplo.

Na frente do investimento, as startups de Big Data e IA continuaram a ver grandes rodadas de financiamento. Os investimentos na China não foram tão grandes quanto no ano passado, quando houve várias empresas que levantaram mais de um bilhão de dólares. As empresas chinesas que fizeram grandes rodadas este ano incluíram a empresa de reconhecimento facial Face ++ (US $ 750M Série D), a fabricante de chips AI Horizon Robotics (US $ 600M Série B), a empresa de gerenciamento de frota G7 (US $ 320M Série F), a plataforma de tutoria on-line Yuanfudao (US $ 300M Série F).

Nos EUA, grandes investimentos foram realizados em empresas de veículos autônomos, incluindo Cruise (US $ 1,9 bilhão em duas rodadas em 2018 e 2019), Nuro (US $ 940 milhões Série B) e Aurora (US $ 600 milhões Série B). As empresas RPA também viram rodadas massivas: UiPath (US $ 800 milhões em duas rodadas em 2018 e 2019) e Automation Anywhere (US $ 550 milhões em duas rodadas em 2018).

Outras rodadas importantes de empresas americanas no cenário incluem Verily Life Sciences (rodada de private equity de US $ 1 bilhão), Cambridge Mobile Telematics (US $ 500 milhões), Clover Health (US $ 500 milhões Série E), Veeam Software (US $ 500 milhões), Snowflake Computing (US $ 450 milhões) Série F), Bússola (US $ 400 milhões Série F), Zymergen (US $ 400 milhões Série C), Dataminr (US $ 392 milhões Série E), Limonada (US $ 400 milhões Série D), Rubrik (US $ 260 milhões Série E), Databricks (US $ 250 milhões Série E) ) e MediaMath (US $ 225 milhões Série D).

Parte II – Principais tendências no cenário de dados e IA de 2019

Acima foi descrito que o Cenário de Dados e Inteligência Artificial de 2019 cobriu questões sobre o impacto social dos dados e da Inteligência Artificial e incluiu o próprio gráfico de cenários. Nesta Parte II, abordaremos algumas das principais tendências do setor em dados e IA.

O ecossistema de dados e IA continua sendo uma das áreas mais emocionantes da tecnologia . Ele não apenas possui seu próprio momento explosivo, mas também impulsiona e acelera a inovação em muitas outras áreas (aplicativos para consumidores, jogos, transporte, etc.). Como tal, seu impacto geral é imenso e vai muito além das discussões técnicas abaixo.

Evidentemente, nenhuma tendência significativa se desdobra ao longo de apenas um ano, e muitos dos seguintes foram anos em construção. Vamos focar a discussão nas tendências que vimos particularmente acelerando em 2019 ou ganhando destaque rápido nas conversas do setor.

Seguiremos livremente a ordem do cenário, da esquerda para a direita: infraestrutura, análises e aplicativos.

TENDÊNCIAS DE INFRA-ESTRUTURA

Vemos três grandes tendências em infraestrutura:

  • Uma terceira onda? Do Hadoop aos serviços em nuvem e ao Kubernetes
  • Governança de dados, catalogação e linhagem: o gerenciamento de dados é cada vez mais importante
  • A ascensão de uma pilha de infraestrutura específica de IA

O mundo da infraestrutura de dados continua sua própria evolução rápida. O arco principal aqui, que vem se desenrolando há anos, mas parece estar se acelerando, é uma transição trifásica do Hadoop para os serviços em nuvem e para um ambiente híbrido / Kubernetes .

O Hadoop é praticamente o “OG” do mundo do Big Data, que remonta a um artigo de outubro de 2003. Uma estrutura para armazenamento distribuído e processamento de grandes quantidades de dados usando uma rede de computadores, desempenhou um papel absolutamente central na explosão do ecossistema de dados.

Nos últimos anos, no entanto, tornou-se um esporte entre os observadores do setor declarar o Hadoop morto . Essa tendência acelerou ainda mais este ano, com os fornecedores do Hadoop enfrentando todos os tipos de problemas. O MapR está prestes a fechar e pode ter encontrado um comprador no momento em que este foi escrito. A Cloudera e a Hortonworks , recém-incorporadas , acabaram com sua fusão de US $ 5,2 bilhões em um dia difícil em junho, quando as ações despencaram 40% como resultado de decepcionantes lucros trimestrais. A Cloudera anunciou uma variedade de produtos em nuvem e híbridos, mas ainda não foram lançados.

O Hadoop está enfrentando crescentes ventos contrários como resultado direto da concorrência das plataformas em nuvem. O Hadoop foi desenvolvido em um momento em que a nuvem não era uma opção séria, a maioria dos dados estava no local, a latência da rede era um gargalo real e, portanto, manter os dados e a computação co-localizados fazia muito sentido. O mundo mudou agora.

No entanto, é improvável que o Hadoop desapareça tão cedo. Sua adoção pode desacelerar, mas a magnitude de sua implantação nas empresas fornecerá inércia e força para os próximos anos.

Independentemente disso, a transição para a nuvem está claramente acelerando . Curiosamente, em nossas conversas com executivos da Fortune 1000, 2019 parece uma mudança real. Nos últimos anos, era quase um segredo obscuro que, apesar de toda a conversa sobre a nuvem, a ação real estivesse no local, especialmente nas indústrias reguladas. Muitos dos mesmos executivos da Fortune 1000 estão migrando ativamente para a nuvem, com um segmento específico de atividade que envolve lojas tradicionais da Microsoft fazendo a mudança para o Azure.

Como resultado, os provedores de nuvem continuam a crescer rapidamente, apesar de sua escala já massiva . A AWS gerou US $ 25,7 bilhões em receita em 2018, um aumento de 46,9% em relação a US $ 17,5 bilhões em 2017. As receitas do Microsoft Azure não foram divulgadas separadamente, mas cresceram 73% yoy no trimestre encerrado em março de 2019. Não é uma composição perfeita, mas a receita da AWS cresceu 41% yoy para o mesmo quarte

Enquanto o uso da nuvem se aprofunda, os clientes estão começando a recuar nos custos. Nas salas de diretoria de todo o mundo, os executivos notaram repentinamente um item de linha que costumava ser pequeno e agora nevava muito rapidamente: sua conta na nuvem. A nuvem oferece agilidade, mas muitas vezes pode ter um preço alto, principalmente se os clientes desviam o olhar do medidor ou não conseguem prever com precisão suas necessidades de computação. Existem muitas histórias de clientes da AWS, como Adobe e Capital One, que viram sua fatura crescer mais de 60 % em apenas um ano entre 2017 e 2018, para bem mais de US $ 200 milhões.

Os custos, bem como as preocupações com o aprisionamento de fornecedores, precipitaram a evolução em direção a uma abordagem híbrida , envolvendo uma combinação de nuvem pública, nuvem privada e on-premisse. Diante de uma infinidade de opções, as empresas selecionarão cada vez mais a melhor ferramenta para otimizar o desempenho e a economia. À medida que os fornecedores de nuvem se diferenciam mais agressivamente, as empresas estão se adaptando às estratégias de várias nuvens que aproveitam o que cada fornecedor de nuvem é melhor. E, em alguns casos, a melhor abordagem é manter (ou mesmo repatriar) algumas cargas de trabalho no local, a fim de otimizar a economia, especialmente para cargas de trabalho não dinâmicas

Curiosamente, os provedores de nuvem estão se adaptando à realidade de que a computação corporativa ocorrerá em uma mistura de ambientes, fornecendo ferramentas como o AWS Outposts, que permitem que os clientes executem computação e armazenamento no local, além de integrar perfeitamente as cargas de trabalho no local com o restante seus aplicativos na nuvem da AWS.

Nesta nova era de nuvem múltipla e nuvem híbrida, a estrela em ascensão é sem dúvida o Kubernetes . Um projeto para gerenciar cargas de trabalho e serviços em contêiner aberto de código aberto pelo Google em 2014, o Kubernetes está experimentando o mesmo fervor que o Hadoop há alguns anos atrás, com 8.000 participantes em seu evento KubeCon e um fluxo interminável de postagens em blog e podcasts. Muitos analistas acreditam que a importância da Red Hat no mundo Kubernetes contribuiu em grande parte para sua aquisição massiva pela IBM por US $ 34 bilhões. A promessa do Kubernetes é ajudar as empresas a executar suas cargas de trabalho em seu próprio datacenter e na nuvem privada, além de uma ou várias nuvens públicas.

Como uma estrutura de orquestração particularmente adequada para gerenciar ambientes híbridos complexos, o Kubernetes também está se tornando uma opção cada vez mais atraente para o aprendizado de máquina . O Kubernetes oferece aos cientistas de dados a flexibilidade de escolher o idioma, a biblioteca ou a estrutura de aprendizado de máquina que preferirem e treinar e modelar modelos, permitindo iterações comparativamente rápidas e forte reprodutibilidade, sem a necessidade de especialistas em infraestrutura, com a mesma infraestrutura que atende a vários usuários (mais aqui ) . O Kubeflow , um kit de ferramentas de aprendizado de máquina para o Kubernetes, vem ganhando impulso rapidamente.

O Kubernetes ainda é relativamente incipiente, mas, curiosamente, o acima pode sinalizar uma evolução para os serviços de aprendizado de máquina na nuvem, pois os cientistas de dados podem preferir a flexibilidade e a controlabilidade geral do Kubernetes. Poderíamos estar entrando em uma terceira mudança de paradigma para ciência de dados e infraestrutura de ML, do Hadoop (até 2017?) Para serviços de nuvem de dados (2017-2019) para um mundo dominado por Kubernetes e data warehouses de próxima geração como Snowflake (2019-? )

O outro lado dessa evolução é o aumento da complexidade . Certamente há uma oportunidade de fornecer uma plataforma completa que abstraia grande parte da complexidade da infraestrutura subjacente da nuvem e torne esse admirável mundo novo mais acessível a um grupo mais amplo de cientistas e analistas de dados.

Sem servidor é uma tentativa de simplificação, embora com um ângulo diferente. Esse modelo de execução permite que os usuários escrevam e implantem código sem o incômodo de se preocupar com a infraestrutura subjacente. O provedor de nuvem lida com todos os serviços de back-end e o cliente é cobrado com base no que realmente usa. Sem servidor certamente foi um tópico emergente importante nos últimos dois anos, e essa é outra nova categoria que adicionamos ao cenário Data & AI deste ano. No entanto, a aplicabilidade da serverless para aprendizado de máquina e ciência de dados ainda é um muito mais um trabalho em andamento , com empresas como a Algorithmia e Iguazio / Nuclio estar primeiros participantes .

Outra conseqüência da natureza cada vez mais híbrida do ambiente de dados está na empresa é a necessidade de aumentar os esforços para obter o controle dos dados .

Em um mundo em que alguns dados residem em um data warehouse, alguns em um data lake, outros em várias outras fontes, na nuvem local e privada e na nuvem pública, como você encontra, organiza, controla e rastreia dados? Esses esforços assumem várias formas e nomes relacionados, incluindo consulta de dados, governança de dados, catalogação de dados e linhagem de dados, todos ganhando crescente importância e destaque.

A consulta de dados em um ambiente híbrido é seu próprio desafio, com soluções que se enquadram na tendência geral de separar armazenamento e computação (veja este vídeo da Starburst Data, uma empresa que oferece uma versão corporativa do mecanismo de consulta SQL Presto, do nosso evento Data Driven NYC )

A governança de dados é outra área que está rapidamente se tornando uma das principais preocupações da empresa. A idéia geral de governança de dados é gerenciar os dados de uma pessoa e garantir que sejam de alta qualidade durante todo o ciclo de vida dos dados. Ela aborda áreas como disponibilidade, integridade, usabilidade, consistência, integridade e segurança. Notavelmente, no início de 2019, a Collibra levantou uma rodada de US $ 100 milhões com mais de uma avaliação de US $ 1 bilhão.

Os catálogos de dados são outro sabor cada vez mais importante do gerenciamento de dados. Catálogos de dados efetivamente são dicionários que sintetizam os vários ativos de dados de uma empresa. Eles permitem que usuários, incluindo cientistas de dados, analistas de dados, desenvolvedores e usuários de negócios, descubram e consumam dados em um contexto de autoatendimento. Veja esta boa descrição pelo fornecedor líder Alation.

Finalmente, a linhagem de dados é talvez a categoria mais recente de gerenciamento de dados a surgir. A linhagem de dados tem como objetivo capturar a “jornada de dados” em toda a empresa. Ajuda as empresas a descobrir como os dados foram coletados e como foram modificados e compartilhados ao longo do seu ciclo de vida. O crescimento desse segmento é impulsionado por vários fatores, incluindo a crescente importância da conformidade, privacidade e ética, bem como a necessidade de reprodutibilidade e transparência dos pipelines e modelos de aprendizado de máquina. Aqui está um bom podcast sobre o tema de O’Reilly.

A principal tendência final que vem se acelerando este ano é o surgimento contínuo de uma pilha de infraestrutura específica da IA .

A necessidade de gerenciar pipelines e modelos de IA deu origem à categoria MLOps (ou AIOps), que cresce rapidamente . Para reconhecer essa nova tendência, adicionamos duas novas caixas ao Landscape deste ano, uma em Infraestrutura (com várias startups em estágio inicial, incluindo Algoritmia, Feitiço, Pesos e Viés, etc.) e uma em Open Source (com uma variedade de projetos, geralmente bastante cedo também, incluindo Paquiderme, Seldon, Snorkel, MLeap etc.).

Os engenheiros de ML precisam ser capazes de executar experimentos e iterar rapidamente, acessando recursos como GPUs quando necessário. Em nosso evento Data Driven NYC, apresentamos várias startups em estágio inicial que fornecem essa infraestrutura, incluindo ortografia ( vídeo ), cometa ( vídeo ) e Paperspace ( vídeo ).

A IA está tendo um impacto profundo na infraestrutura, mesmo nos níveis mais baixos da pilha, com o aumento dos bancos de dados de GPU e o nascimento de uma nova geração de chips de IA (Graphcore, Cerebras, etc.). AI pode estar forçando-nos a repensar toda natureza da computação .

TENDÊNCIAS ANALÍTICAS 

Na análise, destacaremos algumas das principais tendências:

  • Business Intelligence (BI) está se consolidando
  • A ação está sendo movida para as plataformas Enterprise AI
  • A IA horizontal continua muito vibrante

Na inteligência de negócios, a tendência inconfundível dos últimos meses foi a explosão da atividade de consolidação mencionada anteriormente neste post, com as aquisições da Tableau, Looker, Zoomdata e Clearstory, além da fusão entre a SiSense e a Periscope (Henry Glaser, CEO da Periscope, havia falado na Data Driven NYC no ano passado).

Com o benefício de 20/20 em retrospectiva, a consolidação no BI era um tanto inevitável, pois o espaço de visualização de dados e análise de autoatendimento havia comoditizado, com uma infinidade de fornecedores de reprodução pura . Todos os fornecedores, grandes e pequenos, estavam sob pressão para diversificar e expandir as capacidades. Para os adquirentes da nuvem, essas novas linhas de produtos certamente aumentarão a receita, mas, mais importante, elas terão poder de conexão, como mais uma ferramenta para ajudar a gerar receita da plataforma principal.

Haverá mais consolidação no BI? A Microsoft tem uma forte posição no Power BI, mas os mercados de M&A podem ter sua própria dinâmica quando um segmento inteiro se consolida e todas as empresas estão efetivamente em jogo. A AWS pode ter uma necessidade mais forte de produto, considerando que seu QuickSight BI geralmente está um pouco atrasado.

À medida que o BI se consolida, o calor continua a aumentar nos segmentos de plataforma de ciência de dados e aprendizado de máquina. A implantação de ML / AI na empresa é uma mega tendência que ainda está no início e vários jogadores estão correndo para criar a plataforma de escolha.

Para a maioria das empresas do setor, o objetivo claro é facilitar a democratização da ML / AI, tornando seus benefícios acessíveis a grupos maiores de usuários e empresas, em um contexto em que a contínua escassez de talentos na ML / AI continua sendo um grande gargalo. ampla adoção. No entanto, diferentes jogadores têm estratégias diferentes.

Uma abordagem é o AutoML . Isso envolve automatizar partes inteiras do ciclo de vida do aprendizado de máquina, incluindo algumas das mais entediantes. Dependendo do produto, o AutoML tratará de tudo, desde geração e engenharia de recursos, seleção de algoritmos e treinamento, implantação e monitoramento de modelos. A DataRobot , especialista em AutoML, levantou uma série D de US $ 100 milhões (e supostamente mais desde então) desde o cenário de 2018.

Outras empresas do setor, como Dataiku, H20 e RapidMiner, oferecem plataformas que também possuem recursos de AutoML, mas também oferecem recursos mais amplos . A Dataiku , por exemplo, levantou uma grande série de US $ 101 milhões desde o cenário de 2018, com uma filosofia geral de capacitar equipes de dados inteiras (cientistas de dados e analistas de dados) e abstrai muita complexidade e tédio envolvidas no tratamento de toda a ciclo de vida dos dados (para uma ótima visão geral, veja este vídeo de uma apresentação de Florian Douetteau, CEO da Dataiku) [Isenção de responsabilidade: a FirstMark é investidora em Dataiku].

É claro que os provedores de nuvem estão ativos, com o Learning Studio da Microsoft, o Cloud AutoML do Google e o AWS Sagemaker. Apesar do poder dos provedores de nuvem, esses produtos ainda são razoavelmente limitados em seu escopo – geralmente difíceis de usar e voltados principalmente para usuários avançados e muito técnicos. Eles também ainda são muito nascentes. A Sagemaker, plataforma de aprendizado de máquina em nuvem da Amazon, teria tido um início lento em 2018, com apenas US $ 11 milhões em vendas para o setor comercial.

Alguns provedores de nuvem estão formando parcerias ativas com jogadores puros no espaço: a Microsoft participou da série E de US $ 250 milhões da Databricks , talvez um prelúdio para uma futura aquisição.

Além das plataformas de IA da empresa, o mundo da IA horizontal (incluindo visão computacional, PNL, voz etc.) continua incrivelmente vibrante .

Abordamos o mundo da pesquisa em IA em um post anterior: Frontier AI: A que distância estamos da inteligência artificial “geral”?

Desde esse post, algumas das principais tendências da IA ​​incluem:

  • grandes melhorias na NLPNatural Language Processing, principalmente através da aplicação do aprendizado de transferência (que envolve o treinamento de um modelo em uma grande quantidade de dados e a portabilidade e o ajuste fino para o problema específico em que estamos trabalhando) para fazê-lo funcionar com menos dados : veja ELMO , ULMFit e, mais importante, BERT do Google AI
  • Mais esforços para fazer a IA funcionar com menos dados, incluindo aprendizado único
  • combinando aprendizado profundo com aprendizado por reforço
  • progresso contínuo nos GANs

Para mais, veja dois ótimos relatórios que acabaram de ser publicados: State of AI Report 2019, de Nathan Benaich, e The State of AI: Divergence, da MMC Ventures.

TENDÊNCIAS DE APLICAÇÃO

À medida que concluímos nossa jornada pelo cenário de 2019 da esquerda para a direita do gráfico, algumas das principais tendências a serem destacadas nos aplicativos:

  • ML / AI atinge a fase de implantação na empresa
  • A ascensão da automação corporativa e RPA

Nesse estágio, provavelmente estamos 3 ou 4 anos tentando criar aplicativos de ML / AI para a empresa.

Certamente houve algumas tentativas incômodas de produtos (chatbots de primeira geração) e algumas grandes reivindicações de marketing bem à frente da realidade, especialmente de empresas mais antigas que tentam adaptar o ML / AI aos produtos existentes.

Mas, pouco a pouco, entramos na fase de implantação do ML / AI na empresa , passando da curiosidade e experimentação até o uso real na produção. A tendência para os próximos anos parece clara: pegue um determinado problema, veja se o ML / AI (na maioria das vezes, aprendizado profundo ou uma variação do mesmo) pode fazer a diferença e, em caso afirmativo, crie um aplicativo de AI para resolver o problema. problema de forma mais eficaz.

Essa fase de implantação ocorrerá de várias maneiras. Alguns produtos serão criados e implantados por equipes internas usando as plataformas de IA da empresa mencionadas acima. Outros serão produtos de pilha completa com IA incorporada , oferecidos por vários fornecedores, nos quais a parte da IA ​​pode ser amplamente invisível para o cliente. Ainda outros serão fornecidos por fornecedores que oferecem uma combinação de produtos e serviços (para um exemplo dessa abordagem, veja esta palestra de Jean-Francois Gagne, CEO da Element AI).

Certamente, ainda é muito cedo . As equipes internas geralmente começaram com projetos discretos abordando um caso de uso (por exemplo, previsão de rotatividade) e estão começando a se expandir para outros problemas. Muitas startups que desenvolvem aplicativos de ML / AI ainda estão aprendendo sobre os desafios de passar do modo de P&D para uma operação totalmente dimensionada (escrevi algumas reflexões sobre o tópico nesta postagem anterior do blog: Scaling AI Startups ).

No entanto, a maturidade está chegando . Nos últimos anos, houve uma quantidade enorme de aprendizado para qualquer pessoa que implante ML / AI em aplicativos da vida real, sobre o que a tecnologia pode ou não fazer, e estamos começando a entender melhor a alocação correta de tarefas entre a máquina e o humano. Veja essa palestra de Dennis Mortensen, CEO da x.ai, sobre as lições aprendidas na criação de um dos primeiros aplicativos de IA disponíveis no mercado. Os chatbots de atendimento ao cliente da próxima geração, por exemplo, oferecem uma combinação muito mais inteligente entre ML / AI e configurabilidade e transparência, para o benefício final dos usuários finais. Veja esta ótima conversa sobre o tópico por Mike Murchison, CEO da Ada, líder emergente em Experiência automatizada do cliente na Data Driven NYC. [Isenção de responsabilidade: a FirstMark é investidora em x.ai e Ada]

Projetando-se para o futuro, à medida que a ML / AI gradualmente se torna difundida com o suporte de uma pilha de dados cada vez mais alta, estamos vendo o início da empresa totalmente automatizada ?

Desde o surgimento da tecnologia da informação, as empresas foram atormentadas pela siloização, com vários sistemas e dados espalhados pelos departamentos, incapazes de se comunicar (o que deu origem ao enorme setor de serviços de integração de sistemas) e aos seres humanos agindo como “cola” no meio. Em um mundo em que dados e sistemas se tornam cada vez mais integrados, e o ML / AI permite remover gradualmente os seres humanos de certas funções, torna-se mais possível do que nunca imaginar empresas funcionando de maneira sistemática e automatizada .

Por exemplo, imagine uma empresa automatizada em que um aumento na demanda (previsto via ML) desencadeie automaticamente um aumento no pedido dos fornecedores, que seria registrado automaticamente no sistema financeiro (que poderia computar e pagar automaticamente os bônus de remuneração, etc.); ou uma diminuição antecipada da demanda pode desencadear automaticamente um aumento correspondente nos gastos com marketing de desempenho, etc.

Existe um mundo futurista em que as empresas se tornam não apenas organizações totalmente automatizadas, mas, eventualmente, autocura e autocura, um tópico que exploramos em nossa apresentação sobre IA e blockchain no ano passado.

No entanto, estamos longe desse estágio e a realidade de hoje está amplamente focada no RPA . Esta é uma categoria em brasa , com líderes como o UI Path e Automation Anywhere crescendo muito rápido e gerando mega-rounds, como mencionado acima.

RPA, abreviação de Robotic Process Automation (embora, talvez decepcionante, não utilize nenhum robô real), envolve a execução de fluxos de trabalho geralmente muito simples, geralmente manuais (realizados por humanos) e repetitivos, e a substituição por software. Muita RPA ocorre nas funções de back office (por exemplo, processamento de faturas).

O RPA é impulsionado por um vento de cauda muito forte em torno da transformação digital que vem se acelerando nos últimos dois anos em particular. Vários líderes da RPA já existem há anos (o UiPath foi fundado em 2005), mas “de repente” atingiu o crescimento do taco de hóquei quando a transformação digital se tornou o tópico do dia. Ele também oferece um forte ROI, pois sua implementação pode ser diretamente comparada ao custo dos seres humanos que executam a mesma tarefa. O RPA também é muito atraente para os gigantes dos serviços de tecnologia, porque envolve uma grande quantidade de serviços de implementação (já que o software precisa ser configurado para uma infinidade de fluxos de trabalho diferentes); portanto, as startups da RPA se beneficiaram de fortes parcerias com essas grandes empresas de serviços.

Talvez haja razões para ser cínico sobre o RPA . Alguns consideram que é um “band aid” pouco inteligente, ou uma espécie de medida paliativa – toma um fluxo de trabalho ineficiente realizado por seres humanos e apenas faz com que a máquina faça isso. Nessa perspectiva, o RPA pode estar simplesmente criando o próximo nível de dívida técnica, e não está claro o que acontece com as funções automatizadas do RPA à medida que o ambiente ao seu redor muda, além de levar à necessidade de mais RPA para reconfigurar a tarefa antiga para sua nova meio Ambiente. O RPA, neste estágio, pelo menos, é mais sobre automação do que inteligência, mais sobre soluções baseadas em regras do que AI (embora vários fornecedores de RPA tenham sua capacidade de IA em materiais de marketing).

O RPA deve ser diferenciado da automação inteligente , que é uma categoria mais emergente, centrada em ML / AI. A automação inteligente também tem como alvo os processos e fluxos de trabalho da empresa, mas é mais centrada em dados do que centrada em processos e, finalmente, será capaz de aprender, melhorar e curar.

Um exemplo de automação inteligente é o processamento inteligente de documentos (ADP), uma categoria em que o ML / AI pode ser utilizado para entender documentos (formulários, faturas, contratos, etc.) em níveis comparáveis ​​ou melhores que os humanos, exceto em grande escala. Veja esta palestra da Hyperscience na Data Driven NYC para mais contexto [isenção de responsabilidade: a FirstMark é uma investidora em HyperScience].

Será particularmente interessante observar esses espaços nos próximos anos, e é possível que o RPA e a automação inteligente se fundam, seja por meio de fusões e aquisições ou por meio do lançamento de novos produtos caseiros, a menos que o último progrida tão rapidamente que limita a necessidade Para o primeiro.

Uma consideração sobre “O cenário de dados e IA de 2019”

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s