Big Data, Business Intelligence (BI), Data Science, Machine Learning

Definindo a ciência de dados: o quê, onde e como a ciência de dados

Ciência de dados – um termo universalmente reconhecível que precisa desesperadamente de divulgação.

Ciência de dados é um termo que foge a qualquer definição completa única, o que dificulta o uso, principalmente se o objetivo é usá-lo corretamente. A maioria dos artigos e publicações usa o termo livremente, com a suposição de que ele é universalmente entendido. No entanto, a ciência de dados – seus métodos, objetivos e aplicativos – evolui com o tempo e a tecnologia. A ciência de dados há 25 anos se referia à coleta e limpeza de conjuntos de dados e à aplicação de métodos estatísticos a esses dados. Em 2018, a ciência de dados cresceu para um campo que abrange análise de dados, análise preditiva, mineração de dados, inteligência de negócios, aprendizado de máquina e muito mais.

De fato, como nenhuma definição se encaixa perfeitamente no projeto, cabe a quem faz ciência de dados defini-lo.

Reconhecendo a necessidade de uma explicação clara da ciência de dados, a Equipe de Ciência de Dados 365 projetou o infográfico What-Where-Who . Definimos os principais processos em ciência de dados e divulgamos o campo. Aqui está a nossa interpretação da ciência de dados.

infográfico de ciência de dados

Claro, isso pode parecer muita informação avassaladora, mas na verdade não é. Neste artigo, separaremos a ciência de dados e a construiremos de volta para um conceito coerente e gerenciável. Conto conosco!

A ciência de dados , ‘explicada em menos de um minuto’, fica assim.

Você tem dados. Para usar esses dados para informar sua tomada de decisão, eles precisam ser relevantes, bem organizados e, de preferência, digitais. Depois que seus dados são coerentes, você continua analisando-os, criando painéis e relatórios para entender melhor o desempenho de seus negócios. Em seguida, você define suas visões para o futuro e começa a gerar análises preditivas. Com a análise preditiva, você avalia possíveis cenários futuros e o comportamento do consumidor de maneiras criativas.

Nota do autor: Você pode aprender mais sobre como a ciência de dados e os negócios interagem em nosso artigo 5 Fundamentos de negócios para cientistas de dados . 

Mas vamos começar do começo.

Os dados na ciência de dados

Antes de mais nada, sempre há dados. Dados são a base da ciência de dados; é o material no qual todas as análises são baseadas. No contexto da ciência de dados, existem dois tipos de dados: tradicional e big data.

Dados tradicionais são dados estruturados e armazenados em bancos de dados que os analistas podem gerenciar de um computador; está no formato de tabela, contendo valores numéricos ou de texto. Na verdade, o termo “tradicional” é algo que estamos introduzindo para maior clareza. Isso ajuda a enfatizar a distinção entre big data e outros tipos de dados.

Big data, por outro lado, é … maior que os dados tradicionais, e não no sentido trivial. Desde a variedade (números, texto, mas também imagens, áudio, dados móveis, etc.), à velocidade (recuperada e computada em tempo real) e ao volume (medido em tera, peta-, exa-bytes), o big data é geralmente distribuídos por uma rede de computadores.

Dito isto, vamos definir o quê-onde-e-quem na ciência de dados cada um é caracterizado.

O que você faz com os dados na ciência de dados?

Dados tradicionais em ciência de dados

Os dados tradicionais são armazenados em sistemas de gerenciamento de banco de dados relacional .

o que

Dito isto, antes de estar pronto para o processamento, todos os dados passam pelo pré-processamento. Esse é um grupo de operações necessário que converte dados brutos em um formato mais compreensível e, portanto, útil para processamento adicional. Os processos comuns são:

  • Colete dados brutos e armazene-os em um servidor
    • São dados intocados que os cientistas não podem analisar imediatamente. Esses dados podem vir de pesquisas ou do paradigma de coleta automática de dados mais popular, como cookies em um site.
  • Classifique as observações com classe
    • Isso consiste em organizar os dados por categoria ou rotular pontos de dados para o tipo de dados correto. Por exemplo, numérico ou categórico.
  • Limpeza de dados / limpeza de dados
    • Lidar com dados inconsistentes, como categorias com erros ortográficos e valores ausentes.
  • Balanceamento de dados
    • Se os dados forem desequilibrados, de modo que as categorias contenham um número desigual de observações e, portanto, não sejam representativos, a aplicação de métodos de balanceamento de dados , como extrair um número igual de observações para cada categoria e preparar isso para processamento, corrige o problema.
  • Baralhamento de dados
    • Reorganizando os pontos de dados para eliminar padrões indesejados e melhorar ainda mais o desempenho preditivo. Isso é aplicado quando, por exemplo, se as primeiras 100 observações nos dados são das primeiras 100 pessoas que usaram um site; os dados não são randomizados e surgem padrões devido à amostragem.

Big Data em Ciência de Dados

Quando se trata de big data e ciência de dados, há alguma sobreposição das abordagens usadas no tratamento tradicional de dados, mas também há muitas diferenças.

Antes de tudo, o big data é armazenado em muitos servidores e é infinitamente mais complexo.

Que big data

Para fazer ciência de dados com big data, o pré-processamento é ainda mais crucial, pois a complexidade dos dados é muito maior. Você notará que, conceitualmente, algumas das etapas são semelhantes ao pré-processamento tradicional de dados, mas isso é inerente ao trabalho com dados .

  • Colete os dados
  • Classifique os dados com classe
    • Lembre-se de que o big data é extremamente variado; portanto, em vez de ‘numérico‘ vs ‘categórico‘, os rótulos são ‘texto’, ‘dados de imagem digital’, ‘dados de vídeo digital’, dados de áudio digital ‘e assim por diante.
  • Limpeza de dados
    • Os métodos aqui também são massivamente variados; por exemplo, você pode verificar se uma observação de imagem digital está pronta para processamento; ou um vídeo digital, ou…
  • Mascaramento de dados
    • Ao coletar dados em grande escala, isso visa garantir que qualquer informação confidencial nos dados permaneça privada, sem dificultar a análise e extração de informações. O processo envolve ocultar os dados originais com dados aleatórios e falsos, permitindo que o cientista conduza suas análises sem comprometer detalhes particulares. Naturalmente, o cientista pode fazer isso com os dados tradicionais também, e às vezes é, mas com o big data as informações podem ser muito mais sensíveis, o que oculta muito mais urgência.

De onde vêm os dados?

Os dados tradicionais podem vir de registros básicos de clientes ou informações históricas sobre preços de ações.

Big data, no entanto, está ao nosso redor. Um número crescente de empresas e setores utiliza e gera big data. Considere comunidades online, por exemplo, Facebook, Google e LinkedIn; ou dados de negociação financeira. As grades de medição de temperatura em várias localizações geográficas também representam grandes dados, bem como dados de máquinas de sensores em equipamentos industriais. E, claro, tecnologia vestível.

Quem lida com os dados?

Os especialistas em dados que lidam com dados brutos e pré-processamento, com a criação de bancos de dados e a manutenção deles podem ter um nome diferente. Mas, embora seus títulos tenham um som semelhante, existem diferenças palpáveis ​​nos papéis que ocupam. Considere o seguinte.

Arquitetos de dados e engenheiros de dados (e Big Data Architects e Big Data Engineers, respectivamente) são cruciais no mercado de ciência de dados. O primeiro cria o banco de dados do zero; eles projetam a maneira como os dados serão recuperados, processados ​​e consumidos. Conseqüentemente, o engenheiro de dados usa o trabalho dos arquitetos de dados como um trampolim e processa (pré-processa) os dados disponíveis. Eles são as pessoas que garantem que os dados estejam limpos, organizados e prontos para os analistas assumirem o controle.

O administrador do banco de dados, por outro lado, é a pessoa que controla o fluxo de dados para e a partir do banco de dados. Obviamente, com o Big Data, quase todo esse processo é automatizado, portanto, não há necessidade real de um administrador humano. O administrador do banco de dados lida principalmente com dados tradicionais.

Dito isto, uma vez concluído o processamento de dados e os bancos de dados estão limpos e organizados, a verdadeira ciência dos dados começa.

Ciência de Dados

Há também duas maneiras de analisar os dados: com a intenção de explicar o comportamento que já ocorreu, e você coletou dados para ele; ou usar os dados que você já possui para prever um comportamento futuro que ainda não aconteceu.

infográfico de ciência de dados

Data Science explicando o passado

Business Intelligence

Antes que a ciência de dados pule para a análise preditiva, ela deve examinar os padrões de comportamento fornecidos pelo passado, analisá-los para obter insights e informar o caminho da previsão. A inteligência comercial concentra-se exatamente nisso: fornecendo respostas baseadas em dados para perguntas como: quantas unidades foram vendidas? Em que região foram vendidos mais produtos? Que tipo de mercadoria é vendida onde? Como foi o desempenho do marketing por email no último trimestre em termos de taxas de cliques e receita gerada? Como isso se compara ao desempenho no mesmo trimestre do ano passado?

Embora o Business Intelligence não tenha “ciência de dados” em seu título, ele faz parte da ciência de dados e não em nenhum sentido trivial.

O que o Business Intelligence faz?

Obviamente, os analistas de inteligência de negócios podem aplicar a ciência de dados para medir o desempenho dos negócios. Mas, para que o analista de inteligência de negócios consiga isso, eles devem empregar técnicas específicas de manipulação de dados.

O ponto de partida de toda ciência de dados são dados. Quando os dados relevantes estiverem nas mãos do analista de BI (receita mensal, cliente, volume de vendas etc.), eles devem quantificar as observações, calcular KPIs e examinar medidas para extrair insights de seus dados.

Data Science é contar uma história

Além de lidar com informações estritamente numéricas, a ciência de dados e, especificamente, a inteligência de negócios, trata-se de visualizar as descobertas e criar imagens facilmente digeríveis suportadas apenas pelos números mais relevantes. Afinal, todos os níveis de gerenciamento devem ser capazes de entender as idéias dos dados e informar sua tomada de decisão.

BI what

Os analistas de inteligência de negócios criam painéis e relatórios, acompanhados de gráficos, diagramas, mapas e outras visualizações comparáveis ​​para apresentar as descobertas relevantes para os objetivos de negócios atuais.

Para saber mais sobre a visualização de dados, consulte este artigo sobre os tipos de gráficos ou consulte nossos tutoriais Como visualizar dados numéricos com histogramas e visualizar dados com gráficos de barras, torta e Pareto .

Onde a inteligência comercial é usada?

Otimização de preços e ciência de dados

Notavelmente, os analistas aplicam a ciência de dados para informar coisas como técnicas de otimização de preços. Eles extraem as informações relevantes em tempo real, as comparam com as históricas e agem de acordo. Considere o comportamento do gerenciamento de hotéis: o gerenciamento aumenta os preços dos quartos durante períodos em que muitas pessoas desejam visitar o hotel e reduzi-los quando o objetivo é atrair visitantes em períodos com baixa demanda.

Gerenciamento de inventário e ciência de dados

A ciência de dados e a inteligência de negócios são inestimáveis ​​para lidar com o suprimento e o suprimento insuficientes. Análises detalhadas de transações de vendas passadas identificam padrões de sazonalidade e as épocas do ano com as vendas mais altas, o que resulta na implementação de técnicas eficazes de gerenciamento de estoque que atendem às demandas a um custo mínimo.

Quem é o ramo de BI da ciência de dados?

Um analista de BI concentra-se principalmente em análises e relatórios de dados históricos passados.

O consultor de BI geralmente é apenas um ‘analista externo de BI’. Muitas empresas terceirizam seus departamentos de ciência de dados, pois não precisam ou desejam manter um. Os consultores de BI seriam analistas de BI, caso tivessem sido empregados, no entanto, seu trabalho é mais variado, pois eles partem de projetos diferentes. A natureza dinâmica de sua função fornece ao consultor de BI uma perspectiva diferente e, enquanto o analista de BI possui conhecimento altamente especializado (ou seja, profundidade), o consultor de BI contribui para a amplitude da ciência de dados.

O desenvolvedor de BI é a pessoa que lida com ferramentas de programação mais avançadas, como Python e SQL , para criar análises projetadas especificamente para a empresa. É o terceiro cargo mais frequentemente encontrado na equipe de BI.

Data Science prevendo o futuro

A análise preditiva em ciência de dados repousa sobre os ombros da análise de dados explicativa, que é precisamente o que estávamos discutindo até o momento. Depois que os relatórios e painéis de BI são preparados e as informações extraídas deles, essas informações se tornam a base para a previsão de valores futuros. E a precisão dessas previsões está nos métodos usados.

Lembre-se da distinção entre dados tradicionais e big data na ciência de dados.

Podemos fazer uma distinção semelhante em relação à análise preditiva e seus métodos: métodos tradicionais de ciência de dados versus aprendizado de máquina . Um lida principalmente com dados tradicionais e o outro – com big data.

Métodos tradicionais de previsão em ciência de dados: o que são?

Os métodos tradicionais de previsão compreendem os métodos estatísticos clássicos para previsão – análise de regressão linear , análise de regressão logística, agrupamento, análise fatorial e séries temporais. A saída de cada um deles alimenta as análises de aprendizado de máquina mais sofisticadas, mas primeiro vamos analisá-las individualmente.

Uma rápida nota lateral. Alguns na indústria de ciência de dados também se referem a vários desses métodos como aprendizado de máquina, mas neste artigo o aprendizado de máquina refere-se a métodos melhores, mais inteligentes e melhores, como o aprendizado profundo.

métodos tradicionais que

Regressão linear

Na ciência de dados, o modelo de regressão linear é usado para quantificar relações causais entre as diferentes variáveis ​​incluídas na análise. Como a relação entre os preços das casas, o tamanho da casa, o bairro e o ano de construção. O modelo calcula coeficientes com os quais você pode prever o preço de uma nova casa, se você tiver as informações relevantes disponíveis.

Se você estiver curioso sobre a representação geométrica do modelo de regressão linear simples, consulte o tutorial vinculado .

Regressão logística

Como não é possível expressar todos os relacionamentos entre variáveis ​​como lineares, a ciência de dados utiliza métodos como a regressão logística para criar modelos não lineares. A regressão logística opera com 0s e 1s. As empresas aplicam algoritmos de regressão logística para filtrar candidatos a emprego durante seu processo de triagem. Se o algoritmo estima que a probabilidade de um candidato em potencial ter um bom desempenho na empresa em um ano é superior a 50%, ele preveria 1 ou uma aplicação bem-sucedida. Caso contrário, ele irá prever 0.

Análise de cluster

Essa técnica exploratória de ciência de dados é aplicada quando as observações no formulário de dados agrupam de acordo com alguns critérios. A análise de cluster leva em consideração que algumas observações exibem semelhanças e facilitam a descoberta de novos preditores significativos, que não faziam parte da conceitualização original dos dados.

Análise fatorial

Se o agrupamento é sobre o agrupamento de observações , a análise fatorial é sobre o agrupamento de recursos . A ciência de dados recorre ao uso da análise fatorial para reduzir a dimensionalidade de um problema. Por exemplo, se em um questionário de 100 itens, cada 10 perguntas pertencer a uma única atitude geral, a análise fatorial identificará esses 10 fatores, que poderão ser usados ​​para uma regressão que fornecerá uma previsão mais interpretável. Muitas das técnicas em ciência de dados são integradas assim.

Análise de séries temporais

As séries temporais são um método popular para acompanhar o desenvolvimento de valores específicos ao longo do tempo. Especialistas em economia e finanças a utilizam porque o assunto é o preço das ações e o volume de vendas – variáveis ​​que são tipicamente plotadas no tempo.

Onde a ciência de dados encontra aplicação para os métodos tradicionais de previsão?

A aplicação das técnicas correspondentes é extremamente ampla; a ciência de dados está encontrando um caminho para um número cada vez maior de indústrias. Dito isto, dois campos de destaque merecem fazer parte da discussão.

Experiência do usuário (UX) e ciência de dados

Quando as empresas lançam um novo produto, geralmente projetam pesquisas que medem as atitudes dos clientes em relação a esse produto. Analisando os resultados após a equipa de BI gerou seus painéis inclui o agrupamento das observações em segmentos (por exemplo, regiões), e, em seguida, analisar cada segmento separadamente para extrair coeficientes de predição significativas. Os resultados dessas operações geralmente corroboram a conclusão de que o produto precisa de ajustes leves, mas significativamente diferentes, em cada segmento, a fim de maximizar a satisfação do cliente.

Previsão de volume de vendas

Esse é o tipo de análise em que as séries temporais entram em jogo. Os dados de vendas foram coletados até uma certa data e o cientista de dados deseja saber o que provavelmente acontecerá no próximo período de vendas ou um ano antes. Eles aplicam modelos matemáticos e estatísticos e executam várias simulações; essas simulações fornecem ao analista cenários futuros. Este é o cerne da ciência de dados, porque, com base nesses cenários, a empresa pode fazer melhores previsões e implementar estratégias adequadas.

Quem usa os métodos tradicionais de previsão?

cientista de dados . Mas lembre-se de que esse título também se aplica à pessoa que emprega técnicas de aprendizado de máquina para análise também. Muito do trabalho se espalha de uma metodologia para outra.

O analista de dados, por outro lado, é a pessoa que prepara tipos avançados de análises que explicam os padrões nos dados que já surgiram e ignoram a parte básica da análise preditiva. Obviamente, se você deseja saber mais detalhes sobre o que um cientista de dados faz e como o trabalho deles se compara a outras carreiras no campo da ciência de dados, leia nosso guia definitivo sobre como iniciar uma carreira em ciência de dados .

Aprendizado de máquina e ciência de dados

O aprendizado de máquina é a abordagem mais avançada da ciência de dados. E com razão.

A principal vantagem do aprendizado de máquina sobre qualquer das técnicas tradicionais de ciência de dados é o fato de que, em sua essência, reside o algoritmo . Essas são as instruções que um computador usa para encontrar um modelo que se encaixe nos dados da melhor maneira possível. A diferença entre o aprendizado de máquina e os métodos tradicionais de ciência de dados é que não fornecemos instruções ao computador sobre como encontrar o modelo; ele pega o algoritmo e usa suas instruções para aprender por si próprio como encontrar o referido modelo. Diferentemente da ciência de dados tradicional, o aprendizado de máquina precisa de pouco envolvimento humano. De fato, o aprendizado de máquina, especialmente os algoritmos de aprendizado profundo, são tão complicados que os humanos não conseguem entender realmente o que está acontecendo “por dentro”.

O que é aprendizado de máquina em ciência de dados?

Um algoritmo de aprendizado de máquina é como um processo de tentativa e erro, mas o mais especial é que cada teste consecutivo é pelo menos tão bom quanto o anterior. Mas lembre-se de que, para aprender bem, a máquina precisa passar por centenas de milhares de tentativas e erros, com a frequência de erros diminuindo ao longo.

saída valor correto objetivo valor divertido

Depois que o treinamento estiver concluído, a máquina poderá aplicar o modelo computacional complexo que aprendeu para fornecer novos dados ainda ao resultado de previsões altamente confiáveis.

Existem três tipos principais de aprendizado de máquina: aprendizado supervisionado, não supervisionado e por reforço.

aprendizado de máquina o que

Aprendizado supervisionado

O aprendizado supervisionado baseia-se no uso de dados rotulados. A máquina obtém dados associados a uma resposta correta; se o desempenho da máquina não obtiver a resposta correta, um algoritmo de otimização ajustará o processo computacional e o computador fará outra avaliação. Lembre-se de que, normalmente, a máquina faz isso em 1000 pontos de dados ao mesmo tempo.

Máquinas de vetores de suporte, redes neurais, aprendizado profundo, modelos florestais aleatórios e redes bayesianas são exemplos de aprendizado supervisionado.

Aprendizagem não supervisionada

Quando os dados são grandes demais ou o cientista de dados está sob pressão demais para que os recursos os rotulem, ou eles não sabem o que os rótulos são, a ciência de dados recorre ao uso de aprendizado não supervisionado. Isso consiste em fornecer à máquina dados não rotulados e solicitar a extração de informações. Isso geralmente resulta na divisão dos dados de uma certa maneira, de acordo com suas propriedades. Em outras palavras, está agrupado.

O aprendizado não supervisionado é extremamente eficaz para descobrir padrões nos dados, especialmente coisas que os humanos que usam as técnicas tradicionais de análise perderiam.

A ciência de dados geralmente usa o aprendizado supervisionado e não supervisionado juntos, com o aprendizado não supervisionado rotulando os dados e o aprendizado supervisionado, encontrando o melhor modelo para ajustar os dados. Um exemplo disso é o aprendizado semi-supervisionado.

Aprendizagem por reforço

Este é um tipo de aprendizado de máquina em que o foco está no desempenho (caminhar, ver, ler), em vez de precisão. Sempre que a máquina tem um desempenho melhor do que antes, recebe uma recompensa, mas se tiver um desempenho abaixo do ideal, os algoritmos de otimização não ajustam a computação. Pense em um filhote de cachorro aprendendo comandos. Se segue o comando, recebe um tratamento; se não seguir o comando, o tratamento não ocorrerá. Como as guloseimas são saborosas, o cão melhorará gradualmente nos seguintes comandos. Dito isto, em vez de minimizar um erro, o aprendizado por reforço maximiza uma recompensa.

Onde o Machine Learning é aplicado no mundo da ciência e negócios de dados?

Detecção de fraude

Com o aprendizado de máquina, especificamente o aprendizado supervisionado, os bancos podem coletar dados passados, rotular as transações como legítimas ou fraudulentas e treinar modelos para detectar atividades fraudulentas. Quando esses modelos detectam a menor probabilidade de roubo, sinalizam as transações e evitam a fraude em tempo real.

Retenção de clientes

Com os algoritmos de aprendizado de máquina, as organizações corporativas podem saber quais clientes podem comprar mercadorias deles. Isso significa que a loja pode oferecer descontos e um “toque pessoal” de maneira eficiente, minimizando os custos de marketing e maximizando os lucros. Alguns nomes de destaque vêm à mente: Google e Amazon.

Quem usa o aprendizado de máquina na ciência de dados?

Como mencionado acima, o cientista de dados está profundamente envolvido no projeto de algoritmos de máquina, mas há outra estrela nesse estágio.

O engenheiro de aprendizado de máquina. Esse é o especialista que está procurando maneiras de aplicar modelos computacionais de ponta desenvolvidos no campo de aprendizado de máquina para resolver problemas complexos, como tarefas de negócios, tarefas de ciência de dados, visão computacional, carros autônomos, robótica, e assim por diante.

Linguagens de programação e software em ciência de dados

Duas categorias principais de ferramentas são necessárias para trabalhar com dados e ciência de dados: linguagens de programação e software.

infográfico de ciência de dados

Linguagens de programação em ciência de dados

O conhecimento de uma linguagem de programação permite ao cientista de dados criar programas que possam executar operações específicas. A maior vantagem das linguagens de programação é que podemos reutilizar os programas criados para executar a mesma ação várias vezes.

R, Python e MATLAB, combinados com SQL, cobrem a maioria das ferramentas usadas ao trabalhar com dados tradicionais, BI e ciência de dados convencional.

R e Python são as duas ferramentas mais populares em todas as sub-disciplinas de ciência de dados. Sua maior vantagem é que eles podem manipular dados e são integrados a várias plataformas de software de ciência de dados e dados. Eles não são adequados apenas para cálculos matemáticos e estatísticos; eles são adaptáveis.

De fato, o Python foi considerado “o grande Kahuna” de 2019 pelo IEEE (a maior organização profissional técnica do mundo para o avanço da tecnologia) e foi listado no número 1 em seu ranking interativo anual dos 10 principais idiomas de programação. Dito isso, se você quiser aprender tudo sobre a linguagem de programação mais procurada, consulte nosso Guia de Programação em Python .

O SQL é o rei, no entanto, quando se trata de trabalhar com sistemas de gerenciamento de banco de dados relacional, porque foi criado especificamente para esse fim. O SQL é mais vantajoso ao trabalhar com dados históricos tradicionais, por exemplo, ao preparar uma análise de BI.

O MATLAB é a quarta ferramenta mais indispensável para a ciência de dados. É ideal para trabalhar com funções matemáticas ou manipulações de matriz.

O big data na ciência de dados é tratado com a ajuda de R e Python, é claro, mas as pessoas que trabalham nessa área geralmente são proficientes em outras linguagens como Java ou Scala. Esses dois são muito úteis ao combinar dados de várias fontes.

JavaScript, C e C ++, além dos mencionados acima, são freqüentemente empregados quando o ramo da ciência de dados em que o especialista está trabalhando envolve aprendizado de máquina. Eles são mais rápidos que R e Python e oferecem maior liberdade.

Nota do autor: Se você precisa aprimorar suas habilidades de programação, pode visitar nossos tutoriais em Python e SQL .

Software em ciência de dados

Na ciência de dados, o software ou as soluções de software são ferramentas ajustadas às necessidades específicas dos negócios.

O Excel é uma ferramenta aplicável a mais de uma categoria – dados tradicionais, BI e Data Science. Da mesma forma, o SPSS é uma ferramenta muito famosa para trabalhar com dados tradicionais e aplicar a análise estatística.

Apache Hadoop, Apache Hbase e Mongo DB, por outro lado, são softwares projetados para trabalhar com big data.

O Power BI, SaS, Qlik e especialmente o Tableau são exemplos de alto nível de software criados para visualizações de inteligência de negócios.

Em termos de análise preditiva, o EViews é usado principalmente para trabalhar com modelos de séries temporais econométricas e o Stata – para pesquisa estatística e econométrica acadêmica, onde técnicas como regressão, cluster e análise fatorial são constantemente aplicadas.

Isto é ciência de dados

Ciência de dados é um termo escorregadio que abrange tudo, desde o tratamento de dados – tradicionais ou grandes – para explicar padrões e prever comportamentos. A ciência de dados é feita através de métodos tradicionais, como regressão e análise de cluster, ou através de técnicas não-ortodoxas de aprendizado de máquina.

É um campo vasto, e esperamos que você esteja um passo mais perto de entender como é abrangente e se entrelaça com a vida humana.

 

Diretos reservados ao Autor – Tradução de: Defining Data Science: The What, Where and How of Data Science


Vejam também:

45 Técnicas utilizadas pelos cientistas de dados

10 métodos de aprendizado de máquina que todo cientista de dados deve conhecer

Data Science

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s