Parte 2: Gerando gráficos de forecast utilizando R para previsão de medalhas nas Olimpíadas

Blog Dataficação

Na parte 1 do post, mostramos como capturar dados das medalhas conquistadas na história das Olimpíadas utilizando o Power Query. Agora, vamos criar análises a partir destes dados utilizando o R. Para quem não conhece, o R é uma ferramenta que permite criar visualizações gráficas utilizando técnicas estatísticas e é um dos softwares mais populares na área de data science.

A nossa ideia é tentar prever, utilizando os dados históricos do total de medalhas conquistadas por cada país e algoritmos estatísticos de forecast, quantas medalhas os países deverão conquistar nos próximos Jogos Olímpicos. Será realizada uma análise básica apenas para entendimento do que é necessário para utilizar as funções de forecast do R – não serão feitos ajustes de tendência, sazonalidade, testes de estacionariedade, etc, ou seja, não será feita uma validação estatística da série.

Leitura dos dados e criação de subsets

Inicialmente vamos indicar o nosso diretório de trabalho e ler o arquivo CSV que possui os dados…

Ver o post original 1.180 mais palavras

Anúncios
Categorias:Categorias

BIG Data – Landscape 2017

Categorias:Big Data Tags:, , ,

Data-driven precisa ser cultura e não um projeto.

CAPPRA DATA SCIENCE [C4PPR4]

Está na moda, todos querem ser data-driven.

Existem muitas ferramentas para geração de insights, análises de dados e monitoramento de performance. Já é possível comprar produtos analíticos prontos de mercado, criar algoritmos e usar inteligência artificial no dia-a-dia.
Isso não é mais uma novidade.
A novidade está em transformar isso em cultura, e deixar de ser um instrumento para uso eventual. 

São dois principais lados envolvidos nesse processo:
De um lado, times analíticos produzindo/comprando soluções de dados.
Do outro lado, times de negócio tentando usar isso no dia-a-dia.

No final do dia, o conflito.
De um lado, “fico aqui comprando/criando produtos incríveis e eles não usam”
Do outro lado, “eles criam esse monte de coisa mas não resolvem os problemas de negócio”

Vemos isso no mercado o tempo todo, é o tradicional cabo de guerra da ferramenta versus o problema de negócio, sempre foi assim, com…

Ver o post original 278 mais palavras

Categorias:Categorias

Dez tendências tecnológicas estratégicas para 2018, segundo o Gartner

Inteligência Artificial, Realidades Virtual e Aumentada, além de tecnologias relacionadas com Internet das Coisas são avanços para manter permanentemente no radar

Vejam a matéria completa clicando na imagem!

2018

Mude suas configurações… MENTE NOVA!

7 técnicas para redução da dimensionalidade

Data Mining / Machine Learning / Data Analysis

Na atual era do Big Data em que o custo de armazenamento praticamente foi levado ao nível de commodity, muitas corporações que se gabam que são ‘adeptas’ do Big Data acabam pagando/armazenando ruído ao invés de sinal.

Pelo motivo exposto acima, diante do prisma de Engenharia de Dados o problema de absorção/retenção dessas informações está resolvido.

No entanto, quando é necessário escalar negócios através de inteligência usando os dados (lembrando o que foi dito no passado: Dado > Informação > Conhecimento > Sabedoria) o que era uma característica inerente ao avanço tecnológico de engenharia de dados, torna-se um problema gigante dentro da ciência de dados.

Com esse aumento horizontal das bases de dados (dimensões / atributos) um problema grave é o aumento da dimensionalidade (Course of Dimensionality) em que temos não somente multicolinearidade, heteroscedasticidade e autocorreação para ficar em exemplos estatísticos simples.  Em termos computacionais nem é preciso dizer que o aumento de atributos faz com que os…

Ver o post original 865 mais palavras

Categorias:Categorias

McKinsey: Competindo em um Mundo Guiado por Dados

Fonte: O futuro das coisas

Conforme O futuro das coisas, o novo report da McKinsey Global Institute explora a fundo como a tecnologia digital está impactando a produtividade, o crescimento e a competitividade no nosso mundo. Também mostra quais as oportunidades que estão em jogo para as empresas.

The Age of Analytics: Competing In A Data-Driven World é um report (136 páginas PDF) baseado em mais de cinco anos de pesquisa em dados e analytics.

Nestes 5 anos, eles observaram como a adoção da ciência de dados acelerou especificamente as áreas de aprendizagem de máquina (machine learning) e de aprendizagem profunda (deep learning).

Dentre as análises, a McKinsey identificou 120 usos potenciais do aprendizado de máquina em 12 indústrias, além de ter realizado uma pesquisa com mais de 600 especialistas dessas indústrias para entender o que acham sobre o potencial impacto dessa tecnologia.

A descoberta mais surpreendente foi a extraordinária amplitude das potenciais aplicações da aprendizagem de máquina; Cada uma dessas aplicações foi identificada como sendo uma das três primeiras em uma determinada indústria por pelo menos um especialista dessa indústria.

Os pesquisadores da McKinsey então plotaram as 120 aplicações mais importantes no mapa abaixo. O eixo Y mostra o volume de dados disponíveis (abrangendo amplitude e freqüência), enquanto o eixo X mostra o potencial impacto dessa tecnologia, com base nas pesquisas feitas com os mais de 600 especialistas dessas indústrias.

Os usos específicos que combinam riqueza de dados com maiores oportunidades são as bolhas maiores no quadrante superior direito do gráfico. Estas representam áreas onde as empresas deveriam priorizar o uso da aprendizagem de máquina e se preparar para uma transformação que começa a acontecer.

Alguns dos usos de maior oportunidade são: publicidade personalizada; veículos autônomos; otimização de preços, rotas e programação com base em dados em tempo real em viagens e logística; previsão de resultados de saúde personalizada; e otimização de estratégias de merchandising no varejo.

Leia mais…

Categorias:BI, Big Data, Data Science
%d blogueiros gostam disto: