Carreira, Emprego, Objetivos

Dia do Trabalhador (Tempos Modernos)

Trabalho

Quem ainda não assistiu esse filme, clique na imagem e assista!

Anúncios
Data Science, Machine Learning, Recuperação da Informação

Validação Cruzada: Conceito e Exemplo em R

O que é validação cruzada (cross-validation)?

No Aprendizado de Máquina, a validação cruzada é um método de re-amostragem usado para avaliação de modelo para evitar o teste de um modelo no mesmo conjunto de dados no qual ele foi treinado. Este é um erro comum, especialmente que um conjunto de dados de teste separado nem sempre está disponível. No entanto, isso geralmente leva a medidas de desempenho imprecisas (já que o modelo terá uma pontuação quase perfeita, pois está sendo testado nos mesmos dados em que foi treinado). Para evitar esse tipo de erro, a validação cruzada é geralmente preferida.

O conceito de validação cruzada é realmente simples: em vez de usar todo o conjunto de dados para treinar e, em seguida, testar nos mesmos dados, poderíamos dividir aleatoriamente nossos dados em conjuntos de dados de treinamento e teste.

Continue lendo

Data Science, Machine Learning, Recuperação da Informação

Introdução ao Algoritmo K-Nearest Neighbour (código Python)

Dentre todos os algoritmos de aprendizado de máquina, KNN é o mais simples de aprender. Apesar da simplicidade, provou ser incrivelmente eficaz em certas tarefas (como veremos a seguir).

E mais, pode ser utilizado para problemas de classificação e regressão! É muito mais popularmente usado para problemas de classificação, no entanto, raramente vemos o KNN sendo implementado em qualquer tarefa de regressão.

Continue lendo

Categorias, Data Science, Machine Learning

Algoritmo SVM (Máquina de Vetores de Suporte) a partir de exemplos e código (Python e R)

Índice

  1. O que é a máquina de vetores de suporte?
  2. Como funciona?
  3. Como implementar o SVM em Python e R?
  4. Como ajustar os parâmetros do SVM?
  5. Prós e contras associados ao SVM

O que é a Máquina de Vetores de Suporte?

“Support Vector Machine” (SVM) é um algoritmo de aprendizado de máquina supervisionado que pode ser usado para desafios de classificação ou regressão. No entanto, é usado principalmente em problemas de classificação. Nesse algoritmo, plotamos cada item de dados como um ponto no espaço n-dimensional (onde n é o número de recursos que você tem), com o valor de cada recurso sendo o valor de uma determinada coordenada. Então, nós executamos a classificação encontrando o hiperplano que diferencia muito bem as duas classes (veja a imagem abaixo).

Continue lendo

Data Science, Machine Learning

Seu primeiro Projeto de Machine Learning em Python (Passo a Passo)

Aqui você irá montar seu primeiro projeto de Machine Learning (Aprendizado de máquina) usando a linguagem Python.

O que veremos:

  1. Baixar e instalar o Python SciPy e obter o pacote mais útil para aprendizado de máquina em Python.
  2. Carregar um conjunto de dados e entender sua estrutura usando resumos estatísticos e visualização de dados.
  3. Criar 6 modelos de aprendizado de máquina e escolher o melhor.

Se você é um iniciante em aprendizado de máquina e quer finalmente começar a usar o Python, este tutorial foi pensado em sua necessidade, vamos lá!

Continue lendo

Data Science, Machine Learning, Recuperação da Informação

Galeria com códigos interessantes em Jupyter Notebooks

Esta página é uma coleção com notebooks Jupyter / IPython que são úteis no seu dia a dia, são diversas áreas de atuação, confiram!

Breve alinhamento:
Para quem não conhece com maiores detalhes, o Jupyter notebook é um ambiente computacional web, interativo para criação de  documentos “Jupyter Notebooks”.

O documento é um documento JSON com um esquema e contém uma lista ordenada de células que podem conter código, texto, fórmulas matemáticas, plotagens e imagens. A extensão dos notebooks é “.ipynb”.

Continue lendo

Data Science, Machine Learning, Recuperação da Informação

Avaliação do Modelo de Classificação

O que é avaliação de modelo?

A avaliação do modelo é o processo de escolher entre modelos, diferentes tipos de modelo, parâmetros de ajuste e recursos. Melhores processos de avaliação levam a modelos melhores e mais precisos em seus aplicativos.

Aqui sera discutido a avaliação de modelos para modelos de classificação supervisionada. Cobriremos procedimentos de avaliação, métricas de avaliação e onde aplicá-los.

Pré-requisitos

  • Python 3.
  • Anaconda (Scikit Aprenda, Numpy, Pandas, Matplotlib, Seaborn)
  • Jupyter Notebook.
  • Compreensão básica de métodos supervisionados de aprendizado de máquina – especificamente classificação.

Continue lendo

Data Science, Estatística, Machine Learning

Conceitos estatísticos explicados em inglês simples

Série sobre tópicos específicos relacionados à Conceitos Estatísticos na Ciência de Dados: regressão, clustering, redes neurais, aprendizagem profunda (deep learning), árvores de decisão (decision tree), conjuntos, correlação, Python, R, Tensorflow, SVM (support vector machine), redução de dados, seleção de recursos, design experimental, validação cruzada (cross-validation), montagem de modelos e muito mais. 

Continue lendo

Data Science, Machine Learning, Recuperação da Informação

Uma introdução à Modelagem de Tópicos utilizando Análise Semântica Latente (em Python)

Introdução

Você já esteve em uma biblioteca bem cuidada? Fico impressionado com a maneira como os bibliotecários mantêm tudo organizado, por nome, conteúdo e outros tópicos. Mas se você deu a esses bibliotecários milhares de livros e pediu que eles organizassem cada livro com base em seu gênero, eles se esforçariam para realizar essa tarefa em um dia, quanto mais uma hora!

No entanto, isso não acontecerá com você se esses livros vierem em formato digital, certo? Todo o arranjo parece acontecer em questão de segundos, sem exigir nenhum esforço manual. Ai é onde entra o Processamento de Linguagem Natural (PNL).

Continue lendo

Dados, Data Science, Segurança da Informação, SQL Server

Microsoft libera nova preview do SQL Server 2019 denominada 2.4

Junior Galvão - MVP - Data Platform

Ontem a Microsoft através do seu time MSSQLTiger, disponibilizou a nova versão preview da próxima versão do Microsoft SQL Server 2019.

Este novo preview foi batizado de SQL Server 2019 2.4 (quinta versão), vale ressaltar que nos últimos meses a Microsoft vem trabalhando fortemente para liberação de novas versões preliminares.

Novidades

Um dos destaques desta nova versão preliminar faz referência a integração do SQL Server com o Apache Spark™ e o HDFS com o SQL Server, criando assim  uma nova plataforma de dados unificada, que possibilita um grande salto no produto relacionado com os novos padrões de dados e processamento em larga escala.

Segundo informações fornecidas pela Microsoft, o SQL Server 2019 oferece mais segurança, disponibilidade e desempenho para todas as cargas de dados, além de trazer novas ferramentas de conformidade (relacionadas a GDPR e LGPD), melhor desempenho em hardware moderno e alta disponibilidade em Windows, Linux e contêineres.

Ver o post original 277 mais palavras