Classificação desequilibrada (Imbalanced Classification)

Matéria original e todos direitos reservados ao autor: Standard Machine Learning Datasets for Imbalanced Classification escrito por Jason Brownlee

Segundo Jason Brownlee, um problema de classificação desequilibrada (Imbalanced Classification) é um problema que envolve a previsão de um rótulo de classe em que a distribuição de rótulos de classe no conjunto de dados de treinamento é distorcida.

Muitos problemas de classificação do mundo real têm uma distribuição de classes desequilibrada; portanto, é importante que os profissionais de aprendizado de máquina se familiarizem com o trabalho com esses tipos de problemas.

Todos os códigos fonte podem ser encontrados nesse link do GitHub…
Façam os devidos testes…

Visão geral

Este tutorial está dividido em três partes; eles são:

  1. Conjuntos de dados de classificação binária (Binary Classification Datasets)
  2. Conjuntos de dados de classificação multiclasse (Multiclass Classification Datasets)
  3. Competição e outros conjuntos de dados (Competition and Other Datasets)

Conjuntos de dados de classificação binária

Problemas de modelagem preditiva de classificação binária são aqueles com duas classes.

Normalmente, problemas de classificação binária desequilibrados descrevem um estado normal (classe 0) e um estado anormal (classe 1), como fraude, diagnóstico ou falha.

Esses são conjuntos de dados pequenos o suficiente para caber na memória e foram bem estudados, fornecendo a base da investigação em muitos trabalhos de pesquisa.

Os nomes desses conjuntos de dados são os seguintes:

Conjuntos de dados de classificação multiclasse

Problemas de modelagem preditiva de classificação multiclasse são aqueles com mais de duas classes.

Normalmente, problemas desequilibrados de classificação multiclasse descrevem vários eventos diferentes, alguns significativamente mais comuns que outros.

Esses são conjuntos de dados pequenos o suficiente para caber na memória e foram bem estudados, fornecendo a base da investigação em muitos trabalhos de pesquisa.

Os nomes desses conjuntos de dados são os seguintes:

Nota : é comum em trabalhos de pesquisa transformar problemas desequilibrados de classificação multiclasse em problemas desequilibrados de classificação binária, agrupando todas as classes majoritárias em uma classe e deixando a menor classe minoritária.

Competição e outros conjuntos de dados

Esta seção lista conjuntos de dados adicionais usados ​​em trabalhos de pesquisa que são menos usados, maiores ou conjuntos de dados usados ​​como base de competições de aprendizado de máquina.

Os nomes desses conjuntos de dados são os seguintes:

Leitura adicional

Esta seção fornece mais recursos sobre o tópico, se você estiver pensando em ir mais fundo.

Papéis

Artigos

Vejam também

Class-Imbalance

Uma consideração sobre “Classificação desequilibrada (Imbalanced Classification)”

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s