Um, o que é a rotulagem de dados
Primeiro, vamos falar sobre o que é a rotulagem de dados. Existem muitos tipos de rotulagem de dados, como classificação, delimitação, anotações, marcação, etc., que discutiremos abaixo.
Para entender a rotulagem de dados, primeiro é preciso entender que a IA substitui parcialmente a função cognitiva humana. Pense em como aprendemos, por exemplo, ao aprender a reconhecer uma maçã, é necessário que alguém a segure na sua frente e diga que é uma maçã. Depois, quando você encontra uma maçã, você sabe que esse objeto se chama 'maçã'.
Assim como na aprendizagem de máquina, precisamos ensinar a máquina a reconhecer uma maçã. Se você simplesmente mostrar uma imagem de uma maçã, ela não saberá o que é. Precisamos primeiro ter uma imagem de uma maçã com a legenda 'maçã', e então a máquina, aprendendo as características de muitas imagens, poderá reconhecer qualquer imagem de maçã que receber.
Aqui podemos mencionar os conceitos de conjunto de treinamento e conjunto de teste. Conjuntos de treinamento e teste são dados rotulados; ainda usando a maçã como exemplo, suponha que temos 1000 imagens rotuladas como 'maçã', então podemos usar 900 para o conjunto de treinamento e 100 para o conjunto de teste. A máquina aprende a partir das 900 imagens de maçã e, em seguida, testamos o modelo com as 100 imagens que a máquina nunca viu, obtendo assim a precisão do modelo. Pense em como era na escola, os conteúdos das provas geralmente não são os mesmos que os dos deveres de casa, e só assim podemos testar a verdadeira eficácia do aprendizado. Assim, não é difícil entender por que é necessário definir um conjunto de teste.
Sabemos que a aprendizagem de máquina se divide em aprendizagem supervisionada e não supervisionada. A aprendizagem não supervisionada tem efeitos incontroláveis e é frequentemente usada para experimentos exploratórios. Na aplicação prática de produtos, geralmente se utiliza a aprendizagem supervisionada, que requer dados rotulados como experiência prévia.
Antes de realizar a rotulagem de dados, devemos primeiro limpar os dados para atender às nossas exigências. A limpeza de dados inclui a remoção de dados inválidos, organização em formatos adequados, etc. As exigências específicas dos dados podem ser confirmadas com os profissionais de algoritmos.
Dois, tipos comuns de rotulagem de dados
1. Rotulagem de classificação: a rotulagem de classificação é o que conhecemos como rotulagem. Geralmente, escolhemos um rótulo correspondente aos dados a partir de um conjunto de rótulos predefinidos. Como mostrado na imagem abaixo, uma imagem pode ter muitos rótulos: adulto, mulher, asiático, cabelo longo, etc. Para texto, podemos rotular sujeito, verbo, objeto, substantivo, verbo, etc.
Aplicável: texto, imagem, voz, vídeo
Aplicações: reconhecimento de idade facial, reconhecimento de emoções, reconhecimento de gênero
2. Rotulagem de contorno: a rotulagem de contorno na visão computacional é fácil de entender, que é selecionar o objeto a ser detectado. Por exemplo, no reconhecimento facial, primeiro devemos determinar a localização do rosto. No reconhecimento de pedestres, como na imagem abaixo.
Aplicável: imagem
Aplicações: reconhecimento facial, reconhecimento de objetos
3. Rotulagem de área: em comparação com a rotulagem de contorno, a rotulagem de área requer maior precisão. As bordas podem ser flexíveis, como no reconhecimento de estradas em direção autônoma.
Aplicável: imagem
Aplicações: direção autônoma
4. Rotulagem de pontos: algumas aplicações que requerem requisitos detalhados de características frequentemente necessitam de rotulagem de pontos, como reconhecimento facial e reconhecimento de esqueleto.
Aplicável: imagem
Aplicações: reconhecimento facial, reconhecimento de esqueleto
5. Outras rotulagens: além dos tipos comuns mencionados acima, existem muitas rotulagens personalizadas. Dependendo das diferentes necessidades, diferentes rotulagens são necessárias. Por exemplo, na sumarização automática, é necessário rotular os principais pontos de um artigo, e essa rotulagem, estritamente falando, não pertence a nenhuma das categorias acima. (Ou você pode classificá-la como classificação, mas rotular os principais pontos não tem um padrão tão objetivo; se for rotular maçãs, provavelmente a maioria das pessoas dará resultados semelhantes.)
Três, o processo de rotulagem de dados
1. Determinação dos padrões de rotulagem
Definir padrões é um passo crucial para garantir a qualidade dos dados, garantindo que haja um padrão de referência.
Defina exemplos de rotulagem e templates. Por exemplo, a cartela de cores padrão. Para dados ambíguos, defina um método de tratamento uniforme, como descartar ou rotular uniformemente.
Os padrões de referência às vezes também precisam considerar o setor. Por exemplo, na análise de sentimentos de texto, a palavra 'cicatriz' pode ser uma palavra negativa na psicologia, enquanto na área médica é uma palavra neutra.
2. Determinação da forma de rotulagem
A forma de rotulagem é geralmente definida por profissionais de algoritmos, por exemplo, para algumas rotulagens de texto, como reconhecimento de perguntas, basta rotular as frases com 0 ou 1. Se for uma pergunta, rotule como 1; se não for uma pergunta, rotule como 0.
3. Escolha da ferramenta de rotulagem
Após determinar a forma de rotulagem, a escolha da ferramenta de rotulagem é o próximo passo. Geralmente, isso também é fornecido por profissionais de algoritmos. Grandes empresas podem desenvolver internamente uma ferramenta de visualização específica para rotulagem de dados. Como:
Também existem ferramentas de rotulagem de dados de código aberto, como a ferramenta labelImg recomendada no Github.
Quarto, design do produto de rotulagem de dados
Com base na experiência de desenvolver uma ferramenta de rotulagem de dados, vamos discutir algumas dicas para o design de ferramentas de rotulagem de dados.
Uma ferramenta de rotulagem de dados geralmente inclui:
Barra de progresso: usada para indicar o progresso da rotulagem de dados. Os rotuladores geralmente têm uma carga de trabalho a cumprir, facilitando a visualização da progressão e a estatística. Entidade de rotulagem: isso pode ser projetado de acordo com a forma de rotulagem, em princípio, quanto mais simples e fácil de usar, melhor. Dependendo da atenção necessária para a rotulagem, pode-se dividir em rotulagem única e múltipla, podendo escolher conforme a necessidade. Função de importação e exportação de dados: se sua ferramenta de rotulagem se conecta diretamente ao modelo, pode não ser necessária. Função de favoritos: pode ser algo que quem nunca teve contato com rotulagem de dados não pensaria. Uma situação comum que os rotuladores enfrentam é a fadiga ou encontrar dados ambíguos, então podem marcar como favorito e rotular depois. Mecanismo de controle de qualidade: ao distribuir dados, pode-se distribuir aleatoriamente alguns dados já rotulados para verificar a confiabilidade dos rotuladores.