Imagine que você trabalha em uma empresa que quer monitorar a opinião pública sobre seus produtos nas redes sociais. Se você recebe milhares de opiniões diárias nesses canais, analisar manualmente cada comentário é impraticável. Devido ao grande volume de dados, você então decide usar aprendizagem semi-supervisionada para automatizar essa tarefa.
Na aprendizagem semi-supervisionada, o modelo é treinado com uma pequena quantidade de dados rotulados e uma grande quantidade de dados não rotulados. Isso é útil quando rotular manualmente todos os dados seria muito trabalhoso ou caro, mas ainda assim queremos aproveitar a grande quantidade de dados disponíveis.1
Treinamento: Primeiro, você rotula manualmente uma pequena amostra de comentários como "positivos", "negativos" ou "neutros". Esses dados rotulados são usados para treinar o modelo inicialmente.
Aprendizagem com dados não rotulados: Depois, o modelo é exposto a uma grande quantidade de comentários não rotulados. Usando os padrões aprendidos na fase inicial, ele tenta classificar esses novos comentários. Além disso, o modelo pode ajustar suas previsões ao encontrar novos padrões nos dados não rotulados.
Refinamento: Com o tempo, você pode verificar algumas das previsões do modelo e adicionar mais rótulos, ajudando o modelo a melhorar ainda mais sua precisão.
Diagnósticos médicos: Em hospitais, a quantidade de imagens médicas, como radiografias e ressonâncias magnéticas, é enorme. Rotular cada imagem manualmente para identificar condições médicas como fraturas ou tumores é um trabalho demorado e caro. Com aprendizagem semi-supervisionada, um modelo pode ser inicialmente treinado com um pequeno conjunto de imagens rotuladas por especialistas. Depois, ele pode analisar e aprender com um grande conjunto de imagens não rotuladas, melhorando sua capacidade de detectar anomalias e ajudando os médicos a fazer diagnósticos mais rápidos e precisos.
Classificação de textos: Em escritórios de advocacia, a análise de grandes volumes de documentos jurídicos é uma tarefa comum. Rotular manualmente cada documento para identificar o tipo de caso ou os principais temas abordados é trabalhoso. Um modelo de aprendizagem semi-supervisionada pode ser treinado com um pequeno conjunto de documentos rotulados e, em seguida, usar uma grande quantidade de documentos não rotulados para refinar sua capacidade de classificação. Isso ajuda os advogados a organizar e encontrar rapidamente os documentos relevantes para cada caso.
Identificação de produtos por busca reversa de fotos: Plataformas de e-commerce frequentemente recebem fotos de produtos carregadas pelos usuários. Identificar e classificar esses produtos manualmente é impraticável. Um programa moldado com aprendizagem semi-supervisionada pode ser treinado com um pequeno conjunto de fotos de produtos rotuladas e, em seguida, usar uma grande quantidade de fotos não rotuladas para melhorar sua precisão. Assim, o sistema pode automaticamente categorizar novos produtos, melhorando a experiência de busca e navegação dos usuários.
Monitoramento de culturas: Na agricultura, drones são geralmente usados para capturar imagens aéreas das plantações. Analisar manualmente essas imagens para detectar pragas, doenças ou deficiências nutricionais é inviável devido ao tempo e custo que tomaria. O modelo de aprendizagem semi-supervisionada pode ser treinado com um pequeno conjunto de imagens rotuladas e depois usar um grande conjunto de imagens não rotuladas para aprender a identificar problemas nas plantações. Isso permite aos agricultores monitorar suas culturas de forma mais eficiente e tomar medidas preventivas rapidamente.
Prevenção em segurança da informática: Empresas de TI precisam monitorar suas redes para detectar atividades incomuns que possam indicar tentativas de invasão ou mau funcionamento. Rotular manualmente grandes volumes de dados de rede é impraticável, especialmente com a velocidade em que as mudanças ocorrem nessa área. Um modelo de aprendizagem semi-supervisionada pode ser treinado com um pequeno conjunto de exemplos de anomalias rotuladas. Em seguida, ele pode analisar grandes volumes de dados não rotulados para identificar novos padrões de anomalias, ajudando a proteger a rede contra possíveis ameaças.
Imagine que você usa um serviço de e-mail que precisa filtrar mensagens de spam. Esse serviço de e-mail é um exemplo de aprendizagem semi-supervisionada em ação. Nesse caso, o serviço funcionaria da seguinte forma:
Treinamento com dados rotulados: Os desenvolvedores treinam o filtro de spam com um conjunto inicial de e-mails rotulados manualmente como "spam" ou "não spam". Esses exemplos incluem mensagens que foram previamente identificadas como indesejadas ou legítimas.
Aprendizagem com dados não rotulados: Depois de aprender com os dados rotulados, o modelo é exposto a um grande volume de novos e-mails não rotulados. Ele usa os padrões aprendidos na fase inicial para tentar classificar esses novos e-mails. Ao encontrar novas características nos e-mails não rotulados, o modelo ajusta suas previsões.
Refinamento contínuo: Os usuários do serviço de e-mail podem marcar manualmente e-mails que passaram pelo filtro como spam ou não spam. Esses novos rótulos são usados para melhorar continuamente a precisão do modelo, tornando-o mais eficaz na identificação de spam ao longo do tempo.
Vamos supor que você recebe um e-mail suspeito oferecendo um prêmio em dinheiro. O filtro de spam reconhece palavras e padrões comuns em mensagens de spam devido ao treinamento inicial e classifica o e-mail como spam, movendo-o para a pasta de spam automaticamente. No entanto, se um e-mail legítimo for erroneamente classificado como spam, você pode marcar esse e-mail como "não spam", ajudando o modelo a aprender e melhorar.
O filtro de spam pode ajudar com uma variedade de tarefas, como:
Identificar e-mails fraudulentos: Bloquear e-mails que tentam enganar os usuários, como phishing ou ofertas falsas.
Reduzir lixo na caixa de entrada: Garantir que a caixa de entrada principal contenha apenas e-mails relevantes, movendo automaticamente os e-mails indesejados para a pasta de spam.
Melhorar a produtividade: Permitir que os usuários se concentrem em e-mails importantes e urgentes, sem distrações causadas por spam.
Segurança: Ajudar a proteger os usuários contra ataques de malware e links maliciosos presentes em e-mails de spam.