Inicio Precos Blog

Diarização de falantes com IA: como saber quem disse o quê nas suas transcrições

O que é, como funciona e como aplicar diarização automática a reuniões, entrevistas e podcasts. Guia prático 2026.

Resposta rápida: a diarização de falantes é o processo através do qual uma IA segmenta um ficheiro de áudio com várias vozes e etiqueta cada fragmento com o falante correspondente, respondendo à pergunta «quem disse o quê». Combina-se com um motor de transcrição como o Whisper para produzir texto estruturado por turnos de conversa. Em 2026, os melhores modelos (pyannote 3.1, NeMo, WhisperX) atingem uma taxa de erro de 7-12% em áudio limpo com 2-4 falantes. É a peça chave para atas de reunião úteis, entrevistas legíveis e podcasts publicáveis.

Uma transcrição sem identificação de falantes é praticamente ilegível. Uma parede de texto de 45 minutos em que não se sabe quem tomou a decisão importante, quem colocou objeções e quem assumiu a tarefa vale quase nada. A diarização de falantes é a técnica que transforma essa parede de texto numa conversa estruturada com turnos etiquetados por pessoa.

Nos últimos dois anos, esta tecnologia deu um salto enorme graças a modelos de embedding de voz e à sua integração com grandes modelos de transcrição como o Whisper. Este guia explica o que é, como funciona, qual é a sua precisão, para que serve e como aplicá-la sem complicações técnicas.

O que é a diarização de falantes

A diarização de falantes (em inglês: speaker diarization) é o processo através do qual um sistema de IA pega num ficheiro de áudio com várias vozes e o segmenta em fragmentos, etiquetando cada um com o falante correspondente. O resultado típico é assim:

[00:00:02 - 00:00:18] Falante 1: Obrigado por virem à revisão trimestral...
[00:00:19 - 00:00:34] Falante 2: Perfeito. Antes de começar, queria confirmar...
[00:00:35 - 00:01:12] Falante 1: Sim, abordaremos esse ponto no final.
[00:01:13 - 00:01:40] Falante 3: Tenho uma pergunta sobre o orçamento...

É importante perceber que a diarização não sabe quem são os falantes. Não identifica a Maria nem o João. Só sabe que «a voz A é diferente da voz B» e agrupa os segmentos em conformidade. Atribuir nomes reais é um passo posterior, feito manualmente ou através de reconhecimento biométrico de falante, que exige consentimento explícito.

Como funciona tecnicamente (sem jargão desnecessário)

Um sistema moderno de diarização combina vários passos. Tudo acontece em segundos e o utilizador não os vê, mas vale a pena compreendê-los para conhecer os seus limites.

  1. Deteção de atividade vocal (VAD). O sistema elimina silêncios e ruídos não-fala para manter apenas os trechos em que alguém está a falar.
  2. Segmentação. Divide os trechos de fala em fragmentos curtos (tipicamente 1-3 segundos) para os analisar separadamente.
  3. Embeddings de voz. Cada fragmento é transformado num vetor numérico (uma «impressão vocal») que representa as características únicas do timbre, tom e prosódia do falante nesse momento.
  4. Clustering. O algoritmo agrupa vetores semelhantes. Cada cluster representa um falante diferente. Aqui é decidido que os fragmentos X, Y e Z pertencem à mesma pessoa.
  5. Alinhamento com a transcrição. Por fim, o resultado é combinado com o texto transcrito (vindo do Whisper ou de outro motor) para produzir o texto etiquetado por turnos.

Nota técnica 2026: os modelos abertos mais usados são o pyannote 3.1 (Hugging Face), NeMo Speaker Diarization (NVIDIA) e WhisperX (integrador). Todos correm em GPUs na nuvem e processam 1 hora de áudio em menos de 2 minutos.

Diarização vs transcrição: a diferença chave

Os dois conceitos confundem-se muitas vezes. São tarefas distintas e complementares.

Dimensão Transcrição Diarização
Pergunta que responde O que está a ser dito? Quem fala e quando?
Resultado Texto simples Intervalos de tempo + etiquetas de falante
Modelo típico Whisper, Google STT, Azure Speech pyannote, NeMo, UIS-RNN
Métrica de qualidade WER (Word Error Rate) DER (Diarization Error Rate)
Útil sozinha? Sim, mas difícil de ler em reuniões Não, precisa da transcrição

A combinação das duas tarefas gera o verdadeiro valor: uma transcrição estruturada por falantes é legível, analisável e publicável. Só transcrição = parede de texto. Só diarização = marcas temporais sem conteúdo.

Uma reunião de 2 horas com 5 pessoas para transcrever?

O VOCAP combina Whisper e diarização automática. Carregue o áudio e obtenha texto estruturado por turnos, pronto a partilhar. 15 minutos grátis, sem cartão.

Experimente o VOCAP grátis

Precisão real da diarização em 2026

A métrica padrão é o Diarization Error Rate (DER), que mede a percentagem de tempo de áudio atribuída incorretamente. Um DER de 10% significa que em 60 minutos de conversa, 6 minutos estão mal etiquetados. Os benchmarks atuais mostram:

Em contextos onde a precisão é decisiva (legal, médico, jornalístico) convém usar a diarização como primeira passagem e rever manualmente os turnos mais importantes. A ferramenta poupa 90% do trabalho, mas não elimina a revisão humana em conteúdo sensível.

Casos de uso onde a diarização é imprescindível

Nem todos os áudios precisam de diarização. Uma nota de voz pessoal ou uma ditado individual não precisa. Mas há cenários em que a transcrição sem diarização perde quase todo o seu valor:

Reuniões de trabalho e atas

Sem diarização, não é possível dizer quem ficou com que tarefa ou quem bloqueou uma decisão. Uma ata útil exige atribuição de turnos. Ferramentas como o VOCAP geram atas estruturadas baseadas na diarização.

Entrevistas jornalísticas

Um jornalista precisa distinguir as suas perguntas das respostas do entrevistado para citar com precisão. Uma entrevista longa sem diarização é quase impossível de editar.

Podcasts com vários apresentadores

Publicar a transcrição de um podcast com 2-4 vozes sem identificar apresentadores e convidados torna o conteúdo ilegível. Com diarização, cada turno fica etiquetado para leitores e motores de busca.

Focus groups e pesquisa de mercado

A análise qualitativa exige saber o que cada participante disse. Sem diarização, agregar as respostas é impossível sem voltar a ouvir todo o áudio.

Depoimentos e audiências legais

No contexto legal, a atribuição é fundamental: quem fez que declaração, juiz, procurador, advogado, testemunha. A diarização automática acelera a elaboração de atas, mas exige validação humana.

Terapias, coaching e entrevistas clínicas

Separar o turno do profissional do turno do paciente permite análise de padrões, revisão de sessões e apontamentos estruturados. Sempre com consentimento prévio.

Aplicar a diarização em 4 passos, sem programar

A maioria dos utilizadores não quer montar uma pipeline pyannote + Whisper à mão. Basta uma ferramenta que o faça internamente. Este é o fluxo típico com o VOCAP:

  1. Gravar com a melhor qualidade possível. Se for uma reunião presencial, usar um microfone direcional no centro da mesa ou, melhor ainda, um microfone por pessoa. Se for uma chamada, ativar gravação multicanal quando a plataforma o permitir (Zoom e Google Meet conseguem gravar cada participante numa faixa separada).
  2. Carregar o ficheiro. Formatos suportados: MP3, WAV, M4A, MP4, WebM, OGG, FLAC. Até 150 MB por ficheiro; para ficheiros maiores, comprimir ou dividir primeiro.
  3. Deixar a IA trabalhar. O Whisper transcreve o conteúdo e o pyannote (ou equivalente) segmenta por falantes. O processo demora 1-3 minutos por hora de áudio.
  4. Rever e renomear os falantes. O sistema entrega «falante 1, 2, 3…». Edite as etiquetas e atribua nomes reais (Maria, João, Ana). Este passo melhora drasticamente a legibilidade do documento final.

Transcrições com falantes identificados em 2 minutos

Carregue o seu áudio no VOCAP e obtenha a transcrição já separada por turnos, com resumo e tarefas extraídas pelo Claude. Desde 1€/hora ou menos com subscrição.

Comece grátis com o VOCAP

Erros comuns que estragam a diarização

Perguntas frequentes sobre diarização de falantes

O que é a diarização de falantes?

É o processo através do qual uma IA pega num áudio com várias vozes e etiqueta cada fragmento com o falante correspondente. Responde a «quem disse o quê e quando». Não identifica pelo nome: apenas distingue vozes diferentes e agrupa-as.

Em que se distingue da transcrição?

A transcrição converte fala em texto; a diarização identifica quem fala e quando. Combinadas, geram uma transcrição estruturada por turnos de conversa, que é o que dá valor real a reuniões e entrevistas.

Qual é a precisão da diarização IA em 2026?

Em áudio limpo com 2-4 falantes, os melhores modelos atingem um DER de 7-12%. Em chamadas ruidosas com vários falantes e sobreposições, o erro pode ultrapassar os 20%. A qualidade do microfone e a separação de canais são decisivas.

O Whisper faz diarização sozinho?

Não. O Whisper transcreve, mas não identifica falantes. Para obter «quem disse o quê» é preciso combiná-lo com um modelo de diarização como pyannote, NeMo ou WhisperX. O VOCAP fá-lo automaticamente e entrega o texto já segmentado.

A IA consegue atribuir nomes reais?

Por omissão, não. A diarização distingue vozes anónimas (falante 1, 2, 3…). Os nomes atribui-os você ou um sistema à parte de reconhecimento biométrico vocal, que na Europa exige consentimento explícito por RGPD.

Quantos falantes consegue a IA separar sem perder precisão?

Na prática, 2 a 6 falantes. Acima de 8 pessoas em simultâneo, a precisão cai de forma notória porque os embeddings se sobrepõem. Para painéis grandes, é melhor gravar em multicanal (um microfone por pessoa).

Experimente VOCAP gratis 15 min de transcricao
Comecar gratis →