Home Prezzi Blog

Diarizzazione dei parlanti con IA: come sapere chi ha detto cosa nelle tue trascrizioni

Cos'è, come funziona e come applicare la diarizzazione automatica a riunioni, interviste e podcast. Guida pratica 2026.

Risposta rapida: la diarizzazione dei parlanti è il processo tramite cui un'IA segmenta un file audio con più voci ed etichetta ogni frammento con il parlante corrispondente, rispondendo alla domanda «chi ha detto cosa». Si combina con un motore di trascrizione come Whisper per produrre un testo strutturato per turni di conversazione. Nel 2026 i migliori modelli (pyannote 3.1, NeMo, WhisperX) raggiungono un tasso di errore del 7-12% su audio pulito con 2-4 parlanti. È l'elemento chiave per verbali di riunione utili, interviste leggibili e podcast pubblicabili.

Una trascrizione senza identificazione dei parlanti è praticamente illeggibile. Un muro di testo di 45 minuti in cui non sai chi ha preso la decisione importante, chi ha sollevato obiezioni e chi si è preso in carico il compito vale quasi nulla. La diarizzazione dei parlanti è la tecnica che trasforma quel muro di testo in una conversazione strutturata con turni etichettati per persona.

Negli ultimi due anni questa tecnologia ha fatto un salto enorme grazie ai modelli di embedding vocale e alla loro integrazione con grandi modelli di trascrizione come Whisper. Questa guida spiega cos'è, come funziona, quanto è accurata, a cosa serve e come applicarla senza complicazioni tecniche.

Cos'è la diarizzazione dei parlanti

La diarizzazione dei parlanti (in inglese: speaker diarization) è il processo tramite cui un sistema di IA prende un file audio con più voci e lo segmenta in frammenti, etichettando ciascuno con il parlante corrispondente. L'output tipico è così:

[00:00:02 - 00:00:18] Parlante 1: Grazie per essere venuti alla revisione trimestrale...
[00:00:19 - 00:00:34] Parlante 2: Perfetto. Prima di iniziare, volevo confermare...
[00:00:35 - 00:01:12] Parlante 1: Sì, tratteremo quel punto alla fine.
[00:01:13 - 00:01:40] Parlante 3: Ho una domanda sul budget...

È importante capire che la diarizzazione non sa chi siano i parlanti. Non identifica Maria né Carlo. Sa solo che «la voce A è diversa dalla voce B» e raggruppa i segmenti di conseguenza. Assegnare nomi reali è un passaggio successivo, fatto manualmente o tramite riconoscimento biometrico del parlante, che richiede consenso esplicito.

Come funziona tecnicamente (senza gergo inutile)

Un sistema moderno di diarizzazione combina vari passaggi. Tutto avviene in pochi secondi e l'utente non li vede, ma vale la pena capirli per conoscerne i limiti.

  1. Rilevamento dell'attività vocale (VAD). Il sistema elimina silenzi e rumori non vocali per conservare solo le sezioni in cui qualcuno sta parlando.
  2. Segmentazione. Divide i tratti vocali in frammenti brevi (tipicamente di 1-3 secondi) per analizzarli separatamente.
  3. Embedding vocali. Ogni frammento viene trasformato in un vettore numerico (un'«impronta vocale») che rappresenta le caratteristiche uniche del timbro, del tono e della prosodia del parlante in quel momento.
  4. Clustering. L'algoritmo raggruppa i vettori simili. Ogni cluster rappresenta un parlante diverso. Qui si decide che i frammenti X, Y e Z appartengono alla stessa persona.
  5. Allineamento con la trascrizione. Infine, il risultato viene combinato con il testo trascritto (proveniente da Whisper o da un altro motore) per produrre il testo etichettato per turni.

Nota tecnica 2026: i modelli aperti più diffusi sono pyannote 3.1 (Hugging Face), NeMo Speaker Diarization (NVIDIA) e WhisperX (integratore). Tutti girano su GPU cloud ed elaborano 1 ora di audio in meno di 2 minuti.

Diarizzazione vs trascrizione: la differenza chiave

I due concetti vengono spesso confusi. Sono compiti diversi ma complementari.

Dimensione Trascrizione Diarizzazione
Domanda a cui risponde Cosa si dice? Chi parla e quando?
Risultato Testo semplice Intervalli temporali + etichette di parlante
Modello tipico Whisper, Google STT, Azure Speech pyannote, NeMo, UIS-RNN
Metrica di qualità WER (Word Error Rate) DER (Diarization Error Rate)
Utile da sola? Sì, ma difficile da leggere nelle riunioni No, ha bisogno della trascrizione

La combinazione di entrambe le attività genera il vero valore: una trascrizione strutturata per parlanti è leggibile, analizzabile e pubblicabile. Solo trascrizione = muro di testo. Solo diarizzazione = timestamp senza contenuto.

Una riunione di 2 ore con 5 persone da trascrivere?

VOCAP combina Whisper e diarizzazione automatica. Carica l'audio e ottieni un testo strutturato per turni, pronto da condividere. 15 minuti gratis, senza carta.

Prova VOCAP gratis

Accuratezza reale della diarizzazione nel 2026

La metrica standard è il Diarization Error Rate (DER), che misura la percentuale di tempo audio attribuito in modo errato. Un DER del 10% significa che su 60 minuti di conversazione, 6 minuti sono etichettati male. I benchmark attuali mostrano:

In contesti in cui la precisione è decisiva (legale, medico, giornalistico) conviene usare la diarizzazione come prima passata e rivedere manualmente i turni più importanti. Lo strumento fa risparmiare il 90% del lavoro, ma non elimina la revisione umana nei contenuti sensibili.

Casi d'uso in cui la diarizzazione è imprescindibile

Non tutti gli audio hanno bisogno di diarizzazione. Una nota vocale personale o una dettatura singola non la richiedono. Ma ci sono scenari in cui la trascrizione senza diarizzazione perde quasi tutto il suo valore:

Riunioni di lavoro e verbali

Senza diarizzazione non si può dire chi si è preso un compito o chi ha bloccato una decisione. Un verbale utile richiede l'attribuzione dei turni. Strumenti come VOCAP generano verbali strutturati basati sulla diarizzazione.

Interviste giornalistiche

Un giornalista deve distinguere le proprie domande dalle risposte dell'intervistato per citare con precisione. Un'intervista lunga senza diarizzazione è difficilissima da editare.

Podcast con più conduttori

Pubblicare la trascrizione di un podcast con 2-4 voci senza identificare conduttori e ospiti rende il contenuto illeggibile. Con la diarizzazione ogni turno è etichettato per lettori e motori di ricerca.

Focus group e ricerca di mercato

L'analisi qualitativa richiede di sapere cosa ha detto ciascun partecipante. Senza diarizzazione aggregare le risposte è impossibile senza riascoltare tutto l'audio.

Deposizioni e udienze legali

In ambito legale l'attribuzione è fondamentale: chi ha fatto quale dichiarazione, giudice, PM, difensore, testimone. La diarizzazione automatica accelera la stesura dei verbali, ma richiede validazione umana.

Terapie, coaching e colloqui clinici

Separare il turno del professionista da quello del paziente permette analisi di pattern, revisione delle sedute e appunti strutturati. Sempre con consenso preventivo.

Applicare la diarizzazione in 4 passi, senza programmare

La maggior parte degli utenti non vuole montare una pipeline pyannote + Whisper a mano. Basta uno strumento che lo faccia internamente. Ecco il flusso tipico con VOCAP:

  1. Registra con la migliore qualità possibile. Se è una riunione in presenza, usa un microfono direzionale al centro del tavolo o, meglio, un microfono per persona. Se è una chiamata, attiva la registrazione multicanale quando la piattaforma lo consente (Zoom e Google Meet possono registrare ogni partecipante su una traccia separata).
  2. Carica il file. Formati supportati: MP3, WAV, M4A, MP4, WebM, OGG, FLAC. Fino a 150 MB per file; per file più grandi comprimi o dividi prima.
  3. Lascia lavorare l'IA. Whisper trascrive il contenuto e pyannote (o equivalente) lo segmenta per parlanti. Il processo richiede 1-3 minuti per ogni ora di audio.
  4. Rivedi e rinomina i parlanti. Il sistema consegna «parlante 1, 2, 3…». Modifica le etichette e assegna nomi reali (Maria, Carlo, Anna). Questo passaggio migliora drasticamente la leggibilità del documento finale.

Trascrizioni con parlanti identificati in 2 minuti

Carica il tuo audio su VOCAP e ottieni la trascrizione già separata per turni, con riassunto e attività estratti da Claude. Da 1€/ora o meno con abbonamento.

Inizia gratis con VOCAP

Errori comuni che rovinano la diarizzazione

Domande frequenti sulla diarizzazione dei parlanti

Cos'è la diarizzazione dei parlanti?

È il processo tramite cui un'IA prende un audio con più voci ed etichetta ogni frammento con il parlante corrispondente. Risponde a «chi ha detto cosa e quando». Non identifica per nome: distingue solo voci diverse e le raggruppa.

In cosa si differenzia dalla trascrizione?

La trascrizione converte il parlato in testo; la diarizzazione identifica chi parla e quando. Combinate, generano una trascrizione strutturata per turni di conversazione, che è ciò che dà valore reale a riunioni e interviste.

Quanto è accurata la diarizzazione IA nel 2026?

Su audio pulito con 2-4 parlanti, i migliori modelli raggiungono un DER del 7-12%. Su chiamate rumorose con più parlanti e sovrapposizioni l'errore può superare il 20%. La qualità del microfono e la separazione dei canali sono decisivi.

Whisper fa la diarizzazione da solo?

No. Whisper trascrive ma non identifica i parlanti. Per ottenere «chi ha detto cosa» bisogna combinarlo con un modello di diarizzazione come pyannote, NeMo o WhisperX. VOCAP lo fa automaticamente e consegna il testo già segmentato.

L'IA può assegnare nomi reali?

Di default no. La diarizzazione distingue voci anonime (parlante 1, 2, 3…). I nomi li assegni tu o un sistema a parte di riconoscimento biometrico vocale, che in Europa richiede consenso esplicito per GDPR.

Quanti parlanti può separare l'IA senza perdere accuratezza?

In pratica, da 2 a 6 parlanti. Oltre le 8 persone simultanee l'accuratezza scende in modo evidente perché gli embedding si sovrappongono. Per panel grandi meglio registrare in multicanale (un microfono per persona).

Prova VOCAP gratis 15 min di trascrizione
Inizia gratis →