Respuesta rápida: un timestamp es la marca de tiempo (HH:MM:SS) que indica el momento exacto del audio en que se dice algo. En 2026, motores como Whisper o gpt-4o-mini-transcribe los generan automáticamente con precisión de ±0,5-2 segundos a nivel de segmento y ±100-300 ms a nivel de palabra. Los formatos más usados son SRT y VTT para subtítulos, JSON para automatizaciones y texto con marcas tipo [00:01:23] para citas y consulta humana. VOCAP devuelve los cuatro formatos a partir del mismo audio.
Si alguna vez has tenido que buscar una frase concreta en una grabación de dos horas, ya sabes el problema: texto sin tiempos es texto incómodo. No puedes saltar al minuto exacto, no puedes citar con precisión, no puedes generar subtítulos. Los timestamps resuelven todo eso a la vez.
Esta guía explica qué son, cuándo necesitas cada formato, cómo se generan en 2026 con IA y qué errores comunes evitar.
Qué es un timestamp en una transcripción
Un timestamp (también llamado marca de tiempo u horodatado) es un valor que indica el momento del audio en el que se pronuncia una palabra o frase. Suele expresarse en uno de estos formatos:
HH:MM:SS— horas, minutos, segundos. Lo más legible para humanos.HH:MM:SS,mmmoHH:MM:SS.mmm— con milisegundos. Estándar en SRT y VTT.segundosen formato decimal (83.42) — habitual en JSON y APIs.
Cada timestamp puede ser de inicio (start), de fin (end) o ambos. Los formatos profesionales siempre llevan los dos: el subtítulo aparece en start y desaparece en end.
Para qué sirven los timestamps (casos reales)
1. Subtítulos sincronizados
Es el caso más obvio: subtitular vídeos de YouTube, cursos online, webinars, redes sociales, accesibilidad. Sin timestamps no hay subtítulos. Formatos: SRT (universal) o VTT (web HTML5).
2. Edición de vídeo y audio
Los editores profesionales (Premiere, DaVinci Resolve, Final Cut) importan transcripciones con timestamps para hacer edición basada en texto: borras una palabra del transcript y el clip de vídeo se corta solo. Descript popularizó este flujo y hoy es estándar.
3. Citas precisas en investigación, periodismo y derecho
Cuando un periodista cita "según declaró el ministro en el minuto 14:23 de la rueda de prensa…" o un abogado refiere "véase deposición, audio de la testigo, 00:42:18", esa precisión solo es posible con timestamps. Investigadores cualitativos los usan para anclar verbatims en grabaciones de entrevistas y grupos focales.
4. Búsqueda y navegación dentro del audio
Una transcripción con timestamps convierte una grabación de tres horas en una pista navegable: buscas una palabra clave, ves a qué minuto se dijo, saltas allí. Esencial para podcasts largos, formaciones, archivos de reuniones.
5. Capítulos automáticos para podcast y YouTube
YouTube permite definir capítulos con marcas 00:05:30 Tema X en la descripción. Spotify y Apple Podcasts soportan capítulos en algunos formatos. Generarlos a mano es lento; con timestamps + análisis IA del contenido se obtienen en segundos.
6. Análisis de hablantes y participación
Si combinas timestamps con diarización (separación de hablantes) puedes calcular cuánto habló cada persona en una reunión, en una entrevista de RR. HH. o en un grupo focal. Útil para coaching de ventas, equilibrio de meetings, investigación.
Timestamps por segmento vs por palabra
No todos los timestamps tienen la misma granularidad. Hay dos niveles, y elegir el correcto importa.
| Tipo | Granularidad | Cuándo usarlo | Ejemplo |
|---|---|---|---|
| Por segmento | 5-15 segundos por bloque (frase o párrafo corto) | Subtítulos, texto navegable, citas humanas, capítulos | [00:01:23] Hola, bienvenidos al podcast. |
| Por palabra | Cada palabra con start/end en milisegundos | Edición de vídeo basada en texto, karaoke, animación de subtítulos, análisis cuantitativo del habla | {"word":"Hola","start":1.23,"end":1.45} |
Regla práctica: si solo vas a leer la transcripción o a generar subtítulos clásicos, los timestamps por segmento sobran. Si vas a hacer edición de vídeo basada en texto o a animar palabras (estilo TikTok caption), necesitas word-level.
Formatos de salida con timestamps
SRT (SubRip Subtitle)
El estándar universal de subtítulos. Lo entienden YouTube, Premiere, Final Cut, VLC, Handbrake, Netflix y prácticamente cualquier reproductor.
1
00:00:01,200 --> 00:00:04,800
Hola, bienvenidos al podcast.
2
00:00:05,000 --> 00:00:09,500
Hoy hablamos de timestamps en transcripciones.
VTT (WebVTT)
Variante para HTML5 (etiqueta <track>). Soporta posicionamiento, estilos y metadatos extra. Si tu vídeo va embebido en una web, VTT es lo natural.
WEBVTT
00:00:01.200 --> 00:00:04.800
Hola, bienvenidos al podcast.
00:00:05.000 --> 00:00:09.500
Hoy hablamos de timestamps en transcripciones.
JSON (estructurado)
Lo usan APIs y automatizaciones. Whisper devuelve algo así:
{
"text": "Hola, bienvenidos al podcast.",
"segments": [
{
"id": 0,
"start": 1.20,
"end": 4.80,
"text": "Hola, bienvenidos al podcast."
}
]
}
Texto plano con marcas [HH:MM:SS]
El más cómodo para leer, citar y compartir. Lo prefieren periodistas, investigadores y equipos de actas.
[00:00:01] Hola, bienvenidos al podcast.
[00:00:05] Hoy hablamos de timestamps en transcripciones.
[00:00:14] El primer punto es la diferencia entre segmento y palabra.
TSV / CSV
Útil cuando necesitas pasar la transcripción a Excel, BigQuery o un análisis tabular. Cada línea es un segmento con columnas start, end, text.
Cómo se generan timestamps en 2026
Hay tres caminos:
- Whisper directo (OpenAI o local). Tanto la API de OpenAI como las versiones open-source (whisper.cpp, faster-whisper) devuelven timestamps por segmento por defecto y por palabra activando
word_timestamps=True. Es la base técnica que usa la mayoría de herramientas modernas. - Herramientas SaaS sobre Whisper o similares. VOCAP, Otter, Descript, Riverside, etc. Procesan el audio con Whisper o motores propios y exponen los timestamps en su interfaz, con exportación en SRT/VTT/JSON sin tener que tocar código.
- Manual con software de subtitulado. Aegisub, Subtitle Edit, Kapwing. Permiten marcar timestamps a mano sobre una transcripción ya hecha. Útil para correcciones finas, no para volúmenes grandes.
Dato 2026: Whisper sigue siendo el motor de referencia para transcripción multilingüe con timestamps en español. gpt-4o-mini-transcribe ofrece resultados comparables o mejores en muchos idiomas y se está convirtiendo en la opción por defecto en herramientas modernas como VOCAP.
Paso a paso: transcribir con timestamps en VOCAP
- Sube el archivo. MP3, WAV, M4A, MP4, OGG o FLAC, hasta 150 MB. Si pesa más, comprime a 64 kbps mono (es lo que el motor procesa internamente; no pierdes calidad de transcripción).
- Espera al procesado. Una hora de audio tarda entre 2 y 8 minutos en función del idioma y la cola. Audios largos (1-3 h) van por procesado asíncrono y recibes notificación al terminar.
- Revisa la transcripción. En la vista web verás el texto con marcas
[HH:MM:SS]al inicio de cada bloque, además de resumen ejecutivo, puntos clave, tareas y decisiones generados por Claude. - Exporta en el formato que necesites. Texto con timestamps para citar, SRT/VTT para subtítulos, JSON para automatizar (Zapier, Make, n8n).
- Corrige nombres propios y cifras. Es donde más fallan los modelos. Una pasada de 2-3 minutos por hora de audio basta para llegar al 99%.
Prueba VOCAP con 30 minutos gratis
Sube un audio y descarga la transcripción con timestamps en SRT, VTT o texto con [HH:MM:SS]. Sin tarjeta.
Probar VOCAP GratisPrecisión típica y límites
Con audio limpio (un solo hablante, micrófono decente, sin ruido) la precisión típica de Whisper en 2026 es:
- Texto: 95-98% en español castellano y latinoamericano estándar.
- Timestamps por segmento: ±0,5 a ±2 segundos.
- Timestamps por palabra: ±100 a ±300 ms cuando hay buena articulación.
Donde la precisión cae:
- Audio con eco, ruido de fondo o múltiples voces solapadas.
- Acentos muy marcados o dialectos minoritarios.
- Música o efectos sonoros que el modelo intenta interpretar como habla.
- Silencios largos: a veces el modelo "alucina" texto donde no lo hay.
- Cambios bruscos de hablante en la misma palabra.
Errores comunes a evitar
- Pedir word-level cuando solo necesitas segmentos. Triplica el tamaño del archivo y rara vez aporta valor para subtítulos clásicos.
- Mezclar separadores decimales. SRT usa coma (
00:00:01,200), VTT usa punto (00:00:01.200). Confundirlos rompe el parser. - No verificar la sincronía. Los timestamps automáticos son buenos, no perfectos. Comprueba en 3-4 puntos del audio antes de publicar subtítulos.
- Subtítulos demasiado largos. Más de 42 caracteres por línea o más de 7 segundos por bloque son malos para lectura. Divide.
- Olvidar el idioma. Especificar el idioma (en lugar de dejarlo en automático) acelera el proceso y mejora ligeramente la precisión, sobre todo en audios cortos.
- Subtitular sin revisar nombres propios. "VOCAP" puede salir como "vocap", "Bocap" o "Vokap". Lo mismo pasa con marcas, ciudades y siglas.
- Confiar al 100% en silencios. Si el modelo no detecta bien silencios, los timestamps de inicio pueden adelantarse 200-500 ms. Mírate los primeros 30 segundos manualmente.
Preguntas frecuentes
¿Qué es un timestamp en una transcripción?
Es la marca que indica el momento exacto del audio (HH:MM:SS) en que se pronuncia una palabra o frase. Permite localizar fragmentos sin escuchar todo, generar subtítulos sincronizados y citar con precisión.
¿Diferencia entre timestamps por palabra y por segmento?
Por segmento marcan inicio y fin de cada frase (5-15 s). Por palabra marcan cada palabra con precisión de milisegundos. Subtítulos clásicos: segmento. Edición basada en texto, karaoke o análisis cuantitativo: palabra.
¿Qué formatos con timestamps existen?
SRT (estándar universal), VTT (web HTML5), JSON (APIs y automatización), TSV/CSV (tabular) y texto plano con marcas [HH:MM:SS] para lectura humana. VOCAP exporta los principales.
¿Qué precisión tienen los timestamps automáticos?
Con Whisper y audio limpio, ±0,5 a ±2 s a nivel de segmento y ±100-300 ms a nivel de palabra. La precisión cae con ruido, voces solapadas o acentos muy marcados.
¿Puedo añadir timestamps a una transcripción que ya tengo?
Sí, con software como Aegisub o Subtitle Edit, pero lleva 4-6 horas por hora de audio. Es más rápido re-procesar el original con un motor que devuelva timestamps automáticos.
¿Cómo consigo timestamps en VOCAP?
Sube el audio y VOCAP devuelve la transcripción con marcas [HH:MM:SS] al inicio de cada segmento, descargable como SRT/VTT para subtítulos o como texto con timestamps. Procesa con Whisper bajo el capó.