Inicio Precios Blog Contacto

Transcribir Audio con Timestamps (Marcas de Tiempo) con IA: Guía 2026

Formatos SRT, VTT, JSON y texto con [00:00:00]. Para qué sirven, cómo se generan y dónde fallan en 2026.

Respuesta rápida: un timestamp es la marca de tiempo (HH:MM:SS) que indica el momento exacto del audio en que se dice algo. En 2026, motores como Whisper o gpt-4o-mini-transcribe los generan automáticamente con precisión de ±0,5-2 segundos a nivel de segmento y ±100-300 ms a nivel de palabra. Los formatos más usados son SRT y VTT para subtítulos, JSON para automatizaciones y texto con marcas tipo [00:01:23] para citas y consulta humana. VOCAP devuelve los cuatro formatos a partir del mismo audio.

Si alguna vez has tenido que buscar una frase concreta en una grabación de dos horas, ya sabes el problema: texto sin tiempos es texto incómodo. No puedes saltar al minuto exacto, no puedes citar con precisión, no puedes generar subtítulos. Los timestamps resuelven todo eso a la vez.

Esta guía explica qué son, cuándo necesitas cada formato, cómo se generan en 2026 con IA y qué errores comunes evitar.

Qué es un timestamp en una transcripción

Un timestamp (también llamado marca de tiempo u horodatado) es un valor que indica el momento del audio en el que se pronuncia una palabra o frase. Suele expresarse en uno de estos formatos:

Cada timestamp puede ser de inicio (start), de fin (end) o ambos. Los formatos profesionales siempre llevan los dos: el subtítulo aparece en start y desaparece en end.

Para qué sirven los timestamps (casos reales)

1. Subtítulos sincronizados

Es el caso más obvio: subtitular vídeos de YouTube, cursos online, webinars, redes sociales, accesibilidad. Sin timestamps no hay subtítulos. Formatos: SRT (universal) o VTT (web HTML5).

2. Edición de vídeo y audio

Los editores profesionales (Premiere, DaVinci Resolve, Final Cut) importan transcripciones con timestamps para hacer edición basada en texto: borras una palabra del transcript y el clip de vídeo se corta solo. Descript popularizó este flujo y hoy es estándar.

3. Citas precisas en investigación, periodismo y derecho

Cuando un periodista cita "según declaró el ministro en el minuto 14:23 de la rueda de prensa…" o un abogado refiere "véase deposición, audio de la testigo, 00:42:18", esa precisión solo es posible con timestamps. Investigadores cualitativos los usan para anclar verbatims en grabaciones de entrevistas y grupos focales.

4. Búsqueda y navegación dentro del audio

Una transcripción con timestamps convierte una grabación de tres horas en una pista navegable: buscas una palabra clave, ves a qué minuto se dijo, saltas allí. Esencial para podcasts largos, formaciones, archivos de reuniones.

5. Capítulos automáticos para podcast y YouTube

YouTube permite definir capítulos con marcas 00:05:30 Tema X en la descripción. Spotify y Apple Podcasts soportan capítulos en algunos formatos. Generarlos a mano es lento; con timestamps + análisis IA del contenido se obtienen en segundos.

6. Análisis de hablantes y participación

Si combinas timestamps con diarización (separación de hablantes) puedes calcular cuánto habló cada persona en una reunión, en una entrevista de RR. HH. o en un grupo focal. Útil para coaching de ventas, equilibrio de meetings, investigación.

Timestamps por segmento vs por palabra

No todos los timestamps tienen la misma granularidad. Hay dos niveles, y elegir el correcto importa.

Tipo Granularidad Cuándo usarlo Ejemplo
Por segmento 5-15 segundos por bloque (frase o párrafo corto) Subtítulos, texto navegable, citas humanas, capítulos [00:01:23] Hola, bienvenidos al podcast.
Por palabra Cada palabra con start/end en milisegundos Edición de vídeo basada en texto, karaoke, animación de subtítulos, análisis cuantitativo del habla {"word":"Hola","start":1.23,"end":1.45}

Regla práctica: si solo vas a leer la transcripción o a generar subtítulos clásicos, los timestamps por segmento sobran. Si vas a hacer edición de vídeo basada en texto o a animar palabras (estilo TikTok caption), necesitas word-level.

Formatos de salida con timestamps

SRT (SubRip Subtitle)

El estándar universal de subtítulos. Lo entienden YouTube, Premiere, Final Cut, VLC, Handbrake, Netflix y prácticamente cualquier reproductor.

1
00:00:01,200 --> 00:00:04,800
Hola, bienvenidos al podcast.

2
00:00:05,000 --> 00:00:09,500
Hoy hablamos de timestamps en transcripciones.

VTT (WebVTT)

Variante para HTML5 (etiqueta <track>). Soporta posicionamiento, estilos y metadatos extra. Si tu vídeo va embebido en una web, VTT es lo natural.

WEBVTT

00:00:01.200 --> 00:00:04.800
Hola, bienvenidos al podcast.

00:00:05.000 --> 00:00:09.500
Hoy hablamos de timestamps en transcripciones.

JSON (estructurado)

Lo usan APIs y automatizaciones. Whisper devuelve algo así:

{
  "text": "Hola, bienvenidos al podcast.",
  "segments": [
    {
      "id": 0,
      "start": 1.20,
      "end": 4.80,
      "text": "Hola, bienvenidos al podcast."
    }
  ]
}

Texto plano con marcas [HH:MM:SS]

El más cómodo para leer, citar y compartir. Lo prefieren periodistas, investigadores y equipos de actas.

[00:00:01] Hola, bienvenidos al podcast.
[00:00:05] Hoy hablamos de timestamps en transcripciones.
[00:00:14] El primer punto es la diferencia entre segmento y palabra.

TSV / CSV

Útil cuando necesitas pasar la transcripción a Excel, BigQuery o un análisis tabular. Cada línea es un segmento con columnas start, end, text.

Cómo se generan timestamps en 2026

Hay tres caminos:

  1. Whisper directo (OpenAI o local). Tanto la API de OpenAI como las versiones open-source (whisper.cpp, faster-whisper) devuelven timestamps por segmento por defecto y por palabra activando word_timestamps=True. Es la base técnica que usa la mayoría de herramientas modernas.
  2. Herramientas SaaS sobre Whisper o similares. VOCAP, Otter, Descript, Riverside, etc. Procesan el audio con Whisper o motores propios y exponen los timestamps en su interfaz, con exportación en SRT/VTT/JSON sin tener que tocar código.
  3. Manual con software de subtitulado. Aegisub, Subtitle Edit, Kapwing. Permiten marcar timestamps a mano sobre una transcripción ya hecha. Útil para correcciones finas, no para volúmenes grandes.

Dato 2026: Whisper sigue siendo el motor de referencia para transcripción multilingüe con timestamps en español. gpt-4o-mini-transcribe ofrece resultados comparables o mejores en muchos idiomas y se está convirtiendo en la opción por defecto en herramientas modernas como VOCAP.

Paso a paso: transcribir con timestamps en VOCAP

  1. Sube el archivo. MP3, WAV, M4A, MP4, OGG o FLAC, hasta 150 MB. Si pesa más, comprime a 64 kbps mono (es lo que el motor procesa internamente; no pierdes calidad de transcripción).
  2. Espera al procesado. Una hora de audio tarda entre 2 y 8 minutos en función del idioma y la cola. Audios largos (1-3 h) van por procesado asíncrono y recibes notificación al terminar.
  3. Revisa la transcripción. En la vista web verás el texto con marcas [HH:MM:SS] al inicio de cada bloque, además de resumen ejecutivo, puntos clave, tareas y decisiones generados por Claude.
  4. Exporta en el formato que necesites. Texto con timestamps para citar, SRT/VTT para subtítulos, JSON para automatizar (Zapier, Make, n8n).
  5. Corrige nombres propios y cifras. Es donde más fallan los modelos. Una pasada de 2-3 minutos por hora de audio basta para llegar al 99%.

Prueba VOCAP con 30 minutos gratis

Sube un audio y descarga la transcripción con timestamps en SRT, VTT o texto con [HH:MM:SS]. Sin tarjeta.

Probar VOCAP Gratis

Precisión típica y límites

Con audio limpio (un solo hablante, micrófono decente, sin ruido) la precisión típica de Whisper en 2026 es:

Donde la precisión cae:

Errores comunes a evitar

Preguntas frecuentes

¿Qué es un timestamp en una transcripción?

Es la marca que indica el momento exacto del audio (HH:MM:SS) en que se pronuncia una palabra o frase. Permite localizar fragmentos sin escuchar todo, generar subtítulos sincronizados y citar con precisión.

¿Diferencia entre timestamps por palabra y por segmento?

Por segmento marcan inicio y fin de cada frase (5-15 s). Por palabra marcan cada palabra con precisión de milisegundos. Subtítulos clásicos: segmento. Edición basada en texto, karaoke o análisis cuantitativo: palabra.

¿Qué formatos con timestamps existen?

SRT (estándar universal), VTT (web HTML5), JSON (APIs y automatización), TSV/CSV (tabular) y texto plano con marcas [HH:MM:SS] para lectura humana. VOCAP exporta los principales.

¿Qué precisión tienen los timestamps automáticos?

Con Whisper y audio limpio, ±0,5 a ±2 s a nivel de segmento y ±100-300 ms a nivel de palabra. La precisión cae con ruido, voces solapadas o acentos muy marcados.

¿Puedo añadir timestamps a una transcripción que ya tengo?

Sí, con software como Aegisub o Subtitle Edit, pero lleva 4-6 horas por hora de audio. Es más rápido re-procesar el original con un motor que devuelva timestamps automáticos.

¿Cómo consigo timestamps en VOCAP?

Sube el audio y VOCAP devuelve la transcripción con marcas [HH:MM:SS] al inicio de cada segmento, descargable como SRT/VTT para subtítulos o como texto con timestamps. Procesa con Whisper bajo el capó.

Prueba VOCAP gratis 15 min de transcripcion
Empieza Gratis →