Inicio Precios Blog Contacto

Cómo Crear Subtítulos SRT y VTT con IA en 2026

22 de mayo de 2026 Por VOCAP 12 min de lectura

Subir un vídeo sin subtítulos en 2026 es dejar fuera al 85% de los espectadores que ven contenido en silencio en el metro, en la oficina o en la cama. Y crear subtítulos a mano sigue siendo una de las tareas más tediosas del flujo de edición: marcar tiempos, partir frases, ajustar saltos de línea, traducir a otros idiomas. La IA cambia la ecuación: un archivo SRT o VTT bien hecho a partir de un vídeo de 20 minutos se genera ahora en menos de cinco.

Esta guía explica cómo crear archivos SRT y VTT con IA desde cualquier audio o vídeo: diferencias técnicas entre los dos formatos, código de ejemplo, herramientas, cómo controlar la sincronización y los saltos de línea, cómo traducir los subtítulos a varios idiomas conservando los timestamps y cómo cargarlos en YouTube, Vimeo, Premiere y reproductores HTML5.

85% de vídeos en redes se ven sin sonido
12%+ de retención extra con subtítulos
3-5 min para generar SRT/VTT de 20 min de vídeo

SRT vs VTT: diferencias técnicas

Ambos son archivos de texto plano que asocian frases con marcas de tiempo, pero pertenecen a generaciones distintas. SRT (SubRip Text) nació en 2000 como formato de salida del programa SubRip de extracción de subtítulos de DVD. VTT (WebVTT) es el estándar moderno del W3C, diseñado para reproductores HTML5 y la web semántica.

Característica SRT VTT
Año del estándar 2000 (de facto) 2010 (W3C)
Extensión .srt .vtt
Cabecera obligatoria No Sí (WEBVTT)
Separador decimal Coma (,) Punto (.)
HTML5 nativo (<track>) Solo con conversión Sí, oficial
Estilos CSS No Sí, vía ::cue
Posicionamiento del cue No Sí (line, position, align)
Comentarios NOTE No
Capítulos / regiones No
Soporte YouTube
Soporte Premiere / Final Cut Sí, nativo Conversión recomendada
Soporte Netflix / Disney+ Vía conversión a IMSC/TTML Vía conversión a IMSC/TTML

Cuándo usar cada formato

Regla práctica: si el destino es un reproductor HTML5 en una web propia o una plataforma moderna, exporta VTT. Si el destino es un editor de vídeo (Premiere, Final Cut, DaVinci, CapCut), una plataforma social (YouTube, Vimeo, Facebook) o un reproductor de escritorio (VLC, MX Player), exporta SRT. Ante la duda, exporta SRT: tiene más compatibilidad histórica y casi todas las herramientas saben convertirlo.

Cuándo elegir SRT

Cuándo elegir VTT

Estructura interna de un SRT y un VTT

Ver el archivo por dentro ayuda a entender cómo la IA construye el resultado y cómo arreglarlo si algo se descabala.

Ejemplo de archivo .srt

1
00:00:00,000 --> 00:00:03,200
Bienvenidos al podcast de hoy.

2
00:00:03,500 --> 00:00:07,800
Vamos a hablar de cómo crear
subtítulos con inteligencia artificial.

3
00:00:08,000 --> 00:00:11,400
En cinco minutos vas a tener
un archivo SRT listo para usar.

Cada cue tiene tres partes: un número de orden, un rango temporal con flecha --> y separador decimal con coma, y el texto del subtítulo (una o dos líneas como máximo). Una línea en blanco separa los cues.

Ejemplo de archivo .vtt

WEBVTT

NOTE Subtítulos generados por VOCAP

1
00:00:00.000 --> 00:00:03.200
Bienvenidos al podcast de hoy.

2
00:00:03.500 --> 00:00:07.800 line:90% align:center
Vamos a hablar de cómo crear
subtítulos con inteligencia artificial.

3
00:00:08.000 --> 00:00:11.400
<v Speaker1>En cinco minutos vas a tener un archivo VTT listo para usar.</v>

El VTT exige la cabecera WEBVTT como primera línea, usa punto como separador decimal y permite extras: comentarios con NOTE, posicionamiento del cue (line, align, position) y etiquetas inline como <v Speaker> para diarización de hablantes.

Tip: nunca uses Word o Pages para editar un .srt o .vtt: meten codificación enriquecida que rompe los reproductores. Usa siempre un editor de texto plano (VS Code, Sublime Text, Notepad++, BBEdit) y guarda en UTF-8 sin BOM.

Crear SRT y VTT con VOCAP

VOCAP genera ambos formatos en el mismo proceso de transcripción, con marcas de tiempo a nivel de frase y respetando longitudes recomendadas.

1

Sube el audio o vídeo

Entra en vocap.io/transcribir y arrastra el archivo. VOCAP acepta MP3, WAV, M4A, MP4, MOV, WebM, OGG, FLAC, AAC y OPUS, hasta 150 MB. Si tu vídeo pesa más, extrae el audio con ffmpeg (ffmpeg -i video.mp4 -vn -acodec libmp3lame audio.mp3) y sube solo el audio.

2

Espera la transcripción con timestamps

VOCAP usa Whisper de OpenAI para transcribir y devolver marcas de tiempo a nivel de frase. Para 20 minutos de vídeo, la transcripción tarda entre 3 y 5 minutos.

3

Exporta como SRT o VTT

En el panel de resultados, pulsa Exportar y elige el formato. La segmentación se ajusta automáticamente: máximo 42 caracteres por línea, máximo 6 segundos por cue, cortes en puntuación natural.

4

Revisa en un editor de texto

Abre el .srt o .vtt en VS Code o Sublime Text. Confirma que los timestamps están sincronizados con el audio (puedes pegar el archivo en un reproductor que cargue subtítulos para verificarlo) y corrige cualquier nombre propio que la IA haya transcrito mal.

5

Carga el archivo en tu plataforma

Pasa al apartado correspondiente: YouTube, Vimeo, Premiere o HTML5. Cada uno tiene un flujo de carga diferente que se describe en las secciones siguientes.

Crea Tu Primer SRT/VTT Gratis

30 minutos de transcripción con exportación SRT y VTT incluidos. Sin tarjeta de crédito.

Probar VOCAP Gratis

Cargar VTT en HTML5 con <track>

El reproductor HTML5 nativo soporta subtítulos de forma estándar gracias al elemento <track>. Solo acepta VTT.

<video controls width="720">
  <source src="podcast.mp4" type="video/mp4">

  <track
    label="Español"
    kind="subtitles"
    srclang="es"
    src="podcast-es.vtt"
    default>

  <track
    label="English"
    kind="subtitles"
    srclang="en"
    src="podcast-en.vtt">

  <track
    label="Capítulos"
    kind="chapters"
    srclang="es"
    src="podcast-chapters.vtt">
</video>

El atributo default marca la pista que se activa al cargar el vídeo. Si sirves el HTML desde un dominio y el VTT desde otro (por ejemplo CDN), recuerda configurar crossorigin="anonymous" en el <video> y los headers Access-Control-Allow-Origin en el servidor del VTT.

Error común: servir el .vtt con el MIME type incorrecto. Configura tu servidor para devolver text/vtt; si devuelve text/plain o application/octet-stream, Chrome y Firefox ignoran el archivo silenciosamente. En Nginx: types { text/vtt vtt; }. En Apache: AddType text/vtt .vtt. En Vercel o Netlify se configura desde el panel.

Estilar los subtítulos VTT con CSS

video::cue {
  background-color: rgba(0, 0, 0, 0.7);
  color: #ffeb3b;
  font-family: "Inter", sans-serif;
  font-size: 1.1em;
  text-shadow: 0 1px 2px #000;
}

video::cue(b) {
  color: #ff5252;
}

Solo el VTT soporta este nivel de control. Si exportas SRT y necesitas estilos, tendrás que quemarlos en el vídeo con ffmpeg o herramientas como HandBrake.

Subir SRT/VTT a YouTube y Vimeo

YouTube

  1. Entra en YouTube Studio > Contenido > selecciona tu vídeo
  2. Pestaña Subtítulos en la barra izquierda
  3. Añadir idioma > elige el idioma del archivo
  4. Pulsa Añadir bajo "Subtítulos" > Subir archivo
  5. Selecciona "Con tiempos" y sube el .srt o .vtt
  6. YouTube los activa al instante; el botón CC del reproductor los muestra

YouTube genera además subtítulos automáticos en su propio sistema, pero la calidad en español es del 75-85%. Subir tu propio SRT generado por VOCAP da una precisión por encima del 95% y mejora la indexación del vídeo en el buscador.

Vimeo

  1. Abre el vídeo en Vimeo y pulsa Configuración
  2. Pestaña Distribución > sección Subtítulos
  3. Pulsa + Añadir archivo CC/Subtítulos
  4. Sube el .srt o .vtt y selecciona el idioma
  5. Activa la casilla "Disponible" para que el espectador pueda elegirlos

Importar SRT en Premiere y Final Cut

Premiere Pro

Desde 2022, Premiere importa archivos .srt directamente:

  1. Ventana > Texto > Subtítulos > Importar de SRT
  2. Selecciona el archivo .srt generado por VOCAP
  3. Aparece una pista nueva de subtítulos en la timeline
  4. Cada cue se puede editar individualmente; arrastra los bordes para ajustar tiempos
  5. Para exportar el vídeo con subtítulos quemados, en el panel Exportar activa "Quemar subtítulos en vídeo"
  6. Para exportar como pista de subtítulos separada (sidecar), elige "Crear archivo de subtítulos"

Final Cut Pro

Final Cut prefiere el formato iTT (iTunes Timed Text) pero acepta SRT con un atajo:

  1. Archivo > Importar > Subtítulos
  2. Selecciona el .srt; FCP lo convierte automáticamente a iTT internamente
  3. La pista aparece en la timeline con los cues editables
  4. Para exportar pista CEA-608 o iTT, usa Compartir > Archivo principal > Roles

DaVinci Resolve y CapCut

DaVinci Resolve importa SRT desde la versión 18 (Edit > Importar > Subtítulos). CapCut Desktop y Web también soportan SRT desde 2024 (timeline > Subtítulos > Importar archivo). En CapCut móvil la importación es algo más limitada y conviene generar los subtítulos desde la propia app a partir del audio.

Traducir subtítulos a otros idiomas

El flujo clásico de traducir subtítulos consistía en pasar el SRT por un traductor humano o por DeepL pegando manualmente cue a cue. Con IA, el proceso se reduce a un único paso porque VOCAP traduce conservando los timestamps.

1

Transcribe el audio en su idioma original

Por ejemplo, un podcast en español. VOCAP genera el SRT/VTT en español con timestamps.

2

Activa la traducción a los idiomas que necesites

Inglés, francés, alemán, italiano, portugués o cualquiera de los 90 idiomas soportados. Cada idioma genera un archivo SRT/VTT independiente con los mismos timestamps.

3

Sube las pistas alternativas a YouTube o tu reproductor

YouTube permite añadir tantos idiomas como quieras desde Subtítulos > Añadir idioma. En HTML5, simplemente añade un <track> por idioma con el atributo srclang correspondiente.

Por qué importa la traducción de subtítulos: un vídeo con subtítulos en 3 idiomas multiplica el alcance potencial por 3-5x. YouTube indexa por idioma de subtítulos, así que un podcast en español con subs en inglés y portugués aparecerá en búsquedas de los tres mercados. El coste marginal con IA es de céntimos por idioma; el coste con traductor humano sería de 50-100 EUR.

Mejores prácticas: longitud, tiempos, lectura

Las directrices CSA (Francia), BBC (UK), Netflix Style Guide y CPL (Captioned Media Program de EE. UU.) coinciden en casi todo.

Regla Valor recomendado Por qué
Caracteres por línea Máx. 42 Cabe en pantallas de 16:9 sin saturar
Líneas por cue Máx. 2 Más bloquea la imagen
Duración por cue 1-6 segundos Tiempo de lectura cómodo
Velocidad de lectura < 17 caracteres/segundo Estándar BBC y Netflix
Hueco entre cues ≥ 80 ms Evita parpadeo entre subtítulos
Corte de línea En puntuación natural No cortar sintagmas
Identificación de hablantes Sólo si hay confusión Usa "- " o <v> en VTT

Subtítulos hechos a mano

  • 3-5 horas por cada hora de vídeo
  • Errores frecuentes de sincronización
  • Inconsistencia entre cues
  • Traducir multiplica el coste por idioma
  • Aburrimiento garantizado

Subtítulos con VOCAP + IA

  • 3-5 minutos por cada hora de vídeo
  • Sincronización perfecta a nivel de frase
  • Reglas CSA/BBC aplicadas por defecto
  • Traducción a 90 idiomas en el mismo paso
  • Tiempo libre para edición creativa

Casos de uso reales

Podcasters con vídeo

Convierten episodios de YouTube y Spotify Video en contenido accesible y mejor indexado.

  • SRT para subir a YouTube
  • VTT para web propia del podcast
  • Traducciones a inglés y portugués
  • Mejora SEO del vídeo

Cursos online y formadores

Generan subtítulos accesibles para sus academias en Moodle, Teachable o web propia.

  • VTT para reproductor HTML5
  • Capítulos en VTT separado
  • Cumplimiento WCAG 2.2
  • Alumnos en idiomas distintos

Creadores de Reels y Shorts

Subtítulos quemados o sidecar para Instagram, TikTok y YouTube Shorts.

  • SRT como fuente
  • Quemado vía ffmpeg o CapCut
  • Estilos por plataforma
  • Mejora retención del 80%

Empresas y vídeo corporativo

Onboarding, formación interna, vídeos de producto multilingües.

  • SRT para Premiere
  • Traducción a inglés/francés
  • Accesibilidad en intranet
  • Aprovechamiento internacional

Periodistas y documentales

Entrevistas grabadas con subtítulos exactos para emisión.

  • SRT compatible con editores broadcast
  • Marcas de hablantes en VTT
  • Citas con timestamp exacto
  • Versionado a varios idiomas

Streamers y editores de gaming

VODs de Twitch y YouTube Gaming con subtítulos automáticos.

  • SRT a partir del VOD largo
  • Traducción para audiencia global
  • Mejor SEO en YouTube
  • Accesibilidad de la comunidad

Genera Tus Subtítulos SRT y VTT en Minutos

Prueba VOCAP gratis: 30 minutos de transcripción con exportación SRT y VTT incluidos. Sin tarjeta. Funciona en Mac, Windows, Linux, iPhone y Android desde Safari o Chrome.

Empezar Gratis

Preguntas frecuentes

¿Qué diferencia hay entre SRT y VTT?

SRT (SubRip Text) es el formato más antiguo y compatible: lo soporta YouTube, Vimeo, Premiere, Final Cut, VLC, Netflix y prácticamente cualquier reproductor. Usa marcas de tiempo con coma como separador decimal. VTT (WebVTT) es el estándar moderno de la web: lo usan los reproductores HTML5 a través del elemento <track>, soporta estilos CSS, posicionamiento de texto en pantalla y comentarios. Usa punto como separador decimal. Para web moderna usa VTT; para vídeo editado o subido a plataformas, usa SRT.

¿Puedo crear un SRT directamente desde un audio sin vídeo?

Sí. El SRT y el VTT son solo texto con marcas de tiempo, no contienen vídeo. VOCAP genera el archivo desde cualquier MP3, WAV, M4A u OGG. El audio se transcribe con Whisper, se segmenta automáticamente en frases de 3-6 segundos y se exporta como .srt o .vtt listo para sincronizar con el vídeo que crees después o para usar como base de subtítulos de un podcast.

¿Cómo se hace la traducción automática de un SRT a otro idioma?

VOCAP transcribe el audio en su idioma original y, en el mismo proceso, puede traducir el resultado a inglés, francés, alemán, italiano, portugués u otros 90 idiomas conservando las marcas de tiempo. La traducción la hace Claude después de la transcripción, frase a frase, para que cada cue conserve su posición temporal. El resultado son dos archivos SRT/VTT: original y traducido.

¿Qué duración debe tener cada línea de subtítulo?

Las directrices del CSA, BBC y Netflix coinciden: máximo 42 caracteres por línea, máximo 2 líneas por cue, duración entre 1 y 6 segundos, y una velocidad de lectura por debajo de 17 caracteres por segundo. VOCAP segmenta automáticamente respetando estos límites.

¿Por qué YouTube acepta SRT y VTT pero los muestra distinto?

YouTube ingiere ambos formatos pero internamente los convierte a su propio formato JSON3. El resultado visual es idéntico para el espectador. La diferencia práctica es que VTT permite incluir metadatos (NOTE), cue settings (posición, alineación) y formato (cursiva, negrita) que SRT no soporta de forma estándar.

Empieza a Crear Subtítulos Profesionales Hoy

30 minutos de transcripción gratis con exportación SRT y VTT. Sin tarjeta de crédito.

Probar VOCAP Gratis
Prueba VOCAP gratis 15 min de transcripcion
Empieza Gratis →