Subir un vídeo sin subtítulos en 2026 es dejar fuera al 85% de los espectadores que ven contenido en silencio en el metro, en la oficina o en la cama. Y crear subtítulos a mano sigue siendo una de las tareas más tediosas del flujo de edición: marcar tiempos, partir frases, ajustar saltos de línea, traducir a otros idiomas. La IA cambia la ecuación: un archivo SRT o VTT bien hecho a partir de un vídeo de 20 minutos se genera ahora en menos de cinco.
Esta guía explica cómo crear archivos SRT y VTT con IA desde cualquier audio o vídeo: diferencias técnicas entre los dos formatos, código de ejemplo, herramientas, cómo controlar la sincronización y los saltos de línea, cómo traducir los subtítulos a varios idiomas conservando los timestamps y cómo cargarlos en YouTube, Vimeo, Premiere y reproductores HTML5.
Contenidos del artículo
- SRT vs VTT: diferencias técnicas
- Cuándo usar cada formato
- Estructura interna de un SRT y un VTT
- Crear SRT y VTT con VOCAP
- Cargar VTT en HTML5 con <track>
- Subir SRT/VTT a YouTube y Vimeo
- Importar SRT en Premiere y Final Cut
- Traducir subtítulos a otros idiomas
- Mejores prácticas: longitud, tiempos, lectura
- Preguntas frecuentes
SRT vs VTT: diferencias técnicas
Ambos son archivos de texto plano que asocian frases con marcas de tiempo, pero pertenecen a generaciones distintas. SRT (SubRip Text) nació en 2000 como formato de salida del programa SubRip de extracción de subtítulos de DVD. VTT (WebVTT) es el estándar moderno del W3C, diseñado para reproductores HTML5 y la web semántica.
| Característica | SRT | VTT |
|---|---|---|
| Año del estándar | 2000 (de facto) | 2010 (W3C) |
| Extensión | .srt | .vtt |
| Cabecera obligatoria | No | Sí (WEBVTT) |
| Separador decimal | Coma (,) | Punto (.) |
| HTML5 nativo (<track>) | Solo con conversión | Sí, oficial |
| Estilos CSS | No | Sí, vía ::cue |
| Posicionamiento del cue | No | Sí (line, position, align) |
| Comentarios NOTE | No | Sí |
| Capítulos / regiones | No | Sí |
| Soporte YouTube | Sí | Sí |
| Soporte Premiere / Final Cut | Sí, nativo | Conversión recomendada |
| Soporte Netflix / Disney+ | Vía conversión a IMSC/TTML | Vía conversión a IMSC/TTML |
Cuándo usar cada formato
Regla práctica: si el destino es un reproductor HTML5 en una web propia o una plataforma moderna, exporta VTT. Si el destino es un editor de vídeo (Premiere, Final Cut, DaVinci, CapCut), una plataforma social (YouTube, Vimeo, Facebook) o un reproductor de escritorio (VLC, MX Player), exporta SRT. Ante la duda, exporta SRT: tiene más compatibilidad histórica y casi todas las herramientas saben convertirlo.
Cuándo elegir SRT
- Edición de vídeo: Premiere Pro y DaVinci Resolve lo importan a la timeline como pista de subtítulos editable
- Reproductores de escritorio: VLC, MPC-HC, MX Player lo reconocen automáticamente si comparte nombre con el .mp4
- Subida a YouTube y Vimeo: ambos lo aceptan sin conversión
- Distribución a clientes: es el formato que casi todo el mundo sabe abrir
Cuándo elegir VTT
- Reproductor HTML5 propio: el elemento <track> del <video> solo acepta VTT oficialmente
- Cursos y plataformas LMS: Moodle, Canvas, Coursera o tu propio reproductor de vídeo prefieren VTT
- Subtítulos con estilo: si necesitas colores, posicionamiento o cursiva sin quemar texto en el vídeo
- Pistas de capítulos: VTT soporta <track kind="chapters"> para navegación por marcadores
- Aplicaciones web modernas: React, Vue o cualquier framework que use el reproductor nativo del navegador
Estructura interna de un SRT y un VTT
Ver el archivo por dentro ayuda a entender cómo la IA construye el resultado y cómo arreglarlo si algo se descabala.
Ejemplo de archivo .srt
1 00:00:00,000 --> 00:00:03,200 Bienvenidos al podcast de hoy. 2 00:00:03,500 --> 00:00:07,800 Vamos a hablar de cómo crear subtítulos con inteligencia artificial. 3 00:00:08,000 --> 00:00:11,400 En cinco minutos vas a tener un archivo SRT listo para usar.
Cada cue tiene tres partes: un número de orden, un rango temporal con flecha --> y separador decimal con coma, y el texto del subtítulo (una o dos líneas como máximo). Una línea en blanco separa los cues.
Ejemplo de archivo .vtt
WEBVTT NOTE Subtítulos generados por VOCAP 1 00:00:00.000 --> 00:00:03.200 Bienvenidos al podcast de hoy. 2 00:00:03.500 --> 00:00:07.800 line:90% align:center Vamos a hablar de cómo crear subtítulos con inteligencia artificial. 3 00:00:08.000 --> 00:00:11.400 <v Speaker1>En cinco minutos vas a tener un archivo VTT listo para usar.</v>
El VTT exige la cabecera WEBVTT como primera línea, usa punto como separador decimal y permite extras: comentarios con NOTE, posicionamiento del cue (line, align, position) y etiquetas inline como <v Speaker> para diarización de hablantes.
Tip: nunca uses Word o Pages para editar un .srt o .vtt: meten codificación enriquecida que rompe los reproductores. Usa siempre un editor de texto plano (VS Code, Sublime Text, Notepad++, BBEdit) y guarda en UTF-8 sin BOM.
Crear SRT y VTT con VOCAP
VOCAP genera ambos formatos en el mismo proceso de transcripción, con marcas de tiempo a nivel de frase y respetando longitudes recomendadas.
Sube el audio o vídeo
Entra en vocap.io/transcribir y arrastra el archivo. VOCAP acepta MP3, WAV, M4A, MP4, MOV, WebM, OGG, FLAC, AAC y OPUS, hasta 150 MB. Si tu vídeo pesa más, extrae el audio con ffmpeg (ffmpeg -i video.mp4 -vn -acodec libmp3lame audio.mp3) y sube solo el audio.
Espera la transcripción con timestamps
VOCAP usa Whisper de OpenAI para transcribir y devolver marcas de tiempo a nivel de frase. Para 20 minutos de vídeo, la transcripción tarda entre 3 y 5 minutos.
Exporta como SRT o VTT
En el panel de resultados, pulsa Exportar y elige el formato. La segmentación se ajusta automáticamente: máximo 42 caracteres por línea, máximo 6 segundos por cue, cortes en puntuación natural.
Revisa en un editor de texto
Abre el .srt o .vtt en VS Code o Sublime Text. Confirma que los timestamps están sincronizados con el audio (puedes pegar el archivo en un reproductor que cargue subtítulos para verificarlo) y corrige cualquier nombre propio que la IA haya transcrito mal.
Carga el archivo en tu plataforma
Pasa al apartado correspondiente: YouTube, Vimeo, Premiere o HTML5. Cada uno tiene un flujo de carga diferente que se describe en las secciones siguientes.
Crea Tu Primer SRT/VTT Gratis
30 minutos de transcripción con exportación SRT y VTT incluidos. Sin tarjeta de crédito.
Probar VOCAP GratisCargar VTT en HTML5 con <track>
El reproductor HTML5 nativo soporta subtítulos de forma estándar gracias al elemento <track>. Solo acepta VTT.
<video controls width="720">
<source src="podcast.mp4" type="video/mp4">
<track
label="Español"
kind="subtitles"
srclang="es"
src="podcast-es.vtt"
default>
<track
label="English"
kind="subtitles"
srclang="en"
src="podcast-en.vtt">
<track
label="Capítulos"
kind="chapters"
srclang="es"
src="podcast-chapters.vtt">
</video>
El atributo default marca la pista que se activa al cargar el vídeo. Si sirves el HTML desde un dominio y el VTT desde otro (por ejemplo CDN), recuerda configurar crossorigin="anonymous" en el <video> y los headers Access-Control-Allow-Origin en el servidor del VTT.
Error común: servir el .vtt con el MIME type incorrecto. Configura tu servidor para devolver text/vtt; si devuelve text/plain o application/octet-stream, Chrome y Firefox ignoran el archivo silenciosamente. En Nginx: types { text/vtt vtt; }. En Apache: AddType text/vtt .vtt. En Vercel o Netlify se configura desde el panel.
Estilar los subtítulos VTT con CSS
video::cue {
background-color: rgba(0, 0, 0, 0.7);
color: #ffeb3b;
font-family: "Inter", sans-serif;
font-size: 1.1em;
text-shadow: 0 1px 2px #000;
}
video::cue(b) {
color: #ff5252;
}
Solo el VTT soporta este nivel de control. Si exportas SRT y necesitas estilos, tendrás que quemarlos en el vídeo con ffmpeg o herramientas como HandBrake.
Subir SRT/VTT a YouTube y Vimeo
YouTube
- Entra en YouTube Studio > Contenido > selecciona tu vídeo
- Pestaña Subtítulos en la barra izquierda
- Añadir idioma > elige el idioma del archivo
- Pulsa Añadir bajo "Subtítulos" > Subir archivo
- Selecciona "Con tiempos" y sube el .srt o .vtt
- YouTube los activa al instante; el botón CC del reproductor los muestra
YouTube genera además subtítulos automáticos en su propio sistema, pero la calidad en español es del 75-85%. Subir tu propio SRT generado por VOCAP da una precisión por encima del 95% y mejora la indexación del vídeo en el buscador.
Vimeo
- Abre el vídeo en Vimeo y pulsa Configuración
- Pestaña Distribución > sección Subtítulos
- Pulsa + Añadir archivo CC/Subtítulos
- Sube el .srt o .vtt y selecciona el idioma
- Activa la casilla "Disponible" para que el espectador pueda elegirlos
Importar SRT en Premiere y Final Cut
Premiere Pro
Desde 2022, Premiere importa archivos .srt directamente:
- Ventana > Texto > Subtítulos > Importar de SRT
- Selecciona el archivo .srt generado por VOCAP
- Aparece una pista nueva de subtítulos en la timeline
- Cada cue se puede editar individualmente; arrastra los bordes para ajustar tiempos
- Para exportar el vídeo con subtítulos quemados, en el panel Exportar activa "Quemar subtítulos en vídeo"
- Para exportar como pista de subtítulos separada (sidecar), elige "Crear archivo de subtítulos"
Final Cut Pro
Final Cut prefiere el formato iTT (iTunes Timed Text) pero acepta SRT con un atajo:
- Archivo > Importar > Subtítulos
- Selecciona el .srt; FCP lo convierte automáticamente a iTT internamente
- La pista aparece en la timeline con los cues editables
- Para exportar pista CEA-608 o iTT, usa Compartir > Archivo principal > Roles
DaVinci Resolve y CapCut
DaVinci Resolve importa SRT desde la versión 18 (Edit > Importar > Subtítulos). CapCut Desktop y Web también soportan SRT desde 2024 (timeline > Subtítulos > Importar archivo). En CapCut móvil la importación es algo más limitada y conviene generar los subtítulos desde la propia app a partir del audio.
Traducir subtítulos a otros idiomas
El flujo clásico de traducir subtítulos consistía en pasar el SRT por un traductor humano o por DeepL pegando manualmente cue a cue. Con IA, el proceso se reduce a un único paso porque VOCAP traduce conservando los timestamps.
Transcribe el audio en su idioma original
Por ejemplo, un podcast en español. VOCAP genera el SRT/VTT en español con timestamps.
Activa la traducción a los idiomas que necesites
Inglés, francés, alemán, italiano, portugués o cualquiera de los 90 idiomas soportados. Cada idioma genera un archivo SRT/VTT independiente con los mismos timestamps.
Sube las pistas alternativas a YouTube o tu reproductor
YouTube permite añadir tantos idiomas como quieras desde Subtítulos > Añadir idioma. En HTML5, simplemente añade un <track> por idioma con el atributo srclang correspondiente.
Por qué importa la traducción de subtítulos: un vídeo con subtítulos en 3 idiomas multiplica el alcance potencial por 3-5x. YouTube indexa por idioma de subtítulos, así que un podcast en español con subs en inglés y portugués aparecerá en búsquedas de los tres mercados. El coste marginal con IA es de céntimos por idioma; el coste con traductor humano sería de 50-100 EUR.
Mejores prácticas: longitud, tiempos, lectura
Las directrices CSA (Francia), BBC (UK), Netflix Style Guide y CPL (Captioned Media Program de EE. UU.) coinciden en casi todo.
| Regla | Valor recomendado | Por qué |
|---|---|---|
| Caracteres por línea | Máx. 42 | Cabe en pantallas de 16:9 sin saturar |
| Líneas por cue | Máx. 2 | Más bloquea la imagen |
| Duración por cue | 1-6 segundos | Tiempo de lectura cómodo |
| Velocidad de lectura | < 17 caracteres/segundo | Estándar BBC y Netflix |
| Hueco entre cues | ≥ 80 ms | Evita parpadeo entre subtítulos |
| Corte de línea | En puntuación natural | No cortar sintagmas |
| Identificación de hablantes | Sólo si hay confusión | Usa "- " o <v> en VTT |
Subtítulos hechos a mano
- 3-5 horas por cada hora de vídeo
- Errores frecuentes de sincronización
- Inconsistencia entre cues
- Traducir multiplica el coste por idioma
- Aburrimiento garantizado
Subtítulos con VOCAP + IA
- 3-5 minutos por cada hora de vídeo
- Sincronización perfecta a nivel de frase
- Reglas CSA/BBC aplicadas por defecto
- Traducción a 90 idiomas en el mismo paso
- Tiempo libre para edición creativa
Casos de uso reales
Podcasters con vídeo
Convierten episodios de YouTube y Spotify Video en contenido accesible y mejor indexado.
- SRT para subir a YouTube
- VTT para web propia del podcast
- Traducciones a inglés y portugués
- Mejora SEO del vídeo
Cursos online y formadores
Generan subtítulos accesibles para sus academias en Moodle, Teachable o web propia.
- VTT para reproductor HTML5
- Capítulos en VTT separado
- Cumplimiento WCAG 2.2
- Alumnos en idiomas distintos
Creadores de Reels y Shorts
Subtítulos quemados o sidecar para Instagram, TikTok y YouTube Shorts.
- SRT como fuente
- Quemado vía ffmpeg o CapCut
- Estilos por plataforma
- Mejora retención del 80%
Empresas y vídeo corporativo
Onboarding, formación interna, vídeos de producto multilingües.
- SRT para Premiere
- Traducción a inglés/francés
- Accesibilidad en intranet
- Aprovechamiento internacional
Periodistas y documentales
Entrevistas grabadas con subtítulos exactos para emisión.
- SRT compatible con editores broadcast
- Marcas de hablantes en VTT
- Citas con timestamp exacto
- Versionado a varios idiomas
Streamers y editores de gaming
VODs de Twitch y YouTube Gaming con subtítulos automáticos.
- SRT a partir del VOD largo
- Traducción para audiencia global
- Mejor SEO en YouTube
- Accesibilidad de la comunidad
Genera Tus Subtítulos SRT y VTT en Minutos
Prueba VOCAP gratis: 30 minutos de transcripción con exportación SRT y VTT incluidos. Sin tarjeta. Funciona en Mac, Windows, Linux, iPhone y Android desde Safari o Chrome.
Empezar GratisPreguntas frecuentes
¿Qué diferencia hay entre SRT y VTT?
SRT (SubRip Text) es el formato más antiguo y compatible: lo soporta YouTube, Vimeo, Premiere, Final Cut, VLC, Netflix y prácticamente cualquier reproductor. Usa marcas de tiempo con coma como separador decimal. VTT (WebVTT) es el estándar moderno de la web: lo usan los reproductores HTML5 a través del elemento <track>, soporta estilos CSS, posicionamiento de texto en pantalla y comentarios. Usa punto como separador decimal. Para web moderna usa VTT; para vídeo editado o subido a plataformas, usa SRT.
¿Puedo crear un SRT directamente desde un audio sin vídeo?
Sí. El SRT y el VTT son solo texto con marcas de tiempo, no contienen vídeo. VOCAP genera el archivo desde cualquier MP3, WAV, M4A u OGG. El audio se transcribe con Whisper, se segmenta automáticamente en frases de 3-6 segundos y se exporta como .srt o .vtt listo para sincronizar con el vídeo que crees después o para usar como base de subtítulos de un podcast.
¿Cómo se hace la traducción automática de un SRT a otro idioma?
VOCAP transcribe el audio en su idioma original y, en el mismo proceso, puede traducir el resultado a inglés, francés, alemán, italiano, portugués u otros 90 idiomas conservando las marcas de tiempo. La traducción la hace Claude después de la transcripción, frase a frase, para que cada cue conserve su posición temporal. El resultado son dos archivos SRT/VTT: original y traducido.
¿Qué duración debe tener cada línea de subtítulo?
Las directrices del CSA, BBC y Netflix coinciden: máximo 42 caracteres por línea, máximo 2 líneas por cue, duración entre 1 y 6 segundos, y una velocidad de lectura por debajo de 17 caracteres por segundo. VOCAP segmenta automáticamente respetando estos límites.
¿Por qué YouTube acepta SRT y VTT pero los muestra distinto?
YouTube ingiere ambos formatos pero internamente los convierte a su propio formato JSON3. El resultado visual es idéntico para el espectador. La diferencia práctica es que VTT permite incluir metadatos (NOTE), cue settings (posición, alineación) y formato (cursiva, negrita) que SRT no soporta de forma estándar.
Empieza a Crear Subtítulos Profesionales Hoy
30 minutos de transcripción gratis con exportación SRT y VTT. Sin tarjeta de crédito.
Probar VOCAP Gratis