Aggiungi il file
Trascina il file nel riquadro o sceglilo dal tuo dispositivo.
Genera sottotitoli puliti da timestamp parola per parola con controlli professionali di segmentazione, poi esporta subito in SRT o VTT.
oppure fai clic per scegliere dal tuo dispositivo
[
{"text":"Hello","start":0.12,"end":0.44},
{"text":"everyone,","start":0.44,"end":0.93},
{"text":"welcome.","start":0.93,"end":1.40}
]
// Supportato anche:
// {"words":[{"word":"Hello","start":120,"end":440}]}
// {"results":{"channels":[{"alternatives":[{"words":[...]}]}]}}
Incolla il JSON dei timestamp per validarlo prima della generazione. Il validatore segnala i campi start/end mancanti per indice parola.
Supporta array di parole comuni da AssemblyAI, output in stile Whisper e oggetti parole annidati.
Regola lunghezza riga, durata cue, velocità di lettura, divisioni su punteggiatura e spazio tra cue in base allo stile.
La generazione avviene nel browser. Il file timestamp caricato non viene inviato ad API di conversione esterne.
Usa lo strumento in tre passaggi semplici. Tieni la pagina aperta finché il file è pronto.
Trascina il file nel riquadro o sceglilo dal tuo dispositivo.
Genera SRT, VTT o JSON dai timestamp parola per parola.
Controlla l’anteprima se è disponibile, poi scarica il file finale.
Dà priorità ai confini delle frasi e alle pause opzionali su virgola per cue naturali sullo schermo.
Applica durata minima e massima dei cue con gap configurabili per evitare sovrapposizioni e flash.
Genera SRT o VTT puliti dalla stessa fonte di timestamp senza riformattare manualmente.
Carica JSON in cui ogni parola include il tempo di inizio e fine. Lo strumento rileva automaticamente secondi o millisecondi.
[{"text":"Hello","start":0.12,"end":0.44}] or [{"word":"Hi","start":120,"end":360}].
Finds nested words arrays inside channels, alternatives, segments, or result objects.
Riconosce secondi numerici, millisecondi numerici e stringhe come 00:00:12.340 or 120ms.
Un timestamp parola per parola collega ogni token a inizio e fine. È comune in Whisper e nei moderni flussi STT.
Ogni cue viene creato da timing accurati dei token, non da tempi stimati della frase.
Supports Whisper-style words array e output ASR annidati dai comuni provider speech-to-text.
Usa il validatore integrato per trovare timing mancanti prima di generare file SRT/VTT.
Schema minimo consigliato per una generazione robusta dei sottotitoli:
[{"text":"Hello","start":0.12,"end":0.44}] where start and end are either seconds or milliseconds.
word, start_time, end_time, duration, and nested words arrays.
Genera file di sottotitoli pronti per editor, clip social e video lunghi in SRT o VTT.
Ogni parola dovrebbe avere testo e campi timing. Le chiavi comuni sono text or word, with start and end.
Sì. Lo strumento supporta array di parole diretti e output annidati con timing parola per parola da Whisper e provider STT comuni.
Sì. Imposta “Righe per cue” su 1 e il generatore manterrà ogni cue su una sola riga.
Sì. Inizio e fine dei cue derivano dai timing delle parole e vengono poi rifiniti con durata minima/massima e impostazioni di gap.
Puoi esportare i sottotitoli generati in SRT o VTT.