Conectando el Mundo, Cuadro por Cuadro

English｜简体中文｜繁體中文｜日本語｜Español｜Русский｜Français

🌟 Descripción General (¡Prueba VL Gratis!)

VideoLingo es una herramienta todo en uno para traducción, localización y doblaje de videos, diseñada para generar subtítulos de calidad Netflix. Elimina las traducciones mecánicas y los subtítulos de múltiples líneas mientras agrega doblaje de alta calidad, permitiendo compartir conocimiento globalmente a través de las barreras del idioma.

Características principales:

🎥 Descarga de videos de YouTube mediante yt-dlp
🎙️ Reconocimiento de subtítulos a nivel de palabra y baja ilusión con WhisperX
📝 Segmentación de subtítulos impulsada por NLP e IA
📚 Terminología personalizada + generada por IA para una traducción coherente
🔄 Proceso de 3 pasos Traducción-Reflexión-Adaptación para calidad cinematográfica
✅ Solo subtítulos de una línea, estándar Netflix
🗣️ Doblaje con GPT-SoVITS, Azure, OpenAI y más
🚀 Inicio y procesamiento con un clic en Streamlit
🌍 Soporte multilingüe en la interfaz de Streamlit
📝 Registro detallado con reanudación de progreso

Diferencia con proyectos similares: Solo subtítulos de una línea, calidad superior de traducción, experiencia de doblaje perfecta

🎥 Demo

Traducción al Ruso

ru_demo.mp4

Doblaje GPT-SoVITS

sovits.mp4

Soporte de Idiomas

Soporte de idiomas de entrada (más por venir):

*El chino utiliza un modelo whisper mejorado con puntuación por ahora...

La traducción admite todos los idiomas, mientras que el idioma del doblaje depende del método TTS elegido.

Instalación

No necesitas leer toda la documentación, aquí hay un agente de IA en línea para ayudarte.

Nota: Para usuarios de Windows con GPU NVIDIA, sigue estos pasos antes de la instalación:

Instala CUDA Toolkit 12.6

Instala CUDNN 9.3.0

Agrega C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6 a tu PATH del sistema

Reinicia tu computadora

Nota: Se requiere FFmpeg. Por favor, instálalo a través de gestores de paquetes:

Windows: choco install ffmpeg (vía Chocolatey)

macOS: brew install ffmpeg (vía Homebrew)

Linux: sudo apt install ffmpeg (Debian/Ubuntu)

Clona el repositorio

git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

Instala las dependencias (requiere python=3.10)

conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py

Inicia la aplicación

streamlit run st.py

Docker

Alternativamente, puedes usar Docker (requiere CUDA 12.4 y versión del controlador NVIDIA >550), consulta la documentación de Docker:

docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo

APIs

VideoLingo admite formato de API similar a OpenAI y varias interfaces TTS:

LLM: claude-3-5-sonnet-20240620, deepseek-chat(v3), gemini-2.0-flash-exp, gpt-4o, ... (ordenados por rendimiento)
WhisperX: Ejecuta whisperX localmente o usa la API de 302.ai
TTS: azure-tts, openai-tts, siliconflow-fishtts, fish-tts, GPT-SoVITS, edge-tts, *custom-tts(¡Puedes modificar tu propio TTS en custom_tts.py!)

Nota: VideoLingo funciona con 302.ai - una clave API para todos los servicios (LLM, WhisperX, TTS). ¡O ejecútalo localmente con Ollama y Edge-TTS gratis, sin necesidad de API!

Para instrucciones detalladas de instalación, configuración de API y modo por lotes, consulta la documentación: English | 中文

Limitaciones Actuales

El rendimiento de transcripción de WhisperX puede verse afectado por el ruido de fondo del video, ya que utiliza el modelo wav2vac para la alineación. Para videos con música de fondo fuerte, activa la Mejora de Separación de Voz. Además, los subtítulos que terminan con números o caracteres especiales pueden truncarse temprano debido a la incapacidad de wav2vac para mapear caracteres numéricos (por ejemplo, "1") a su forma hablada ("uno").
El uso de modelos más débiles puede provocar errores durante los procesos intermedios debido a los estrictos requisitos de formato JSON para las respuestas. Si ocurre este error, elimina la carpeta output y vuelve a intentarlo con un LLM diferente, de lo contrario, la ejecución repetida leerá la respuesta errónea anterior causando el mismo error.
La función de doblaje puede no ser 100% perfecta debido a las diferencias en las velocidades de habla y entonación entre idiomas, así como al impacto del paso de traducción. Sin embargo, este proyecto ha implementado un extenso procesamiento de ingeniería para las velocidades de habla para garantizar los mejores resultados posibles de doblaje.
El reconocimiento de transcripción de video multilingüe solo mantendrá el idioma principal. Esto se debe a que whisperX utiliza un modelo especializado para un solo idioma al alinear forzosamente los subtítulos a nivel de palabra, y eliminará los idiomas no reconocidos.
No se pueden doblar múltiples personajes por separado, ya que la capacidad de distinción de hablantes de whisperX no es suficientemente confiable.

📄 Licencia

Este proyecto está licenciado bajo la Licencia Apache 2.0. Un agradecimiento especial a los siguientes proyectos de código abierto por sus contribuciones:

whisperX, yt-dlp, json_repair, BELLE

📬 Contáctame

Envía Issues o Pull Requests en GitHub
Envíame un DM en Twitter: @Huanshere
Envíame un correo a: team@videolingo.io

⭐ Historial de Estrellas

Si encuentras útil VideoLingo, ¡por favor dame una ⭐️!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.es.md

README.es.md

Conectando el Mundo, Cuadro por Cuadro

🌟 Descripción General (¡Prueba VL Gratis!)

🎥 Demo

Traducción al Ruso

Doblaje GPT-SoVITS

Soporte de Idiomas

Instalación

Docker

APIs

Limitaciones Actuales

📄 Licencia

📬 Contáctame

⭐ Historial de Estrellas

Files

README.es.md

Latest commit

History

README.es.md

File metadata and controls

Conectando el Mundo, Cuadro por Cuadro

🌟 Descripción General (¡Prueba VL Gratis!)

🎥 Demo

Traducción al Ruso

Doblaje GPT-SoVITS

Soporte de Idiomas

Instalación

Docker

APIs

Limitaciones Actuales

📄 Licencia

📬 Contáctame

⭐ Historial de Estrellas