🌟 Descripción General (¡Prueba VL Gratis!)
VideoLingo es una herramienta todo en uno para traducción, localización y doblaje de videos, diseñada para generar subtítulos de calidad Netflix. Elimina las traducciones mecánicas y los subtítulos de múltiples líneas mientras agrega doblaje de alta calidad, permitiendo compartir conocimiento globalmente a través de las barreras del idioma.
Características principales:
-
🎥 Descarga de videos de YouTube mediante yt-dlp
-
🎙️ Reconocimiento de subtítulos a nivel de palabra y baja ilusión con WhisperX
-
📝 Segmentación de subtítulos impulsada por NLP e IA
-
📚 Terminología personalizada + generada por IA para una traducción coherente
-
🔄 Proceso de 3 pasos Traducción-Reflexión-Adaptación para calidad cinematográfica
-
✅ Solo subtítulos de una línea, estándar Netflix
-
🗣️ Doblaje con GPT-SoVITS, Azure, OpenAI y más
-
🚀 Inicio y procesamiento con un clic en Streamlit
-
🌍 Soporte multilingüe en la interfaz de Streamlit
-
📝 Registro detallado con reanudación de progreso
Diferencia con proyectos similares: Solo subtítulos de una línea, calidad superior de traducción, experiencia de doblaje perfecta
ru_demo.mp4 |
sovits.mp4 |
Soporte de idiomas de entrada (más por venir):
🇺🇸 Inglés 🤩 | 🇷🇺 Ruso 😊 | 🇫🇷 Francés 🤩 | 🇩🇪 Alemán 🤩 | 🇮🇹 Italiano 🤩 | 🇪🇸 Español 🤩 | 🇯🇵 Japonés 😐 | 🇨🇳 Chino* 😊
*El chino utiliza un modelo whisper mejorado con puntuación por ahora...
La traducción admite todos los idiomas, mientras que el idioma del doblaje depende del método TTS elegido.
No necesitas leer toda la documentación, aquí hay un agente de IA en línea para ayudarte.
Nota: Para usuarios de Windows con GPU NVIDIA, sigue estos pasos antes de la instalación:
- Instala CUDA Toolkit 12.6
- Instala CUDNN 9.3.0
- Agrega
C:\Program Files\NVIDIA\CUDNN\v9.3\bin\12.6
a tu PATH del sistema- Reinicia tu computadora
Nota: Se requiere FFmpeg. Por favor, instálalo a través de gestores de paquetes:
- Windows:
choco install ffmpeg
(vía Chocolatey)- macOS:
brew install ffmpeg
(vía Homebrew)- Linux:
sudo apt install ffmpeg
(Debian/Ubuntu)
- Clona el repositorio
git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
- Instala las dependencias (requiere
python=3.10
)
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
- Inicia la aplicación
streamlit run st.py
Alternativamente, puedes usar Docker (requiere CUDA 12.4 y versión del controlador NVIDIA >550), consulta la documentación de Docker:
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
VideoLingo admite formato de API similar a OpenAI y varias interfaces TTS:
- LLM:
claude-3-5-sonnet-20240620
,deepseek-chat(v3)
,gemini-2.0-flash-exp
,gpt-4o
, ... (ordenados por rendimiento) - WhisperX: Ejecuta whisperX localmente o usa la API de 302.ai
- TTS:
azure-tts
,openai-tts
,siliconflow-fishtts
,fish-tts
,GPT-SoVITS
,edge-tts
,*custom-tts
(¡Puedes modificar tu propio TTS en custom_tts.py!)
Nota: VideoLingo funciona con 302.ai - una clave API para todos los servicios (LLM, WhisperX, TTS). ¡O ejecútalo localmente con Ollama y Edge-TTS gratis, sin necesidad de API!
Para instrucciones detalladas de instalación, configuración de API y modo por lotes, consulta la documentación: English | 中文
-
El rendimiento de transcripción de WhisperX puede verse afectado por el ruido de fondo del video, ya que utiliza el modelo wav2vac para la alineación. Para videos con música de fondo fuerte, activa la Mejora de Separación de Voz. Además, los subtítulos que terminan con números o caracteres especiales pueden truncarse temprano debido a la incapacidad de wav2vac para mapear caracteres numéricos (por ejemplo, "1") a su forma hablada ("uno").
-
El uso de modelos más débiles puede provocar errores durante los procesos intermedios debido a los estrictos requisitos de formato JSON para las respuestas. Si ocurre este error, elimina la carpeta
output
y vuelve a intentarlo con un LLM diferente, de lo contrario, la ejecución repetida leerá la respuesta errónea anterior causando el mismo error. -
La función de doblaje puede no ser 100% perfecta debido a las diferencias en las velocidades de habla y entonación entre idiomas, así como al impacto del paso de traducción. Sin embargo, este proyecto ha implementado un extenso procesamiento de ingeniería para las velocidades de habla para garantizar los mejores resultados posibles de doblaje.
-
El reconocimiento de transcripción de video multilingüe solo mantendrá el idioma principal. Esto se debe a que whisperX utiliza un modelo especializado para un solo idioma al alinear forzosamente los subtítulos a nivel de palabra, y eliminará los idiomas no reconocidos.
-
No se pueden doblar múltiples personajes por separado, ya que la capacidad de distinción de hablantes de whisperX no es suficientemente confiable.
Este proyecto está licenciado bajo la Licencia Apache 2.0. Un agradecimiento especial a los siguientes proyectos de código abierto por sus contribuciones:
whisperX, yt-dlp, json_repair, BELLE
- Envía Issues o Pull Requests en GitHub
- Envíame un DM en Twitter: @Huanshere
- Envíame un correo a: team@videolingo.io
Si encuentras útil VideoLingo, ¡por favor dame una ⭐️!