
F-Voice
Ultima actualización: 27 de febrero de 2025 · 2 min lectura
Conversión de Texto a Voz con IA
Hemos desarrollado un sistema avanzado de conversión de texto a voz (TTS) basado en el modelo VITS-2, logrando una síntesis de voz natural y eficiente. Nuestro modelo, entrenado con una voz específica, ofrece alta calidad en la entonación y pronunciación, con una inferencia rápida en CPU, permitiendo generar audio en cuestión de segundos.
El sistema aprende de audios y textos, relacionándolos para reproducir el contenido escrito con la voz de entrenamiento. Esta tecnología es clave en asistentes virtuales, narraciones para redes sociales y en la interacción con modelos de lenguaje, creando experiencias más realistas e inmersivas.
Actualmente, estamos trabajando en mejorar la interfaz de usuario y ampliar nuestro catálogo de voces.
Nuestra Visión
Nuestro objetivo es desarrollar un amplio catálogo de voces de personajes, complementado con un sistema avanzado de clonación de voz en tiempo real. Buscamos revolucionar la tecnología de conversión de texto a voz (TTS) al ofrecer una experiencia más inmersiva y personalizada.
Un pilar fundamental de nuestro proyecto es la preservación y digitalización de las lenguas originarias de México. Para ello, trabajamos en la recopilación de datos y en la colaboración con hablantes nativos, con el fin de entrenar modelos que permitan una síntesis de voz precisa y auténtica.
A largo plazo, aspiramos a desarrollar un traductor integral que facilite la comunicación en lenguas originarias mediante la conversión de texto a audio, audio a texto y traducción entre distintos idiomas.
Además, planeamos la integración de un modelo de lenguaje (LLM) con capacidades de conversación por voz, permitiendo interacciones naturales y en tiempo real con el sistema. Este avance no solo potenciará la accesibilidad y la inclusión, sino que también abrirá nuevas oportunidades en áreas como la educación, el entretenimiento y la asistencia virtual.