840 560

OpenAI presenta Whisper V3, la herramienta más útil y accesible que ha pasado desapercibida

Sam Altman casi no le dedicó tiempo durante el OpenAI DevDay. Toda la atención se centró en GPT-4 Turbo y los GPTs. Sin embargo, para quienes no pagamos por la inteligencia artificial ni nos hemos acostumbrado todavía a crear con los prompts, hay una herramienta mucho más sencilla y efectiva.

Hablamos de Whisper, que esta semana ha alcanzado su tercera generación. Es el modelo de reconocimiento de voz que no solo entiende y traduce decenas de idiomas, sino que es capaz de transcribir conversaciones enteras con una precisión sorprendente.

Al contrario que ChatGPT o DALL·E, Whisper V3 es open source. Su código está publicado ya en Github y puede ser utilizado libremente a través de Hugging Face o Replicate. Utilizar Whisper es tan sencillo como subir el archivo de audio y darle a ejecutar.

Tabla de Contenidos

Whisper V3 acierta hasta las comas

Whisper V3 ha sido entrenado con más de un millón de horas de audio etiquetado y con más de 4 millones de horas de audio pseudoetiquetado. En comparación con el modelo anterior, Whisper ahora tiene entre un 10 y un 20% menos de errores. En el caso del español, la tasa de errores se sitúa por debajo del 5%, siendo uno de los idiomas que mejor entiende este modelo.

En mi caso he estado utilizando Whisper V2 durante meses para ayudarme a transcribir entrevistas, tanto en inglés como en español. He probado rápidamente Whisper V3 y el resultado es todavía mejor. El resultado es prácticamente el mismo, porque al final Whisper V2 ya entendía muy bien la voz, pero la diferencia con Whisper V3 es que acierta hasta en las pausas de la conversación, colocando las comas y los puntos de manera mucho más acertada.

Comparativa Whisper V2 Vs V3
Comparativa Whisper V2 Vs V3

Whisper puede ser utilizado directamente como traductor o para transcribir un idioma. Es también capaz de identificar automáticamente cuando se cambia de un idioma a otro en una misma conversación. Al ser un modelo de lenguaje, el objetivo de OpenAI es que otras empresas o desarrolladores lo utilicen para sus propios asistentes de voz.

Whisper V3 y sus distintas versiones

  • Whisper V3 está disponible en varios tamaños para adaptarse a diferentes aplicaciones.
  • La versión minúscula necesita menos de 1 GB de VRAM y está entrenada con 39 millones de parámetros.
  • El modelo large, conocido como Whisper large-v3, está entrenado con 1.550 millones de parámetros y requiere alrededor de 10 GB de VRAM.
  • Esta versión large es la que se encuentra disponible directamente a través de Hugging Face o Replicate.

Transcribir de audio a texto hasta la fecha siempre había sido un desastre. La mayoría de herramientas gratuitas daban demasiados fallos, con palabras mal colocadas, cifras que no eran correctas o expresiones que faltaban. Al final necesitabas repasar todo el audio detenidamente, por lo que no ahorrabas mucho tiempo.

Con Whisper V2 fue la primera vez que el resultado de una herramienta gratuita me convenció lo suficiente. Con Whisper V3 tengo la sensación de que este modelo de lenguaje ha llegado para quedarse. Tiene justo lo que pedimos a la tecnología: que sea sencillo de utilizar, rápido, efectivo y además libre. Altman, queremos más modelos como este.

Imagen | Zac Wolff

En Xataka | Spotify está doblando sus podcasts con IA y las voces de sus creadores. El resultado es alucinante

Fuente

Si quieres conocer otros artículos parecidos a OpenAI presenta Whisper V3, la herramienta más útil y accesible que ha pasado desapercibida puedes visitar la categoría CIENCIA Y TECNOLOGIA.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Tu puntuación: Útil

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Subir