NVIDIA lanza Nemotron 3.5 ASR: Transcripción en tiempo real en 40 idiomas

8 junio, 2026

Marcela Osorio6 min de lectura4 comentarios

Keyword NVIDIA Nemotron 3.5 ASR6 min de lecturaActualizado hace 4 semanas

NVIDIA ha presentado el modelo de reconocimiento de voz Nemotron 3.5 ASR, capaz de transcribir en tiempo real 40 variantes de idiomas gracias a su arquitectura innovadora.

NVIDIA lanza Nemotron 3.5 ASR: Transcripción en tiempo real en 40 idiomas

La inteligencia artificial dejó de ser una promesa lejana y ya forma parte de procesos concretos en marketing, contenidos, atención al cliente y productividad.

NVIDIA ha dado un paso significativo en el campo del reconocimiento automático de voz (ASR) con el lanzamiento de Nemotron 3.5 ASR. Este modelo, que cuenta con 600 millones de parámetros, es capaz de transcribir en tiempo real 40 variantes de idiomas desde un único punto de control. La arquitectura del modelo, conocida como Cache-Aware FastConformer-RNNT, optimiza la eficiencia al procesar cada cuadro de audio una sola vez, lo que reduce la latencia sin comprometer la precisión.

NVIDIA ha lanzado su nuevo modelo de reconocimiento de voz, Nemotron 3.5 ASR, diseñado para transcribir en tiempo real 40 variantes de idiomas. Este avance se logra gracias a su arquitectura Cache-Aware FastConformer-RNNT, que mejora la eficiencia al procesar cada cuadro de audio solo una vez. Con 600 millones de parámetros, este modelo ofrece una solución robusta y flexible para la transcripción de voz en múltiples idiomas.

Para ampliar el contexto, también puede leerse NVIDIA Canary-1B-v2 impulsa la transcripción y traducción automática.

Para ampliar el contexto, también puede leerse Elon Musk lanza Grok Imagine Video 1.5: videos con voz y sonido en segundos.

Para ampliar el contexto, también puede leerse La Carrera por Comprimir el Caché KV: TurboQuant, OSCAR y EpiCache.

Para ampliar el contexto, también puede leerse NVIDIA SkillSpector: Evaluación de Riesgos en Habilidades de IA.

Para ampliar el contexto, también puede leerse Mercado Libre lanza MAGO, su innovadora IA para transformar las compras.

Para ampliar el contexto, también puede leerse Google lanza Gemini 3.5: Traducción de voz en tiempo real en 70 idiomas.

Para ampliar el contexto, también puede leerse Creación de un Pipeline de Datos de Código con NVIDIA Nemotron y Pandas.

Para ampliar el contexto, también puede leerse Microsoft revoluciona la transcripción con MAI-Transcribe-1.5.

Para ampliar el contexto, también puede leerse Xiaomi y TileRT logran 1000 tokens/seg en modelo de 1 billón de parámetros.

Innovación en la transcripción de voz

La arquitectura Cache-Aware FastConformer-RNNT de Nemotron 3.5 ASR es un avance significativo en la tecnología ASR. Este modelo utiliza atención escalable linealmente y un decodificador RNNT para emitir texto a medida que se recibe el audio. La clave de su eficiencia es su diseño ‘cache-aware’, que reutiliza estados de atención y activaciones de convolución almacenados en caché, eliminando la necesidad de reprocesar ventanas de audio superpuestas.

Para profundizar el contexto, también se puede leer: NVIDIA presenta Dynamo Snapshot para acelerar la inferencia en Kubernetes.

Por qué esta noticia es relevante

El lanzamiento de Nemotron 3.5 ASR por parte de NVIDIA es relevante porque proporciona una herramienta poderosa para la transcripción de voz en múltiples idiomas, algo esencial en un mundo globalizado. La capacidad de manejar 40 variantes de idiomas desde un único punto de control simplifica enormemente la implementación y reduce la complejidad de los sistemas de transcripción multilingües.

Cobertura de idiomas y detección automática

Nemotron 3.5 ASR cubre una amplia gama de idiomas, incluyendo variantes de inglés, español, alemán y francés, así como otros idiomas como árabe, japonés, coreano, mandarín, hindi y tailandés. El modelo permite la detección automática de idiomas, lo que significa que puede manejar tráfico de voz mixto sin necesidad de un componente separado de identificación de idioma.

Cómo encaja dentro de la evolución del sector

El sector de ASR ha visto avances significativos en los últimos años, con empresas compitiendo por ofrecer modelos más precisos y eficientes. Nemotron 3.5 ASR se destaca por su capacidad de procesamiento eficiente y su enfoque en la reducción de latencia, lo que lo coloca en una posición competitiva frente a otros modelos como Whisper de OpenAI y Nova-3 de Deepgram.

Configuración de latencia y precisión

El modelo permite ajustar la latencia y la precisión a través del parámetro ‘att_context_size’. Este ajuste permite a los usuarios elegir entre modos de ultra baja latencia de 80 ms hasta configuraciones de alta precisión de 1.12 segundos, todo sin necesidad de reentrenamiento.

Qué puede ocurrir a partir de ahora

Con el lanzamiento de Nemotron 3.5 ASR, es probable que veamos una adopción más amplia de tecnologías de transcripción de voz en tiempo real en diversos sectores, desde servicios al cliente hasta aplicaciones de accesibilidad. La capacidad de NVIDIA para ofrecer un modelo de código abierto también fomentará la innovación y personalización por parte de desarrolladores y empresas.

Qué desafíos siguen abiertos

Una cobertura responsable sobre inteligencia artificial debería diferenciar hechos confirmados, escenarios posibles, riesgos y criterios de uso antes de recomendar adopción.

Cómo evoluciona esta tendencia

Para evaluar su valor conviene observar datos disponibles, contexto de uso, límites y posibles consecuencias reales.

Qué oportunidades genera el cambio

El valor de esta tendencia dependerá menos del entusiasmo inicial y más de su capacidad para resolver necesidades concretas con seguridad, utilidad y control humano.

Impacto específico de NVIDIA Nemotron 3.5 ASR

La relevancia de esta novedad no se mide por mencionar inteligencia artificial, sino por explicar qué cambia en el caso concreto: quién puede usarlo, qué problema intenta resolver y qué límites conviene considerar antes de convertirlo en una recomendación.

En torno a NVIDIA lanza Nemotron 3.5 ASR: Transcripción en tiempo real en 40 idiomas, el análisis debe concentrarse en la experiencia real de usuarios, equipos o empresas alcanzadas por el tema. Esa mirada evita transformar cualquier noticia de IA en una lectura genérica sobre automatización.

Aplicaciones concretas y puntos que requieren seguimiento

Para evaluar el alcance de NVIDIA Nemotron 3.5 ASR, conviene observar si existen usos prácticos, ejemplos verificables, documentación disponible o señales de adopción. Si la información todavía es limitada, la cobertura debe separar hechos confirmados de interpretaciones posibles.

Identificar qué necesidad específica intenta resolver.
Revisar si el beneficio es para usuarios finales, empresas o equipos técnicos.
Observar riesgos de privacidad, dependencia o calidad de resultado cuando correspondan.
Actualizar la nota si aparecen casos reales, fuentes oficiales o nuevos datos.

Qué puede cambiar para el lector

El valor editorial aparece cuando el lector entiende si esta tendencia puede modificar una decisión concreta: adoptar una herramienta, revisar una estrategia, cambiar un flujo de trabajo o simplemente seguir el tema con más contexto. La cobertura debe ayudar a decidir, no solo sumar volumen de texto.

FAQ

Preguntas frecuentes

¿Qué ventajas ofrece la arquitectura Cache-Aware FastConformer-RNNT?

Esta arquitectura permite procesar cada cuadro de audio una sola vez, reduciendo la latencia y mejorando la eficiencia sin sacrificar la precisión.

¿Cómo maneja el modelo la detección de idiomas?

El modelo puede detectar automáticamente el idioma del audio, lo que le permite transcribir tráfico de voz mixto sin necesidad de componentes adicionales de identificación de idioma.

¿Cuáles son los beneficios de la configuración de latencia ajustable?

La capacidad de ajustar la latencia permite a los usuarios equilibrar la necesidad de respuesta rápida con la precisión de la transcripción, adaptándose a diferentes casos de uso.

Marcela Osorio

Editor digital

Marcela Osorio es una autora argentina especializada en Inteligencia Artificial, Marketing Digital y Tendencias Digitales. Con una mirada crítica y actual, explora las intersecciones entre la tecnología y el mundo del marketing, aportando insights valiosos para profesionales del sector. Su trabajo se enfoca en desmitificar conceptos complejos y ofrecer herramientas prácticas para adaptarse a un entorno digital en constante evolución. Desde Argentina, Marcela contribuye a la conversación sobre el futuro digital con pasión y compromiso.

398 notas

Ver biografía y artículos →

Recomendadas

Más noticias de este autor

Probé entregar una auditoría UX a la IA: resultados, límites y aprendizajes

Seguimiento del tema

Esta cobertura puede ampliarse con nuevas fuentes, consultas de búsqueda y artículos relacionados dentro del mismo eje editorial.

Ver más de Inteligencia Artificial Volver al inicio Ir a comentarios

4 comentarios

Nicolás Peralta dice:

8 junio, 2026 a las 6:22 am

Leyendo la nota, me pregunto si el punto más importante es la parte técnica o la forma en que se organiza el contenido alrededor de modelo de transcripción de voz.

Reply
1. Marcela Osorio dice:
  
  8 junio, 2026 a las 6:40 pm
  
  Gracias por la pregunta. En este caso, lo más recomendable es mirar el impacto práctico: qué cambia para quien administra un sitio, qué contenidos conviene actualizar y cómo se conecta con la intención de búsqueda. También puede complementarse con este análisis relacionado sobre modelo de transcripción de voz.
  
  Reply
Lucía Fernández dice:

2 julio, 2026 a las 4:58 pm

Impresionante lo que están logrando con estos modelos. Me intriga saber cómo se comporta con acentos muy marcados o jerga local, tipo el español rioplatense. Si realmente puede diferenciar todo eso en tiempo real, sería un golazo para herramientas de subtitulado o atención al cliente.

Reply
1. Marcela Osorio dice:
  
  4 julio, 2026 a las 8:22 am
  
  Es una buena pregunta. Según NVIDIA, Nemotron 3.5 ASR mejora mucho la comprensión de distintos acentos gracias al entrenamiento multilingüe y al uso de grandes volúmenes de audio real. Aun así, con jergas o modismos muy locales puede haber margen de error. En entornos comerciales suele complementarse con fine-tuning o glosarios personalizados para mayor precisión. También puede complementarse con otro contenido del cluster editorial.
  
  Reply