Saltar al contenido
Inteligencia Artificial

Liquid AI presenta modelos multilingües para búsquedas rápidas y precisas

20 junio, 2026Marcela Osorio7 min de lectura0 comentarios
Inteligencia ArtificialKeyword búsqueda multilingüe7 min de lecturaActualizado hace 4 días

La empresa tecnológica lanzó LFM2.5-Embedding-350M y LFM2.5-ColBERT-350M, dos sistemas optimizados para ofrecer búsquedas multilingües veloces y de alta exactitud en 11 idiomas, incluso en dispositivos de borde.

Liquid AI presenta modelos multilingües para búsquedas rápidas y precisas

Liquid AI anunció el lanzamiento de dos nuevos modelos de recuperación de información: LFM2.5-Embedding-350M y LFM2.5-ColBERT-350M. Ambos incorporan 350 millones de parámetros y están diseñados para mejorar la velocidad y precisión de las búsquedas multilingües. Su arquitectura compacta permite ejecutarlos en entornos con recursos limitados, lo que amplía su aplicación desde grandes servidores hasta laptops o dispositivos móviles. Estas soluciones ya están disponibles en Hugging Face bajo licencia abierta y prometen optimizar la búsqueda de información en múltiples idiomas y contextos.

El avance presentado por Liquid AI en materia de recuperación de información marca un nuevo punto de referencia en la eficiencia multilingüe. Los modelos LFM2.5-Embedding-350M y LFM2.5-ColBERT-350M surgen como una evolución directa del LFM2.5-350M-Base, lanzado meses atrás, y comparten un mismo núcleo técnico que fue adaptado para operar de forma bidireccional, mejorando la comprensión contextual de los textos.

búsqueda multilingüe: Dos modelos, un objetivo: búsquedas multilingües más veloces

Ambas versiones se diferencian por su enfoque. El modelo LFM2.5-Embedding-350M funciona como un bi-encoder denso que transforma cada documento en un único vector numérico. Esta representación compacta permite realizar búsquedas ultrarrápidas y generar índices ligeros, ideales para aplicaciones con limitaciones de almacenamiento o en las que la velocidad es prioritaria, como catálogos de productos o bases de conocimiento internas.

Por su parte, LFM2.5-ColBERT-350M adopta un modelo de interacción tardía, en el que cada palabra del texto se convierte en un vector independiente. Esta estructura posibilita una comparación palabra por palabra entre consulta y documento, logrando mayor precisión semántica y mejor capacidad de generalización. A cambio, requiere índices más voluminosos, lo que lo vuelve adecuado para escenarios donde la exactitud es determinante, como sistemas de soporte o motores de búsqueda internos con grandes volúmenes de información.

Para profundizar el contexto, también se puede leer: OpenAI lanza LifeSciBench para evaluar modelos de IA en ciencias biológicas.

Para profundizar el contexto, también se puede leer: Harness-1: El Nuevo Subagente de Búsqueda que Revoluciona el Aprendizaje.

Arquitectura técnica y eficiencia operativa

Ambos modelos se basan en una arquitectura de 17 capas, compuesta por 10 convolucionales, 6 de atención y una de agrupamiento o densidad, adaptada a contextos de hasta 32.768 tokens. Sin embargo, los documentos se optimizan para 512 tokens, lo que equilibra rendimiento y consumo de memoria. En el caso del modelo Embedding, se utiliza un vector de 1024 dimensiones, mientras que ColBERT conserva 128 dimensiones por token para su mecanismo de comparación MaxSim.

La innovación clave de esta generación radica en la conversión de la atención causal a una atención bidireccional completa. En un modelo causal, los tokens sólo pueden acceder a la información previa, algo útil para tareas de generación, pero ineficiente en recuperación. Con el nuevo esquema, cada token puede analizar el contexto a ambos lados, lo que aporta una comprensión más completa del contenido. Además, las convoluciones fueron rediseñadas para integrar información de manera simétrica, mejorando la coherencia interna de las representaciones.

Evaluación de rendimiento y resultados en 11 idiomas

Liquid AI evaluó los modelos en dos escenarios: recuperación multilingüe mediante NanoBEIR y preguntas y respuestas de dominio abierto con MKQA-11. En ambos casos, las pruebas abarcaron 11 idiomas: árabe, alemán, inglés, español, francés, italiano, japonés, coreano, noruego, portugués y sueco. Los resultados mostraron un rendimiento sobresaliente respecto de modelos previos, superando incluso a alternativas de mayor tamaño como Qwen3-Embedding-0.6B.

El modelo ColBERT lideró el promedio general, mientras que Embedding obtuvo una puntuación de 0,691 en MKQA-11, muy cercana al líder. En comparación con la versión anterior del propio ColBERT, el nuevo modelo incrementó su desempeño en NanoBEIR de 0,540 a 0,605, lo que representa una mejora significativa en precisión sin comprometer la eficiencia.

Despliegue en dispositivos de borde y compatibilidad técnica

Una de las ventajas más notables es la disponibilidad de versiones en formato GGUF compatibles con llama.cpp. Esto permite ejecutar los modelos en procesadores CPU, computadoras portátiles o entornos de borde sin depender de grandes infraestructuras. En pruebas internas realizadas con un MacBook Pro M4 Max, las consultas de 32 tokens obtuvieron latencias medias inferiores a los 10 milisegundos, mientras que en entornos empresariales con GPU H100 se observaron tiempos de respuesta próximos a 1 milisegundo.

El modelo Embedding se integra fácilmente con sentence-transformers, mientras que ColBERT se ejecuta a través de PyLate y su índice PLAID optimizado para búsquedas de similitud. Además, ambos pueden emplearse como sistemas de reordenamiento de resultados, sin necesidad de construir un índice completo, lo que amplía su aplicabilidad en flujos de recuperación ya existentes.

Por qué esta noticia es relevante

La combinación de eficiencia, escalabilidad y soporte multilingüe convierte a estos modelos en herramientas especialmente útiles para empresas con operaciones internacionales, medios de comunicación o plataformas de comercio electrónico. Poder ejecutar motores de búsqueda avanzados directamente en dispositivos locales abre la puerta a experiencias más rápidas y privadas, sin depender de conexiones constantes a la nube.

Además, al ser modelos abiertos, cualquier organización puede ajustarlos o entrenarlos con sus propios datos para personalizar la recuperación de información. Esto impacta directamente en productividad, atención al cliente y gestión documental, ya que permite obtener respuestas más precisas en menos tiempo.

Cómo encaja dentro de la evolución del sector

La tendencia hacia modelos compactos y eficientes refleja el esfuerzo de la industria por democratizar la búsqueda semántica. Tradicionalmente, la recuperación de información multilingüe requería grandes infraestructuras y tiempo de cómputo elevado. Con soluciones como LFM2.5, el acceso a esta tecnología se amplía a desarrolladores, empresas medianas y proyectos de código abierto.

En este sentido, Liquid AI se posiciona como un competidor directo de iniciativas como las de Cohere, OpenAI o Google, que también impulsan herramientas de búsqueda y clasificación multilingüe. Sin embargo, el enfoque en la ejecución local y en la optimización para entornos de bajo consumo diferencia significativamente la propuesta.

Aplicaciones prácticas y casos de uso

Los nuevos modelos son especialmente útiles para sistemas de soporte técnico, bases de conocimiento corporativas y plataformas de asistencia automatizada. En el ámbito del comercio electrónico, pueden mejorar la búsqueda interna de productos, permitiendo que los usuarios encuentren coincidencias relevantes aunque las descripciones o consultas estén en distintos idiomas. Asimismo, en medios digitales o portales educativos facilitan la indexación y recuperación de contenidos multilingües, reduciendo los tiempos de búsqueda y aumentando la satisfacción del usuario.

Otra ventaja es la posibilidad de ajustar los modelos mediante técnicas de fine-tuning para adaptarlos a vocabularios específicos de una industria, como medicina, derecho o ingeniería, sin necesidad de desarrollar un sistema desde cero.

Qué puede ocurrir a partir de ahora

Con la apertura de estos modelos bajo una licencia libre, es probable que surja una comunidad activa que explore nuevas formas de aprovecharlos. Podrían integrarse en asistentes empresariales, aplicaciones de análisis documental o motores de recomendación. Además, la capacidad de funcionar en hardware convencional permitirá que universidades y equipos de investigación los utilicen sin requerir grandes inversiones.

En los próximos meses, se espera que Liquid AI amplíe la familia LFM con modelos aún más especializados y ligeros, diseñados para dominios específicos o para integrarse directamente en plataformas digitales. Este movimiento fortalece la competencia en el mercado de la búsqueda semántica y consolida la tendencia hacia arquitecturas híbridas que combinan precisión con bajo consumo de recursos.

FAQ

Preguntas frecuentes

¿Qué diferencia principal existe entre los dos modelos lanzados por Liquid AI?

El modelo Embedding prioriza la velocidad y el tamaño reducido, mientras que ColBERT apuntala la precisión en búsquedas más complejas.

¿Dónde están disponibles los modelos LFM2.5?

Están disponibles en Hugging Face bajo la licencia abierta LFM Open License v1.0.

¿Qué impacto puede tener esta tecnología en empresas y desarrolladores?

Permite implementar motores de búsqueda multilingües de alto rendimiento sin depender de servidores potentes, reduciendo costos y tiempos de respuesta.

Marcela Osorio

Editor digital

Marcela Osorio es una autora argentina especializada en Inteligencia Artificial, Marketing Digital y Tendencias Digitales. Con una mirada crítica y actual, explora las intersecciones entre la tecnología y el mundo del marketing, aportando insights valiosos para profesionales del sector. Su trabajo se enfoca en desmitificar conceptos complejos y ofrecer herramientas prácticas para adaptarse a un entorno digital en constante evolución. Desde Argentina, Marcela contribuye a la conversación sobre el futuro digital con pasión y compromiso.

319 notas
Ver biografía y artículos →
Lecturas relacionadas

Seguimiento del tema

Esta cobertura puede ampliarse con nuevas fuentes, consultas de búsqueda y artículos relacionados dentro del mismo eje editorial.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *