img relacionada con el articulo publicado

Clibrain presenta LINCE adaptado

Jul 14, 2023 | #Cybernarium

La empresa emergente ('startup') Clibrain ha creado su primer modelo de lenguaje de gran tamaño (LLM) completamente adaptado y entrenado en español, #LINCE, que estará disponible en dos versiones, una de ellas bajo licencia Open Source.

En el mundo globalizado en el que vivimos, hay una gama de más de 21 variantes del español para las cuales no existen modelos de lenguaje especializados. Las máquinas suelen ofrecer dos o tres variedades, entre las que normalmente se encuentran el español derivado de España y otra derivado de estilo latino.

Este desafío se vuelve particularmente notorio en disciplinas con lenguaje técnico y especializado como lo son las jurídicas, las financieras o las médicas, al igual que en la interpretación de refranes, frases hechas e incluso en el análisis del castellano antiguo. Los intentos de procesamiento mediante las traducciones de inteligencia artificial (IA) provenientes del inglés, arrojan resultados muy distantes de la realidad.

Frente a esta situación, resulta estrictamente necesario el desarrollo de modelos de lenguaje centrados y entrenados en español y en todas y cada una de sus variedades, tanto geográficas, como socioculturales e históricas. Esto permitirá superar las barreras que el contexto o el dialecto pueden representar, asegurando la obtención de resultados precisos y significativos.

Clibrain presentó dos de sus soluciones adaptadas de inteligencia artificial (IA), #Clichat y #Clicall, una muestra de su trabajo con los modelos de lenguaje en español con los que ayudar a reducir la brecha del idioma con soluciones diseñadas para el mercado hispanohablante, que este miércoles se ha ampliado con el anuncio de #LINCE.

El modelo destaca por sus resultados en español, lo que supone un hito científico para la inteligencia artificial nunca antes alcanzado, con una calidad comparable a la de GPT-3. Otra pieza interesante del camino que emprende Clibrain es el lanzamiento de dos versiones del modelo de lenguaje: la primera de ellas será abierta bajo licencia Open Source que cuenta con más de 7.000 millones de parámetros denominada LINCE ZERO y que podrá ser usada para que todo el mundo pueda crear sus aplicaciones o utilizarlo sin fines comerciales, y la versión final con un tamaño 6 veces superior, denominada LINCE.

Si el contexto para la IA generativa es importante, el contexto cultural aún lo es más, y especialmente cuando hablamos de variedades del lenguaje y dialectos como los que presenta la riqueza del español de América, observamos que la #IA aún no está capacitada para entender correctamente el español de Borges, el de Vargas Llosa, el de Alejo Carpentier o el de García Márquez, porque los matices, las metáforas, el léxico más autóctono y el contexto pragmático y cultural hacen que nuestra riqueza lingüística vaya mucho más allá que el de una mera traducción.

Este modelo es el resultado de "una innovación en el proceso de entrenamiento, corpus y técnicas empleadas para obtener el mejor rendimiento, aplicando las últimas técnicas de entrenamiento (finetuning) eficientes sobre LLM, y de un dataset totalmente nuevo", como explican desde la 'startup' en una nota de prensa.

El lanzamiento de este modelo de lenguaje en español es el primero de muchos pasos a dar. Pronto veremos modelos conversacionales, modelos de imágenes y modelos de embeddings, todos fruto del trabajo de Clibrain y su laboratorio de investigación y desarrollo de IA (#Clibrain LAB).

Volver a Inicio

Clibrain presenta LINCE adaptado

Más Notas Relacionadas

Qué sabe la #IA sobre la Diversidad Funcional ?

Las Injusticias que provoca la indigencia en Argentina.

Una hermana de #Sophia sería una Dictadora laboral.

Ciclos del Desarrollo Humano