Este desafío se vuelve particularmente notorio en disciplinas con lenguaje técnico y especializado como lo son las jurídicas, las financieras o las médicas, al igual que en la interpretación de refranes, frases hechas e incluso en el análisis del castellano antiguo. Los intentos de procesamiento mediante las traducciones de inteligencia artificial (IA) provenientes del inglés, arrojan resultados muy distantes de la realidad.
Frente a esta situación, resulta estrictamente necesario el desarrollo de modelos de lenguaje centrados y entrenados en español y en todas y cada una de sus variedades, tanto geográficas, como socioculturales e históricas. Esto permitirá superar las barreras que el contexto o el dialecto pueden representar, asegurando la obtención de resultados precisos y significativos.
Clibrain presentó dos de sus soluciones adaptadas de inteligencia artificial (IA), #Clichat y #Clicall, una muestra de su trabajo con los modelos de lenguaje en español con los que ayudar a reducir la brecha del idioma con soluciones diseñadas para el mercado hispanohablante, que este miércoles se ha ampliado con el anuncio de #LINCE.
El modelo destaca por sus resultados en español, lo que supone un hito científico para la inteligencia artificial nunca antes alcanzado, con una calidad comparable a la de GPT-3. Otra pieza interesante del camino que emprende Clibrain es el lanzamiento de dos versiones del modelo de lenguaje: la primera de ellas será abierta bajo licencia Open Source que cuenta con más de 7.000 millones de parámetros denominada LINCE ZERO y que podrá ser usada para que todo el mundo pueda crear sus aplicaciones o utilizarlo sin fines comerciales, y la versión final con un tamaño 6 veces superior, denominada LINCE.
Si el contexto para la IA generativa es importante, el contexto cultural aún lo es más, y especialmente cuando hablamos de variedades del lenguaje y dialectos como los que presenta la riqueza del español de América, observamos que la #IA aún no está capacitada para entender correctamente el español de Borges, el de Vargas Llosa, el de Alejo Carpentier o el de García Márquez, porque los matices, las metáforas, el léxico más autóctono y el contexto pragmático y cultural hacen que nuestra riqueza lingüística vaya mucho más allá que el de una mera traducción.
Este modelo es el resultado de "una innovación en el proceso de entrenamiento, corpus y técnicas empleadas para obtener el mejor rendimiento, aplicando las últimas técnicas de entrenamiento (finetuning) eficientes sobre LLM, y de un dataset totalmente nuevo", como explican desde la 'startup' en una nota de prensa.
El lanzamiento de este modelo de lenguaje en español es el primero de muchos pasos a dar. Pronto veremos modelos conversacionales, modelos de imágenes y modelos de embeddings, todos fruto del trabajo de Clibrain y su laboratorio de investigación y desarrollo de IA (#Clibrain LAB).