¿Qué significa realmente entrenar un modelo de lenguaje en español? A partir de septiembre, España dará un paso gigantesco en el mundo de la inteligencia artificial con el lanzamiento de «Alia», el primer modelo de lenguaje de IA entrenado en castellano y lenguas cooficiales. Pero esto es solo la punta del iceberg.
Un Proyecto Ambicioso con Colaboraciones de Alto Nivel
El proyecto «Alia» no es un esfuerzo solitario. Desarrollado en colaboración con el Centro de Supercomputación de Barcelona (BSC), ha recibido una inversión inicial de 2 millones de euros. Esta colaboración no solo garantiza una base sólida, sino que también abre puertas a aplicaciones prácticas en sectores específicos a finales de año, respaldadas por otros 3 millones de inversión.
Creación del Mayor Repositorio de Datos en Español
Para entrenar estos modelos, es fundamental contar con una gran cantidad de datos. Por eso, el proyecto también incluye la construcción del mayor repositorio de datos para entrenamiento en castellano y lenguas cooficiales. Con una inversión de 3,4 millones de euros, este repositorio estará listo a finales de 2025 y manejará al menos 4 millones de palabras. ¿Por qué es esto importante? Porque más del 20% del entrenamiento de estos modelos será en español, contrastando con el menos del 5% de los modelos actuales, lo que reducirá sesgos y mejorará las aplicaciones prácticas.
Modelos Potentes y Certificados
El objetivo es desarrollar modelos de hasta 175.000 millones de parámetros, que serán certificados por la Agencia Española de Supervisión de Inteligencia Artificial (Aesia). Este proceso se llevará a cabo de manera abierta y transparente, protegiendo también los derechos de autor.
Estrategia de Inteligencia Artificial 2024-2025
Estas iniciativas forman parte de la nueva Estrategia de Inteligencia Artificial para 2024-2025 del Gobierno español, que incluye una inversión total de 1.500 millones de euros. Un aspecto destacado de esta estrategia es el superordenador MareNostrum 5, que recibirá más de 90 millones de euros para mejorar sus prestaciones y aumentar su capacidad en un 50%. ¿El resultado? El primero en Europa en capacidad de rendimiento y el tercero en rendimiento máximo.
Infraestructura Pública de Inteligencia Artificial
Con la puesta en marcha de «Alia», se prevé la creación de una familia de modelos de inteligencia artificial que partan del español y las lenguas cooficiales, habladas por 600 millones de personas. Esto facilitará el desarrollo de servicios y productos avanzados en tecnologías del lenguaje, diferenciando a España en el panorama global por su transparencia.
Compromiso con la Transparencia
El Gobierno pretende hacer pública toda la información relacionada con «Alia», desde la composición de los corpus hasta los entrenamientos realizados, la estructura de los modelos y los recursos utilizados. ¿Por qué esto es crucial? Porque la transparencia en el desarrollo de IA asegura confianza y un uso ético de la tecnología.
Conclusión: España a la Vanguardia de la IA
El proyecto «Alia» representa una oportunidad histórica para España de liderar en el desarrollo de modelos de lenguaje en inteligencia artificial. Con una inversión significativa y colaboraciones estratégicas, España no solo avanza tecnológicamente, sino que también establece un nuevo estándar de transparencia y ética en la IA. ¿El futuro? Brillante y lleno de potencial para innovaciones que impactarán a millones de personas.