¿Alguna vez has tenido la sensación de que un chatbot de IA entiende realmente lo que dices? A veces hasta parece que pueden «razonar» y darte respuestas profundas, como si de verdad tuvieran algo parecido a una mente humana detrás. Bueno, spoiler alert: no es cierto. Y hoy vamos a hablar de por qué todo ese cuento de que «los modelos de IA razonan» es, básicamente, una ilusión muy bien armada.
La gran promesa… y la realidad detrás
Hemos escuchado mucho últimamente de compañías como OpenAI o Microsoft promoviendo la idea de que sus chatbots tienen la capacidad de «razonar». Esas demostraciones de GPT-4 o los modelos de Microsoft Think Deeper te hacen creer que la inteligencia artificial ya casi ha llegado al nivel de la ciencia ficción. Pero, mira, nada más lejos de la realidad. Todo es humo.
«Los chatbots pueden hablar bonito, pero de razonar, nada.»
Lo que quiero decir es que la impresión que nos da de que un chatbot entiende lo que dices no es más que el resultado de haber procesado muchísima información y calcular patrones de probabilidad. Así es como funciona: buscan las respuestas que más tienen sentido de acuerdo a los patrones que han aprendido. Pero no es razonamiento, ni conciencia, ni nada por el estilo. A veces aciertan, y otras veces, pues… la cagan por completo.
Apple pone a prueba a los chatbots: los resultados revelan sus limitaciones
Para poner esto a prueba, un grupo de seis investigadores de Apple decidió hacer un estudio comparativo sobre diferentes modelos de IA, tanto de código abierto como propietarios. La idea era simple: veamos hasta qué punto estos modelos son capaces de «razonar» y cómo se comportan ante ciertas pruebas específicas. Evaluaron modelos como Llama, Phi, Gemma, Mistral, GPT-4o y o1. Y los resultados fueron bastante reveladores.
Una de las pruebas más destacadas fue con un benchmark llamado GSM8K. Básicamente, es una batería de problemas matemáticos que sirve para medir la capacidad de razonamiento matemático de estos modelos. GPT-3, por ejemplo, puntúa con un 35% en este test, mientras que modelos más pequeños ya superan el 85%. Pero, vamos, que puntuar bien en este test no significa que estos chatbots razonen.
¿Por qué? Porque si juegas un poquito con el contexto de la pregunta, sustituyendo nombres o valores, ¡el modelo se pierde por completo! ¿De qué razonamiento estamos hablando si un simple cambio en el problema los descoloca?
Jugando con los nombres: los modelos no soportan cambios
Uno de los responsables del estudio, Mehrdad Farajtabar, lo explicó bastante bien. Básicamente, desarrollaron una herramienta llamada GSM-Symbolic para cambiar valores, nombres propios, e incluso incluir frases adicionales que parecían relevantes. ¿El resultado? Cuando cambiaban un nombre o un valor, la precisión de los modelos caía drásticamente.
Imagínate esto: estás haciendo un examen de matemáticas y solo cambias los nombres de los objetos en el problema. De alguna manera, los modelos caen hasta un 10% en su rendimiento. Ridículo, ¿no? Quiero decir, si de verdad estuvieran «razonando», deberían ser capaces de seguir el razonamiento lógico independientemente de si hablamos de peras, manzanas o jugadores de fútbol. Pero no es así. Cambia una frase, añade dos más, y todo se viene abajo.
¿Son fiables los benchmarks actuales?
Aquí viene la pregunta del millón: ¿podemos fiarnos de los benchmarks que usamos para evaluar estos modelos? Porque, a ver, cuando te dicen que un modelo ha mejorado un 90% en su capacidad de razonamiento matemático, lo primero que piensas es: «Wow, ya casi que razonan mejor que yo». Pero la realidad es que estos benchmarks, como el famoso GSM8K, están basados en patrones predecibles. Los modelos se entrenan con los mismos ejemplos una y otra vez. Y claro, es como si estudiaran para el examen sin entender el contenido.
«Es fácil sacar buena nota si ya te conoces las respuestas de memoria. Pero eso no significa que seas bueno en la materia.»
Entonces, estos modelos no están «razonando». Están siguiendo patrones, dando las respuestas que más encajan según los ejemplos que han visto durante el entrenamiento. Es como si hubieran memorizado un montón de recetas sin entender realmente cómo funciona la cocina; cuando les pides algo ligeramente distinto, tratan de encajar las piezas aunque no tenga mucho sentido. Y eso, en la práctica, hace que sean muy vulnerables a los cambios. Cambia una palabra y puf, los resultados se desploman.
El efecto de la información irrelevante
¿Quieres algo aún más chistoso? Los investigadores decidieron ir un paso más allá y añadieron información irrelevante a los problemas que los modelos debían resolver. Imagina que al problema le añades una frase que no tiene nada que ver, solo para distraer. ¿Sabes qué pasó? Los modelos se confundieron. Bajaron su rendimiento notablemente porque intentaban darle sentido a toda la información, aunque fuera basura.
Esto nos dice algo muy claro: estos chatbots no saben distinguir lo importante de lo irrelevante. Si realmente pudieran razonar, sabrían que esa información extra no aporta nada y la ignorarían. Pero, en su lugar, intentan encajar todo, como si cada palabra tuviera que ser relevante para la respuesta.
La IA no puede ganarle al ajedrez de forma razonada
Otra forma sencilla de demostrar esto es con el ajedrez. Pon un chatbot de IA generativa a jugar ajedrez. ¿Qué pasa? Muchas veces acaba haciendo movimientos ilegales, movimientos que cualquier persona que conozca las reglas del juego nunca haría. Los chatbots parecen más bien como esos jugadores de ajedrez que han memorizado algunas jugadas, pero que en cuanto se salen de lo que conocen, hacen cualquier cosa.
Lo mismo pasa con tareas tan simples como contar letras o multiplicar matrices. Los modelos pueden hacerlo si se han entrenado específicamente en esos problemas, pero fallan con frecuencia si cambias mínimamente las condiciones. Razonar significa adaptarse, y estos modelos no se adaptan. Solo responden con lo que más se parece a lo que han visto antes.
Lo que todo esto significa para los usuarios: no te fíes de tu chatbot
Entonces, ¿cuál es el mensaje aquí? Mira, si estás usando un chatbot como ChatGPT para tareas que requieren una respuesta precisa y lógica, ten mucho cuidado. Estos modelos no entienden, no razonan, y su fiabilidad puede ser dudosa. Por ejemplo, si les pides resolver un problema matemático con un contexto ligeramente diferente al que conocen, sus respuestas pueden ser completamente incorrectas, mostrando claramente la falta de verdadera comprensión. Parece que saben de lo que hablan, pero basta con hacer la pregunta de una manera un poco diferente para que la respuesta sea completamente errónea.
Para tareas que no requieren un análisis profundo, como pedir una receta de cocina o recomendaciones para una película, genial, adelante. Pero si necesitas algo complejo, algo que requiera pensar de verdad, estos modelos aún tienen un largo camino por recorrer. Al final del día, no hay que olvidar que los chatbots son herramientas, no cerebros. Y la diferencia entre uno y otro, créeme, sigue siendo enorme.
Resumen Rápido
- Los chatbots no razonan, solo siguen patrones aprendidos a partir de datos previos.
- Los benchmarks actuales, como GSM8K, pueden ser engañosos y no reflejan capacidad real de razonamiento.
- Los modelos de IA fallan cuando se cambian valores o nombres en los problemas que intentan resolver.
- Añadir información irrelevante confunde a los modelos, ya que no distinguen lo importante de lo accesorio.
- En tareas como jugar al ajedrez, los chatbots suelen hacer movimientos ilegales, demostrando sus limitaciones.
- Si bien son útiles para consultas simples, no hay que confiar en ellos para tareas complejas que requieran verdadero razonamiento.
Preguntas Frecuentes
- ¿Pueden los chatbots de IA razonar como los humanos?
No, los chatbots no razonan. Solo analizan patrones basados en datos con los que han sido entrenados, sin comprender el contexto como lo haría un humano. - ¿Qué tan fiables son los benchmarks como GSM8K para evaluar chatbots?
No del todo. Estos benchmarks están diseñados para medir habilidades específicas, pero no muestran una verdadera capacidad de razonamiento. Son más bien pruebas de memoria que de análisis real. - ¿Por qué los chatbots fallan si cambias los nombres en un problema?
Porque los chatbots se basan en patrones fijos. Cambiar los nombres altera esos patrones, y como no hay comprensión real, el rendimiento cae drásticamente. - ¿Cómo afecta la información irrelevante a los chatbots?
La información irrelevante los confunde porque intentan procesar todo lo que se les da. No distinguen entre datos útiles e inútiles, lo que impacta su rendimiento. - ¿Pueden los chatbots jugar al ajedrez correctamente?
No siempre. Aunque pueden hacer movimientos válidos, muchas veces se equivocan al intentar jugadas complejas, incluso haciendo movimientos que no son legales. - ¿Son útiles los chatbots de IA para tareas complejas?
No del todo. Pueden ser útiles para tareas sencillas o repetitivas, pero no son recomendables para tareas que requieran razonamiento profundo o análisis crítico.