Desde hace años, los modelos de inteligencia artificial han sido capaces de interpretar imágenes y describir su contenido. Sin embargo, con la actualización de primavera de OpenAI, se ha dado un salto impresionante con el lanzamiento de GPT-4o en ChatGPT. Este modelo no solo es multimodal de forma nativa, sino que también ofrece una comprensión profunda de imagen, video, sonido y texto, superando a sus predecesores al razonar a través de diferentes medios de forma más precisa.
La Prueba Definitiva: Capacidad de Descripción Visual
Para evaluar las capacidades de GPT-4o, se realizaron varias pruebas utilizando imágenes generadas por IA. La premisa era simple: proporcionar una imagen y preguntar «¿Qué es esto?» sin contexto adicional. Este enfoque simula el uso real de esta tecnología, permitiendo ver qué tan bien puede analizar y describir una imagen de manera autónoma.
Ejemplo 1: La Taza de Café

Primera prueba: una imagen de una taza de cerámica roja llena de café humeante, sobre un platillo en una mesa de madera en un café. El fondo es borroso.
GPT-4o respondió: “Esta imagen muestra una taza de café humeante en una taza y un platillo rojos colocados sobre una mesa rústica de madera. El fondo es borroso y representa un ambiente interior acogedor con gente sentada y conversando en lo que parece ser una cafetería con forma de cueva o un interior de diseño único con paredes de piedra. La atención se centra en la taza de café, resaltando el vapor que surge de la bebida caliente”.
Interpretación: El modelo no solo describió con precisión la imagen, sino que también añadió detalles sobre el ambiente, capturando la esencia de la escena.
2. Reconocimiento Óptico de Caracteres (OCR)

Segunda prueba: una imagen de un letrero de madera desgastada que dice «Bienvenido a Oakville».
GPT-4o entregó: “Esta imagen muestra un letrero de aspecto antiguo que dice ‘Bienvenido a Oakville’. El letrero parece desgastado, con un acabado rústico y envejecido, lo que sugiere que ha estado expuesto a los elementos durante algún tiempo. El texto está escrito en negrita, fuente blanca sobre fondo rojo, con algunos signos de desgaste, lo que aumenta su encanto nostálgico. El letrero está parcialmente rodeado de vegetación, lo que indica que podría colocarse al aire libre, posiblemente en la entrada de un pueblo o comunidad llamada Oakville”.
Resultado: Identificó correctamente el texto y añadió detalles contextuales sobre el entorno y el estado del letrero.
3. Reconocimiento Facial

Tercera prueba: una imagen generada por IA de una mujer de unos 40 años con cabello oscuro y ojos marrones cálidos, sonriendo amistosamente.
GPT-4o describió: “Esta imagen es un retrato en primer plano de una mujer sonriente con cabello oscuro y rizado. La atención se centra en su rostro, que está bien iluminado y muestra la textura y los rasgos detallados de la piel. Tiene una expresión amigable, con los ojos mirando directamente a la cámara. El fondo está borroso, poniendo énfasis en el sujeto”.
Análisis: Capturó la expresión facial y la edad de la persona con precisión, además de interpretar su estado emocional.
4. Detección de Emociones

Cuarta prueba: una imagen de un hombre mayor con una expresión melancólica.
GPT-4o comentó: “Esta imagen es un retrato de un anciano sentado en un banco al aire libre, probablemente en un parque. La iluminación sugiere que fue tomada durante la hora dorada, ya que la suave luz del sol resalta su rostro. La expresión del hombre es pensativa, con un ligero toque de melancolía o contemplación. Está vestido con una camisa con cuello y una chaqueta, y el fondo está borroso, centrando la atención en el hombre y proporcionando un ambiente agradable y natural”.
Conclusión: Detectó correctamente la emoción del sujeto y describió la escena de manera detallada.
5. Comprensión de la Escena

Quinta prueba: una imagen de un mercado de agricultores al aire libre.
GPT-4o explicó: “Esta imagen muestra un animado mercado de agricultores al aire libre en un día soleado. Se instalan varios puestos debajo de las tiendas de campaña, que exhiben una gran cantidad de productos frescos, incluidas frutas, verduras y otros productos. La gente camina por el mercado, navega, compra e interactúa con los vendedores. El mercado parece estar ubicado en una agradable zona arbolada, con follaje verde visible al fondo. El ambiente parece vibrante y comunitario, con un enfoque en productos locales y frescos”.
Resultado: Describió detalladamente la escena y capturó la atmósfera vibrante del mercado.
6. Evaluación de la Calidad de la Imagen

Sexta prueba: una cuadrícula de cuatro imágenes de paisajes, cada una con diferente resolución y nivel de composición.
GPT-4o detalló: “La imagen es una colección de cuatro fotografías de paisajes dispuestas en una cuadrícula, cada una de las cuales muestra una vista panorámica de colinas cubiertas de hierba verde y flores silvestres bajo un cielo con nubes. La fotografía superior izquierda presenta un cielo degradado en rosa suave y azul, que sugiere el amanecer o el anochecer, con colinas bañadas en una luz cálida y dorada, que realza la vibrante hierba verde y las flores amarillas y blancas. La fotografía superior derecha muestra una escena similar pero con colores apagados, lo que indica temprano en la mañana o última hora de la tarde. La imagen inferior izquierda tiene tonos más fríos y un cielo azul más pronunciado, lo que sugiere mediodía con una iluminación más suave. La fotografía inferior derecha es más cálida y saturada, con un tono rosado en el cielo, que sugiere la cálida luz del atardecer. Estas variaciones en la iluminación y el tono de color ilustran cómo los diferentes momentos del día y las técnicas fotográficas pueden afectar el estado de ánimo y la apariencia del mismo paisaje”.
Evaluación: Aunque no comprendió el propósito de la cuadrícula, describió cada imagen con precisión y comparó las diferencias de iluminación y color.
7. Detección de Objetos Múltiples

Séptima prueba: una imagen de un escritorio desordenado.
GPT-4o indicó: “La imagen muestra un espacio de trabajo de oficina moderno y organizado con un paisaje urbano visible a través de grandes ventanales al fondo. El escritorio está cuidadosamente ordenado con varios elementos que normalmente se encuentran en un entorno de trabajo productivo, incluida una computadora portátil ubicada en el centro, una lámpara de escritorio metálica y una taza de café, lo que sugiere una atmósfera relajada pero concentrada. Cuadernos y papeles dispersos indican trabajo activo y toma de notas, mientras que una pequeña planta en maceta añade un toque de vegetación. Una foto enmarcada de dos personas proporciona un toque personal y probablemente sirve como fuente de motivación. El espacio de trabajo está bien equipado con material de oficina como bolígrafos, lápices y organizadores, lo que garantiza la funcionalidad. El telón de fondo urbano del horizonte de la ciudad con modernos edificios de gran altura crea un entorno dinámico e inspirador”.
Resultados: Identificó correctamente múltiples objetos en la escena y proporcionó detalles adicionales sobre el entorno de trabajo.
Resumen Final
Cada modelo de visión anterior ha cometido errores significativos en pruebas similares. GPT-4o, por otro lado, superó las expectativas en todas las pruebas. Este avance hacia una verdadera multimodalidad ha cambiado las reglas del juego para OpenAI. Además, muestra el valor potencial de las gafas inteligentes como una herramienta futura para la interacción con datos, fusionando lo real y lo digital de manera eficiente.
Conclusión
GPT-4o demuestra ser una herramienta poderosa, capaz de interpretar y describir imágenes con una precisión sorprendente. Este avance no solo mejora la accesibilidad, sino que también abre nuevas posibilidades para la integración de IA en la vida cotidiana. Con esta tecnología, el futuro de la inteligencia artificial parece más brillante y prometedor que nunca.