Artículo de información

José Carlos Botto Cayo y Abel Marcial Oruna Rodríguez

15 de setiembre del 2025

Cuando OpenAI deslumbró al mundo con ChatGPT a fines de 2022, Google se vio obligado a acelerar sus pasos para no perder el protagonismo en un campo que siempre había considerado suyo: la inteligencia artificial. La respuesta llegó en diciembre de 2023 con el anuncio de Gemini, un modelo que representaba no solo un avance tecnológico, sino también un acto de reposicionamiento estratégico. Sundar Pichai y el equipo de DeepMind lo presentaron como la apuesta más sólida de la compañía para integrar en un solo núcleo lo que antes parecía disperso: texto, imagen, audio, video y código. En ese momento, Google buscaba no solo ponerse a la altura de GPT-4, sino superarlo en benchmarks y, sobre todo, demostrar que tenía la capacidad de convertir la IA en la columna vertebral de sus servicios. Desde el inicio, el mensaje fue claro: Gemini no era un experimento aislado, sino la nueva base de todo el ecosistema Google, destinada a permear productos tan diversos como el buscador, Gmail, Docs, Android o Chrome. La apuesta fue monumental, porque implicaba transformar la experiencia digital cotidiana de miles de millones de personas (Pichai & Hassabis, 2023).

Con el paso de los meses, lo que comenzó como un lanzamiento rodeado de expectativas se convirtió en una narrativa de evolución constante. Gemini debutó con tres versiones adaptadas a diferentes entornos —Ultra, Pro y Nano—, pero rápidamente escaló hacia series más avanzadas como 1.5, 2.0 y 2.5, cada una con mejoras sustanciales en contexto, velocidad, multimodalidad y razonamiento. El modelo empezó a demostrar que podía convertirse en un auténtico ecosistema de herramientas, capaz de ayudar a redactar un correo, escribir o depurar código, generar imágenes, analizar datos o acompañar conversaciones en dispositivos móviles. En julio de 2025, dos años después de su nacimiento, Gemini ya no era una promesa, sino una realidad instalada en el centro de la vida digital, con anuncios que confirmaban su integración en Android, ChromeOS, Google Sheets y hasta en los relojes inteligentes. Su historia reciente es, en definitiva, la crónica de cómo Google ha intentado recuperar la iniciativa en la carrera de la inteligencia artificial, apostando por un modelo ambicioso que no deja de transformarse (Hassabis, 2023).

El nacimiento de Gemini y su ambición multimodal

El 6 de diciembre de 2023, Google presentó oficialmente Gemini 1.0, un modelo que desde el inicio fue descrito como multimodal nativo, es decir, entrenado para comprender y generar diferentes tipos de datos sin necesidad de arquitecturas separadas. Este lanzamiento representó un cambio sustancial frente a los intentos anteriores de la compañía, que habían quedado eclipsados por la irrupción de ChatGPT. Gemini llegó en tres variantes: Ultra, la más poderosa y pensada para centros de datos; Pro, diseñada para integrarse en productos de uso cotidiano como Bard; y Nano, optimizada para funcionar directamente en dispositivos móviles como el Pixel 8 Pro, incluso sin conexión a internet. Con esta gama, Google mostró su intención de cubrir todo el espectro de usos, desde el consumidor casual hasta la empresa de gran escala, apostando a que un único modelo pudiese adaptarse a distintas necesidades y plataformas sin perder coherencia (Pichai & Hassabis, 2023).

La integración inmediata fue la clave del debut. Gemini Pro sustituyó al modelo PaLM 2 como motor de Bard, lo que significó un cambio de identidad para el chatbot de Google, que pasaba a sostenerse en la arquitectura más reciente de la compañía. En paralelo, los teléfonos Pixel 8 Pro estrenaron Gemini Nano para funciones locales como el resumen de notificaciones o las respuestas rápidas en aplicaciones de mensajería, abriendo la posibilidad de usar IA avanzada sin depender de la nube. A nivel corporativo, Google ofreció acceso a Gemini a través de Vertex AI y AI Studio, permitiendo que desarrolladores y empresas experimentaran con el modelo en contextos más especializados. De esta manera, el mensaje que Google quiso transmitir fue que Gemini no era una demostración académica, sino una plataforma disponible y escalable desde el primer día, lista para impactar millones de interacciones diarias (Pichai & Hassabis, 2023).

En términos de desempeño, el lanzamiento estuvo acompañado de afirmaciones audaces. Google aseguró que Gemini Ultra superaba a GPT-4 en 30 de 32 benchmarks académicos, incluyendo pruebas de razonamiento multitarea (MMLU), donde se convirtió en el primer modelo en superar el promedio humano. Estas cifras, aunque recibidas con cautela por la comunidad científica, sirvieron para posicionar a Gemini como un rival directo de OpenAI, marcando el inicio de una competencia abierta. La prensa especializada, como Reuters, recogió las declaraciones y destacó que Google se jugaba buena parte de su reputación en esta apuesta, ya que el mercado esperaba algo a la altura de ChatGPT tras el famoso “código rojo” declarado internamente en la compañía a finales de 2022 (Cherney & Nellis, 2023).

No obstante, más allá de los números, el verdadero impacto de Gemini estuvo en el relato de ambición. Wired lo presentó como un “nuevo tipo de inteligencia artificial”, señalando que Google, tras haber quedado rezagado en percepción pública, estaba dispuesto a librar una carrera sin descanso contra OpenAI, Anthropic y Meta. El lanzamiento fue leído no solo como un logro técnico, sino como un gesto estratégico de supervivencia, con el que Google buscaba recuperar liderazgo en un campo que siempre había considerado suyo. De allí que Gemini no solo se anunciara como un producto, sino como la base de la nueva era tecnológica de la compañía (Hassabis, 2023).

Evolución y expansión en 2024: más contexto, más modelos, mayor integración

En febrero de 2024, Google presentó Gemini 1.5 Pro, un modelo que marcó un antes y un después en la carrera por el contexto. Con la capacidad de procesar hasta un millón de tokens, superó con creces a todos sus competidores, incluyendo a Claude de Anthropic, que hasta entonces lideraba con contextos de 100.000 tokens. Esta ampliación permitió que Gemini analizara libros completos, bases de datos complejas y conversaciones extensas sin perder coherencia, algo que abrió puertas en ámbitos como la investigación académica, la programación avanzada y la consultoría empresarial. Con esta innovación, Google respondió directamente a las críticas que señalaban que la IA generativa podía ser brillante en respuestas cortas, pero limitada en tareas prolongadas o de alta densidad de información (Pichai & Hassabis, 2023).

El 2024 también fue el año de la expansión práctica. Gemini se integró de manera profunda en Google Workspace, potenciando funciones que rápidamente se hicieron cotidianas: “Ayúdame a escribir” en Gmail y Docs, resúmenes automáticos en Meet, generación de imágenes en Slides y organización inteligente de datos en Sheets. En el terreno móvil, Gemini Nano se consolidó en los Pixel como un asistente local capaz de responder mensajes, resumir notificaciones y actuar en tiempo real sin depender de servidores externos. Esta presencia ubicua reforzó la idea de que Gemini ya no era un experimento de laboratorio, sino un copiloto digital que acompañaba al usuario en diferentes ámbitos de su vida diaria (Hassabis, 2023).

Para los desarrolladores, el protagonismo estuvo en Gemini Studio y en Vertex AI, que se convirtieron en las plataformas predilectas para experimentar con la IA de Google. Allí se probaron nuevas aplicaciones, chatbots, integraciones con APIs y proyectos de programación que aprovecharon tanto la potencia del contexto ampliado como la velocidad de Gemini Flash, una variante diseñada para consultas rápidas y económicas. Según cifras reveladas por la propia compañía, a finales de ese año Gemini ya impulsaba funciones en productos con más de dos mil millones de usuarios, una demostración del alcance masivo de su despliegue (Simms, 2025).

En medio de estos avances, la competencia no se detuvo. OpenAI fortaleció ChatGPT con funciones de voz e imágenes, Anthropic apostó por su modelo Claude con un enfoque en seguridad y Meta impulsó la apertura con LLaMA 2. Sin embargo, Google se diferenció apostando por la multimodalidad integral y la integración en productos de uso masivo, lo que le dio una ventaja estratégica: aunque otros podían liderar en innovación puntual, ninguno tenía el alcance de un ecosistema tan vasto y cotidiano como el de Google. Fue allí donde Gemini comenzó a consolidarse como un actor insoslayable (Hassabis, 2023).

Gemini 2.0 y 2.5: agentes inteligentes y dominios más amplios

El cierre de 2024 trajo consigo el anuncio de Gemini 2.0, una versión que amplió las fronteras de lo que se entendía por IA generativa. Google la presentó como la entrada a la era de los agentes, con capacidades para invocar herramientas externas, ejecutar acciones en Chrome mediante el proyecto Mariner e incluso actuar como asistentes especializados en programación o navegación. Con esta versión, la IA ya no se limitaba a responder preguntas o redactar textos: podía ejecutar pasos concretos, planificar tareas y supervisar acciones, siempre bajo autorización del usuario. El modelo incorporó también la generación nativa de imágenes y audio, dando un paso más en su ambición multimodal y acercándose a un ideal de asistente universal (Wiggers, 2024).

En marzo de 2025 llegó Gemini 2.5 Pro, acompañado de versiones Flash y Lite, todas ellas afinadas para distintos equilibrios entre potencia y eficiencia. Esta nueva generación se destacó en benchmarks de lógica, matemáticas, ciencias y programación, liderando comparativas globales y demostrando un salto cualitativo en razonamiento. Además, Google anunció su integración en Android Studio, donde los desarrolladores podían generar código a partir de descripciones en lenguaje natural, recibir explicaciones de errores o refactorizar proyectos completos. De este modo, Gemini se convirtió no solo en un modelo de conversación, sino en un verdadero asistente de programación, insertado directamente en las herramientas de quienes construyen la tecnología del futuro (Simms, 2025).

Estos avances impactaron directamente en la adopción. Según datos difundidos por Reuters en el marco de procesos legales, Gemini alcanzó 350 millones de usuarios activos mensuales hacia marzo de 2025, una cifra que, aunque aún detrás de los más de 600 millones de ChatGPT, demostraba un crecimiento vertiginoso. La clave estuvo en la integración transversal: desde Chrome y el buscador hasta Workspace y Android, Google puso a Gemini en el camino de millones de usuarios sin necesidad de que estos buscaran un acceso especial. Fue la estrategia de masificación la que permitió a Gemini convertirse en un actor con presencia global (Cherney & Nellis, 2023).

Con Gemini 2.0 y 2.5, Google confirmó su ambición de ofrecer un modelo no solo poderoso en pruebas, sino útil en contextos reales. La introducción de agentes como Jules en GitHub o Project Astra en dispositivos móviles mostró prototipos de un futuro en el que la IA dejará de ser un simple respondedor de preguntas para convertirse en un colaborador proactivo, capaz de actuar en el mundo digital de manera cada vez más sofisticada (Wiggers, 2024).

Julio de 2025: Gemini se convierte en columna vertebral del ecosistema Google

El mes de julio de 2025 fue especialmente significativo en la trayectoria de Gemini, porque Google anunció medidas que lo colocan en el centro de su estrategia de plataformas. Una de las más relevantes fue la confirmación de la fusión de Android y ChromeOS, con Android como base común para portátiles, tablets y teléfonos. Este movimiento estratégico buscaba que Gemini pudiera integrarse de manera uniforme en todos los dispositivos, garantizando experiencias de IA consistentes y fluidas. Según reportó El País, esta decisión representa la consolidación de un modelo donde el sistema operativo y la inteligencia artificial ya no están separados, sino que se entienden como parte de una misma arquitectura (Barbero, 2025).

Otra de las novedades fue la presentación de Gemini Live para teléfonos plegables como el Galaxy Z Flip. Esta función transforma la cámara del dispositivo en una extensión del asistente, permitiendo interacciones en tiempo real con el entorno: identificar objetos, sugerir combinaciones de ropa, guiar una rutina de ejercicios o explicar un procedimiento manual mientras el teléfono permanece semiabierto. Al mismo tiempo, Google confirmó que Gemini reemplazará a Google Assistant en relojes con Wear OS, ofreciendo un asistente conversacional más avanzado, con capacidad para interpretar el contexto del usuario en su vida cotidiana. En The Verge, se destacó que este cambio marca una transición generacional: del antiguo asistente basado en comandos predefinidos a una IA capaz de mantener diálogos contextuales y útiles (Davis, 2025).

En el terreno de la productividad, Google Sheets estrenó la función =AI(), que permite invocar a Gemini directamente desde una celda para realizar tareas como resumir, clasificar o generar descripciones a partir de los datos ingresados. Esto convierte a la hoja de cálculo en un espacio mucho más dinámico y accesible, donde no es necesario dominar fórmulas complejas ni escribir scripts para obtener resultados avanzados. Según el blog de Google, esta novedad representa un paso importante hacia la democratización del análisis de datos, al permitir que cualquier usuario, sin importar su nivel técnico, pueda aprovechar la inteligencia artificial en su flujo de trabajo diario (Simms, 2025).

Sin embargo, el mes también expuso los desafíos que acompañan a un modelo de esta magnitud. Se detectó una vulnerabilidad de prompt injection en los resúmenes de Gmail generados por Gemini, lo que significaba que un atacante podía manipular indirectamente el texto que la IA producía para inducir errores o fraudes. Google respondió de inmediato reforzando sus filtros y protocolos de seguridad, recordando que el despliegue responsable de la IA es tan crucial como su innovación técnica. Como subrayó Reuters en su cobertura, la confianza de los usuarios dependerá de que Gemini no solo sea brillante en sus capacidades, sino también seguro y ético en su implementación (Cherney & Nellis, 2023).

Referencias

Barbero, I. M. (14 de Julio de 2025). El País. Obtenido de Google lo deja muy claro: va a combinar ChromeOS y Android, y es todo un acierto: https://cincodias.elpais.com/smartlife/lifestyle/2025-07-14/google-combinar-chromeos-android.html

Cherney, M. A., & Nellis, S. (6 de Diciembre de 2023). Reuters. Obtenido de Alphabet presenta el tan esperado modelo de IA de Gemini: https://www.reuters.com/technology/alphabet-unveils-long-awaited-gemini-ai-model-2023-12-06/?utm_source=chatgpt.com

Davis, W. (26 de Junio de 2025). The Verge. Obtenido de Gemini is getting ready to replace Google Assistant on Android.: https://www.theverge.com/news/693719/google-gemini-android-update-apps-activity?utm_source=chatgpt.com

Hassabis, D. (6 de Diciembre de 2023). Wired. Obtenido de Demis Hassabis de Google DeepMind dice que Gemini es una nueva generación de IA: https://www.wired.com/story/google-deepmind-demis-hassabis-gemini-ai/

Pichai, S., & Hassabis, D. (6 de Diciembre de 2023). Blog Google. Obtenido de Introducing Gemini: our largest and most capable AI model.: https://blog.google/technology/ai/google-gemini-ai/#sundar-note

Simms, J. (17 de Julio de 2025). Blog Google. Obtenido de New in Gemini Code Assist: Agent Mode and IDE enhancements. The Keyword. Google.: https://blog.google/technology/developers/gemini-code-assist-updates-july-2025/

Wiggers, K. (25 de Julio de 2024). Tech Crunch. Obtenido de Google makes its Gemini chatbot faster and more widely available.: https://techcrunch.com/2024/07/25/google-speeds-up-its-gemini-chatbot-and-brings-it-to-more-places/?utm_source=chatgpt.com