Google lanza Gemini, el nuevo competidor de ChatGPT

Google ha lanzado oficialmente su nuevo modelo de inteligencia artificial, Google Gemini, diseñado para superar a GPT-4. Este innovador modelo está disponible en tres variantes: Nano, Pro y Ultra, cada una adaptada a distintas necesidades y complejidades de tareas.

Características Clave de Gemini:

Superioridad sobre GPT-4: Gemini Ultra ha demostrado ser más potente que GPT-4, superándolo en 30 de 32 pruebas académicas estándar, incluyendo un notable avance en la prueba general de MMLU (comprensión masiva del lenguaje multitarea).
Capacidades Multimodales: Gemini ha sido diseñado desde sus inicios para ser multimodal, manejando eficazmente texto, imágenes, vídeo, audio e incluso código. Esta característica lo hace excepcionalmente versátil y potente para una amplia gama de aplicaciones.
Aplicaciones en Programación: Google no solo ha mejorado la comprensión del lenguaje con Gemini, sino que también ha ampliado sus capacidades para entender, explicar y generar código en lenguajes de programación populares como Python, Java, C++ y Go.

Implementaciones y Disponibilidad:

Google Bard y Pixel 8 Pro: La versión Pro de Gemini ya está integrada en Google Bard, marcando la mayor actualización de este servicio. Además, la versión Nano ha sido implementada en el smartphone Pixel 8 Pro de Google, mejorando significativamente sus capacidades de inteligencia artificial.
Acceso para Desarrolladores: A partir del 13 de diciembre, los desarrolladores tendrán acceso a Gemini Pro mediante la API Gemini en Google AI Studio o Vertex AI. Google planea expandir Gemini a más de sus productos, incluyendo el Buscador, Chrome, Ads y Duet AI en los próximos meses.

En el sitio web de DeepMind sobre Gemini, se presentan varias tablas y descripciones técnicas que comparan las capacidades de Gemini Ultra con GPT-4, especialmente en áreas como el entendimiento del lenguaje, razonamiento, matemáticas y generación de código. A continuación se detallan algunos aspectos destacados:

Rendimiento en MMLU (Massive Multitask Language Understanding): Gemini Ultra ha superado a los expertos humanos y a GPT-4 en MMLU, obteniendo un 90% en CoT@32, comparado con el 86.4% de GPT-4 en 5-shot.
Comparaciones en Diversas Áreas:
- En pruebas generales (MMLU), Gemini Ultra alcanzó un 90% en CoT@32 frente al 86.4% de GPT-4.
- En tareas de razonamiento (Big-Bench Hard), Gemini Ultra logró un 83.6% en 3-shot comparado con el 83.1% de GPT-4.
- En comprensión lectora (DROP), Gemini Ultra consiguió un 82.4% en variable shots, mientras que GPT-4 obtuvo un 80.9% en 3-shot.
- En razonamiento matemático (GSM8K), Gemini Ultra alcanzó un 94.4% frente al 92% de GPT-4.
- En generación de código Python (HumanEval), Gemini Ultra obtuvo un 74.4% en 0-shot, superando el 67% de GPT-4.
Capacidades Multimodales:
- En problemas de razonamiento multidisciplinario a nivel universitario (MMMU), Gemini Ultra logró un 59.4% en 0-shot, mientras que GPT-4 alcanzó un 56.8%.
- En comprensión de imágenes naturales (VQAv2), Gemini Ultra obtuvo un 77.8% en 0-shot, en comparación con el 77.2% de GPT-4.
- En OCR en imágenes naturales (TextVQA), Gemini Ultra alcanzó un 82.3% en 0-shot, superando el 78% de GPT-4.
- En comprensión de documentos (DocVQA), Gemini Ultra logró un 90.9% en 0-shot, frente al 88.4% de GPT-4.
- En comprensión de infografías (Infographic VQA), Gemini Ultra alcanzó un 80.3% en 0-shot, comparado con el 75.1% de GPT-4.

Estos datos técnicos destacan la superioridad de Gemini Ultra en una variedad de tareas y modalidades, superando a GPT-4 en múltiples aspectos.

Conclusión:

Google Gemini representa un salto significativo en el campo de la inteligencia artificial, superando al reconocido GPT-4 en varias pruebas y estableciendo un nuevo estándar en IA multimodal. Con su integración en diversas plataformas y servicios de Google, Gemini promete revolucionar la forma en que interactuamos con la tecnología y abordamos complejas tareas de procesamiento de datos.