Gemini Nano va a ser una revolución y es lo que quiero que sea Siri en iOS 18

El anuncio de Google Gemini, con tres modelos multimodales, es el típico escenario en el que los ojos se nos van al modelo más ambicioso, Gemini Ultra, y no prestamos tanta atención al más pequeño.

En este caso, tiene todo el sentido empezar a fijarse en el modelo más pequeño, porque aunque no sea tan prometedor como el grande, posiblemente sea el que más nos afectará el día de mañana. Hablamos de Gemini Nano.

Privado, inmediato y sin depender de nuestra conectividad

Gemini Nano es un modelo creado priorizando la eficiencia. No será el producto final: si Bard es como ChatGPT, Gemini es como GPT, el backend. La diferencia estará en que Gemini Nano está diseñado para usarse en local, desde el propio dispositivo, sin tener que conectarse a los servidores de Google para poder obtener las respuestas a nuestras consultas.

Eso no solo significa que no necesitaremos tener cobertura para usarlo —un problema menor a día de hoy—, sino que la latencia será mucho más baja y las respuestas que obtendremos serán mucho más inmediatas y solo dependerán de la potencia del procesador de nuestro dispositivo, no de la velocidad de nuestra conexión.

Es algo similar, manteniendo las distancias, a lo que Siri planteó en 2021, cuando iOS 15 estrenó su capacidad para operar en local para todo lo que no requiriese una consulta online. Solo que con un LLM como Gemini, aunque sea Nano, anticipamos usos mucho más allá de poner un temporizador, hacer una llamada o pedir que nos ponga música de Queen.

Tener respuestas mucho más inmediatas a las solicitudes más esenciales a un LLM, como pedir que nos resuma un correo, que genere una respuesta en tono formal aceptando la invitación o que cree el guión para grabar un TikTok explicando el auge de los turrones de sabores inquietantes; suena bastante bien.

Y no solo por la rapidez, sino también por la eficiencia. Alguien dijo que usar ChatGPT para resumir un correo era como conducir un Lamborghini para ir a comprar el pan. Un uso excesivo de recursos para una tarea trivial. Si asumimos que eso es cierto, y sabemos que las consultas a ChatGPT y sus respuestas generadas no son gratis, tener un LLM local incluso en un smartphone son muchas consultas ahorradas en servidores ajenos.

Eso también abre la puerta a integrar Gemini Nano en cualquier punto de nuestro smartphone. Para responder un mensaje de WhatsApp de forma contextual, para resumir conversaciones (al ser multimodal, pueden ser de voz o de texto) o hasta para analizar imágenes y que entienda lo que hay en ellas.

Apple anunciará, si se cumple el guión, sus próximos sistemas operativos en junio de 2024, en su conferencia anual de desarrolladores. En ella es cuando se supone que presentará las nuevas capacidades que se vienen rumoreando en torno a Siri desde hace tiempo. Capacidades en torno a la IA generativa para evitar que Microsoft, Google y OpenAI pongan demasiada tierra de por medio en la que se prevé como la gran carrera de esta década.

Gemini Nano, de momento, estará solo disponible para el Pixel 8 Pro, aparentemente porque solo su Tensor G3 está preparado a día de hoy para soportarlo. Pero la idea es que esto termine siendo algo integrado en Android. No solo lo dice la cábala, sino también la declaración de intenciones que es AICore, un servicio de sistema orientado a incorporar funciones de Gemini Nano directamente en el terminal. Mediatek, Qualcomm y Samsung ya han sido anunciados como fabricantes de chips compatibles.

¿Qué hará Siri? De momento, seguir el camino que acaba de marcar Google con Gemini Nano suena como una opción especialmente conveniente: más privada, menos dependiente de nuestra conexión y más inmediata. macOS 15 también está a la espera de una inclusión así que haga mucho más útil a una Siri que si ya está cuestionada en el iPhone directamente es residual en el Mac.

De hecho, lo ideal sería que SiriKit, el framework que permite integrar a Siri en aplicaciones de terceros, incorporase también su LLM para que las aplicaciones puedan acceder a ese tipo de tareas integradas, en local y sin paso por servidores ajenos.

Quedan seis meses para saberlo.

En Xataka | Google Gemini: qué es, cómo funciona, diferencias con GPT y cuándo podrás usar este modelo de inteligencia artificial.

Imagen destacada | Alphabet.

Fuente