Home Tecnología Gemini 1.5 Flash-8B con la tarifa simbólica más baja entre la familia...

Tecnología

Gemini 1.5 Flash-8B con la tarifa simbólica más baja entre la familia Gemini ya está disponible

4 October 2024

Gemini 1.5 Flash-8B, el nuevo miembro de la familia Gemini de modelos de inteligencia artificial (IA), ya está disponible de forma generalizada para uso en producción. El jueves, Google anunció la disponibilidad general del modelo, destacando que es una versión más pequeña y más rápida del Gemini 1.5 Flash presentado en Google I/O. Debido a que es rápido, tiene inferencia de baja latencia y generación de resultados más eficiente. Más importante aún, el gigante tecnológico afirmó que el modelo de IA Flash-8B es el “costo por inteligencia más bajo de todos los modelos Gemini”.

Gemini 1.5 Flash-8B ya está disponible de forma generalizada

En desarrollador publicación de blogEl gigante tecnológico con sede en Mountain View detalló un nuevo modelo de IA. El Gemini 1.5 Flash-8B es una destilación del modelo Gemini 1.5 Flash AI, que se centra en un procesamiento más rápido y una producción más eficiente. La compañía afirma ahora que Google DeepMind desarrolló una versión más pequeña y más rápida de su modelo de IA en los últimos meses.

A pesar de ser un modelo más pequeño, el gigante tecnológico afirma que “casi iguala” el rendimiento del modelo 1.5 Flash en varios puntos de referencia. Algunos de ellos incluyen chat, transcripción y traducción de idiomas de contexto largo.

Uno de los principales beneficios de los modelos de IA es su rentabilidad. Google dice que el Gemini 1.5 Flash-8B ofrecerá el precio simbólico más bajo de la familia Gemini. Los desarrolladores deben pagar 0,15 dólares (aproximadamente 12,5 rupias) por millón de tokens de salida, 0,0375 dólares (aproximadamente 3 rupias) por millón de tokens de entrada y 0,01 dólares (aproximadamente 0,8 rupias) por millón de tokens en los comandos almacenados en caché.

Además, Google duplicó el límite de velocidad del modelo 1.5 Flash-8B AI. Ahora, los desarrolladores pueden enviar hasta 4000 solicitudes por minuto (RPM) cuando utilizan este modelo. Al explicar la decisión, el gigante tecnológico afirmó que el modelo es adecuado tanto para tareas simples como para tareas de gran volumen. Los desarrolladores que quieran probar este modelo pueden hacerlo a través de Google AI Studio y la API de Gemini de forma gratuita.

Fuente