Documentación: Acción Gemini (Análisis con IA)¶

Descripción General¶

La Acción Gemini es un nodo de automatización que permite utilizar los modelos de inteligencia artificial de Google Gemini para procesar y analizar diferentes tipos de contenido. Este nodo puede generar texto, analizar imágenes, procesar audio y analizar videos utilizando los modelos avanzados de Gemini.

¿Cuándo usar esta acción?¶

Utiliza esta acción cuando necesites: - Analizar imágenes automáticamente (detectar objetos, leer texto, identificar escenas) - Generar imágenes a partir de descripciones de texto - Analizar videos para extraer información o detectar eventos - Procesar texto con capacidades avanzadas de IA - Procesar audio con reconocimiento y análisis - Integrar capacidades de IA en tus automatizaciones

Configuración del Nodo¶

La configuración del nodo se divide en dos secciones principales que puedes alternar usando el selector en la parte superior:

Sección 1: Configuración Básica¶

Paso 1: Configurar API Key¶

En el campo "API Key", ingresa tu clave de API de Google Gemini
Esta clave es necesaria para autenticarte con los servicios de Gemini
Importante: Mantén tu API key segura y no la compartas

Cómo obtener una API Key: - Visita Google AI Studio - Inicia sesión con tu cuenta de Google - Crea una nueva API key - Copia y pega la clave en este campo

Paso 2: Seleccionar Tipo de Recurso¶

En el campo "Resource Type" (Tipo de Recurso), selecciona el tipo de contenido que deseas procesar:
Text (Texto): Para procesamiento de texto
Image (Imagen): Para análisis o generación de imágenes
Audio (Audio): Para procesamiento de audio
Video (Video): Para análisis de videos

Nota: El tipo de recurso seleccionado determinará qué operaciones estarán disponibles y qué campos adicionales aparecerán.

Paso 3: Seleccionar Modelo¶

En el campo "Model" (Modelo), selecciona el modelo de Gemini que deseas utilizar:

Modelos disponibles: - Gemini 2.5 Pro: Modelo más potente, ideal para tareas complejas - Gemini 2.5 Flash: Modelo rápido y eficiente, ideal para la mayoría de casos de uso - Gemini 2.5 Flash Image: Optimizado para procesamiento de imágenes - Gemini 2.5 Flash Lite: Versión ligera, más rápida y económica - Gemini 2.0 Flash: Versión anterior del modelo Flash - Gemini 2.0 Flash Lite: Versión ligera anterior

Recomendaciones: - Para análisis de imágenes: Usa Gemini 2.5 Flash Image o Gemini 2.5 Flash - Para generación de imágenes: Usa Gemini 2.5 Flash - Para análisis de video: Usa Gemini 2.5 Pro o Gemini 2.5 Flash - Para procesamiento de texto: Usa Gemini 2.5 Flash (más rápido) o Gemini 2.5 Pro (más potente)

Sección 2: Configuración de Prompt¶

Paso 4: Seleccionar Operación (Solo para Imagen y Video)¶

Si seleccionaste Image (Imagen) como tipo de recurso:

En el campo "Operation" (Operación), selecciona:
Generate Image (Generar Imagen): Para crear imágenes a partir de descripciones
Analyze Image (Analizar Imagen): Para analizar imágenes existentes

Si seleccionaste Video (Video) como tipo de recurso:

En el campo "Operation", selecciona:
Analyze Video (Analizar Video): Para analizar videos

Nota: Para recursos de tipo Text y Audio, este campo no aparece ya que solo hay una operación disponible.

Paso 5: Configurar URLs de Imágenes (Solo para Análisis de Imágenes)¶

Si seleccionaste Image → Analyze Image:

En el campo "Image URLs" (URLs de Imágenes), ingresa las URLs de las imágenes que deseas analizar
Ingresa una URL por línea

Ejemplo:

https://example.com/imagen1.jpg
https://example.com/imagen2.png
https://example.com/imagen3.jpg

Requisitos: - Las URLs deben ser accesibles públicamente o desde los servidores de Gemini - Formatos soportados: JPG, PNG, GIF, WebP - Puedes analizar múltiples imágenes en una sola ejecución

Paso 6: Configurar URLs de Videos (Solo para Análisis de Video)¶

Si seleccionaste Video → Analyze Video:

En el campo "Video URLs" (URLs de Videos), ingresa las URLs de los videos que deseas analizar
Ingresa una URL por línea

Ejemplo:

https://example.com/video1.mp4
https://example.com/video2.mov

Requisitos: - Las URLs deben ser accesibles públicamente o desde los servidores de Gemini - Formatos soportados: MP4, MOV, AVI, WebM - Puedes analizar múltiples videos en una sola ejecución

Paso 7: Escribir el Prompt¶

En el campo "Prompt" (Prompt), escribe la instrucción o pregunta que deseas que Gemini procese
El contenido del prompt varía según la operación:

Para Generar Imagen:

Describe detalladamente la imagen que deseas generar. Ejemplo:
"Un gato siamés sentado en una ventana con vista al océano al atardecer, estilo realista, alta calidad"

Para Analizar Imagen:

Haz preguntas específicas sobre la imagen. Ejemplos:
"¿Qué objetos aparecen en esta imagen?"
"Describe la escena en detalle"
"¿Hay texto visible en la imagen? Si es así, ¿qué dice?"
"¿Cuántas personas hay en la imagen y qué están haciendo?"

Para Analizar Video:

Especifica qué quieres que analice del video. Ejemplos:
"Describe las acciones principales que ocurren en el video"
"¿Hay personas en el video? ¿Qué están haciendo?"
"Detecta cualquier evento inusual o movimiento sospechoso"
"Resume el contenido del video en 3-5 puntos clave"

Para Procesar Texto:

Ingresa el texto a procesar o las instrucciones. Ejemplos:
"Resume el siguiente texto: [tu texto aquí]"
"Traduce al inglés: [tu texto aquí]"
"Extrae las palabras clave de: [tu texto aquí]"

Para Procesar Audio:

Especifica qué quieres hacer con el audio. Ejemplos:
"Transcribe este audio a texto"
"Identifica el idioma hablado"
"Resume el contenido del audio"

Consejos para escribir prompts efectivos: - Sé específico y claro en tus instrucciones - Incluye contexto cuando sea necesario - Para análisis, haz preguntas concretas - Para generación, proporciona detalles visuales específicos - Puedes usar múltiples instrucciones separadas por puntos o líneas

Ejemplos de Uso¶

Ejemplo 1: Analizar Imagen de Seguridad¶

Configuración Básica: - API Key: tu-api-key-aqui - Resource Type: Image - Model: Gemini 2.5 Flash Image

Configuración de Prompt: - Operation: Analyze Image - Image URLs:

https://seguridad.ejemplo.com/camara1/snapshot.jpg

- Prompt:

Analiza esta imagen de seguridad. ¿Hay personas visibles? 
Si es así, describe su posición y actividad. 
¿Hay algún objeto sospechoso o actividad inusual?

Uso: Se activa cuando se detecta movimiento y analiza automáticamente la imagen de la cámara.

Ejemplo 2: Generar Imagen para Notificación¶

Configuración Básica: - API Key: tu-api-key-aqui - Resource Type: Image - Model: Gemini 2.5 Flash

Configuración de Prompt: - Operation: Generate Image - Prompt:

Una ilustración moderna de un sistema de automatización del hogar, 
mostrando dispositivos conectados, estilo minimalista, colores azul y blanco, 
alta calidad profesional

Uso: Genera una imagen personalizada para usar en notificaciones o dashboards.

Ejemplo 3: Analizar Video de Evento¶

Configuración Básica: - API Key: tu-api-key-aqui - Resource Type: Video - Model: Gemini 2.5 Pro

Configuración de Prompt: - Operation: Analyze Video - Video URLs:

https://eventos.ejemplo.com/grabaciones/evento-2024.mp4

- Prompt:

Analiza este video de evento. Resume las actividades principales, 
identifica momentos destacados, y estima el número aproximado de asistentes.
¿Hay algún momento que requiera atención especial?

Uso: Analiza automáticamente videos de eventos para generar reportes.

Ejemplo 4: Procesar Texto de Documento¶

Configuración Básica: - API Key: tu-api-key-aqui - Resource Type: Text - Model: Gemini 2.5 Flash

Configuración de Prompt: - Prompt:

Analiza el siguiente texto y extrae:
1. Las ideas principales
2. Palabras clave importantes
3. Un resumen en 3 oraciones

Texto: {{context.document_text}}

Uso: Procesa automáticamente documentos y extrae información clave.

Ejemplo 5: Transcribir Audio¶

Configuración Básica: - API Key: tu-api-key-aqui - Resource Type: Audio - Model: Gemini 2.5 Flash

Configuración de Prompt: - Prompt:

Transcribe este audio a texto. Si hay múltiples hablantes, 
identifica quién dice qué. Incluye puntuación y formato apropiado.

Uso: Convierte automáticamente grabaciones de audio a texto.

Flujo de Trabajo en Automatizaciones¶

Estructura Típica¶

Trigger (por ejemplo, Trigger de Cambio de Estado) ↓
Acción Gemini (procesa el contenido) ↓
Acción de Resultado (usa el resultado, por ejemplo, enviar notificación)

Acceso a Resultados¶

Los resultados de la acción Gemini están disponibles en el contexto de la automatización y pueden ser utilizados por nodos posteriores. Los resultados típicamente incluyen:

Para análisis de imagen: Descripción textual, objetos detectados, texto extraído
Para generación de imagen: URL de la imagen generada
Para análisis de video: Resumen, eventos detectados, descripción de escenas
Para procesamiento de texto: Texto procesado, resumen, traducción, etc.
Para procesamiento de audio: Transcripción, resumen, información extraída

Editor JSON (Avanzado)¶

Si tienes conocimientos técnicos, puedes editar la configuración directamente en formato JSON usando la pestaña "JSON Editor". La estructura es:

{
  "api_key": "tu-api-key-aqui",
  "resource": "image",
  "operation": "analyze",
  "model_id": "gemini-2.5-flash",
  "image_urls": [
    "https://example.com/imagen1.jpg",
    "https://example.com/imagen2.jpg"
  ],
  "video_urls": [],
  "prompt": "Describe esta imagen en detalle"
}

Campos disponibles: - api_key: Tu clave de API de Gemini (requerido) - resource: Tipo de recurso: "text", "image", "audio", "video" (requerido) - operation: Operación específica (requerido para imagen y video) - Para imagen: "generate" o "analyze" - Para video: "analyze_video" - model_id: ID del modelo a usar (requerido) - image_urls: Array de URLs de imágenes (para análisis de imágenes) - video_urls: Array de URLs de videos (para análisis de video) - prompt: El prompt o instrucción (requerido)

Solución de Problemas¶

Error de Autenticación¶

Problema: "Invalid API key" o errores de autenticación

Soluciones: 1. Verifica que la API key sea correcta y esté activa 2. Asegúrate de que no haya espacios adicionales al copiar/pegar 3. Verifica que tu API key tenga los permisos necesarios en Google Cloud Console 4. Comprueba que no hayas excedido los límites de uso de tu API key

Las URLs de Imágenes/Video No Funcionan¶

Problema: El análisis falla o no encuentra las imágenes/videos

Soluciones: 1. Verifica que las URLs sean accesibles públicamente 2. Asegúrate de que las URLs sean válidas y apunten a archivos existentes 3. Verifica el formato del archivo (JPG, PNG para imágenes; MP4, MOV para videos) 4. Comprueba que los servidores no bloqueen el acceso desde los servicios de Gemini 5. Si las URLs son privadas, considera usar URLs temporales o servicios de almacenamiento público

El Prompt No Produce los Resultados Esperados¶

Problema: Los resultados no son lo que esperabas

Soluciones: 1. Sé más específico: Agrega más detalles a tu prompt 2. Reformula: Intenta diferentes formas de hacer la misma pregunta 3. Proporciona contexto: Incluye información relevante sobre lo que estás analizando 4. Divide en pasos: Para tareas complejas, considera usar múltiples acciones Gemini en secuencia 5. Prueba diferentes modelos: Algunos modelos son mejores para ciertas tareas

Límites de Uso Excedidos¶

Problema: "Rate limit exceeded" o "Quota exceeded"

Soluciones: 1. Revisa los límites de tu plan de API de Gemini 2. Considera usar un modelo más ligero (Flash Lite) para reducir el consumo 3. Implementa retrasos entre llamadas si procesas múltiples elementos 4. Contacta con Google para aumentar tus límites si es necesario

El Modelo No Está Disponible¶

Problema: Error al seleccionar un modelo específico

Soluciones: 1. Verifica que el modelo esté disponible en tu región 2. Intenta usar un modelo alternativo (por ejemplo, Flash en lugar de Pro) 3. Consulta la documentación de Gemini para ver la disponibilidad de modelos 4. Actualiza a la versión más reciente del sistema

Mejores Prácticas¶

Seguridad¶

Nunca compartas tu API key en código público o documentación
Usa variables de entorno o almacenamiento seguro para API keys en producción
Rota tus API keys periódicamente
Monitorea el uso de tu API key para detectar uso no autorizado

Optimización de Costos¶

Elige el modelo adecuado: Usa modelos más ligeros (Flash Lite) cuando sea posible
Combina múltiples análisis en un solo prompt cuando sea apropiado
Cachea resultados cuando proceses el mismo contenido múltiples veces
Monitorea tu consumo para evitar sorpresas en la facturación

Calidad de Resultados¶

Escribe prompts claros y específicos para obtener mejores resultados
Proporciona ejemplos en tu prompt cuando sea útil
Itera y mejora tus prompts basándote en los resultados obtenidos
Usa el modelo correcto para cada tipo de tarea (Pro para tareas complejas, Flash para tareas simples)

Integración en Automatizaciones¶

Maneja errores usando nodos condicionales después de la acción Gemini
Valida resultados antes de usarlos en acciones posteriores
Usa timeouts para evitar que las automatizaciones se queden colgadas
Registra resultados para debugging y mejora continua

Preguntas Frecuentes¶

P: ¿Puedo usar múltiples imágenes en un solo análisis? R: Sí, puedes ingresar múltiples URLs de imágenes (una por línea) y Gemini las analizará todas en conjunto.

P: ¿Qué formatos de imagen/video son soportados? R: Para imágenes: JPG, PNG, GIF, WebP. Para videos: MP4, MOV, AVI, WebM. Consulta la documentación oficial de Gemini para la lista completa.

P: ¿Cuánto tiempo toma procesar una imagen/video? R: Depende del tamaño del archivo y del modelo usado. Generalmente, imágenes pequeñas toman segundos, mientras que videos pueden tomar minutos.

P: ¿Puedo usar variables del contexto de automatización en el prompt? R: Sí, puedes usar variables del contexto usando la sintaxis {{variable.nombre}} en el campo de prompt.

P: ¿Hay límites en el tamaño de archivos que puedo procesar? R: Sí, Gemini tiene límites en el tamaño de archivos. Consulta la documentación oficial para los límites actuales.

P: ¿Puedo usar este nodo sin API key? R: No, una API key válida es requerida para usar los servicios de Gemini.

P: ¿Los resultados se almacenan en algún lugar? R: Los resultados están disponibles en el contexto de la automatización y pueden ser usados por nodos posteriores. Consulta la documentación sobre cómo acceder a estos resultados.

P: ¿Qué diferencia hay entre los modelos Pro y Flash? R: Pro es más potente y preciso pero más lento y costoso. Flash es más rápido y económico pero puede ser menos preciso en tareas muy complejas.