Saltar a contenido

Documentación: Acción Gemini (Análisis con IA)

Descripción General

La Acción Gemini es un nodo de automatización que permite utilizar los modelos de inteligencia artificial de Google Gemini para procesar y analizar diferentes tipos de contenido. Este nodo puede generar texto, analizar imágenes, procesar audio y analizar videos utilizando los modelos avanzados de Gemini.

¿Cuándo usar esta acción?

Utiliza esta acción cuando necesites: - Analizar imágenes automáticamente (detectar objetos, leer texto, identificar escenas) - Generar imágenes a partir de descripciones de texto - Analizar videos para extraer información o detectar eventos - Procesar texto con capacidades avanzadas de IA - Procesar audio con reconocimiento y análisis - Integrar capacidades de IA en tus automatizaciones

Configuración del Nodo

La configuración del nodo se divide en dos secciones principales que puedes alternar usando el selector en la parte superior:

Sección 1: Configuración Básica

Paso 1: Configurar API Key

  1. En el campo "API Key", ingresa tu clave de API de Google Gemini
  2. Esta clave es necesaria para autenticarte con los servicios de Gemini
  3. Importante: Mantén tu API key segura y no la compartas

Cómo obtener una API Key: - Visita Google AI Studio - Inicia sesión con tu cuenta de Google - Crea una nueva API key - Copia y pega la clave en este campo

Paso 2: Seleccionar Tipo de Recurso

  1. En el campo "Resource Type" (Tipo de Recurso), selecciona el tipo de contenido que deseas procesar:
  2. Text (Texto): Para procesamiento de texto
  3. Image (Imagen): Para análisis o generación de imágenes
  4. Audio (Audio): Para procesamiento de audio
  5. Video (Video): Para análisis de videos

Nota: El tipo de recurso seleccionado determinará qué operaciones estarán disponibles y qué campos adicionales aparecerán.

Paso 3: Seleccionar Modelo

  1. En el campo "Model" (Modelo), selecciona el modelo de Gemini que deseas utilizar:

Modelos disponibles: - Gemini 2.5 Pro: Modelo más potente, ideal para tareas complejas - Gemini 2.5 Flash: Modelo rápido y eficiente, ideal para la mayoría de casos de uso - Gemini 2.5 Flash Image: Optimizado para procesamiento de imágenes - Gemini 2.5 Flash Lite: Versión ligera, más rápida y económica - Gemini 2.0 Flash: Versión anterior del modelo Flash - Gemini 2.0 Flash Lite: Versión ligera anterior

Recomendaciones: - Para análisis de imágenes: Usa Gemini 2.5 Flash Image o Gemini 2.5 Flash - Para generación de imágenes: Usa Gemini 2.5 Flash - Para análisis de video: Usa Gemini 2.5 Pro o Gemini 2.5 Flash - Para procesamiento de texto: Usa Gemini 2.5 Flash (más rápido) o Gemini 2.5 Pro (más potente)

Sección 2: Configuración de Prompt

Paso 4: Seleccionar Operación (Solo para Imagen y Video)

Si seleccionaste Image (Imagen) como tipo de recurso:

  1. En el campo "Operation" (Operación), selecciona:
  2. Generate Image (Generar Imagen): Para crear imágenes a partir de descripciones
  3. Analyze Image (Analizar Imagen): Para analizar imágenes existentes

Si seleccionaste Video (Video) como tipo de recurso:

  1. En el campo "Operation", selecciona:
  2. Analyze Video (Analizar Video): Para analizar videos

Nota: Para recursos de tipo Text y Audio, este campo no aparece ya que solo hay una operación disponible.

Paso 5: Configurar URLs de Imágenes (Solo para Análisis de Imágenes)

Si seleccionaste ImageAnalyze Image:

  1. En el campo "Image URLs" (URLs de Imágenes), ingresa las URLs de las imágenes que deseas analizar
  2. Ingresa una URL por línea
  3. Ejemplo:
    https://example.com/imagen1.jpg
    https://example.com/imagen2.png
    https://example.com/imagen3.jpg
    

Requisitos: - Las URLs deben ser accesibles públicamente o desde los servidores de Gemini - Formatos soportados: JPG, PNG, GIF, WebP - Puedes analizar múltiples imágenes en una sola ejecución

Paso 6: Configurar URLs de Videos (Solo para Análisis de Video)

Si seleccionaste VideoAnalyze Video:

  1. En el campo "Video URLs" (URLs de Videos), ingresa las URLs de los videos que deseas analizar
  2. Ingresa una URL por línea
  3. Ejemplo:
    https://example.com/video1.mp4
    https://example.com/video2.mov
    

Requisitos: - Las URLs deben ser accesibles públicamente o desde los servidores de Gemini - Formatos soportados: MP4, MOV, AVI, WebM - Puedes analizar múltiples videos en una sola ejecución

Paso 7: Escribir el Prompt

  1. En el campo "Prompt" (Prompt), escribe la instrucción o pregunta que deseas que Gemini procese
  2. El contenido del prompt varía según la operación:

Para Generar Imagen:

Describe detalladamente la imagen que deseas generar. Ejemplo:
"Un gato siamés sentado en una ventana con vista al océano al atardecer, estilo realista, alta calidad"

Para Analizar Imagen:

Haz preguntas específicas sobre la imagen. Ejemplos:
"¿Qué objetos aparecen en esta imagen?"
"Describe la escena en detalle"
"¿Hay texto visible en la imagen? Si es así, ¿qué dice?"
"¿Cuántas personas hay en la imagen y qué están haciendo?"

Para Analizar Video:

Especifica qué quieres que analice del video. Ejemplos:
"Describe las acciones principales que ocurren en el video"
"¿Hay personas en el video? ¿Qué están haciendo?"
"Detecta cualquier evento inusual o movimiento sospechoso"
"Resume el contenido del video en 3-5 puntos clave"

Para Procesar Texto:

Ingresa el texto a procesar o las instrucciones. Ejemplos:
"Resume el siguiente texto: [tu texto aquí]"
"Traduce al inglés: [tu texto aquí]"
"Extrae las palabras clave de: [tu texto aquí]"

Para Procesar Audio:

Especifica qué quieres hacer con el audio. Ejemplos:
"Transcribe este audio a texto"
"Identifica el idioma hablado"
"Resume el contenido del audio"

Consejos para escribir prompts efectivos: - Sé específico y claro en tus instrucciones - Incluye contexto cuando sea necesario - Para análisis, haz preguntas concretas - Para generación, proporciona detalles visuales específicos - Puedes usar múltiples instrucciones separadas por puntos o líneas

Ejemplos de Uso

Ejemplo 1: Analizar Imagen de Seguridad

Configuración Básica: - API Key: tu-api-key-aqui - Resource Type: Image - Model: Gemini 2.5 Flash Image

Configuración de Prompt: - Operation: Analyze Image - Image URLs:

https://seguridad.ejemplo.com/camara1/snapshot.jpg
- Prompt:
Analiza esta imagen de seguridad. ¿Hay personas visibles? 
Si es así, describe su posición y actividad. 
¿Hay algún objeto sospechoso o actividad inusual?

Uso: Se activa cuando se detecta movimiento y analiza automáticamente la imagen de la cámara.

Ejemplo 2: Generar Imagen para Notificación

Configuración Básica: - API Key: tu-api-key-aqui - Resource Type: Image - Model: Gemini 2.5 Flash

Configuración de Prompt: - Operation: Generate Image - Prompt:

Una ilustración moderna de un sistema de automatización del hogar, 
mostrando dispositivos conectados, estilo minimalista, colores azul y blanco, 
alta calidad profesional

Uso: Genera una imagen personalizada para usar en notificaciones o dashboards.

Ejemplo 3: Analizar Video de Evento

Configuración Básica: - API Key: tu-api-key-aqui - Resource Type: Video - Model: Gemini 2.5 Pro

Configuración de Prompt: - Operation: Analyze Video - Video URLs:

https://eventos.ejemplo.com/grabaciones/evento-2024.mp4
- Prompt:
Analiza este video de evento. Resume las actividades principales, 
identifica momentos destacados, y estima el número aproximado de asistentes.
¿Hay algún momento que requiera atención especial?

Uso: Analiza automáticamente videos de eventos para generar reportes.

Ejemplo 4: Procesar Texto de Documento

Configuración Básica: - API Key: tu-api-key-aqui - Resource Type: Text - Model: Gemini 2.5 Flash

Configuración de Prompt: - Prompt:

Analiza el siguiente texto y extrae:
1. Las ideas principales
2. Palabras clave importantes
3. Un resumen en 3 oraciones

Texto: {{context.document_text}}

Uso: Procesa automáticamente documentos y extrae información clave.

Ejemplo 5: Transcribir Audio

Configuración Básica: - API Key: tu-api-key-aqui - Resource Type: Audio - Model: Gemini 2.5 Flash

Configuración de Prompt: - Prompt:

Transcribe este audio a texto. Si hay múltiples hablantes, 
identifica quién dice qué. Incluye puntuación y formato apropiado.

Uso: Convierte automáticamente grabaciones de audio a texto.

Flujo de Trabajo en Automatizaciones

Estructura Típica

  1. Trigger (por ejemplo, Trigger de Cambio de Estado) ↓
  2. Acción Gemini (procesa el contenido) ↓
  3. Acción de Resultado (usa el resultado, por ejemplo, enviar notificación)

Acceso a Resultados

Los resultados de la acción Gemini están disponibles en el contexto de la automatización y pueden ser utilizados por nodos posteriores. Los resultados típicamente incluyen:

  • Para análisis de imagen: Descripción textual, objetos detectados, texto extraído
  • Para generación de imagen: URL de la imagen generada
  • Para análisis de video: Resumen, eventos detectados, descripción de escenas
  • Para procesamiento de texto: Texto procesado, resumen, traducción, etc.
  • Para procesamiento de audio: Transcripción, resumen, información extraída

Editor JSON (Avanzado)

Si tienes conocimientos técnicos, puedes editar la configuración directamente en formato JSON usando la pestaña "JSON Editor". La estructura es:

{
  "api_key": "tu-api-key-aqui",
  "resource": "image",
  "operation": "analyze",
  "model_id": "gemini-2.5-flash",
  "image_urls": [
    "https://example.com/imagen1.jpg",
    "https://example.com/imagen2.jpg"
  ],
  "video_urls": [],
  "prompt": "Describe esta imagen en detalle"
}

Campos disponibles: - api_key: Tu clave de API de Gemini (requerido) - resource: Tipo de recurso: "text", "image", "audio", "video" (requerido) - operation: Operación específica (requerido para imagen y video) - Para imagen: "generate" o "analyze" - Para video: "analyze_video" - model_id: ID del modelo a usar (requerido) - image_urls: Array de URLs de imágenes (para análisis de imágenes) - video_urls: Array de URLs de videos (para análisis de video) - prompt: El prompt o instrucción (requerido)

Solución de Problemas

Error de Autenticación

Problema: "Invalid API key" o errores de autenticación

Soluciones: 1. Verifica que la API key sea correcta y esté activa 2. Asegúrate de que no haya espacios adicionales al copiar/pegar 3. Verifica que tu API key tenga los permisos necesarios en Google Cloud Console 4. Comprueba que no hayas excedido los límites de uso de tu API key

Las URLs de Imágenes/Video No Funcionan

Problema: El análisis falla o no encuentra las imágenes/videos

Soluciones: 1. Verifica que las URLs sean accesibles públicamente 2. Asegúrate de que las URLs sean válidas y apunten a archivos existentes 3. Verifica el formato del archivo (JPG, PNG para imágenes; MP4, MOV para videos) 4. Comprueba que los servidores no bloqueen el acceso desde los servicios de Gemini 5. Si las URLs son privadas, considera usar URLs temporales o servicios de almacenamiento público

El Prompt No Produce los Resultados Esperados

Problema: Los resultados no son lo que esperabas

Soluciones: 1. Sé más específico: Agrega más detalles a tu prompt 2. Reformula: Intenta diferentes formas de hacer la misma pregunta 3. Proporciona contexto: Incluye información relevante sobre lo que estás analizando 4. Divide en pasos: Para tareas complejas, considera usar múltiples acciones Gemini en secuencia 5. Prueba diferentes modelos: Algunos modelos son mejores para ciertas tareas

Límites de Uso Excedidos

Problema: "Rate limit exceeded" o "Quota exceeded"

Soluciones: 1. Revisa los límites de tu plan de API de Gemini 2. Considera usar un modelo más ligero (Flash Lite) para reducir el consumo 3. Implementa retrasos entre llamadas si procesas múltiples elementos 4. Contacta con Google para aumentar tus límites si es necesario

El Modelo No Está Disponible

Problema: Error al seleccionar un modelo específico

Soluciones: 1. Verifica que el modelo esté disponible en tu región 2. Intenta usar un modelo alternativo (por ejemplo, Flash en lugar de Pro) 3. Consulta la documentación de Gemini para ver la disponibilidad de modelos 4. Actualiza a la versión más reciente del sistema

Mejores Prácticas

Seguridad

  1. Nunca compartas tu API key en código público o documentación
  2. Usa variables de entorno o almacenamiento seguro para API keys en producción
  3. Rota tus API keys periódicamente
  4. Monitorea el uso de tu API key para detectar uso no autorizado

Optimización de Costos

  1. Elige el modelo adecuado: Usa modelos más ligeros (Flash Lite) cuando sea posible
  2. Combina múltiples análisis en un solo prompt cuando sea apropiado
  3. Cachea resultados cuando proceses el mismo contenido múltiples veces
  4. Monitorea tu consumo para evitar sorpresas en la facturación

Calidad de Resultados

  1. Escribe prompts claros y específicos para obtener mejores resultados
  2. Proporciona ejemplos en tu prompt cuando sea útil
  3. Itera y mejora tus prompts basándote en los resultados obtenidos
  4. Usa el modelo correcto para cada tipo de tarea (Pro para tareas complejas, Flash para tareas simples)

Integración en Automatizaciones

  1. Maneja errores usando nodos condicionales después de la acción Gemini
  2. Valida resultados antes de usarlos en acciones posteriores
  3. Usa timeouts para evitar que las automatizaciones se queden colgadas
  4. Registra resultados para debugging y mejora continua

Preguntas Frecuentes

P: ¿Puedo usar múltiples imágenes en un solo análisis? R: Sí, puedes ingresar múltiples URLs de imágenes (una por línea) y Gemini las analizará todas en conjunto.

P: ¿Qué formatos de imagen/video son soportados? R: Para imágenes: JPG, PNG, GIF, WebP. Para videos: MP4, MOV, AVI, WebM. Consulta la documentación oficial de Gemini para la lista completa.

P: ¿Cuánto tiempo toma procesar una imagen/video? R: Depende del tamaño del archivo y del modelo usado. Generalmente, imágenes pequeñas toman segundos, mientras que videos pueden tomar minutos.

P: ¿Puedo usar variables del contexto de automatización en el prompt? R: Sí, puedes usar variables del contexto usando la sintaxis {{variable.nombre}} en el campo de prompt.

P: ¿Hay límites en el tamaño de archivos que puedo procesar? R: Sí, Gemini tiene límites en el tamaño de archivos. Consulta la documentación oficial para los límites actuales.

P: ¿Puedo usar este nodo sin API key? R: No, una API key válida es requerida para usar los servicios de Gemini.

P: ¿Los resultados se almacenan en algún lugar? R: Los resultados están disponibles en el contexto de la automatización y pueden ser usados por nodos posteriores. Consulta la documentación sobre cómo acceder a estos resultados.

P: ¿Qué diferencia hay entre los modelos Pro y Flash? R: Pro es más potente y preciso pero más lento y costoso. Flash es más rápido y económico pero puede ser menos preciso en tareas muy complejas.