Saltar a contenido

Documentación: Acción GPT (Análisis con IA de OpenAI)

Descripción General

La Acción GPT es un nodo de automatización que permite utilizar los modelos de inteligencia artificial de OpenAI (GPT) para procesar y analizar distintos tipos de contenido: texto, imágenes, audio y video. Es parte de la familia de nodos de AI Models y comparte la misma estructura que las acciones de otros proveedores (Gemini, Claude, Grok).

En entornos IoT y de seguridad, este nodo permite, por ejemplo, analizar automáticamente con IA la imagen de una cámara cuando se dispara una alarma (detectar personas, vehículos, objetos), generar descripciones, o procesar textos y reportes.


¿Cuándo usar esta acción?

Utiliza esta acción cuando necesites:

  • Analizar imágenes de cámaras automáticamente (detectar personas/objetos, leer texto, describir la escena).
  • Generar imágenes a partir de descripciones de texto.
  • Analizar video para extraer información o detectar eventos.
  • Procesar texto (resumir, traducir, extraer datos) con IA.
  • Integrar las capacidades de OpenAI en tus automatizaciones.

Configuración del Nodo

La configuración se divide en dos secciones, conmutables con el selector superior: Basic Configuration y Prompt Configuration. Además, dispone de la pestaña JSON Editor.

Configuración básica vacía del nodo GPT

Sección: Basic Configuration (Configuración Básica)

1. API Key *Requerido

Selecciona la credencial de OpenAI que autentica el acceso. La credencial se gestiona de forma centralizada y segura (la API key no se escribe en el nodo).

2. Tipo de Recurso (Resource Type) *Requerido

El tipo de contenido a procesar: Text, Image, Audio o Video. Determina qué campos adicionales aparecen.

3. Modelo (Model) *Requerido

El modelo de OpenAI a utilizar:

Modelo Valor
GPT-4o gpt-4o
GPT-4o Mini gpt-4o-mini
GPT-4 Turbo gpt-4-turbo
GPT-4 gpt-4
GPT-3.5 Turbo gpt-3.5-turbo
o1 o1
o1-mini o1-mini

Configuración básica del nodo GPT con recurso Imagen

Sección: Prompt Configuration (Configuración del Prompt)

4. Operación (Operation) *Para Imagen y Video

  • Para Image: Generate Image (generar) o Analyze Image (analizar).
  • Para Video: Analyze Video.
  • Para Text y Audio no aparece (solo hay una operación).

5. URLs de Imágenes / Videos

Para análisis de imagen o video, ingresa las URLs (una por línea). Admite expresiones de plantilla (por ejemplo, {{get_snapshot_node.url}} para analizar la captura obtenida por un nodo anterior).

6. Prompt *Requerido

La instrucción o pregunta para el modelo (por ejemplo, "¿Hay personas en esta imagen de seguridad?"). Admite expresiones de plantilla.

Configuración del prompt del nodo GPT


Vista Editor de JSON

Vista JSON Editor del nodo GPT


Estructura JSON (Parámetros de entrada)

{
  "api_key": "",
  "resource": "image",
  "operation": "analyze",
  "model_id": "gpt-4o",
  "image_urls": [
    "{{get_snapshot_node.url}}"
  ],
  "video_urls": [],
  "prompt": "Analyze this security image. Are there people? Describe their position and whether there is suspicious activity."
}

Campos del JSON

Campo Tipo Descripción
api_key string Referencia a la credencial de OpenAI (gestionada de forma segura).
resource string Tipo de recurso: text, image, audio, video.
operation string Operación (para imagen: generate/analyze; para video: analyze_video).
model_id string ID del modelo GPT (ej. gpt-4o).
image_urls array (string) URLs de imágenes a analizar.
video_urls array (string) URLs de videos a analizar.
prompt string La instrucción/pregunta para el modelo.

Output: Dónde viene la data del nodo

El resultado del análisis (texto generado por el modelo, descripción, datos extraídos o, para generación de imagen, la URL resultante) queda disponible en la salida del nodo y puede usarse en nodos posteriores con {{node_key}}.


Ejemplos de uso

Ejemplo 1: Verificación inteligente de alarma con la cámara

Caso de uso: Al dispararse una alarma de movimiento, un nodo Obtener captura toma la imagen de la cámara y este nodo la analiza con GPT-4o para confirmar si realmente hay una persona.

  • Resource Type: Image | Model: gpt-4o
  • Operation: Analyze Image
  • Image URLs: {{get_snapshot_node.url}}
  • Prompt: Analyze this security image. Are there people? Describe their position and whether there is suspicious activity.

(ver estructura JSON anterior)

Ejemplo 2: Resumen de un reporte de texto

Caso de uso: Procesar un texto largo (por ejemplo, una bitácora) para extraer las ideas clave.

  • Resource Type: Text
  • Prompt: Summarize the following text in 3 key points: {{trigger.body.text}}

Validación y errores

Condición Causa / Solución habitual
Error de autenticación La credencial de OpenAI es inválida o sin permisos/saldo.
Las URLs no funcionan Asegúrate de que las URLs de imagen/video sean accesibles públicamente (convierte URLs internas de Docker a su ruta pública).
Límite de uso excedido Revisa los límites/cuota de tu cuenta de OpenAI; considera un modelo más ligero (gpt-4o-mini).

Buenas prácticas

  • Usar credenciales centralizadas: No escribas la API key en el nodo; selecciona una credencial gestionada de forma segura.
  • Elegir el modelo adecuado: Usa gpt-4o/gpt-4o-mini para visión; modelos más ligeros para reducir costos.
  • Prompts específicos: Haz preguntas concretas para obtener respuestas accionables (ideal para confirmar/descartar alarmas).
  • Encadenar con la captura: El patrón típico es Obtener capturaGPT (Analyze Image) → condición/notificación según el resultado.