Documentación: Acción GPT (Análisis con IA de OpenAI)¶

Descripción General¶

La Acción GPT es un nodo de automatización que permite utilizar los modelos de inteligencia artificial de OpenAI (GPT) para procesar y analizar distintos tipos de contenido: texto, imágenes, audio y video. Es parte de la familia de nodos de AI Models y comparte la misma estructura que las acciones de otros proveedores (Gemini, Claude, Grok).

En entornos IoT y de seguridad, este nodo permite, por ejemplo, analizar automáticamente con IA la imagen de una cámara cuando se dispara una alarma (detectar personas, vehículos, objetos), generar descripciones, o procesar textos y reportes.

¿Cuándo usar esta acción?¶

Utiliza esta acción cuando necesites:

Analizar imágenes de cámaras automáticamente (detectar personas/objetos, leer texto, describir la escena).
Generar imágenes a partir de descripciones de texto.
Analizar video para extraer información o detectar eventos.
Procesar texto (resumir, traducir, extraer datos) con IA.
Integrar las capacidades de OpenAI en tus automatizaciones.

Configuración del Nodo¶

La configuración se divide en dos secciones, conmutables con el selector superior: Basic Configuration y Prompt Configuration. Además, dispone de la pestaña JSON Editor.

Configuración básica vacía del nodo GPT

Sección: Basic Configuration (Configuración Básica)¶

1. API Key *Requerido¶

Selecciona la credencial de OpenAI que autentica el acceso. La credencial se gestiona de forma centralizada y segura (la API key no se escribe en el nodo).

2. Tipo de Recurso (Resource Type) *Requerido¶

El tipo de contenido a procesar: Text, Image, Audio o Video. Determina qué campos adicionales aparecen.

3. Modelo (Model) *Requerido¶

El modelo de OpenAI a utilizar:

Modelo	Valor
GPT-4o	`gpt-4o`
GPT-4o Mini	`gpt-4o-mini`
GPT-4 Turbo	`gpt-4-turbo`
GPT-4	`gpt-4`
GPT-3.5 Turbo	`gpt-3.5-turbo`
o1	`o1`
o1-mini	`o1-mini`

Configuración básica del nodo GPT con recurso Imagen

Sección: Prompt Configuration (Configuración del Prompt)¶

4. Operación (Operation) *Para Imagen y Video¶

Para Image: Generate Image (generar) o Analyze Image (analizar).
Para Video: Analyze Video.
Para Text y Audio no aparece (solo hay una operación).

5. URLs de Imágenes / Videos¶

Para análisis de imagen o video, ingresa las URLs (una por línea). Admite expresiones de plantilla (por ejemplo, {{get_snapshot_node.url}} para analizar la captura obtenida por un nodo anterior).

6. Prompt *Requerido¶

La instrucción o pregunta para el modelo (por ejemplo, "¿Hay personas en esta imagen de seguridad?"). Admite expresiones de plantilla.

Configuración del prompt del nodo GPT

Vista Editor de JSON¶

Vista JSON Editor del nodo GPT

Estructura JSON (Parámetros de entrada)¶

{
  "api_key": "",
  "resource": "image",
  "operation": "analyze",
  "model_id": "gpt-4o",
  "image_urls": [
    "{{get_snapshot_node.url}}"
  ],
  "video_urls": [],
  "prompt": "Analyze this security image. Are there people? Describe their position and whether there is suspicious activity."
}

Campos del JSON¶

Campo	Tipo	Descripción
`api_key`	string	Referencia a la credencial de OpenAI (gestionada de forma segura).
`resource`	string	Tipo de recurso: `text`, `image`, `audio`, `video`.
`operation`	string	Operación (para imagen: `generate`/`analyze`; para video: `analyze_video`).
`model_id`	string	ID del modelo GPT (ej. `gpt-4o`).
`image_urls`	array (string)	URLs de imágenes a analizar.
`video_urls`	array (string)	URLs de videos a analizar.
`prompt`	string	La instrucción/pregunta para el modelo.

Output: Dónde viene la data del nodo¶

El resultado del análisis (texto generado por el modelo, descripción, datos extraídos o, para generación de imagen, la URL resultante) queda disponible en la salida del nodo y puede usarse en nodos posteriores con {{node_key}}.

Ejemplos de uso¶

Ejemplo 1: Verificación inteligente de alarma con la cámara¶

Caso de uso: Al dispararse una alarma de movimiento, un nodo Obtener captura toma la imagen de la cámara y este nodo la analiza con GPT-4o para confirmar si realmente hay una persona.

Resource Type: Image | Model: gpt-4o
Operation: Analyze Image
Image URLs: {{get_snapshot_node.url}}
Prompt: Analyze this security image. Are there people? Describe their position and whether there is suspicious activity.

(ver estructura JSON anterior)

Ejemplo 2: Resumen de un reporte de texto¶

Caso de uso: Procesar un texto largo (por ejemplo, una bitácora) para extraer las ideas clave.

Resource Type: Text
Prompt: Summarize the following text in 3 key points: {{trigger.body.text}}

Validación y errores¶

Condición	Causa / Solución habitual
Error de autenticación	La credencial de OpenAI es inválida o sin permisos/saldo.
Las URLs no funcionan	Asegúrate de que las URLs de imagen/video sean accesibles públicamente (convierte URLs internas de Docker a su ruta pública).
Límite de uso excedido	Revisa los límites/cuota de tu cuenta de OpenAI; considera un modelo más ligero (`gpt-4o-mini`).

Buenas prácticas¶

Usar credenciales centralizadas: No escribas la API key en el nodo; selecciona una credencial gestionada de forma segura.
Elegir el modelo adecuado: Usa gpt-4o/gpt-4o-mini para visión; modelos más ligeros para reducir costos.
Prompts específicos: Haz preguntas concretas para obtener respuestas accionables (ideal para confirmar/descartar alarmas).
Encadenar con la captura: El patrón típico es Obtener captura → GPT (Analyze Image) → condición/notificación según el resultado.