Documentación: Acción GPT (Análisis con IA de OpenAI)¶
Descripción General¶
La Acción GPT es un nodo de automatización que permite utilizar los modelos de inteligencia artificial de OpenAI (GPT) para procesar y analizar distintos tipos de contenido: texto, imágenes, audio y video. Es parte de la familia de nodos de AI Models y comparte la misma estructura que las acciones de otros proveedores (Gemini, Claude, Grok).
En entornos IoT y de seguridad, este nodo permite, por ejemplo, analizar automáticamente con IA la imagen de una cámara cuando se dispara una alarma (detectar personas, vehículos, objetos), generar descripciones, o procesar textos y reportes.
¿Cuándo usar esta acción?¶
Utiliza esta acción cuando necesites:
- Analizar imágenes de cámaras automáticamente (detectar personas/objetos, leer texto, describir la escena).
- Generar imágenes a partir de descripciones de texto.
- Analizar video para extraer información o detectar eventos.
- Procesar texto (resumir, traducir, extraer datos) con IA.
- Integrar las capacidades de OpenAI en tus automatizaciones.
Configuración del Nodo¶
La configuración se divide en dos secciones, conmutables con el selector superior: Basic Configuration y Prompt Configuration. Además, dispone de la pestaña JSON Editor.

Sección: Basic Configuration (Configuración Básica)¶
1. API Key *Requerido¶
Selecciona la credencial de OpenAI que autentica el acceso. La credencial se gestiona de forma centralizada y segura (la API key no se escribe en el nodo).
2. Tipo de Recurso (Resource Type) *Requerido¶
El tipo de contenido a procesar: Text, Image, Audio o Video. Determina qué campos adicionales aparecen.
3. Modelo (Model) *Requerido¶
El modelo de OpenAI a utilizar:
| Modelo | Valor |
|---|---|
| GPT-4o | gpt-4o |
| GPT-4o Mini | gpt-4o-mini |
| GPT-4 Turbo | gpt-4-turbo |
| GPT-4 | gpt-4 |
| GPT-3.5 Turbo | gpt-3.5-turbo |
| o1 | o1 |
| o1-mini | o1-mini |

Sección: Prompt Configuration (Configuración del Prompt)¶
4. Operación (Operation) *Para Imagen y Video¶
- Para Image:
Generate Image(generar) oAnalyze Image(analizar). - Para Video:
Analyze Video. - Para Text y Audio no aparece (solo hay una operación).
5. URLs de Imágenes / Videos¶
Para análisis de imagen o video, ingresa las URLs (una por línea). Admite expresiones de plantilla (por ejemplo, {{get_snapshot_node.url}} para analizar la captura obtenida por un nodo anterior).
6. Prompt *Requerido¶
La instrucción o pregunta para el modelo (por ejemplo, "¿Hay personas en esta imagen de seguridad?"). Admite expresiones de plantilla.

Vista Editor de JSON¶

Estructura JSON (Parámetros de entrada)¶
{
"api_key": "",
"resource": "image",
"operation": "analyze",
"model_id": "gpt-4o",
"image_urls": [
"{{get_snapshot_node.url}}"
],
"video_urls": [],
"prompt": "Analyze this security image. Are there people? Describe their position and whether there is suspicious activity."
}
Campos del JSON¶
| Campo | Tipo | Descripción |
|---|---|---|
api_key |
string | Referencia a la credencial de OpenAI (gestionada de forma segura). |
resource |
string | Tipo de recurso: text, image, audio, video. |
operation |
string | Operación (para imagen: generate/analyze; para video: analyze_video). |
model_id |
string | ID del modelo GPT (ej. gpt-4o). |
image_urls |
array (string) | URLs de imágenes a analizar. |
video_urls |
array (string) | URLs de videos a analizar. |
prompt |
string | La instrucción/pregunta para el modelo. |
Output: Dónde viene la data del nodo¶
El resultado del análisis (texto generado por el modelo, descripción, datos extraídos o, para generación de imagen, la URL resultante) queda disponible en la salida del nodo y puede usarse en nodos posteriores con {{node_key}}.
Ejemplos de uso¶
Ejemplo 1: Verificación inteligente de alarma con la cámara¶
Caso de uso: Al dispararse una alarma de movimiento, un nodo Obtener captura toma la imagen de la cámara y este nodo la analiza con GPT-4o para confirmar si realmente hay una persona.
- Resource Type:
Image| Model:gpt-4o - Operation:
Analyze Image - Image URLs:
{{get_snapshot_node.url}} - Prompt:
Analyze this security image. Are there people? Describe their position and whether there is suspicious activity.
(ver estructura JSON anterior)
Ejemplo 2: Resumen de un reporte de texto¶
Caso de uso: Procesar un texto largo (por ejemplo, una bitácora) para extraer las ideas clave.
- Resource Type:
Text - Prompt:
Summarize the following text in 3 key points: {{trigger.body.text}}
Validación y errores¶
| Condición | Causa / Solución habitual |
|---|---|
| Error de autenticación | La credencial de OpenAI es inválida o sin permisos/saldo. |
| Las URLs no funcionan | Asegúrate de que las URLs de imagen/video sean accesibles públicamente (convierte URLs internas de Docker a su ruta pública). |
| Límite de uso excedido | Revisa los límites/cuota de tu cuenta de OpenAI; considera un modelo más ligero (gpt-4o-mini). |
Buenas prácticas¶
- Usar credenciales centralizadas: No escribas la API key en el nodo; selecciona una credencial gestionada de forma segura.
- Elegir el modelo adecuado: Usa
gpt-4o/gpt-4o-minipara visión; modelos más ligeros para reducir costos. - Prompts específicos: Haz preguntas concretas para obtener respuestas accionables (ideal para confirmar/descartar alarmas).
- Encadenar con la captura: El patrón típico es Obtener captura → GPT (Analyze Image) → condición/notificación según el resultado.