Documentación: Acción Grok (Análisis con IA de xAI)¶

Descripción General¶

La Acción Grok es un nodo de automatización que permite utilizar los modelos de inteligencia artificial Grok de xAI para procesar y analizar contenido: texto, imágenes, audio y video. Pertenece a la familia de nodos de AI Models y comparte la misma estructura que las acciones de otros proveedores (Gemini, GPT, Claude).

En entornos IoT y de seguridad, es útil para analizar con IA las imágenes de cámaras ante un evento, generar descripciones estructuradas (por ejemplo, en formato JSON) o procesar texto.

¿Cuándo usar esta acción?¶

Utiliza esta acción cuando necesites:

Analizar imágenes de cámaras (detectar objetos/personas, describir la escena).
Generar imágenes a partir de descripciones de texto.
Analizar video para extraer información o detectar eventos.
Procesar texto con los modelos Grok.
Integrar las capacidades de xAI en tus automatizaciones.

Configuración del Nodo¶

La configuración se divide en dos secciones, conmutables con el selector superior: Basic Configuration y Prompt Configuration. Además, dispone de la pestaña JSON Editor.

Configuración básica vacía del nodo Grok

Sección: Basic Configuration (Configuración Básica)¶

1. API Key *Requerido¶

Selecciona la credencial de Grok (xAI) que autentica el acceso (gestionada de forma centralizada y segura).

2. Tipo de Recurso (Resource Type) *Requerido¶

El tipo de contenido a procesar: Text, Image, Audio o Video.

3. Modelo (Model) *Requerido¶

El modelo Grok a utilizar:

Modelo	Valor
Grok 2	`grok-2-1212`
Grok 2 Vision	`grok-2-vision-1212`
Grok Beta	`grok-beta`
Grok Vision Beta	`grok-vision-beta`

Configuración básica del nodo Grok con recurso Imagen

Sección: Prompt Configuration (Configuración del Prompt)¶

4. Operación (Operation) *Para Imagen y Video¶

Para Image: Generate Image o Analyze Image.
Para Video: Analyze Video.

5. URLs de Imágenes / Videos¶

Para análisis, ingresa las URLs (una por línea). Admite expresiones de plantilla (por ejemplo, {{get_snapshot_node.url}}).

6. Prompt *Requerido¶

La instrucción/pregunta para el modelo. Admite expresiones de plantilla.

Configuración del prompt del nodo Grok

Vista Editor de JSON¶

Vista JSON Editor del nodo Grok

Estructura JSON (Parámetros de entrada)¶

{
  "api_key": "",
  "resource": "image",
  "operation": "analyze",
  "model_id": "grok-2-vision-1212",
  "image_urls": [
    "{{get_snapshot_node.url}}"
  ],
  "video_urls": [],
  "prompt": "Describe in JSON format the objects detected in this image from the industrial camera."
}

Campos del JSON¶

Campo	Tipo	Descripción
`api_key`	string	Referencia a la credencial de Grok/xAI (gestionada de forma segura).
`resource`	string	Tipo de recurso: `text`, `image`, `audio`, `video`.
`operation`	string	Operación (imagen: `generate`/`analyze`; video: `analyze_video`).
`model_id`	string	ID del modelo Grok (ej. `grok-2-vision-1212`).
`image_urls`	array (string)	URLs de imágenes a analizar.
`video_urls`	array (string)	URLs de videos a analizar.
`prompt`	string	La instrucción/pregunta para el modelo.

Output: Dónde viene la data del nodo¶

El resultado del análisis queda disponible en la salida del nodo y puede usarse en nodos posteriores con {{node_key}}.

Ejemplos de uso¶

Ejemplo 1: Descripción estructurada de objetos en una cámara industrial¶

Caso de uso: Analizar la imagen de una cámara de planta y obtener en JSON los objetos detectados, para alimentar lógica posterior.

Resource Type: Image | Model: grok-2-vision-1212
Operation: Analyze Image
Image URLs: {{get_snapshot_node.url}}
Prompt: Describe in JSON format the objects detected in this image from the industrial camera.

(ver estructura JSON anterior)

Ejemplo 2: Procesar texto¶

Caso de uso: Resumir o clasificar un texto recibido en el flujo.

Resource Type: Text
Prompt: Summarize the following text: {{trigger.body.text}}

Validación y errores¶

Condición	Causa / Solución habitual
Error de autenticación	La credencial de Grok/xAI es inválida o sin permisos/saldo.
Las URLs no funcionan	Asegúrate de que las URLs sean accesibles públicamente.
Modelo sin visión	Para analizar imágenes usa un modelo con visión (ej. `grok-2-vision-1212`).

Buenas prácticas¶

Usar credenciales centralizadas: No escribas la API key en el nodo.
Modelo con visión para imágenes: Selecciona un modelo Vision cuando analices imágenes.
Prompts específicos: Pide salidas estructuradas (JSON) cuando vayas a procesar el resultado en nodos posteriores.
Encadenar con la captura: Patrón típico: Obtener captura → Grok (Analyze Image) → condición/notificación.