Saltar a contenido

Documentación: Acción Grok (Análisis con IA de xAI)

Descripción General

La Acción Grok es un nodo de automatización que permite utilizar los modelos de inteligencia artificial Grok de xAI para procesar y analizar contenido: texto, imágenes, audio y video. Pertenece a la familia de nodos de AI Models y comparte la misma estructura que las acciones de otros proveedores (Gemini, GPT, Claude).

En entornos IoT y de seguridad, es útil para analizar con IA las imágenes de cámaras ante un evento, generar descripciones estructuradas (por ejemplo, en formato JSON) o procesar texto.


¿Cuándo usar esta acción?

Utiliza esta acción cuando necesites:

  • Analizar imágenes de cámaras (detectar objetos/personas, describir la escena).
  • Generar imágenes a partir de descripciones de texto.
  • Analizar video para extraer información o detectar eventos.
  • Procesar texto con los modelos Grok.
  • Integrar las capacidades de xAI en tus automatizaciones.

Configuración del Nodo

La configuración se divide en dos secciones, conmutables con el selector superior: Basic Configuration y Prompt Configuration. Además, dispone de la pestaña JSON Editor.

Configuración básica vacía del nodo Grok

Sección: Basic Configuration (Configuración Básica)

1. API Key *Requerido

Selecciona la credencial de Grok (xAI) que autentica el acceso (gestionada de forma centralizada y segura).

2. Tipo de Recurso (Resource Type) *Requerido

El tipo de contenido a procesar: Text, Image, Audio o Video.

3. Modelo (Model) *Requerido

El modelo Grok a utilizar:

Modelo Valor
Grok 2 grok-2-1212
Grok 2 Vision grok-2-vision-1212
Grok Beta grok-beta
Grok Vision Beta grok-vision-beta

Configuración básica del nodo Grok con recurso Imagen

Sección: Prompt Configuration (Configuración del Prompt)

4. Operación (Operation) *Para Imagen y Video

  • Para Image: Generate Image o Analyze Image.
  • Para Video: Analyze Video.

5. URLs de Imágenes / Videos

Para análisis, ingresa las URLs (una por línea). Admite expresiones de plantilla (por ejemplo, {{get_snapshot_node.url}}).

6. Prompt *Requerido

La instrucción/pregunta para el modelo. Admite expresiones de plantilla.

Configuración del prompt del nodo Grok


Vista Editor de JSON

Vista JSON Editor del nodo Grok


Estructura JSON (Parámetros de entrada)

{
  "api_key": "",
  "resource": "image",
  "operation": "analyze",
  "model_id": "grok-2-vision-1212",
  "image_urls": [
    "{{get_snapshot_node.url}}"
  ],
  "video_urls": [],
  "prompt": "Describe in JSON format the objects detected in this image from the industrial camera."
}

Campos del JSON

Campo Tipo Descripción
api_key string Referencia a la credencial de Grok/xAI (gestionada de forma segura).
resource string Tipo de recurso: text, image, audio, video.
operation string Operación (imagen: generate/analyze; video: analyze_video).
model_id string ID del modelo Grok (ej. grok-2-vision-1212).
image_urls array (string) URLs de imágenes a analizar.
video_urls array (string) URLs de videos a analizar.
prompt string La instrucción/pregunta para el modelo.

Output: Dónde viene la data del nodo

El resultado del análisis queda disponible en la salida del nodo y puede usarse en nodos posteriores con {{node_key}}.


Ejemplos de uso

Ejemplo 1: Descripción estructurada de objetos en una cámara industrial

Caso de uso: Analizar la imagen de una cámara de planta y obtener en JSON los objetos detectados, para alimentar lógica posterior.

  • Resource Type: Image | Model: grok-2-vision-1212
  • Operation: Analyze Image
  • Image URLs: {{get_snapshot_node.url}}
  • Prompt: Describe in JSON format the objects detected in this image from the industrial camera.

(ver estructura JSON anterior)

Ejemplo 2: Procesar texto

Caso de uso: Resumir o clasificar un texto recibido en el flujo.

  • Resource Type: Text
  • Prompt: Summarize the following text: {{trigger.body.text}}

Validación y errores

Condición Causa / Solución habitual
Error de autenticación La credencial de Grok/xAI es inválida o sin permisos/saldo.
Las URLs no funcionan Asegúrate de que las URLs sean accesibles públicamente.
Modelo sin visión Para analizar imágenes usa un modelo con visión (ej. grok-2-vision-1212).

Buenas prácticas

  • Usar credenciales centralizadas: No escribas la API key en el nodo.
  • Modelo con visión para imágenes: Selecciona un modelo Vision cuando analices imágenes.
  • Prompts específicos: Pide salidas estructuradas (JSON) cuando vayas a procesar el resultado en nodos posteriores.
  • Encadenar con la captura: Patrón típico: Obtener capturaGrok (Analyze Image) → condición/notificación.