Documentación: Acción Grok (Análisis con IA de xAI)¶
Descripción General¶
La Acción Grok es un nodo de automatización que permite utilizar los modelos de inteligencia artificial Grok de xAI para procesar y analizar contenido: texto, imágenes, audio y video. Pertenece a la familia de nodos de AI Models y comparte la misma estructura que las acciones de otros proveedores (Gemini, GPT, Claude).
En entornos IoT y de seguridad, es útil para analizar con IA las imágenes de cámaras ante un evento, generar descripciones estructuradas (por ejemplo, en formato JSON) o procesar texto.
¿Cuándo usar esta acción?¶
Utiliza esta acción cuando necesites:
- Analizar imágenes de cámaras (detectar objetos/personas, describir la escena).
- Generar imágenes a partir de descripciones de texto.
- Analizar video para extraer información o detectar eventos.
- Procesar texto con los modelos Grok.
- Integrar las capacidades de xAI en tus automatizaciones.
Configuración del Nodo¶
La configuración se divide en dos secciones, conmutables con el selector superior: Basic Configuration y Prompt Configuration. Además, dispone de la pestaña JSON Editor.

Sección: Basic Configuration (Configuración Básica)¶
1. API Key *Requerido¶
Selecciona la credencial de Grok (xAI) que autentica el acceso (gestionada de forma centralizada y segura).
2. Tipo de Recurso (Resource Type) *Requerido¶
El tipo de contenido a procesar: Text, Image, Audio o Video.
3. Modelo (Model) *Requerido¶
El modelo Grok a utilizar:
| Modelo | Valor |
|---|---|
| Grok 2 | grok-2-1212 |
| Grok 2 Vision | grok-2-vision-1212 |
| Grok Beta | grok-beta |
| Grok Vision Beta | grok-vision-beta |

Sección: Prompt Configuration (Configuración del Prompt)¶
4. Operación (Operation) *Para Imagen y Video¶
- Para Image:
Generate ImageoAnalyze Image. - Para Video:
Analyze Video.
5. URLs de Imágenes / Videos¶
Para análisis, ingresa las URLs (una por línea). Admite expresiones de plantilla (por ejemplo, {{get_snapshot_node.url}}).
6. Prompt *Requerido¶
La instrucción/pregunta para el modelo. Admite expresiones de plantilla.

Vista Editor de JSON¶

Estructura JSON (Parámetros de entrada)¶
{
"api_key": "",
"resource": "image",
"operation": "analyze",
"model_id": "grok-2-vision-1212",
"image_urls": [
"{{get_snapshot_node.url}}"
],
"video_urls": [],
"prompt": "Describe in JSON format the objects detected in this image from the industrial camera."
}
Campos del JSON¶
| Campo | Tipo | Descripción |
|---|---|---|
api_key |
string | Referencia a la credencial de Grok/xAI (gestionada de forma segura). |
resource |
string | Tipo de recurso: text, image, audio, video. |
operation |
string | Operación (imagen: generate/analyze; video: analyze_video). |
model_id |
string | ID del modelo Grok (ej. grok-2-vision-1212). |
image_urls |
array (string) | URLs de imágenes a analizar. |
video_urls |
array (string) | URLs de videos a analizar. |
prompt |
string | La instrucción/pregunta para el modelo. |
Output: Dónde viene la data del nodo¶
El resultado del análisis queda disponible en la salida del nodo y puede usarse en nodos posteriores con {{node_key}}.
Ejemplos de uso¶
Ejemplo 1: Descripción estructurada de objetos en una cámara industrial¶
Caso de uso: Analizar la imagen de una cámara de planta y obtener en JSON los objetos detectados, para alimentar lógica posterior.
- Resource Type:
Image| Model:grok-2-vision-1212 - Operation:
Analyze Image - Image URLs:
{{get_snapshot_node.url}} - Prompt:
Describe in JSON format the objects detected in this image from the industrial camera.
(ver estructura JSON anterior)
Ejemplo 2: Procesar texto¶
Caso de uso: Resumir o clasificar un texto recibido en el flujo.
- Resource Type:
Text - Prompt:
Summarize the following text: {{trigger.body.text}}
Validación y errores¶
| Condición | Causa / Solución habitual |
|---|---|
| Error de autenticación | La credencial de Grok/xAI es inválida o sin permisos/saldo. |
| Las URLs no funcionan | Asegúrate de que las URLs sean accesibles públicamente. |
| Modelo sin visión | Para analizar imágenes usa un modelo con visión (ej. grok-2-vision-1212). |
Buenas prácticas¶
- Usar credenciales centralizadas: No escribas la API key en el nodo.
- Modelo con visión para imágenes: Selecciona un modelo Vision cuando analices imágenes.
- Prompts específicos: Pide salidas estructuradas (JSON) cuando vayas a procesar el resultado en nodos posteriores.
- Encadenar con la captura: Patrón típico: Obtener captura → Grok (Analyze Image) → condición/notificación.