Documentación: Nodo Texto a Voz (Text to Speech)¶

Descripción General¶

El Nodo Texto a Voz (Text to Speech) es un nodo de acción que convierte un texto en un archivo de audio hablado (síntesis de voz). Permite generar mensajes de voz dinámicos a partir de datos del flujo, que luego pueden reproducirse en altavoces, enviarse en una llamada SIP o adjuntarse a notificaciones.

En entornos IoT, es ideal para generar avisos sonoros automáticos y personalizados: por ejemplo, anunciar por megafonía una alarma con el detalle exacto del sector afectado, sin necesidad de tener audios pregrabados para cada caso.

¿Cuándo usar este nodo?¶

Utiliza este nodo cuando necesites:

Generar avisos de voz dinámicos que incluyan datos del evento (sector, valor del sensor, hora).
Producir el audio que reproducirá un nodo de Llamada SIP o un sistema de megafonía.
Crear mensajes hablados sin depender de audios pregrabados, adaptados a cada situación.
Mejorar la accesibilidad de las alertas combinando texto y voz.

Configuración del Nodo¶

El nodo cuenta con dos pestañas de configuración en la parte superior: Formulario (Form) y Editor de JSON (JSON Editor).

Configuración vacía del nodo Texto a voz

Vista Formulario¶

1. Texto (Text) *Requerido¶

El texto que se convertirá a voz. Es un área de texto que admite expresiones de plantilla, por lo que puedes construir mensajes dinámicos con datos del flujo (por ejemplo, el nombre del sensor o la lectura que disparó la alerta).

2. ID de Voz (Voice ID) *Requerido¶

Selecciona la voz con la que se generará el audio. La opción disponible es Spanish (Mexico) - Female. (Claude) (claude-es-mx-female).

Formulario configurado del nodo Texto a voz

Vista Editor de JSON¶

En la pestaña Editor de JSON (JSON Editor) puedes visualizar y editar directamente el texto y el ID de voz:

Vista JSON Editor del nodo Texto a voz

Estructura JSON (Parámetros de entrada)¶

A continuación se muestra la estructura del JSON que se genera al configurar el nodo:

{
  "text": "Attention: an intrusion alarm has been detected in the north perimeter of the plant. Security personnel, proceed to the area immediately.",
  "voice_id": "claude-es-mx-female"
}

Campos del JSON¶

Campo	Tipo	Descripción
`text`	string	El texto a convertir en voz. Soporta expresiones de plantilla.
`voice_id`	string	El identificador de la voz a utilizar (ej. `claude-es-mx-female`).

Output: Dónde viene la data del nodo¶

Cuando la conversión se ejecuta correctamente, el nodo genera el archivo de audio y devuelve en su Output (Salida) la URL del audio resultante, que puede usarse en nodos posteriores (por ejemplo, para reproducirlo o adjuntarlo):

{{node_key.url}}

(Recuerda sustituir node_key por la clave asignada automáticamente al nodo en el lienzo.)

TIP: Al igual que otras URLs generadas por la plataforma, si el audio debe accederse desde fuera de la red interna, convierte la ruta interna de Docker a su ruta pública del dominio.

Ejemplos de uso¶

Ejemplo 1: Aviso de intrusión por megafonía¶

Caso de uso: Ante una alarma de intrusión, se genera un mensaje de voz que indica el sector afectado y se envía al sistema de megafonía de la planta.

Text: Attention: an intrusion alarm has been detected in the north perimeter of the plant. Security personnel, proceed to the area immediately.
Voice ID: claude-es-mx-female

JSON de configuración:

{
  "text": "Alert at {{trigger.object_name}}. Security personnel, proceed to the sector.",
  "voice_id": "claude-es-mx-female"
}

Ejemplo 2: Generar el audio para una llamada SIP¶

Caso de uso: Generar dinámicamente el mensaje de voz que reproducirá una Llamada SIP al supervisor de turno, con el detalle de la falla detectada.

Text: Mensaje con la lectura del sensor.
Uso posterior: La URL del audio ({{text2speech_node.url}}) se usa como entrada del nodo de Llamada SIP.

Validación y errores¶

Condición	Causa / Solución habitual
`text` vacío	Ingresa el texto a convertir. Es obligatorio.
`voice_id` no seleccionado	Selecciona una voz del desplegable.
El audio no se genera	Falla temporal del servicio de síntesis de voz. Reintenta la ejecución.

Buenas prácticas¶

Mensajes claros y concisos: Redacta textos breves y directos; en una alerta sonora lo importante es que el mensaje se entienda de inmediato.
Aprovechar las plantillas: Incluye datos del evento (sector, lectura, hora) para que el aviso sea específico y accionable.
Encadenar con SIP o megafonía: El verdadero valor aparece al combinar este nodo con un nodo de Llamada SIP o un sistema de audio para reproducir el mensaje generado.
Nombrar el nodo descriptivamente: Cambia el nombre del nodo en el lienzo (ej. "Generar aviso de voz") para referenciar su salida con claridad.