Saltar a contenido

Documentación: Nodo Texto a Voz (Text to Speech)

Descripción General

El Nodo Texto a Voz (Text to Speech) es un nodo de acción que convierte un texto en un archivo de audio hablado (síntesis de voz). Permite generar mensajes de voz dinámicos a partir de datos del flujo, que luego pueden reproducirse en altavoces, enviarse en una llamada SIP o adjuntarse a notificaciones.

En entornos IoT, es ideal para generar avisos sonoros automáticos y personalizados: por ejemplo, anunciar por megafonía una alarma con el detalle exacto del sector afectado, sin necesidad de tener audios pregrabados para cada caso.


¿Cuándo usar este nodo?

Utiliza este nodo cuando necesites:

  • Generar avisos de voz dinámicos que incluyan datos del evento (sector, valor del sensor, hora).
  • Producir el audio que reproducirá un nodo de Llamada SIP o un sistema de megafonía.
  • Crear mensajes hablados sin depender de audios pregrabados, adaptados a cada situación.
  • Mejorar la accesibilidad de las alertas combinando texto y voz.

Configuración del Nodo

El nodo cuenta con dos pestañas de configuración en la parte superior: Formulario (Form) y Editor de JSON (JSON Editor).

Configuración vacía del nodo Texto a voz

Vista Formulario

1. Texto (Text) *Requerido

El texto que se convertirá a voz. Es un área de texto que admite expresiones de plantilla, por lo que puedes construir mensajes dinámicos con datos del flujo (por ejemplo, el nombre del sensor o la lectura que disparó la alerta).

2. ID de Voz (Voice ID) *Requerido

Selecciona la voz con la que se generará el audio. La opción disponible es Spanish (Mexico) - Female. (Claude) (claude-es-mx-female).

Formulario configurado del nodo Texto a voz


Vista Editor de JSON

En la pestaña Editor de JSON (JSON Editor) puedes visualizar y editar directamente el texto y el ID de voz:

Vista JSON Editor del nodo Texto a voz


Estructura JSON (Parámetros de entrada)

A continuación se muestra la estructura del JSON que se genera al configurar el nodo:

{
  "text": "Attention: an intrusion alarm has been detected in the north perimeter of the plant. Security personnel, proceed to the area immediately.",
  "voice_id": "claude-es-mx-female"
}

Campos del JSON

Campo Tipo Descripción
text string El texto a convertir en voz. Soporta expresiones de plantilla.
voice_id string El identificador de la voz a utilizar (ej. claude-es-mx-female).

Output: Dónde viene la data del nodo

Cuando la conversión se ejecuta correctamente, el nodo genera el archivo de audio y devuelve en su Output (Salida) la URL del audio resultante, que puede usarse en nodos posteriores (por ejemplo, para reproducirlo o adjuntarlo):

{{node_key.url}}

(Recuerda sustituir node_key por la clave asignada automáticamente al nodo en el lienzo.)

TIP: Al igual que otras URLs generadas por la plataforma, si el audio debe accederse desde fuera de la red interna, convierte la ruta interna de Docker a su ruta pública del dominio.


Ejemplos de uso

Ejemplo 1: Aviso de intrusión por megafonía

Caso de uso: Ante una alarma de intrusión, se genera un mensaje de voz que indica el sector afectado y se envía al sistema de megafonía de la planta.

  • Text: Attention: an intrusion alarm has been detected in the north perimeter of the plant. Security personnel, proceed to the area immediately.
  • Voice ID: claude-es-mx-female

JSON de configuración:

{
  "text": "Alert at {{trigger.object_name}}. Security personnel, proceed to the sector.",
  "voice_id": "claude-es-mx-female"
}


Ejemplo 2: Generar el audio para una llamada SIP

Caso de uso: Generar dinámicamente el mensaje de voz que reproducirá una Llamada SIP al supervisor de turno, con el detalle de la falla detectada.

  • Text: Mensaje con la lectura del sensor.
  • Uso posterior: La URL del audio ({{text2speech_node.url}}) se usa como entrada del nodo de Llamada SIP.

Validación y errores

Condición Causa / Solución habitual
text vacío Ingresa el texto a convertir. Es obligatorio.
voice_id no seleccionado Selecciona una voz del desplegable.
El audio no se genera Falla temporal del servicio de síntesis de voz. Reintenta la ejecución.

Buenas prácticas

  • Mensajes claros y concisos: Redacta textos breves y directos; en una alerta sonora lo importante es que el mensaje se entienda de inmediato.
  • Aprovechar las plantillas: Incluye datos del evento (sector, lectura, hora) para que el aviso sea específico y accionable.
  • Encadenar con SIP o megafonía: El verdadero valor aparece al combinar este nodo con un nodo de Llamada SIP o un sistema de audio para reproducir el mensaje generado.
  • Nombrar el nodo descriptivamente: Cambia el nombre del nodo en el lienzo (ej. "Generar aviso de voz") para referenciar su salida con claridad.