CallFon - Sistema TTS ASR - VoIP Asterisk




TTS / ASR

A continuación se describen dos tecnologías  que cada dia tienen mayor aceptación.
En nuestras plataformas pueden coexistir ambos productos que son soportados por CallFon y corresponden a desarrollos de terceras Empresas.

Contactar a nuestro Departamento de Desarrollo para obtener precisiones buscando la solución mas adecuada a su necesidad.

TTS – Text to Speech.

Esta tecnología permite generar voces  -mensajes hablados-  a partir de un texto escrito, en forma totalmente automática como si leyera en voz alta dicho texto.

Descripción.

Las voces incorporadas dentro del motor TTS (texto a voz) se caracterizan por:

  • Voces con gran naturalidad de hombre y mujer.
  • Entorno multilingüe.
  • Entonación dinámica y adaptativa.
  • Algoritmo de ritmos y pausas del habla basado en la propia sintaxis y en métodos estadísticos.
  • Locutor corporativo: disponer de una voz sintética a su medida o a la de su cliente.

Cuándo es indicado utilizarlo?  

  • Es una herramienta imprescindible en aplicaciones cuyo texto, es desconocido o muy cambiante y por lo tanto hay que comunicar información dinámica.
  • La síntesis no pretende sustituir nunca a la calidad de una grabación profesional hecha en un estudio de grabación, pero sí que se dispone de calidad suficiente como para sustituir temporalmente cuando se necesitan de forma inmediata mensajes o locuciones estáticas o definitivamente cuando lo que se pretende es un ahorro directo de los costos.
  • Cuando se persigue mayor calidad que lo que representa la simple concatenación directa de ficheros wav de pequeñas locuciones grabadas en estudio, ya que con ella se perdería la entonación dinámica necesaria en un idioma concreto. Un ejemplo típico de ello es la locución de cantidades numéricas.
  • Con la utilización TTS en un sistema de información se evita la grabación constante en estudio de nuevos mensajes y se consigue por lo tanto un ahorro elevado en los costos y tiempo, disponiendo de una flexibilidad total y disponibilidad inmediata.

Dónde es aplicable?  

El motor de síntesis de voz TTS está especialmente indicado para emitir mensajes en la interacción hombre-máquina y comunicaciones personales en ámbitos de Telefonia y CTI como:

  • Call center.
  • IVR’s.
  • Mensajería unificada.
  • Operadoras automáticas.

 

Qué estrategias de uso existen?  

  • Autónomos. Toda la información se reproduce mediante voz sintética.
  • Mixta. Los mensajes fijos son locutados por una persona o bien están pregrabados, usándose la voz sintética únicamente para la información variable.
  • Mixta corporativa. Los mensajes fijos son locutados o pregrabados por el mismo locutor utilizado para generar la voz sintética. En estos casos, la calidad global obtenida es muy satisfactoria, porque reúne uniformidad (no hay cambio de voces), flexibilidad (la voz sintética permite reproducir cualquier texto) y bajo costo (no es necesario pregrabar la información volátil).

Características principales.  

  • Voces de hombre y mujer de gran calidad, basadas en locutores profesionales.
  • Entorno multilingüe con el que podrá sintetizar voces en español, inglés, francés, portugués europeo y brasileño.
  • Entonación dinámica y adaptativa: selección de la curva de entonación original del locutor que mejor se adapta a cada contexto, superando la monotonía de los patrones estáticos .
  • Algoritmo de ritmos y pausas del habla basado en la propia sintaxis y en métodos estadísticos.
  • Locutor corporativo: su empresa podrá disponer de la voz corporativa que Ud. desee y que complemente sus servicios de atención al cliente de forma natural. Además, conseguirá una calidad de servicio superior ya que se desarrollará específicamente para las particularidades de su sector en cuanto a entorno gramático, lingüístico y de vocabulario.

ASR – Reconocimiento natural del habla.

 

El reconocimiento del habla (ASR - Automatic Speech Recognition) es la tecnología que permite convertir, de forma automática, una locución de habla natural en un texto que se corresponda con ésta con la máxima fiabilidad posible. Permite al sistema que dispone de dicho motor "entender" o interpretar el contenido de una locución con independia de la voz de locutor .


Descripción.  

  • Motor de reconocimiento independiente de locutor.
  • No requiere entrenamiento alguno.
  • Multilingüe.
  • Robusto frente a ruidos, especialmente para telefonía móvil.
  • Gramáticas básicas built-in incorporadas.
  • Reconocimiento mediante vocabularios definido por el usuario o bien mediante modelos estadísticos.
  • Posibilidad de ajustes a medida del motor para ciertos entornos o palabras.

Cuándo es indicado utilizarlo?

  • ASR es una herramienta imprescindible en aplicaciones interactivas entre usuarios y sistemas automáticos o de control por voz.
  • Cuando se requiere una navegación más flexible, con iniciativa y control por parte del usuario.
  • Para ahorrar tiempos de interacción y para evitar memorización de menús muy largos.
  • En aplicaciones en que el teléfono, o simplemente la voz, siga siendo el único canal o medio de interacción.

Dónde es aplicable?
 
ASR está orientado principalmente para trabajar en entorno de:

  • Call center.
  • IVR’s
  • mensajería unificada
  • operadoras automáticas

Qué estrategias de uso existen?  
De menos a más intervencionismo humano:

  • Autónomo. Toda la interacción hombre-máquina recae en las tecnologías del habla. Es la estrategia más crítica, puesto que nunca se recurre a una persona, por lo que el diseño, la puesta en marcha y el seguimiento son procesos clave para obtener unos resultados satisfactorios.
  • Asistida. En momentos puntuales, una persona actúa en el sistema, aunque el usuario del mismo no percibe su intervención en ningún momento.
  • Mixta. En situaciones comprometidas, una persona toma el mando de la interacción y pasa a comunicarse directamente con el usuario.
  • Complementaria. Las tecnologías del habla se destinan únicamente a un conjunto de gestiones con el usuario, siendo la conversación dirigida principalmente por una persona. A diferencia de las anteriores, esta estrategia requiere siempre la intervención de una  persona.

Cómo debe utilizarse?  

A continuación se especifican algunos aspectos que deberían tenerse en cuenta a la hora de diseñar aplicaciones que hagan uso de la tecnología de reconocimiento del habla:

  • Es imprescindible realizar un estudio previo por especialistas para evaluar la viabilidad de introducir las tecnologías del habla en un sistema. No todos los sistemas pueden aprovechar las ventajas de estas tecnologías, al menos en su totalidad. Es aconsejable introducirlas progresivamente para no crear un rechazo inicial si su rendimiento no es el esperado.
  • Es imprescindible adaptar el sistema a los condicionantes de las tecnologías del habla: la automatización directa no garantiza resultados inmediatos.
  • Es muy aconsejable realizar un seguimiento del sistema una vez puesto en producción para detectar errores de funcionamiento y poder corregirlos paulatinamente.

Características principales.  

  • Un sistema capaz de entender a cualquier persona con gran exactitud gracias a un diseño creado a partir de bases de datos de voz de miles de personas por idioma, seleccionadas acorde a estrictos criterios geográficos y demográficos. De ahí que sea independiente del locutor o locutora a reconocer.
  • Varios idiomas: reconocimiento en español, inglés, portugués.
  • Modelado acústico con prestaciones especiales para voz telefónica y, en especial, para telefonía móvil GSM (que prácticamente tiene más uso que la propia telefonía fija), donde destaca por su robustez frente al ruido.
  • ASR ofrece también un sistema con interpretación semántica del resultado, por lo que las tasas de error son muy bajas y permiten parametrizar el desarrollo de las aplicaciones o diálogos de voz ampliando las posibilidades del desarrollo de diálogos naturales.
  • Gramáticas específicas básicas más habituales de reconocimiento ya incorporadas como: cadenas de dígitos, deletreos, sí/no, fechas, horas, DNI, tarejatas de crédito y números telefónicos.

 

CallFon  soporta éstas tecnologías con productos de terceros.
Consultar necesidades específicas a fin de aconsejar la solución mas adecuada.

VirtualFon® es una marca registrada de VirtualFon Argentina S.A.