El transcriptor de llamadas: todo lo que necesitas saber

por Laura | Feb 22, 2022 | Noticias de Grabación de Interacciones

Hoy en día, las grabaciones y transcripciones de llamadas son una parte importante de una experiencia de servicio al cliente eficaz. Que las empresas puedan acudir a la transcripción en texto de sus llamadas ayudará, no solo a conocer la calidad del servicio que prestan, sino también las necesidades que demandan los clientes para así adaptar su discurso o productos a estas. Es por esta necesidad de mejorar la experiencia de cliente y la calidad del servicio que surgen soluciones basadas en la Inteligencia Artificial, como los transcriptores de llamadas, para facilitar esta tarea.

<<< Descubre la solución de Transcripción de Recordia >>>

Pero ¿qué es un transcriptor, cómo funciona y cuáles son sus peculiaridades? Nuestro Machine Learning Developer, Miguel Lallena, nos cuenta todo acerca de los transcriptores de llamadas.

1. Para comenzar, ¿qué es un transcriptor de llamadas?

Un transcriptor de llamadas es un servicio que consigue transformar lo que una persona está diciendo en un audio a texto directamente. Para realizar este servicio, el transcriptor va a tener una serie de módulos y modelos que van a tomar el audio, van a extraer su función de onda, identificando los sonidos que produce, y los va a transformar en caracteres. Estos caracteres, posteriormente, se combinarán en palabras y, utilizando un conjunto de métricas internas, determinará cuáles son las palabras más probables en función de cómo suelen combinarse.

2. ¿Qué problemas crees que solventa?

Una de las soluciones más importantes que aporta el transcriptor de llamadas es la reducción de costes. Una empresa que quiera tener constancia de qué es lo que dicen sus clientes y trabajadores a través de las llamadas, tendría que gestionar a mano gran cantidad de audios que requerirá varias horas de trabajo por cada hora de audio. Un transcriptor automático, en cambio, evita ese problema ya que solo necesita una fracción de ese tiempo para poder alcanzar el resultado. Además, estos últimos también son capaces de procesar múltiples audios al mismo tiempo, lo que se traudce en la obtención de resultados con un menor coste y tiempo.

Otra de las soluciones que solventa el transcriptor de llamadas es el análisis de texto. Si este análisis se hiciera de manera manual, aparte de requerir un tiempo y esfuerzos prolongados, puede verse sujeto a factores subjetivos propios del juicio de la persona o al error humano. Los transcriptores automáticos evitan este problema ya que basta con que un cliente introduzca un conjunto de reglas para que el transcriptor extraiga toda la informaicón sobre el análisis de una manera sistemática y rápida.

3. ¿Es lo mismo la identificación por voz que el reconocimiento de voz?

Identificación por voz y reconocimiento de voz son cosas diferentes.

Por un lado, tenemos la identificación por voz que se trata de una aplicación de biometría que permite conocer qué persona está hablando a través de la medición de los parámetros de la voz y la comparación de estos con una base de datos. Por otro lado, tenemos el reconocimiento de voz que es la capacidad de un software de identificar de qué se está hablando. Los softwares de reconocimiento de voz son capaces de identificar palabras y frases en un audio y convertirlas en un formato legible por una máquina. Ambas tecnologías pueden estar combiandas en un mismo producto, pero son diferentes.

Para aclararlo, ambas tecnologías se diferencian por dos cuestiones principalmente: dependiendo de qué es lo que se está buscando o dependiendo de cómo vas a entrenarlo. En cuanto a lo que se busca, la identificación por voz busca patrones inherentes a una persona como pueden ser el tono o el timbre de voz, mientras que el reconocimiento de voz lo que busca son palabras o frases que son independientes a quién habla. En cuanto a cómo se va a entrenar, cuando buscas identificar por voz necesitas un software que sea capaz de extraer esa información de tono y timbre y la asocie con una persona; mientras que cuando quieres realizar un reconocimiento de voz, necesitas un software que busque los fonemas que se pronuncian y los asocie a palabras y frases.

4. ¿Qué es la tasa WER y por qué es importante para los transcriptores? ¿Cuál es el porcentaje óptimo de tasa WER?

WER es un acrónimo del inglés que significa Word Error Rate y se traduce como la tasa de error por palabra. Este valor se obtiene al realizar una transcripción de un audio y compararla con el texto correcto. Es decir, la tasa WER es la ratio de palabras que están equivocadas. Cuando hablamos de palabras equivocadas nos podemos referir a palabras que se han añadido a la transcripción, palabras que falten pero que deberían estar o bien palabras que no están bien escritas. Combinando estos factores entre el número de palabras total que tiene el texto correcto, nos dará la tasa WER.

Por supuesto, la tasa WER óptima para un transcriptor sería 0 ya que sería señal de que vas a tener una transcripción perfecta. Pero es un valor que no se puede alcanzar de manera consistente debido a las peculiaridades de los transcriptores automáticos. El trabajo es intentar reducirlo cada vez más con entrenamientos, pruebas o limpiezas de audio. Alrededor de un 20-30% es lo aceptable y en donde están ahora mismo la mayoría de los transcriptores automáticos, pero hay que seguir entrenándolo como digo, teniendo siempre en cuenta que cuanto más los entrenas, es cada vez más difícil reducir la tasa WER.

5. ¿Qué otras métricas o parámetros son importantes tener en cuenta en la transcripción de llamadas?

Un parámetro importante a tener en cuenta es la velocidad de transcripción. Una transcripción manual puede ofrecernos un texto perfecto, pero tardaríamos horas o días en obtener ese resultado. Un transcriptor automático, en cambio, es capaz de hacer la transcripción en una fracción del tiempo que se tardaría manualmente, incluso menos de lo que dura realmente el audio. Normalmente hablamos del factor “5x” que quiere decir que por cada hora de trabajo del transcriptor se van a conseguir transcribir 5 horas de audio. Además, si a esto le sumamos que se pueden lanzar varias instancias o transcripciones en paralelo, esa velocidad se multiplica.

Otro parámetro a tener en cuenta es la confianza. La confianza es el grado con el que el transcriptor tiene la certeza de que la transcripción que ha realizado es correcta. Un mayor grado de confianza indica que el transcriptor ha funcionado correctamente y por consiguiente es más probable que el texto transcrito sea el correcto.

Por último, otro parámetro a tener en cuenta es la calidad del audio. La relación entre la señal y el ruido es un elemento importante ya que un audio con mucho ruido de fondo va a presentar más dificultad a la hora de ser transcrito correctamente. De hecho, es importante que se utilice ese ruido para entrenar al motor de transcripción de tal manera que el hecho de que sea capaz de distinguir el ruido de los fonemas del audio ayudará a mejorar los otros parámetros de los que hablamos.

6. ¿Qué elementos de una llamada es importante que un transcriptor detecte?

Uno de los primeros elementos a tener en cuenta es la identificación de idioma con el que se habla en las llamadas ya que, claramente, este punto es de donde parte qué modelo se va a usar para transcribir. Si tenemos un audio en inglés, no podemos aplicarle un modelo de transcripción en español y viceversa, aunque estemos ante idiomas parecidos como las lenguas romances.

Otro elemento en el que hay que hacer hincapié es la distinción entre interlocutores en un audio. Cuando se presenten audios en estéreo, esta distinción es fácil pues tendremos al agente y al cliente cada uno por un canal. Pero el problema se plantea en dos situaciones: varios interlocutores en un audio en mono o un audio típico de una llamada por Internet, las VoIP, en las que haya un anfitrión por un canal y varios invitados por otro. En estas situaciones se realiza el proceso llamado diarización en el que se estudia el audio de manera automática y se distingue la voz que corresponde a cada interlocutor.

Relacionado con la diarización, nos encontramos con el solapamiento. El solapamiento es el fenómeno que se produce cuando 2 o más personas hablan a la vez. En una empresa que se dedique, por ejemplo, a la venta telefónica, el solapamiento será un factor importante a detectar ya que aportará información sobre el trato que realiza el agente o un posible descontento del cliente.

Los periodos de espera es otro de los elementos a detectar. Estos periodos de espera pueden darse o bien por el tono inicial de la voz, por la música de espera o porque hay un silencio dentro de la conversación y pueden afectar a la relación empresa-cliente. Hay que tener en cuenta siempre que un cliente al que se le hace esperar mucho es un cliente descontento por lo que es esencial para las empresas detectar estos periodos de espera y determinar su duración.

Finalmente, otro elemento a detectar es la velocidad del habla. Esta puede revelar muchos datos sobre el entusiasmo de un agente o un cliente sobre un tema en particular. Además de poder estudiarse en un momento concreto de la llamada, se podrá medir la llamada completa, sacando a relucir información sobre la variación de energía de un agente durante el conjunto de la llamada.

7. Muchas empresas tienen necesidades especiales por el sector en el que operan, ¿se puede personalizar el servicio de transcripción? ¿Qué tipo de personalizaciones pueden hacerse?

Sí, se puede personalizar el servicio de transcripción, aunque va a requerir un esfuerzo por parte del cliente, pero es posible hacerlo. Para ello, existen diversos factores que se pueden utilizar. En primer lugar, existen modelos de lenguaje útiles, sobre todo, para empresas que trabajen internacionalmente o en países multilingües como puede ser Bélgica. En estas circunstancias, se va a poder optar por tener varios modelos de lenguaje y que la empresa sea quien solicite que cada audio sea transcrito a través de un modelo. Incluso se pueden incluir dialectos del idioma.

Por otro lado, en cada lenguaje va a existir la posibilidad de utilizar un modelo genérico o modelos más especializados dependiendo del sector en el que opere. Por ejemplo, un modelo que sea para un banco tendrá menciones a hipoteca, TAE o plan de pensiones, mientras que un modelo del sector sanitario incluirá palabras como gastroenteritis, coronaria o ictus.

Pero, si quieres ir todavía más allá, existen personalizaciones que permiten agregar a esos diccionarios nombres de competidores o de productos propios. La empresa puede proveer un listado de palabras junto con la pronunciación de cada una de ellas para que así se pueda incluir dentro del diccionario con el que se nutre el modelo.

8. ¿Es difícil implementar un modelo de transcripción?

Depende de la tecnología que utilices, pero en principio, más que difícil yo diría que es un proceso prolongado. En primer lugar, necesitas de muchas conversaciones, como unas cientos o miles, que contendrán a su vez varios cientos de horas de audio que estén guardadas, además, en un formato concreto. En segundo lugar, tienes que disponer de la transcripción de todos esos audios a texto, lo cual requiere mucho trabajo. Posteriormente, hay que preparar los datos, almacenar las transcripciones y el resto de los elementos necesarios junto con los audios.

Para continuar, tenemos que crear un diccionario de palabras y, además, necesitamos de un modelo que se encargue de asociar ese conjunto de palabras a probabilidades. Funciona de la misma manera que el predictor de textos de los móviles: cada palabra va a tener asociada una probabilidad a la siguiente palabra. Por otro lado, a cada palabra hay que asociarle la pronunciación en escrito a través de, por ejemplo, el alfabeto AFI (o IPA), es decir, alfabetos fonéticos en los que cada sonido va asociado a un símbolo.

Por último, una vez que tienes todo esto, vas a necesitar un modelo acústico el cual va a ir asociando los fonemas a los sonidos y se va a entrenar utilizando redes neuronales, lo cual requiere de más tiempo porque realiza un gran procesamiento de datos, comparándolos con los resultados correctos y se va a ir ajustando internamente. Como digo, es un proceso largo y que, además, está sujeto en todos los casos al problema de que, si hay un fallo en el ordenador, tienes que prácticamente, volver a empezar desde el principio.

9. ¿Existe alguna novedad en el mundo de la transcripción de llamadas?

Actualmente el principal esfuerzo referente a los transcriptores automáticos se centra en mejorar la precisión, reducir la tasa WER y la velocidad de transcripción. Pero últimamente están surgiendo nuevas ideas y elementos complementarios a esta transcripción que añaden valor como, por ejemplo, la búsqueda de palabras clave o keywords. Esto servirá a las empresas para tener constancia de cómo sus agentes se relacionan con los clientes, si siguen los guiones que deben. Por otro lado, podrán adquirir el texto de las transcripciones y analizarlo de manera automática para detectar los sentimientos de los clientes, conocer si están contento. Un cliente que no está contento es un cliente perdido y eso se puede detectar a través de la transcripción.

Finalmente, se pueden hacer también análisis de sintaxis del texto ya que puede darte ideas de cómo se está expresando el agente o el cliente y aportar datos de utilidad. Por ejemplo, un agente que hable en primera persona es un agente que posiblemente sea difícil de tratar.

10. Y ya, por último, ¿qué le dirías a una empresa que está dudando en utilizar un transcriptor de llamadas?

Le diría que un software de transcripción de llamadas, bien empleado, le ayudará a incrementar el valor de todas las interacciones que mantenga con sus clientes. Cada conversación que lleve a cabo será una nueva fuente de datos e información al servicio de la empresa, que tendrá con ellos la capacidad de satisfacer a los clientes actuales, atraer otros nuevos, y expandir sus miras hacia nuevos horizontes.

Si todavía quieres conocer más sobre los transcriptores de llamadas, haz clic aquí.

¡Nos leemos pronto!