Cómo diseñar asistentes virtuales basados en voz o chat


¿Cómo diseñar proyectos exitosos basados en la voz y la conversación por medio de asistentes dirigidos por inteligencia artificial? Recorreremos un framework que nos permitirá conocer distintos elementos clave a tener en cuenta para trabajar aspectos de la personalidad, tono de la voz, omnicanalidad y best practices para diferenciarnos en proyectos basados en el lenguaje natural y ofrecer experiencias de gran impacto.

Hay pocas cosas tan raras como hablarle a una máquina ¿verdad?, e incluso esperar una respuesta con sentido. Sin embargo, la interacción por voz o interfaces conversacionales en general se han convertido en un recurso de gran relevancia a la hora de comunicarse con todo tipo de dispositivos y soluciones tecnológicas, aportando valor a las personas a través del establecimiento de un vínculo empático y al mismo tiempo representando grandes oportunidades de negocio.

Hoy en día podemos pedirle a Alexa que nos llame un taxi, a Google Home que suba la calefacción o a nuestro móvil que le envíe diez euros a un amigo, por poner algunos ejemplos. Y todo ello simplemente hablando. Bueno, en realidad, lo de “simplemente” no es del todo cierto, ya que el grado de entendimiento entre la persona y estos asistentes virtuales dependerá, en gran medida, de diversos factores de diseño e implementación que analizaremos luego.

Seamos creativos

¿Pueden imaginarse un mundo en el que todo a nuestro alrededor nos comprenda hablándole como si fuese otra persona? Un paraíso en el que uno simplemente diga lo que necesita y todo reaccione para darnos soluciones en ese preciso momento esté donde esté.

Bueno, bueno, bueno, ahora que pienso incluso hay personas que no se entienden entre sí, ¿verdad? Y culturas variadas con puntos de vista divergentes que condicionan, o al menos dificultan, el entendimiento mutuo como la literalidad de algunas expresiones donde es necesario entender el sentido cultural como es el caso de los refranes. Solo por nombrar algunas condiciones en las cuales la comunicación pueda no fluir como se esperaba.

No cabe duda de que el habla y la conversación han sido y seguirán siendo un instrumento potente usado por el ser humano como herramienta fundamental para el entendimiento y las relaciones sociales. Si hablamos del entendimiento entre una persona y una máquina, ese punto de unión se denomina interfaz de usuario. Y en el caso que esa interfaz de usuario se manifieste por medio de una conversación hablada o escrita, la denominaremos interfaz conversacional. Algo de tecnicismos.

¿Pero qué características hacen que el habla sea tan efectiva?

Sin duda, la expresión verbal genera un sentido de empatía que se produce a través de al menos siete características notables:

  • Tono de la voz
  • Timbre
  • Volumen o amplitud sonora
  • Silencios
  • Ritmo y cadencia
  • Entonación
  • Vocabulario utilizado

Todos ellos representan atributos que, combinados de cierta manera, generan un impacto en el interlocutor que producen acción, influencia y distintos niveles de satisfacción. Aspectos claves a considerar en el diseño de soluciones conversacionales para generar una experiencia de usuario sobresaliente y diferencial.

Y si nos preguntamos, ¿qué beneficios presentan las interfaces conversacionales?

Podemos identificar cuatro principales aportes como ventajas para los usuarios.

Velocidad

Basados en una basta cantidad de estudios realizados por distintas universidades, se ha concluido que la voz representa un mecanismo mucho más eficiente y veloz que la interacción con pantallas, gestos teclados y otras interfaces. El usuario simplemente interactúa más rápidamente.

Manos y ojos libres (Hands-free + Eyes-free)

Es evidente, pero las interfaces basadas en la voz permiten a los usuarios estar haciendo otras cosas al mismo tiempo y ocupando sus manos cocinando, haciendo masajes, conduciendo, reparando un artefacto, o simplemente estando relajados en un sofá.

También representa una gran oportunidad para permitir la interacción de personas con dificultades visuales o motrices que le impiden un uso correcto de pantallas u otras interfaces gráficas habituales.

Intuitivo

Pensemos un momento. Un niño a la edad de cinco años ya ha aprendido gran parte del lenguaje, se expresa y se hace entender con pocas dificultades aparentes. Las interfaces conversacionales, sean escritas como chatbots, o por voz como Alexa o Google Home, tienen la ventaja que la curva de aprendizaje principal para su uso es concretamente la que formamos desde edad temprana. No siendo así, por ejemplo, para las interfaces gráficas (GUI) de pantallas táctiles a las que hay que aprender a usarlas, encontrar las cosas que buscamos y reconocer el funcionamiento de la aplicación que deseamos utilizar.

¡Genial! Cómo ya sabemos hablar, ahora todas las máquinas nos entenderán perfecto. Ojalá así sea.

Empatía

Se ha estudiado que los asistentes por voz o chatbot generan en las personas, en mayor o menor medida, la capacidad de percibir emociones y sentimientos de la misma forma que lo hacemos con otras personas. Se genera una cierta sensación de compromiso que dirige la relación entre ambos, algo que las pantallas (GUI) no producen, y observamos como una gran oportunidad para este tipo de interacciones dirigidas por el lenguaje natural.

Todo lo presentado tiene sus bases en técnicas, procedimientos y mecanismos concretos que ponemos en la práctica en proyectos con nuestros clientes. Veamos un ejemplo.

EL NACIMIENTO DE UN ASISTENTE VIRTUAL

Viene un cliente y me dice: “Hemos visto que las tendencias globales de uso de asistentes virtuales, por voz o chat es el futuro que se viene. ¿Por dónde comenzamos?”

Perfecto, me encantan esos retos abiertos y ambiciosos. ¡Adelante!

Para hacer frente a esos desafíos, y varios más concretos para ser honesto, en GFT hemos creado un marco de trabajo (GFT Conversational Framework) especialmente pensado para hacer realidad servicios conversacionales que enamoren a sus usuarios.

En definitiva, usuarios felices, organizaciones exitosas.

Está compuesto por cuatro fases sobre las que avanzamos en trabajo colaborativo y multidisciplinar con nuestros clientes: Veamos cómo funciona.

  1. Service discovery

Si lo pensamos inicialmente desde el punto de vista del negocio, es necesario tener un enfoque holístico de la situación, y del ecosistema de productos y servicios de la compañía.

En este sentido, trabajamos con nuestros clientes con prácticas de diseño de servicios con una perspectiva fuertemente centrada en las personas, contemplando las necesidades de los usuarios y de la organización. Los aspectos tratados bajo este estadio son:

  • Detección y reformulación de problemas de usuarios.
  • Ideación de soluciones conversacionales con potencialidad de negocio.
  • Identificación de audiencias objetivos, user personas.
  • Mapeo del ecosistema de servicios de la compañía, casos de uso relevantes y canales de distribución para una experiencia conversacional omnicanal.

Hay quienes tropiezan donde otros ya lo hicieron. ¡Pero podemos evitarlo!

Hemos observado diferentes proyectos frustrados al querer trasladar toda la funcionalidad de la compañía al canal voz, pensando que es el nuevo espacio donde se deben incluir todos los servicios sólo porque existen. Es importante realizar una fase en la que descubramos y validemos diferentes propuestas de valor, se presenten casos de uso reales combinando indicadores de desempeño, objetivos de negocio, impacto en la experiencia del usuario final, y aumentando la complejidad según se vaya desarrollando el servicio. De esta forma, nuestra experiencia nos demuestra que el servicio se va consolidando y haciendo cada vez más potente y útil, tanto para la compañía como para sus clientes.

  1. Conversation design

El diseño de conversaciones es el arte de enseñar a las máquinas a comunicarse como los humanos lo hacemos. Aquí es donde ponemos en práctica técnicas y mecanismos concretos para lograr experiencias de usuario memorables, naturales y efectivas en un contexto determinado.

Se utilizan conocimientos del ámbito de la lingüística, psicología, diseño de experiencias de usuario, copywriting y diversos tratamientos de la semántica en general para mapear lo que un usuario podría decir y cómo el asistente virtual debería reaccionar para ayudar a conseguir un objetivo y al mismo tiempo generar una experiencia agradable. 

Personalidad y tono de la voz

¿Recuerdan que arriba hablamos de la empatía?

En definitiva, la percepción final generada en el usuario está sujeta a las definiciones que se realicen sobre la personalidad y el tono de la voz. A lo largo de esta etapa, trabajamos estos atributos con el suficiente nivel de detalle como para dirigir el resto de la vida del asistente virtual y lograr el impacto deseado. Para ello, ponemos en práctica workshops con técnicas generativas que contemplan:

  • Valores de la marca actual y valores proyectados en el asistente
  • Atributos de personalidad y tono de voz del asistente
  • Lenguaje de los clientes

La paradoja de un usuario libre

En interfaces gráficas (GUI), como las que encontramos en una aplicación móvil o en una web, los usuarios pueden interactuar únicamente con los elementos que fueron diseñados en dichas pantallas como botones, enlaces, imágenes, entre otros. En estos casos decimos que el usuario se mueve en un entorno restringido, seguro y persistente en el tiempo.

En cambio, en las interfaces basadas en la voz o conversaciones estilo chats (CUI) los usuarios pueden expresarse libremente y decir lo que quieran, en la mayoría de los casos no hay restricciones de interacción.

Incluso, en asistentes basados en la voz, como Alexa, Google Assistant o Siri, la interfaz fluye en el aire y se pierde. Si el usuario se distrajo por un segundo, la interfaz ha desaparecido y será necesario tener esas situaciones bajo control para recuperar el curso y permitirle avanzar hacia su objetivo.

Las interfaces gráficas de una aplicación móvil o una web son persistentes y mucho más ricas que las conversaciones. Todos hemos visto la cantidad de información y elementos que se pueden mostrar al mismo tiempo en una pantalla. Esto no sucede en el lenguaje natural, es algo más lineal o secuencial y requiere desafíos especiales de diseño para lograr altos niveles de usabilidad y aceptación por parte de los usuarios.

A estas alturas es evidente que el éxito de las soluciones conversacionales recae en gran parte en los mecanismos de diseño aplicados conjuntamente con conocimientos específicos para el tratamiento de experiencias basadas en lenguaje natural.

Adicionalmente, la usabilidad de los sistemas basados en la voz y conversación aumentan enormemente su calidad en función al grado de entendimiento del contexto del usuario, situaciones previas, nivel de experiencia o recurrencia del usuario, momento del día, preferencias de uso, geoposición, entre otras características. Condiciones que, desde el punto de vista de implementación tecnológica, revisten complejidades que no todos están preparados para afrontar, por lo cual, nuestro enfoque de madurez gradual con el que abordamos los proyectos y asesoramos a nuestros clientes se transforma en un eje rector de las prioridades y dependencias.

  1. Prototype & engage

¿Somos ágiles? Sí que lo somos, poniendo en práctica diversos mecanismos de prototipado de voz y chatbots, que nos permiten presentar propuestas de valor tangibles y concretas en pocas semanas, sobre las cuales conocer la percepción de los usuarios y los stakeholders. Nuestra metodología iterativa nos permite optimizar la generación del servicio, y evolucionarlo hasta que este pueda ver la luz.

  1. Perceive

Posiblemente estén familiarizados con el término “pruebas con usuarios”, user testing ¿verdad?. Bueno, en el contexto de los asistentes virtuales se ponen en práctica estas evaluaciones con usuarios finales pero con significativas diferencias en la ejecución de la técnica. De forma de recoger iterativamente y progresivamente las características de expresiones, vocabulario, puntos en donde la conversación pueda no tener salida y otras condiciones que representen una evolución del producto.

En fín. Una montaña de oportunidades…que hay que saber escalar

No cabe duda de que nos enfrentamos a una etapa de evolución respecto de la forma en la que nos relacionamos con la tecnología. Los asistentes virtuales por voz o chatbots se han convertido en una fuerte apuesta que optimiza la relación entre la empresa y los clientes, ofreciendo disponibilidad día y noche como canal de comunicación natural.

Existen potentes oportunidades de negocio que se manifiestan con la creación de estas soluciones, siendo su impacto dependiente en gran medida de las sutilezas de diseño que se deben poner en juego cuándo cada organización decida iniciar este camino. Estamos preparados para acompañarte.