Métodos con usuarios

Cristina Cachero1, Eva Villegas Portero (eva.villegas@salle.url.edu)2

1Universidad de Alicante

2Universitat Ramon Llull

Resumen: La evaluación con usuarios se puede realizar por medio de diferentes métodos, que pueden dividirse en dos grandes grupos: métodos de testeo y métodos de indagación. Dentro del grupo de métodos de indagación, en este capítulo se detallan los métodos de cuestionarios y el bipolar laddering, basado en un modelo específico de entrevista. Por su parte, los principales métodos de testeo abordados en el capítulo incluyen el test de rendimiento (test de tareas) y el método de clasificación de tarjetas cerrado (closed card sorting). Asimismo, se definen brevemente otros métodos de testeo, menos complejos pero de gran prevalencia en la industria, como son el test de exploración libre, el test de expectativas, el test de intuitividad visual, el test de definición de marca y el A/B Testing, Adicionalmente, se presenta información sobre los laboratorios de evaluación de experiencia de usuario. Finalmente, se presenta un caso de estudio que muestra el resultado de aplicar el  método de ordenación de tarjetas cerrado a una web institucional.

1. Introducción

Los métodos con usuarios requieren usuarios reales que sean representativos de la audiencia real. Los resultados de estos métodos se basan por tanto en las acciones/opiniones de estos usuarios. La principal ventaja de los métodos con usuarios es que permiten discernir mejor que los métodos sin usuarios cuáles son los problemas de usabilidad más importantes (más recurrentes o con mayor impacto para el usuario final). Sus principales inconvenientes incluyen ser muy sensibles a la selección adecuada de sujetos, ser normalmente más caros  que los métodos sin usuarios y que los resultados pueden verse afectados por la experiencia del facilitador.

Dentro de los métodos con usuarios, es posible distinguir entre dos tipos de métodos: métodos de indagación y métodos de testeo.

Con los métodos de indagación, los evaluadores de usabilidad obtienen información sobre lo que los usuarios hacen o necesitan mediante técnicas de conversación y/u observación en su entorno real. Dentro de los métodos de indagación destacan las Entrevistas, los Cuestionarios y el Bipolar Laddering.

Por contra, en los métodos de testeo, el investigador se centra en el comportamiento real de los usuarios, en lugar de fiarse de lo que  ‘dicen que hacen’. Para ello, se pide a un conjunto de usuarios realizar algún tipo de actividad (alguna tarea, explorar de manera libre, agrupar una serie de tarjetas, observar una página web, …). A partir de esta interacción, los evaluadores realizan una serie de mediciones y análisis que variarán en función del objetivo del test.

Entre los métodos de testeo más populares se encuentran el test de rendimiento (test de tareas) y el método de clasificación de tarjetas cerrado (closed card sorting).

En la Figura 1 puede verse un mapa mental donde se recogen los principales métodos con usuarios. En esta figura, se han marcado en cursiva los métodos que se han desarrollado en más profundidad a lo largo del capítulo.

Figura 1: Mapa mental de los principales métodos de evaluación con usuario. Fuente: creación propia

2. Métodos de indagación

Como ya hemos comentado anteriormente, los métodos de indagación recogen la información sobre el modo de actuar de los usuarios de manera indirecta: en lugar de observar y/o monitorizar lo que hacen los usuarios, con estos métodos el investigador pregunta a los usuarios qué hacen, cómo y/o por qué. La principal ventaja de los métodos de indagación es que permiten recoger un tipo de información, de tipo fundamentalmente cualitativo, que es muy difícil de obtener con otro tipo de métodos. Un ejemplo es la racionalización del porqué de ciertos comportamientos observados con anterioridad. Su principal inconveniente es que no siempre lo que los usuarios reportan coincide de manera fidedigna con lo que hacen o piensan en realidad, a veces por tratarse de comportamientos demasiado complejos, a veces por ser comportamientos subconscientes o poco interiorizados, y otras por el deseo del usuario de dar cierta imagen ante el investigador, en lo que se conoce como el sesgo de deseabilidad social (social desirability bias) (Eysenbach, & Köhler, 2002; Wash, Rader & Fennell, 2017).

2.1. Cuestionarios

Los cuestionarios son un método de indagación muy utilizado en el campo de la UX, debido a su relativo bajo coste en comparación con otros métodos de evaluación.  Se caracterizan por medir las actitudes como un indicador de la conducta. Dichas actitudes tienen dos propiedades: dirección (positiva o negativa) e intensidad (alta o baja).

Para medir las actitudes u opiniones se pueden usar distintos tipos de escala, como son el método de escalamiento Likert, las escalas de diferencial semántico o la escala Guttman. En el caso de la evaluación de la usabilidad, el método preferido es el método de escalamiento Likert (Likert, 1932), que propone que se defina un conjunto de ítems presentados en forma de afirmaciones o juicios, ante los cuales se pide la reacción de los participantes. Cada ítem tiene una escala de puntos (normalmente entre 5 y 7), y a cada punto se le asigna un valor numérico. La puntuación total de la escala Likert se obtiene sumando los valores alcanzados respecto de cada frase. Se trata por tanto de una escala aditiva. Cuando se interpreta el valor total de la escala, los números más altos indican actitudes más positivas.

Una de las características más importantes de un cuestionario para garantizar la validez y fiabilidad de sus resultados es que éste haya sido validado mediante métodos psicométricos, ya sean basados en la teoría clásica de tests (Nunnally, 1978) o basados en la teoría del ítem-respuesta (Embretson & Reise, 2000).

En este sentido, las condiciones que debería cumplir un cuestionario para considerar su uso dentro de una evaluación de usabilidad son:

  • Validez de contenido: ¿son sus ítems representativos y relevantes de lo que se pretende medir?
  • Validez de constructo: ¿hasta qué punto se alinean los ítems del cuestionario con los constructos de interés subyacentes?
  • Validez de criterio:
    • Convergente: ¿existe una correlación suficiente con otras medidas que se supone que miden los mismo?
    • Discriminante: ¿existe una correlación suficientemente baja con medidas que se supone que miden constructos distintos?
  • Fiabilidad: consistencia de la medida. ¿Si se aplica el instrumento en dos instantes de tiempo distintos, es suficientemente consistente la medida?
  • Sensitividad: ¿es el test capaz de detectar diferencias significativas en los niveles del constructo de interés cuando dichas diferencias existen?
  • Utilidad: ¿es el cuestionario fácil de contestar, fácil de administrar y fácil de puntuar?

Para el caso concreto de la medición de la satisfacción como parte de los tests de tarea, en la literatura relacionada se pueden encontrar multitud de cuestionarios estandarizados que han demostrado todas estas características. A continuación pasamos a detallar los más ampliamente utilizados en la industria (Sauro & Lewis, 2009) .

2.1.1. Cuestionarios para medir la satisfacción de los usuarios a nivel general

Los cuestionarios que miden la satisfacción a nivel global se utilizan típicamente para medir las impresiones de los usuarios sobre la aplicación o sitio web tras haber interactuado con él. Algunos de los más conocidos son el Computer System Usability Questionnaire (CSUQ, (Lewis, 1995), la System Usability Scale (SUS, (Brooke, 1996)) y la Usability Metric for User Experience (UMUX, (Finstad, 2010)).

También relacionadas con la usabilidad global, los investigadores han propuesto y validado medidas, operacionalizadas a través de cuestionarios, para predecir ventas, beneficio e incluso el cambio en el precio de las acciones (East, Romaniuk & Lomax, 2011). Entre ellas, destacan la Net Promoter Score (NPS) (una medida boca-a-boca) (Reichheld, 2003) y el American Customer Satisfaction Index (ACSI, (Anderson & Fornell, 2000)) o su homónimo, el European Customer Satisfaction Index (Ball, Coelho & Machás, 2004, Askariazad & Babakhani, 2015). Estas medidas fueron inicialmente concebidas como indicadores macroeconómicos uniformes y comparables. Tanto las medidas de satisfacción como las medidas boca a boca pueden ayudar a predecir la lealtad al producto y a la marca, así como el rendimiento del usuario (East, Romaniuk & Lomax, 2011).

Como principal objeción al uso de los cuestionarios globales, se ha detectado que, cuando los usuarios cumplimentan cuestionarios administrados a nivel global, las últimas experiencias del usuario (las asociadas con las últimas acciones realizadas en la aplicación o sitio web) tienden a influenciar de manera más acusada las puntuaciones finales que las experiencias iniciales. Además, estas medidas de usabilidad global no suelen ayudar en la identificación de qué rasgos y funciones son las que contribuyen de una manera más significativa a las puntuaciones negativas (Sauro & Dumas, 2009).

2.1.2. Cuestionarios para medir la satisfacción de los usuarios a nivel de tarea

Con el fin de mitigar la mayor influencia de las últimas experiencias en las puntuaciones obtenidas, y al mismo tiempo comprender mejor qué tareas son las que generan los problemas de usabilidad, la comunidad HCI ha propuesto que los cuestionarios globales se complementen con un conjunto de cuestionarios asociados a tarea como son la Usability Magnitude Estimation (UME (McGee 2004)) , el After Scenario Questionnaire (ASQ) (Lewis, 1991; Tedesco & Tullis, 2006) o el cuestionario de Expectation Ratings (ER) (Albert & Dixon, 2003).

2.1.3. Factores que pueden afectar el resultado de los cuestionarios

A la hora de administrar los cuestionarios de usabilidad es importante ser conscientes del efecto potencial de determinados factores que pueden afectar la evaluación de la usabilidad tanto a nivel de tarea como a nivel global, y asegurarse de que la selección de la muestra tiene en cuenta estos factores.  Dichos factores incluyen, entre otros, el tipo de interfaz (Bangor, Kortum & Miller, 2008; Kortum & Sorber, 2015), la complejidad del producto software (Kortum & Bangor, 2013), la edad (Bangor, Kortum & Miller, 2008; Berkman & Karahoca, 2016), el género (Berkman & Karahoca, 2016), la personalidad del sujeto (Kortum & Oswald, 2018), su nivel de experiencia y/o exposición (Berkman & Karahoca, 2016; McLellan, Muddimer & Peres, 2012, Borsci et al., 2015), e incluso el diseño del estudio dentro del cual se integran los cuestionarios (Lewis, 2018).

2.2. Bipolar Laddering

El Bipolar Laddering (BLA) (Pifarré & Tomico, 2007)  es un método basado en entrevistas que permite obtener los puntos fuertes y débiles de un producto o aplicación a partir de la experiencia de usuario surgida durante su uso. Se realiza a partir de un formato de entrevistas exploratorias socráticas orientadas a la relación usuario-producto y se utiliza para definir las características que afectan a la satisfacción del usuario. El formato de aplicación del método puede variar según las necesidades del proyecto y el número de usuarios a evaluar.

A partir de este modelo de entrevista, se obtiene un listado de conceptos relevantes para los usuarios y se definen los niveles de satisfacción de cada elemento mediante un sistema de puntuación numérico.

La elicitación de los elementos se divide en:

  • Elementos positivos: Son aquellos que el usuario percibe como puntos fuertes de la aplicación, es decir, aquellos que le causan satisfacción por algún motivo.
    • Se indica el elemento positivo.
    • Se puntúa de 1 a 10 donde el 1 es el más negativo y el 10 es el más positivo.
    • Se justifica por qué este elemento se considera positivo y el motivo de la puntuación.
  • Elementos negativos: Son aquellos que el usuario percibe como puntos débiles, es decir, aquellos que lo desmotivan, lo disgustan o entorpecen sus acciones.
    • Se indica el elemento negativo.
    • Se puntúa de 1 a 10 donde el 1 es el más negativo y el 10 es el más positivo. (Misma escala que los elementos positivos)
    • Se justifica por qué este elemento se considera negativo y el motivo de la puntuación.

Una vez finalizada la entrevista, ambas tablas (elementos positivos vs. elementos negativos) se subdividen en elementos comunes y en elementos particulares:

  • Los elementos comunes son aquellos que se repiten espontáneamente entre usuarios diferentes.
    • En este caso, se calcula el índice de mención que está relacionado con la cantidad de usuarios que han nombrado el mismo concepto.
  • Los elementos particulares son aquellos que solo se mencionan una vez por alguno de los entrevistados y no se repiten para otro usuario.

Al aplicar un modelo socrático, cada usuario escoge libremente los elementos que quiere evaluar; de este modo es posible comprobar qué conexiones existen entre elementos espontáneos. El BLA permite un aumento significativo de la fiabilidad de los datos obtenidos puesto que garantiza que la información resultante es siempre relevante para los usuarios.

Ejemplo de aplicación:

Se puede revisar el artículo BLA (Bipolar Laddering) applied to YouTube (Pifarré , Sorribas & Villegas, 2009) como ejemplo de aplicación en un proyecto real.

Momento de aplicación:

Durante la fase de desarrollo de un proyecto o en el caso de que el proyecto ya exista. Se aplica cuando los usuarios han tenido una experiencia con el sistema y, por lo tanto, pueden evaluarlo.

Número de entrevistas aplicables:

A partir de 5 entrevistas por perfil (exactamente el mismo perfil) sería suficiente (Nielsen, 2000), aunque se recomiendan de 8 a 12.

3. Métodos de testeo

Por su parte, los métodos de testeo se centran en recoger y analizar datos en base a interacciones reales de los usuarios con alguna parte del sistema. Para ello, en este tipo de métodos se solicita a los usuarios que realicen algún tipo de acción, como puede ser agrupar unas tarjetas, realizar alguna tarea o interaccionar de manera libre con una cierta pantalla de la aplicación, mientras el investigador monitoriza dicha interacción. A continuación, los investigadores pueden analizar los datos recogidos y/o profundizar, mediante preguntas de sondeo (probing), en su comprensión de las razones que hay detrás del comportamiento observado.

Dos de los métodos de testeo más conocidos son la ordenación de tarjetas cerrada o inversa (closed card sorting) y el test de tareas (test de rendimiento).  En las siguientes secciones presentamos cada uno de ellos.

Los test de tarea o de rendimiento son tan comunes que a menudo los profesionales se refieren a él como ‘test de usabilidad’. No obstante, en este capítulo preferimos referirnos a él como test de tarea, ya que en realidad todos los tests presentados tienen como objetivo evaluar la usabilidad del sistema.

3.1 Test de ordenación de tarjetas cerrado (closed card sorting)

La ordenación de tarjetas cerrada o inversa es un método de testeo con usuarios que permite establecer si tu web o aplicación tienen una buena estructura navegacional, es decir, un modo de nombrar y organizar el contenido que permite que tus usuarios objetivo encuentren fácilmente lo que buscan. Si la estructura navegacional no es intuitiva para tus usuarios objetivo, éstos tendrán problemas para orientarse, para encontrar lo que buscan y para recordar cómo llegaron a un determinado contenido en una ocasión anterior. Para conseguir una buena estructura navegacional, es fundamental que los usuarios (a) entiendan las etiquetas de tu aplicación y (b) sean capaces de intuir de manera lógica la ubicación de las principales funcionalidades e ítems de información. Si quieres añadir nuevo contenido a tu aplicación y no sabes dónde colocarlo, o si detectas que existe algún problema de usabilidad en tu estructura de navegación actual (e.g. que los usuarios no encuentran el contenido que buscan, o que tienen problemas recordando cómo llegaron a algún contenido en una ocasión anterior), el closed card sorting es tu técnica.

El método de card sorting implica la creación de un conjunto de tarjetas, donde cada una representa un concepto o un ítem de información. En la variante cerrada del método, a los usuarios se les proporciona además un conjunto de categorías en las que deben clasificar las tarjetas. El propósito es por tanto comprobar si el lugar en el que el usuario piensa que debería estar ese contenido (su modelo mental) coincide con el modo en que se ha organizado el contenido en la aplicación (el modelo conceptual). Además, esta técnica permite reducir el número de categorías de información en base a cuáles son las más ignoradas. Para ello se buscan patrones en esos modelos mentales. Mientras más adecuada sea la muestra y mayor sea el número de participantes, mayor será la probabilidad de que los patrones que encuentres se correspondan con los patrones de navegación de tus usuarios cuando la aplicación pase a la fase de producción.

El proceso de ejecución de un Closed Card Sorting define los siguientes pasos:

1.- Define ítems de contenido y categorías

2.- Recluta usuarios representativos. El número dependerá de si estás ejecutando una evaluación formativa o sumativa, y de la gravedad de los errores que quieras detectar.

3.- Pide a los usuarios que clasifiquen los ítems de información en base a las categorías facilitadas.

4.- Analiza los datos

 

Ejemplo de aplicación:

En la sección 4 de este capítulo se detalla un ejemplo de aplicación de este método a la web de la UA.

Momento de aplicación:

En el caso de rediseño, es posible aplicar esta técnica al inicio del proyecto, sobre el producto existente (antes del rediseño). De este modo es posible detectar las etiquetas que causan más problemas y crear unos datos de referencia (baseline) contra los que se pueda comparar la estructura de navegación rediseñada. En el caso de tratarse de un proyecto nuevo, esta técnica se puede aplicar durante la fase de diseño de la estructura de navegación del sitio o aplicación. No es necesario que haya un producto terminado, ni siquiera un prototipo, ya que esta técnica se basa en tarjetas.

Número de usuarios necesarios:

Se considera que entre 15 (Nielsen, 2004) y 20 (Tullis & Wood, 2004) es el número mínimo de usuarios necesarios para que una técnica de closed card sorting arroje resultados fiables.

3.2. Test de tareas

El test de tareas es una técnica en la que el facilitador recoge datos empíricos mientras observa o graba a usuarios representativos durante su uso del producto para realizar tareas significativas. Se trata probablemente del método más conocido de evaluación de usabilidad con usuarios. Esta técnica facilita tareas como son comprobar si el diseño funciona, diagnosticar problemas, comparar alternativas o verificar que los objetivos de diseño se han cumplido. Los beneficios directos, comunes a todos los métodos de testeo, incluyen el proporcionar una retroalimentación que proviene directamente de los usuarios (sin intermediarios), datos objetivos (y no solo opiniones) sobre los que tomar decisiones de diseño y, en general un ahorro importante de tiempo de mantenimiento.

Los tests de tareas pueden ser formativos o sumativos, cuantitativos o cualitativos, y ser aplicados a prototipos tempranos, prototipos avanzados o productos terminados. Cuando el test de tareas se usa de manera formativa, el objetivo puede variar desde decidir entre distintas alternativas de diseño a encontrar y arreglar posibles problemas de usabilidad de funcionalidades concretas. Cuando, por el contrario, se trata de un test de tipo sumativo, el objetivo suele ser comprobar, normalmente con la ayuda de métodos estadísticos, si se han cubierto los objetivos de usabilidad que se establecieron en la fase de análisis.

Existen tres roles importantes en un test de usuario:

  • Facilitador: moderador, supervisor de todo el proceso. Suele estar involucrado en todo el proceso, desde el diseño del test hasta el reporte de resultados.
  • Participante: usuario, cliente actual o potencial. En este tipo de tests no se deberían usar representantes de usuario
  • Observador: persona que graba los eventos según van ocurriendo. Tiene una interacción limitada con el participante/cliente/usuario. Sí suele contribuir sin embargo al reporte de resultados.

Estos roles se desarrollan en más detalle en la sección dedicada al laboratorio de usabilidad.

Los tests de tarea pueden realizarse en persona (con facilitador y participante en el mismo espacio físico) o de manera remota (usando algún tipo de herramienta digital). Además, pueden realizarse de manera moderada (facilitador va guiando al participante durante la ejecución del test según una serie de pautas preestablecidas) o de manera no moderada (el participante realiza el test sin la presencia del facilitador).  La elección de la modalidad concreta de test depende de aspectos como los tipos de tarea, las preguntas de investigación  que se pretenden responder con el test, si se trata de un test formativo o sumativo, el presupuesto, la necesidad de inmediatez de los datos, el grado de conocimiento de los usuarios objetivo, etc.

En concreto, los tests que se realizan de manera moderada (con interacción entre facilitador y usuario, ya sea en persona o de manera remota) permite testar productos con múltiples facetas o tareas complejas que no necesariamente tienen una secuencia estructurada de pasos. La interacción entre facilitador y participante permite al facilitador observar mejor el lenguaje no verbal (sobre todo si se realiza en persona), y aplicar el protocolo de think aloud para realizar preguntas de sondeo, adaptadas a lo que el usuario acaba de hacer, cuando surge cualquier tipo de duda. Un test en estas condiciones podría incluir hasta 10-12 tareas (entre 45 minutos y una hora) sin cansar demasiado al usuario. La tasa de abandono de los usuarios en estas condiciones de test es muy baja. Como principal inconveniente, existe la posibilidad de que un usuario no se presente al lugar del test. Además, existe riesgo de que se produzca un sesgo de deseabilidad social al tener que expresar el usuario sus opiniones delante del facilitador, en lugar de hacerlo de manera anónima.

Por el contrario, los tests remotos y no moderados están especialmente pensados para situaciones en las que hay preguntas muy específicas acerca de cómo los usuarios utilizan la interfaz de usuario para tareas relativamente simples y directas. El principal beneficio de los tests remotos es que son más baratos (Moran, 2020). Además, en un test remoto no moderado las sesiones de test pueden incluir cientos de personas simultáneamente, lo que permite tener datos cuantitativos que permitan justificar de manera convincente, incluso de manera estadística, la importancia de los problemas encontrados. Otro beneficio importante es que los tests remotos permiten que el usuario actúe en su medio natural, lo que aumenta la validez externa del estudio. Los tests remotos también permiten realizar sesiones de test con muchas webs/aplicaciones competidoras de manera simultánea. Si se decide premiar a los participantes, los premios pueden ser más modestos que en el caso de los tests en persona. Además, las herramientas más conocidas de testeo no moderado permiten reclutar usuarios automáticamente en base a las características deseadas, ya sea interceptándolos durante su visita a determinados sitios o aplicaciones de interés o filtrándolos a partir de bases de datos preexistentes.

Los tests remotos deben ser más cortos que los tests en persona (entre 15 y 30 minutos, entre 3 y 5 tareas), ya que el porcentaje de tests no respondidos aumenta de manera drástica a partir de dicha duración. Los tests remotos y no moderados no permiten saber si los participantes están haciendo el test de manera responsable o solo por la recompensa, ni si están usando o no algún tipo de dispositivo periférico o tienen algún otro tipo de distracción. Para la realización de un test remoto es necesario además tener una conexión a Internet con cierta velocidad y estabilidad, y es importante que los usuarios comprendan de antemano el uso del entorno remoto. El análisis de datos en este tipo de tests suele realizarse con poca o ninguna información cualitativa (solo la que el usuario pueda proporcionar en alguna pregunta abierta que pueda acompañar al test). Esta falta de comentarios, expresiones no verbales, etc. puede causar que el facilitador obtenga una impresión de la experiencia real del usuario sesgada, que no le permita entender bien los problemas, las necesidades y los deseos reales del usuario. Por último, es importante destacar que, en este tipo de tests, para que un usuario cambie de tarea necesita ser capaz de decidir si ha completado la tarea actual. Por tanto, es posible que los participantes piensen que han completado una tarea de manera exitosa cuando no es así, o, al contrario, que sigan navegando por la aplicación cuando en realidad ya han completado la tarea. Para evitar estas situaciones, es necesario ser muy cuidadoso con la definición de tareas, que deben ser directas y tener estados finales bien definidos (Soucy, 2010).

El proceso de planificación y ejecución de una test de tareas se puede resumir como sigue:

  1. Define tus preguntas de investigación
  2. Define de manera exhaustiva el conjunto de métricas que te van a permitir responder esas preguntas de investigación
  3. Decide el tipo de test que vas a realizar y, si es necesario, las herramientas de apoyo que vas a necesitar.
  4. Define el perfil/es de usuario que van a participar en el estudio
  5. Define las tareas que van a tener que realizar los usuarios. Cuando las definas, presta especial atención a su escritura (McCloskey, 2014)
  6. Define cualquier otra pregunta/cuestionario que desees que acompañe al test de usuario
  7. Recluta a los usuarios.
  8. Prepara  los materiales necesarios para realizar el test (tanto materiales de facilitador como materiales de participante y de observador)
  9. Realiza el test
  10. Analiza los datos en función de las preguntas de investigación iniciales.
  11. Prepara el reporte final para todos los interesados. El estándar ISO/IEC 25062 (2006) define un template que puede ser utilizado para la realización de este informe.

Es importante destacar que, pese a lo aparentemente laborioso del proceso, es posible realizar tests de usuario con relativamente pocos recursos. Una buena guía sobre cómo realizar tus propios tests de usabilidad aunque tengas poca experiencia es el libro Rocket Surgery Made Easy, de Steve Krug (2006). Otra buena fuente de información es el artículo de Moran (2019): Usability Testing 101.

Medidas típicas de un test de tareas:

En general, los tests de tareas incluyen medidas de eficiencia, eficacia (completitud y exactitud) y satisfacción. Las medidas típicas de un test de tarea son tiempo de la tarea (presente en el 99% de los estudios publicados), ratio de compleción (presente en el 98% de los estudios), errores (presente en el 58% de los estudios), satisfacción post-test (presente en el 48% de los estudios) y satisfacción post-tarea (presente en el 40% de los estudios) (Sauro & Lewis, 2009). En todas estas medidas subyace una visión cuantitativa de los estudios de usabilidad. Sin embargo, es importante destacar el abanico de medidas y datos que pueden recogerse de un test de tareas, cuya elección depende de los objetivos del test. Como medidas de eficacia podemos definir tanto medidas de éxito (número de tareas completadas, pero también e.g. número de pasos exitosos dentro de cada tarea) como de error (número de intentos fallidos, número de reintentos, tasa de errores por ta tarea, …). Como medidas de eficiencia se pueden reportar tiempo de compleción de tareas, número de pasos requeridos frente al número mínimo necesario (lostness), número de tareas realizadas por unidad de tiempo, … Por último, como medidas de satisfacción, ya hemos visto en la sección de cuestionarios cómo existen distintos instrumentos validados disponibles, tanto a nivel de tarea como a nivel global. Además, podemos recoger datos cualitativos en forma de impresiones acerca de cómo se han sentido los usuarios, listas de problemas de usabilidad (incluyendo o no frecuencia y severidad, etc.). Una recopilación más exhaustiva de medidas puede encontrarse en Hornbaek (2006).

 

Ejemplo de aplicación:

Un ejemplo de test de tarea con la herramienta Loop11 puede ser visto en:

https://www.loop11.com/wireframe-usability-testing/

 

Momento de aplicación:

Los tests de tareas formativos suelen aplicarse sobre prototipos tempranos y/o avanzados (en función del aspecto que se quiera testar), y se puede aplicar desde las primeras iteraciones de diseño. El único requisito es que el prototipo cubra las tareas/aspectos que se pretenden testar. En cuanto a los tests sumativos, se suelen realizar al final del ciclo de desarrollo para comprobar si se han cumplido los objetivos de usabilidad propuestos. Es también posible realizar un test sumativo al principio del proceso de diseño, para crear una base contra la que comparar cualquier mejora o rediseño. También es posible realizar un test sumativo al inicio del proceso para comparar nuestra aplicación con la de algún competidor, con el fin de detectar las áreas de la aplicación donde es más urgente realizar alguna actuación de mejora.

Número de usuarios necesarios:

Para un test de tipo formativo la recomendación habitual es usar entre cinco y siete usuarios por perfil de usuario, y los resultados serán siempre cualitativos, es decir, no se debería intentar extrapolar los resultados a la población general. Si se dispone de más usuarios, es preferible realizar varias rondas de testing, y subsanar los problemas detectados entre ronda y ronda. E.g. si contáramos con 15 usuarios, una estrategia podría ser testar con cinco usuarios, modificar la interfaz en base a los resultados de esa primera ronda, testar con otros cinco, volver a modificar la interfaz y testar con los cinco últimos (Nielsen & Landauer, 1993; Nielsen, 2000). Sin embargo, diversos autores han demostrado cómo, en función del estudio que se trate, puede ser necesario variar el número de usuarios para conseguir cierto nivel de confianza en los resultados (Caulton, 2001; Spool & Schroeder, 2001; Faulkner, 2003). Yendo un paso más allá, Lewis propone un método empírico que, en base a un ratio de descubrimiento de problemas de usabilidad que se calcula de manera independiente para cada estudio, permite calcular el número de usuarios necesarios para detectar un determinado porcentaje de los problemas de usabilidad que podemos esperar que haya en realidad en una aplicación concreta (Lewis; 2001; Turner, Lewis and Nielsen, 2006).

En el caso de tests sumativos, de tipo cuantitativo, el número de usuarios necesarios para alcanzar resultados estadísticamente significativos dependerá de la variabilidad de los datos y de la magnitud de las diferencias que queramos contrastar. La aplicación de tests paramétricos normalmente exige unos 40 usuarios, aunque este número puede variar (Badiu, R. & Moran, K., 2021)

3.2.1. Laboratorio de Evaluación de Experiencia de Usuario

A nivel de consultoría existen varios tipos de laboratorios de usabilidad. Sin embargo, actualmente están aumentando los laboratorios de inmersión, que permiten que los usuarios se sientan cómodos en un ambiente concreto.

Un laboratorio se compone de dos salas:

  • Sala de test
  • Sala de observación

Sala de test:

Sala donde se realizan las sesiones de test con usuarios. Normalmente disponen de un acceso directo para que los usuarios no vean el resto de la instalación ni la sala de observación. Dispone de ordenador con el programa de test instalado, una pantalla para seguir las acciones del usuario si es necesario. A partir de aquí, depende del material necesario para el proyecto.

Es donde se sitúa el facilitador.

Figura 2. Imagen de 2021 del Máster en user experience de La Salle Campus Barcelona – Universitat Ramon Llull

Sala de observación:

Sala que permite observar la sala de test. Únicamente está la figura del observador u observadores. A veces se invita a algunos stakeholders (personas vinculadas al proyecto) para que entiendan lo que está sucediendo con los usuarios e incluso, de forma directa, pueden incluir algún punto interesante en el test a través de los observadores.

La sala debe estar equipada con un programa que permita visualizar y escuchar lo que está sucediendo en la sala de test.

Figura 3. Imagen de 2021 del Máster en user experience de La Salle Campus Barcelona – Universitat Ramon Llull

Descripción de los perfiles de UX que intervienen en un laboratorio:

Observador: El observador es la persona que se sitúa normalmente en el exterior de la sala donde se realiza el test. Su responsabilidad se centra en registrar correctamente todos los datos dependiendo del objetivo del proyecto para su posterior análisis. Es importante planificar la sesión con el resto del equipo antes de realizar el test y decidir qué datos se recogen y cómo. A continuación se indican algunas de las tareas que realiza:

  • Realizar el seguimiento de las tareas, ¿hay dificultades? ¿dónde tiene dudas?
  • Recoger los literales, comentarios y observaciones de los usuarios para vincularlos con los resultados y el procedimiento del test. Se pueden recoger también las emociones surgidas en el caso de que el observador tenga conocimientos específicos al respecto.
  • Velar para que las grabaciones se estén realizando correctamente.
  • Tener comunicación constante con el facilitador para realizar las indicaciones necesarias, entre ellas, el seguimiento del guión de test.
  • Velar por la homogeneidad de la recogida de datos. Planificado en la fase previa al test.
  • Valorar la terminología utilizada por el usuario para expresar una idea o función.

Facilitador: El facilitador es el encargado de acompañar y guiar al usuario durante la realización del test. Por tanto, el facilitador y su manera de proceder son un punto clave en la realización de los test e influye en el usuario. A continuación se indican algunas de las tareas que realiza:

  • Dispone del guión de la sesión.
  • Velar para que los usuarios se sientan cómodos.
  • Maximizar la información generada por los usuarios.
  • Ser paciente y comprensivo con las dificultades que se pueden encontrar los usuarios a la hora de realizar el test. Hacer que el usuario se sienta cómodo y libre de manifestar sus opiniones respecto al producto.
  • Investigar sobre las expectativas del usuario y preguntar el por qué en el caso de duda.
  • Investigar los errores, es decir, cómo se equivoca el usuario, cómo se pierde, en qué momentos del recorrido se desconcierta.
  • Tener en cuenta el lenguaje no verbal, a veces los usuarios no manifiestan verbalmente lo que piensan o sienten. El facilitador debe estar atento a estos signos para tratar de hacer hablar al usuario al respecto.
  • Velar para que el usuario no se desvíe del tema y hacer que el usuario personalice los comentarios y no los haga generales.

Programas que se pueden utilizar para sesiones de test:

Estos programas permiten, entre otras funcionalidades, planificar el test que se va a realizar y así aplicarlo de la misma manera a todos los usuarios, visualizar desde la sala de observación lo que está sucediendo en la sala de test y grabar la sesión:

3.3. Otros métodos de testeo

Además del test de ordenación de tarjetas cerrado y del test de tareas, existen otros tests que, no por ser más sencillos, carecen de valor. A continuación describimos brevemente algunos de los más importantes:

  • Test de exploración libre. En este test el investigador solicita a los participantes que utilicen el sitio o la aplicación sin ningún tipo de escenario predefinido. En este test el usuario normalmente responde con sus acciones a la pregunta ¿qué te gustaría hacer si de repente te encontraras con esta aplicación?. La principal ventaja de este test es que es más realista que el test de tarea, ya que refleja cómo se exploran normalmente las aplicaciones, y los participantes generan sus propias metas y criterios de éxito, por lo que aplican una motivación de uso intrínseca en lugar de extrínseca. Además, permite la exploración de más áreas del sistema de manera realista. Durante este test es común que el facilitador realice preguntas de sondeo para comprobar los motivos por los que el usuario decide realizar las acciones que realiza. Es un test que no debería durar más de dos o tres minutos, con el fin de que el usuario no se familiarice con la aplicación/sitio web. Es común que los facilitadores lo realicen justo antes o después de realizar un test de tareas. En el caso de realizarse al final, la pregunta que se debería realizar es ¿qué otra funcionalidad te gustaría explorar?
  • Test de expectativas. En este test el facilitador enseña al usuario la pantalla/página principal, para a continuación preguntarles sobre cuál cree que es el propósito, valor y/o beneficio principal de la aplicación, sin realizar ningún tipo de interacción. Permite comprender mejor el modelo mental del usuario, y evaluar la alineación de esa pantalla con ese modelo mental. Algunas preguntas que se pueden realizar como parte de este test serían ¿Qué es lo que piensas que permite hacer esta aplicación? ¿Qué servicios piensas que oferta esta aplicación? ¿Qué esperarías encontrar bajo cada una de las categorías del menú principal?
  • Test de intuitividad visual. Este test permite averiguar si el usuario es consciente de los elementos interactivos que hay en la página/pantalla. Para la realización de este test, el facilitador mostrará al usuario una página, y a continuación pedirá que el usuario indique qué elementos piensa que se pueden pinchar en esa página.
  • Test de definición de marca. Este test permite al facilitador averiguar si el diseño (apariencia visual) escogido transmite los valores de negocio deseados, o, si se trata de elegir entre distintos diseños, cuál es el que mejor transmite los valores que se desean transmitir. Para ello, se muestra el/los diseños al usuario, y se pide que el usuario asocie determinados adjetivos a cada diseño. Si se trata de elegir qué diseño es el que mejor refleja los valores de la compañía, se agregarán las elecciones de los usuarios para decidir qué apariencia visual es la más conveniente desde el punto de vista de la transmisión de valores de marca. El método de tarjetas de reacción de Microsoft es una variación de este método. Para esta variación, Benedek & Miner (2002) desarrollaron un conjunto estandarizado de 118 adjetivos de entre los cuales los usuarios debían elegir, al final del test de tareas, los cinco que mejor definían la aplicación con la que habían estado interactuando.
  • A/B Testing (Split testing): técnica, popularizada por Amazon, que requiere que la aplicación/sitio web esté en producción. El método consiste en crear dos versiones de la aplicación, y hacer que la mitad del tráfico use una versión, y la otra mitad use la otra versión. Tras un período de tiempo, se analizan las interacciones con ambas versiones (normalmente en base a los logs de la aplicación) y se comparan los resultados de mis métricas de interés (número de clicks, visitas de páginas, ratios de conversión, …). Con este método se pueden evaluar desde sutiles cambios de diseño (colores, iconografía) hasta cambios masivos de navegación o visualización. Es importante hacer notar cómo algunos autores no consideran el A/B testing como un test de usabilidad, debido a que en el A/B testing las metas de los usuarios involucrados en el test no son conocidas, ni tienen por qué ser las mismas para todos ellos. El A/B testing tampoco está pensado para evaluar el comportamiento de los usuarios, sino sus preferencias.

Linowski (2019) presenta en su blog un caso de estudio excelente sobre cómo usó Netflix en el año 2019 el A/B testing para evaluar un posible rediseño (que finalmente rechazó).

4. Caso de estudio: Closed Card Sorting de la web de la UA

Para ilustrar el método de Closed Card Sorting, hemos utilizado la herramienta Optimal Sort. En esta herramienta, hemos introducido los principales elementos de contenido que definía, a fecha Junio 2021, la web de la UA. Estas categorías pueden ser vistas en la Figura 4.

Figura 4. Categorías de los principales elementos de contenido. Fuente: Optimal Sort

Además, hemos introducido las seis categorías que definen su menú principal de navegación, y que pueden ser vistas en la Figura 5.

Figura 5. Categorías que definen el menú principal de navegación. Fuente: Optimal Sort

Durante la ejecución del test, se pidió a 26 sujetos que clasificaran los 28 ítems (28 tarjetas o conceptos) en las seis categorías predefinidas. De los 26 sujetos, 21 completaron la clasificación.  El tiempo medio para realizar la clasificación fue de 4 minutos y 50 segundos.

Por su parte, la estructura real de la UA en Junio 2021 puede ser vista en la Figura 6.

Figura 6. Estructura de navegación real de UA. Fuente: UA

Los resultados agregados de los 21 sujetos pueden ser estudiados en base a distintas visualizaciones.

Como ejemplo, el Grid Estandarizado (Ver figura 7) agrega el número de usuarios que ha clasificado cada tarjeta en cada categoría.

Figura 7. Grid Estandarizado. Fuente: Optimal Sort

Esta visualización permite detectar qué etiquetas son las que están creando más problemas de navegación. En nuestro ejemplo, destaca la etiqueta Movilidad, que aparece clasificada 9 veces bajo la categoría Internacional, 5 veces bajo Vida en el Campus, 5 veces bajo Acceso, 1 vez bajo Universidad y 1 vez bajo Estudios, lo que parece indicar que el concepto que evoca esa etiqueta en los usuarios es muy variable. En el extremo contrario tenemos la etiqueta ‘Doctorado’, que fue categorizada 20 veces bajo Estudios y solo una vez bajo Investigación y Empresa, lo que, unido al hecho de que verdaderamente esa etiqueta está bajo Estudios (ver Figura 6), indica que el concepto (la tarjeta) y la categoría están bien integrados.

Otro ejemplo de etiqueta potencialmente conflictiva es la tarjeta ‘Más allá del campus’, que también se clasificó en cuatro categorías distintas: Vida en el campus (16), Internacional (2), Acceso (1) y La Universidad (1). En este caso, el hecho que dos usuarios hayan ubicado la etiqueta en Internacional puede deberse a una cierta ambigüedad de la etiqueta. Acompañar esta técnica de un think aloud donde el usuario pueda ir diciendo qué le viene a la cabeza cuando lee la tarjeta podría ayudar a clarificar si éste es en realidad el motivo de esta variación en la categoría de clasificación.

Otra visualización interesante es la agrupación por categorías (ver figura 8). Agrupar los resultados por categorías permite observar qué categorías son más genéricas,  por tanto causan más confusión.  La categoría de La Universidad ha sido elegida para clasificar las 28 tarjetas disponibles. Esto sugiere la conveniencia de valorar un cambio de nombre de la categoría para que cause menos confusión.

Figura 8. Categorías. Fuente: Optimal Sort

La matriz de similitud (Ver figura 9) es otra visualización de los datos que muestra la proporción de participantes que agruparon cualquier par de tarjetas en la misma categoría. Los clústeres más oscuros muestran grupos potenciales de tarjetas.

Figura 9. Matriz de similitud. Fuente: Optimal Sort

El Dendograma (ver figura 10) es otra visualización que permite ver la proporción de participantes que coincidieron en una agrupación de tarjetas particular. En este caso, el Dendograma sugiere cinco categorías.

Figura 10. Dendograma. Fuente: Optimal Sort

Por último, Optimal Sort permite también realizar un Participant Centric Analysis (PCA) mediante el cual se seleccionan automáticamente las agrupaciones de los tres usuarios que muestran un mayor grado de acuerdo con el resto de participantes.

5. Conclusiones

En este capítulo se han presentado los principales métodos de testeo de la usabilidad. Los métodos se han dividido en dos grandes grupos: métodos de indagación (se pregunta a los usuarios) y  métodos de testeo (se observa a los usuarios). En relación a cada grupo y técnica, se han discutido sus principales ventajas e inconvenientes, distintos aspectos a tener en cuenta de cara a su uso y ejemplos de aplicación de las más relevantes.

Es importante ser conscientes de que la selección del método de evaluación más adecuado depende del tipo de aplicación, el objetivo de la evaluación, del tiempo que se tenga para realizarla y de los recursos disponibles. En general, los expertos recomiendan no confiar en una sola técnica. En su lugar, se recomienda combinar métodos de indagación con métodos de testeo y realizar una triangulación de datos que maximice la fiabilidad de los resultados.

6. Referencias (APA)

Albert, W., & Dixon, E. (2003, June). Is this what you expected? The use of expectation measures in usability testing. In Proceedings of the Usability Professionals Association 2003 Conference, Scottsdale, AZ.

 

Anderson, E. W., & Fornell, C. (2000). Foundations of the American customer satisfaction index. Total quality management, 11(7), 869-882.

 

Askariazad, M. H., & Babakhani, N. (2015). An application of European Customer Satisfaction Index (ECSI) in business to business (B2B) context. Journal of Business & Industrial Marketing.

 

Badiu, R. & Moran, K. (2021) How many participants for Quantitative Usability Studies: A Summary of Sample-Size Recommendations. Recovered from https://www.nngroup.com/articles/summary-quant-sample-sizes/ [ 2021, July]

 

Ball, D., Coelho, P. S., & Machás, A. (2004). The role of communication and trust in explaining customer loyalty: An extension to the ECSI model. European journal of marketing.

 

Bangor, A., Kortum, P. T., & Miller, J. T. (2008). An empirical evaluation of the system usability scale. Intl. Journal of Human–Computer Interaction, 24(6), 574-594.

 

Benedek, J., & Miner, T. (2002). Measuring Desirability: New methods for evaluating desirability in a usability lab setting. Proceedings of Usability Professionals Association, 2003(8-12), 57.

 

Berkman, M. I., & Karahoca, D. (2016). Re-Assessing the Usability Metric for User Experience (UMUX) Scale. Journal of Usability Studies, 11(3).

 

Borsci, S., Federici, S., Bacci, S., Gnaldi, M., & Bartolucci, F. (2015). Assessing user satisfaction in the era of user experience: comparison of the SUS, UMUX, and UMUX-LITE as a function of product experience. International journal of human-computer interaction, 31(8), 484-495.

 

Brooke, J. (1996). SUS-A quick and dirty usability scale. Usability evaluation in industry, 189(194), 4-7.

 

Caulton, D. A. (2001). Relaxing the homogeneity assumption in usability testing. Behaviour & Information Technology, 20(1), 1-7.

 

East, R., Romaniuk, J., & Lomax, W. (2011). The NPS and the ACSI: a critique and an alternative metric. International Journal of Market Research, 53(3), 327-346.

 

Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists. Mahwah, NJ: Lawrence Erlbaum.

 

Eysenbach, G., & Köhler, C. (2002). How do consumers search for and appraise health information on the world wide web? Qualitative study using focus groups, usability tests, and in-depth interviews. Bmj, 324(7337), 573-577.

 

Faulkner, L. (2003). Beyond the five-user assumption: Benefits of increased sample sizes in usability testing. Behavior Research Methods, Instruments, & Computers, 35(3), 379-383.

 

Finstad, K. (2010). The usability metric for user experience. Interacting with Computers, 22(5), 323-327.

 

Hornbæk, K. (2006). Current practice in measuring usability: Challenges to usability studies and research. International journal of human-computer studies, 64(2), 79-102.

 

ISO/IEC 25062:2006 Software engineering. Software product Quality Requirements and Evaluation (SQuaRE). Common Industry Format for usability test reports (2006)

 

Kortum, P. T., & Bangor, A. (2013). Usability ratings for everyday products measured with the system usability scale. International Journal of Human-Computer Interaction, 29(2), 67-76.

 

Kortum, P., & Oswald, F. L. (2018). The impact of personality on the subjective assessment of usability. International Journal of Human–Computer Interaction, 34(2), 177-186.

 

Kortum, P., & Sorber, M. (2015). Measuring the usability of mobile applications for phones and tablets. International Journal of Human-Computer Interaction, 31(8), 518-529.

 

Krug, S. (2009). Rocket surgery made easy: The do-it-yourself guide to finding and fixing usability problems. New Riders.

 

Lewis, J. R. (1991). Psychometric evaluation of an after-scenario questionnaire for computer usability studies: the ASQ. ACM Sigchi Bulletin, 23(1), 78-81.

 

Lewis, J. R. (1995). IBM computer usability satisfaction questionnaires: psychometric evaluation and instructions for use. International Journal of Human‐Computer Interaction, 7(1), 57-78.

 

Lewis, J. R. (2001). Evaluation of procedures for adjusting problem-discovery rates estimated from small samples. International Journal of Human-Computer Interaction, 13(4), 445-479.

 

Lewis, J. R. (2018). The system usability scale: past, present, and future. International Journal of Human–Computer Interaction, 34(7), 577-590.

 

McCloskey, M. (2014)  Turn User Goals into Task Scenarios for Usability Testing

Recovered from https://www.nngroup.com/articles/task-scenarios-usability-testing/ [2021, July]

 

McGee, M. (2004, April). Master usability scaling: magnitude estimation and master scaling applied to usability measurement. In Proceedings of the SIGCHI conference on Human factors in computing systems (pp. 335-342).

 

McLellan, S., Muddimer, A., & Peres, S. C. (2012). The effect of experience on System Usability Scale ratings. Journal of usability studies, 7(2), 56-67.

 

Moran, K. (2019) Usability Testing 101. Recovered from https://www.nngroup.com/articles/usability-testing-101/ [ 2021, July]

 

Moran, K. (2020) Remote Usability Testing Costs: Moderated vs Unmoderated. Recovered from https://www.nngroup.com/articles/remote-usability-testing-costs/ [ 2021, July]

 

Nielsen, J., & Landauer, T. K. (1993, May). A mathematical model of the finding of usability problems. In Proceedings of the INTERACT’93 and CHI’93 conference on Human factors in computing systems (pp. 206-213).

 

Nielsen, J. (2000). Why you only need to test with 5 users. 2000. Jakob Nielsen’s Alertbox. Available on line from www. useit. com/alertbox/20000319. Html.

 

Nielsen, J. (2004). Nielsen Norman Group. Internet: https://www.nngroup.com/articles/card-sorting-how-many-users-to-test/

 

Nunnally 1978: Psychometric theory. New York, NY: McGraw-Hill.

 

Optimal Sort (2021). Test de la UA realizado con la herramienta Optimal Sort. Internet: https://cdaw.optimalworkshop.com/optimalsort/w047ws53

 

Pifarré, M., Sorribas, X., & Villegas, E. (2009). BLA (Bipolar Laddering) applied to YouTube. Performing postmodern psychology paradigms in User Experience field. In Advanced Technologies. IntechOpen.

 

Pifarré, M., & Tomico, O. (2007, November). Bipolar laddering (BLA) a participatory subjective exploration method on user experience. In Proceedings of the 2007 Conference on Designing for User eXperiences (pp. 2-13).

 

Reichheld, F. F. (2003). The one number you need to grow. Harvard business review, 81(12), 46-55.

 

Sauro, J., & Dumas, J. S. (2009, April). Comparison of three one-question, post-task usability questionnaires. In Proceedings of the SIGCHI conference on human factors in computing systems (pp. 1599-1608).

 

Sauro, J., & Lewis, J. R. (2016). Quantifying the user experience: Practical statistics for user research. Morgan Kaufmann.

 

Spool, J., & Schroeder, W. (2001, March). Testing web sites: Five users is nowhere near enough. In CHI’01 extended abstracts on Human factors in computing systems (pp. 285-286).

 

Tedesco, D., & Tullis, T. (2006). A comparison of methods for eliciting post-task subjective ratings in usability testing. Usability Professionals Association (UPA), 2006, 1-9.

 

Tullis, T., & Wood, L. (2004, June). How many users are enough for a card-sorting study. In Proceedings UPA (Vol. 2004).

 

​​Turner, C. W., Lewis, J. R., & Nielsen, J. (2006). Determining usability test sample size. International encyclopedia of ergonomics and human factors, 3(2), 3084-3088.

 

Wash, R., Rader, E., & Fennell, C. (2017, May). Can people self-report security accurately? Agreement between self-report and behavioral measures. In Proceedings of the 2017 CHI conference on human factors in computing systems (pp. 2228-2232).

 

Linowski, J (2019). The Failed Netflix Homepage Redesign Experiment That Nobody Even Noticed

GoodUI. Recovered from: https://goodui.org/blog/the-failed-netflix-homepage-redesign-experiment-that-nobody-even-noticed/ [2021, July].

 

Soucy, K. (2010) Unmoderated, Remote Usability Testing: Good or Evil? Recovered from

https://www.uxmatters.com/mt/archives/2010/01/unmoderated-remote-usability-testing-good-or-evil.php [2021, July]