Valider les échelles et les index

Un indice de qualité est une mesure comme une autre, que ce soit évalue un site Web, comme dans le BMJ d’aujourd’hui 1, un essai clinique utilisé dans une méta-analyse2, ou la qualité de vie d’un patient.3 Comme pour toutes les mesures, nous devons décider s’il mesure ce que nous voulons mesurer, et dans quelle mesure. Les mesures les plus simples, telles que la longueur et la distance, peuvent être validées par un critère objectif. Les premiers critères doivent avoir été biologiques: la longueur d’un rythme, un pied, un pouce. Le problème évident, à savoir que le critère varie d’une personne à l’autre, a finalement été résolu en établissant une unité fondamentale et en définissant toutes les autres en fonction de celle-ci. D’autres mesures peuvent ensuite être définies en termes d’unité fondamentale. Pour définir une unité de poids, nous trouvons une substance maniable qui semble la même partout, comme l’eau. L’unité de poids est alors le poids d’un volume d’eau spécifié dans l’unité de longueur de base, par exemple 100 centimètres cubes. De telles mesures ont une validité de critère, ce qui signifie que nous pouvons prendre une certaine quantité connue et comparer notre mesure avec celle-ci. Pour certaines mesures, une telle norme n’est pas possible. Le volume systolique cardiaque, par exemple, peut être mesuré seulement indirectement. La mesure directe, en recueillant tout le sang pompé hors du coeur sur une série de battements, impliquerait une interférence plutôt drastique avec le système. Notre critère devient accord avec une autre mesure indirecte. En effet, il faut parfois utiliser comme standard une méthode dont on sait qu’elle produit des mesures inexactes. Certaines quantités sont encore plus difficiles à mesurer et à évaluer. Le volume systolique cardiaque a au moins une réalité objective; une quantité physique de sang est pompée du cœur quand elle bat. L’anxiété et la dépression n’ont pas de réalité physique mais sont des constructions artificielles utiles. Ils sont mesurés par des échelles de questionnaire, où les réponses à une série de questions liées au concept que nous voulons mesurer sont combinées pour donner un score numérique. La qualité du site Web est similaire. Nous mesurons une quantité qui n’est pas précisément définie, et il n’y a aucun instrument avec lequel nous puissions comparer toute mesure que nous pourrions concevoir. Comment allons-nous évaluer la validité d’une telle échelle? La théorie pertinente a été développée dans les sciences sociales dans le contexte des échelles de questionnaire.4 D’abord, nous pourrions nous demander si l’échelle semble correcte, si elle pose des questions sur ce que nous pensons comme étant lié à l’anxiété ou à la qualité du site Web. Si cela semble correct, nous appelons cela la validité de visage. Nous pourrions ensuite nous demander s’il couvre tous les aspects que nous voulons mesurer. Une échelle de la phobie qui a posé des questions sur la peur des chiens, des araignées, des serpents et des chats, mais ignoré la hauteur, les espaces confinés, et les foules ne feraient pas cela. Nous appelons une couverture appropriée de la validité du contenu du sujet. Notre échelle peut sembler juste et couvrir les bonnes choses, mais quelles autres preuves pouvons-nous apporter à la question de la validité? Une question que nous pouvons nous poser est de savoir si notre score a les relations avec d’autres variables que nous attendrions. Par exemple, une mesure d’anxiété distingue-t-elle les patients psychiatriques des patients médicaux? Avons-nous différents scores d’anxiété des étudiants avant et après un examen? Est-ce qu’une mesure de la dépression permet de prédire les tentatives de suicide?Nous appelons la propriété d’avoir des relations appropriées avec d’autres variables. Nous pouvons également nous demander si les éléments qui composent ensemble l’échelle sont liés les uns aux autres: l’échelle a-t-elle une cohérence interne? Sinon, est-ce que les objets mesurent vraiment la même chose? D’un autre côté, si les éléments sont trop similaires, certains peuvent être redondants. Des éléments fortement corrélés dans une échelle peuvent prolonger l’échelle et conduire à surestimer certains aspects, altérant ainsi la validité du contenu. Une mesure synthétique pratique pour cette caractéristique est l’échelle alpha5 de Cronbach. Elle doit également être répétable et être suffisamment objective pour donner des résultats similaires pour différents observateurs. Si une mesure peut être répétée, dans la mesure où une personne qui obtient un score élevé à une occasion a tendance à avoir un score élevé sur une autre, elle doit mesurer quelque chose. Avec des mesures physiques, il est souvent possible pour le même observateur (ou différents observateurs) de faire des mesures répétées en succession rapide. Quand il y a un élément subjectif dans la mesure, l’observateur peut être aveuglé à partir de sa première mesure, et différents observateurs peuvent faire des mesures simultanées. En évaluant la fiabilité d’une échelle de qualité de site Web, il est facile d’obtenir plusieurs observateurs pour appliquer l’échelle indépendamment. Avec les sites Web, les évaluations répétées doivent être proches dans le temps car leur contenu change fréquemment (tout comme bmj.com). Avec les questionnaires, auto-administrés ou enregistrés par un observateur, les mesures répétées doivent être assez éloignées l’une de l’autre pour que les réponses antérieures soient oubliées, mais pas si éloignées que la quantité sous-jacente mesurée pourrait avoir changé. Ces données nous permettent d’évaluer la fiabilité test-retest. Si deux mesures ont une validité de visage, de contenu et de construction comparable, la plus répétable peut être préférée pour l’étude d’une population donnée.