Disponible en ligne sur www.sciencedirect.com
ScienceDirect Pratiques psychologiques 21 (2015) 155–171
Examen psychologique
Cohésion–non-cohésion des scores composites : valeurs seuils et interprétabilité. L’exemple du WISC-IV Cohesive vs. non cohesive composite scores: Cut-off values and interpretability. The example of the WISC-IV T. Lecerf a,∗,b , S. Kieng a,b , S. Geistlich a,b a
Faculté de psychologie et des sciences de l’éducation, université de Genève, 40, boulevard du Pont-d’Arve, CH-1205 Genève, Suisse b Université à Distance, Suisse Rec¸u le 15 octobre 2014 ; accepté le 19 f´evrier 2015
Résumé Dans les procédures d’interprétation des scores des échelles de Wechsler, on recommande d’évaluer la cohésion des indices pour apprécier leurs valeurs cliniques. On considère que l’interprétation d’un score composite n’a de sens que s’il est cohésif. Le premier objectif de cet article est de démontrer que les valeurs seuils proposées (23 points et 5 points) par certains auteurs pour évaluer la cohésion des scores composites sont incorrectes, et que d’autres valeurs doivent être préférées. Plus important, le second objectif est de démontrer que l’argument selon lequel un score composite non cohésif ne peut donner lieu à une interprétation, n’est pas tout à fait correct. Les scores composites restent pertinents qu’ils soient cohésifs ou non. © 2015 Société franc¸aise de psychologie. Publié par Elsevier Masson SAS. Tous droits réservés. Mots clés : Échelles de Wechsler ; QIT ; Indices ; Scores composites ; Cohésion intra-indice ; Cohésion inter-indices
Abstract When interpreting the composite scores of the Wechsler Intelligence scales, some authors recommended to determine whether the composite scores are unitary or not. It has been suggested that when variability among scores is too large, then the composite score does not provide a good estimate of the psychological attribute, and is not interpretable. The first objective of the paper is to demonstrate that the cut-off threshold values
∗
Auteur correspondant. Adresse e-mail :
[email protected] (T. Lecerf).
http://dx.doi.org/10.1016/j.prps.2015.02.001 1269-1763/© 2015 Société franc¸aise de psychologie. Publié par Elsevier Masson SAS. Tous droits réservés.
156
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
(23 points and 5 points) proposed by some authors are inadequate. Other cut-off threshold values should be used. Most importantly, the second goal of this paper is to demonstrate that the notion of unitary abilities that was guiding principle of interpretation is also inadequate. Indeed, nonunitary index still provides relevant information. © 2015 Société franc¸aise de psychologie. Published by Elsevier Masson SAS. All rights reserved. Keywords: Wechsler scales; FSIQ; Indexes; Composite scores; Inter-index scatter; Intra-index scatter
1. Introduction L’administration de tests d’intelligence dans le cadre d’un examen psychologique vise à recueillir des informations qualitatives et quantitatives sur le fonctionnement d’un individu, à partir de situations standardisées1 . Ces éléments permettront alors de prendre des décisions et/ou de décrire le fonctionnement de l’individu, ainsi que de proposer des prises en charge. En effet, à partir du score observé à un test (ou à partir de quelques tests), le praticien fait des hypothèses sur l’attribut psychologique estimé. Ces hypothèses permettront de prédire les performances à d’autres tests (notion de généralisation ; Kane, 2013) ou à d’autres domaines plus généraux (notion d’extrapolation). Le plus souvent, ces généralisations – extrapolations – reposent sur l’hypothèse, plus ou moins implicite et plus ou moins plausible, selon laquelle l’attribut psychologique est la « cause » du score observé au test (notion de causalité ; Markus & Borsboom, 2013). Pour faciliter la démarche d’interprétation des attributs psychologiques à partir des scores observés, diverses procédures ont été proposées dans le domaine de l’évaluation de l’intelligence. La démarche qui nous paraît la plus adéquate pour interpréter les scores des échelles de Wechsler (WPPSI, WISC, WAIS) consiste à commencer par le niveau le plus général, soit le QI total (QIT), pour terminer par le plus spécifique, les scores des sous-tests2 (Lichtenberger & Kaufman, 2009). Dans cette procédure, l’une des tâches importantes du praticien consiste à identifier le niveau pour lequel les scores composites sont cohésifs (homogènes), le long de l’axe allant du plus général au plus spécifique. En effet, de nombreux auteurs suggèrent que seuls des scores suffisamment cohésifs peuvent être interprétés (Flanagan & Kaufman, 2009 ; Lichtenberger & Kaufman, 2009). Dans le cas inverse, si les scores composites ne sont pas cohésifs (hétérogènes), ils ne peuvent alors être considérés comme représentatif de l’attribut psychologique postulé, et dès lors, ne peuvent donner lieu à une interprétation. La position de Grégoire (2009, p. 213) nous paraît plus juste car plus nuancée : « Une différence de 4 points entre Vocabulaire et Similitudes est certes significative au seuil de 5 %, mais cela n’implique pas que l’Indice de Compréhension Verbale perde subitement toute signification. Sa valeur est simplement affaiblie par ce constat, et son interprétation doit être nuancée en conséquence ». Dans la dernière partie de la discussion, nous essaierons de démontrer que l’absence de cohésion n’affaiblit en rien l’interprétation d’un indice.
1 Dans le cadre de cet article, nous nous centrerons principalement sur les aspects quantitatifs, psychométriques. Il ne s’agit pas ici d’aborder les aspects qualitatifs. 2 Rappelons que dans le cadre d’une lecture à partir d’indices (standard ou CHC), un test (sous-test) n’est jamais interprété de manière isolée. Rappelons également que les coefficients de fidélité des sous-tests ne sont pas suffisamment élevés pour permettre une hypothèse diagnostique.
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
157
1.1. La cohésion du QI total et son interprétabilité Le QI total représente très souvent la 1ère étape de l’interprétation (Wahlstrom, Breaux, Zhu, & Weiss, 2012), même si certains auteurs considèrent qu’il constitue la dernière étape (Weiss, Saklofske, Schwartz, Prifitera, & Courville, 2006). L’objectif est de déterminer si le QIT fournit une image représentative de l’efficience intellectuelle globale d’un individu. En d’autres termes, il s’agit de déterminer s’il est cohésif et donc interprétable ou non. Une revue de la littérature permet de constater que 3 critères ont été proposés : • Flanagan et Kaufman (2009) ainsi que Lichtenberger et Kaufman (2009) suggèrent tout d’abord d’évaluer la différence entre le score de l’indice le plus haut et le score de l’indice le plus bas (ciaprès « différence Haut-Bas ») ; cette différence ne doit pas dépasser 22,5 points. Cette valeur seuil de 22,5 points correspond à 1,5 écart-type pour les indices dont la moyenne est de 100 et l’écart-type de 15 (i.e., 1,5 × 15 points = 22,5 points). Dans le cas où le QIT n’est pas cohésif, Flanagan et Kaufman suggèrent alors d’évaluer la différence entre ICV et IRP, qui ne doit pas non plus excéder 22,5 points (i.e., 1,5 écart-type). Si les scores ICV et IRP sont cohésifs, on pourra alors interpréter l’Indice d’Aptitude Général (IAG ; Lecerf, Reverte, Coleaux, Favez, & Rossier, 2010 ; Lecerf, Reverte, Coleaux, Maillard, Favez, & Rossier, 2011 ; Prifitera, Weiss, & Saklofske, 1998) ; • dans un deuxième temps, on peut évaluer le nombre d’indices qui s’écartent significativement de l’indice moyen (IM). Cette procédure consiste à calculer la différence entre chaque indice et l’indice moyen ; ce dernier correspondant à la moyenne des 4 indices (ICV : Indice de Compréhension Verbale ; IRP : Indice de Raisonnement Perceptif ; IMT : Indice de Mémoire de Travail ; et IVT : Indice de Vitesse de Traitement). Le nombre d’indices déviants ne doit pas être supérieur à 2 ; • enfin, on peut évaluer parmi les 10 sous-tests obligatoires, le nombre de sous-tests déviants (significativement) par rapport à la moyenne de ces 10 sous-tests. Les scores de 3 sous-tests au plus peuvent différer de manière significative de la moyenne. Le premier objectif de cette étude est de tester la pertinence de ces critères de cohésion et plus particulièrement du critère basé sur la différence entre le score de l’indice le plus haut et le score de l’indice le plus bas (« différence Haut-Bas »). Flanagan et Kaufman (2009), ainsi que Lichtenberger et Kaufman (2009) proposent d’utiliser la valeur seuil de 1,5 écart-type pour déterminer si le QIT est cohésif ou non. Pour rappel, cette valeur de 1,5 écart-type correspond à un pourcentage de 6,7 % dans la distribution normale. En d’autres termes, en utilisant cette valeur de 1,5 écart-type, l’absence de cohésion du QIT doit être observée pour 6,7 % des enfants. Il est donc important de relever que Flanagan et Kaufman définissent la non-cohésion par une fréquence d’apparition inférieure à 10 % dans la population3 . Selon nous, la valeur seuil de 22,5 points (i.e., 1,5 écart-type) proposée est incorrecte. En effet, Flanagan et Kaufman l’ont définie sur la base des métriques des indices standard (moyenne = 100 ; écart-type = 15). Ces auteurs oublient que la distribution des scores de différences créée à partir des distributions des 2 indices extrêmes (i.e., score de l’indice le plus haut et le score de l’indice le
3 On peut faire un parallèle avec la notion de « différence clinique », qui traduit des différences rares dans la population. Selon Kaufman, cette rareté est définie par une fréquence d’apparition inférieure ou égale à 10% dans la population ; Sattler (2008) propose une valeur seuil de 15%.
158
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
plus bas) ne présentent pas les mêmes moyennes (i.e., 100) ni les mêmes écart-types (i.e., 15). En conséquence, la valeur de 1,5 écart-type (soit 22,5 points dans les échelles de Wechsler), qui doit permettre d’isoler 6,7 % de la population, n’aboutira pas à ce même pourcentage pour le score de différence. Notre hypothèse est qu’en adoptant la valeur seuil de 22,5 points pour définir une absence de cohésion, le pourcentage d’enfants pour lesquels le QIT sera non interprétable sera très largement supérieur à 6,7 %. En conséquence, d’autres valeurs seuils doivent être utilisées. 1.2. La cohésion des indices factoriels et leur interprétabilité Après l’analyse du QIT, les indices factoriels représentent la 2e étape de l’interprétation. Le praticien doit évaluer le degré de cohésion de chaque indice. Il s’agit de déterminer si les scores des sous-tests appartenant à un même indice sont consistants et donc, si l’indice est interprétable. Pour évaluer la cohésion des 4 indices factoriels, Lichtenberger et Kaufman (2009) proposent d’utiliser la même procédure que pour le QIT, à savoir calculer la différence entre le score du sous-test le plus haut et le score du sous-test le plus bas (i.e., « différence Haut-Bas »). Pour les scores ICV et IRP, il s’agit donc de prendre les scores des 2 sous-tests extrêmes et « d’oublier » le score du sous-test intermédiaire. Les scores IVT et IMT étant obtenus à partir de 2 sous-tests, on évalue simplement la différence entre les 2 scores (Code vs Symboles, et Mémoire des chiffres vs Séquences LettresChiffres). À l’instar du QIT, ces auteurs proposent d’utiliser la valeur seuil de 1,5 écart-type pour évaluer la cohésion des indices, soit 4,5 points (i.e., 1,5 × 3 points = 4,5 points)4 . Dit autrement, l’indice ne serait plus cohésif si la différence entre le score du sous-test le plus haut et le score du sous-test le plus bas est supérieure ou égale à 5 points. Une fois encore, nous suggérons que cette valeur de 5 points définie a priori n’est pas correcte. La lecture des données rapportées par Grégoire (2009, pp. 214–215) va d’ailleurs dans le sens de notre hypothèse. Les pourcentages des différences au sein des indices factoriels permettent de constater que 20,2 % d’enfants présentent une différence supérieure ou égale à 5 points (1,5 écart-type) pour ICV. Ce pourcentage est de 35,9 % pour IRP, de 12,8 % pour IMT et de 10,3 % pour IVT. Ainsi, ces pourcentages sont assez éloignés du pourcentage théorique correspondant à 1,5 écart-type, soit 6,7 % dans la distribution normale. Sur la base des données rapportées par Grégoire (2009, p. 214–215), la différence devrait être au moins de 6 points pour ICV (10,6 %), IMT (7,5 %), et IVT (6 %), et elle devrait être au moins de 8 points pour IRP (6,9 %). En résumé, l’un des objectifs de cette étude est de questionner la pertinence des valeurs seuils de 23 points (plus exactement 22,5 points) et de 5 points (plus exactement 4,5 points) proposées par Flanagan, Kaufman et Lichtenberger pour évaluer la cohésion des scores composites. En ce qui concerne le QIT, notre étude permettra de démontrer l’inexactitude de la valeur de 22,5 points, et permettra de fournir une valeur seuil correspondant à 6,7 % de la population. Quant à la cohésion des indices, notre étude permettra aussi de démontrer que cette valeur seuil de 5 points n’est pas correcte. En outre, les valeurs seuils obtenues à partir de notre recherche pourront être confrontées à celles rapportées par Grégoire (2009, pp. 214–215). La comparaison de l’échantillon franc¸ais et de l’échantillon suisse-romand permettra d’évaluer la généralisabilité et donc la stabilité des valeurs seuils. En effet, il est important de rappeler que toutes les caractéristiques psychométriques (fidélité, etc.) sont des propriétés de l’interaction entre les scores d’un test et un échantillon (test × échantillon), et non des propriétés des scores du test seul. Enfin, le second objectif est de démontrer que l’absence de cohésion d’un score composite n’affaiblit pas son interprétation. Les
4
Pour rappel, la moyenne des sous-tests est de 10 et l’écart-type est de 3.
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
159
scores composites sont tout aussi probables et donc tout aussi interprétables qu’ils soient cohésifs ou non cohésifs. 2. Méthode 2.1. Participants Notre échantillon comprend 483 enfants tout-venant (i.e., non-consultants) âgés de 7 à 12 ans (Tableau 1). La moyenne d’âge de cet échantillon est de 9 ans et 6 mois et l’écart-type est de 1 an et 3 mois (minimum 7 ans, maximum 12 ans et 6 mois). Les enfants proviennent de plus d’une vingtaine d’écoles primaires du canton de Genève et ont été choisis au hasard. Nous avons cherché à construire un échantillon le plus représentatif possible de la population genevoise en ce qui concerne la catégorie socioprofessionnelle et le sexe. Toutefois, l’impossibilité d’accéder à certaines écoles ne nous a pas permis de retrouver exactement les mêmes pourcentages que ceux rapportés par le département de l’instruction public (DIP) du Canton de Genève. Notre échantillon comporte 48 % de garc¸ons, alors que ce pourcentage est de 50,2 % selon les statistiques du DIP. En ce qui concerne les catégories socioprofessionnelles, notre échantillon comporte 32 % d’enfants appartenant à la catégorie « Cadres supérieurs », 45 % d’enfants appartenant à la catégorie « Petits indépendants, employés, et cadres intermédiaires » et enfin, 22 % d’enfants appartenant à la catégorie « Ouvriers, divers et sans indication ». Selon les statistiques du DIP, ces pourcentages sont respectivement de 19 %, 43 % et 38 %. Globalement, notre échantillon comporte donc un pourcentage un peu plus élevé de filles et d’enfants appartenant à la catégorie « Cadres supérieurs » (au détriment de la catégorie « Ouvriers »). Enfin, 2 critères d’exclusion ont été appliqués : la langue et le parcours scolaire. Les enfants non francophones ou ayant doublé ou sauté une ou des classes n’ont pas été inclus dans l’échantillon. Selon les statistiques du DIP (2013), la 1re langue parlée est le franc¸ais pour environ 58 % des enfants dans l’enseignement primaire. On peut également indiquer qu’en moyenne chaque année, 0,4 % des enfants de la population scolaire genevoise obtiennent une dispense d’âge. Enfin, le redoublement concerne entre 1 et 4 % d’enfants selon le degré scolaire. Tableau 1 Répartition du nombre d’enfants de l’échantillon selon l’âge et le sexe.
Garc¸ons Filles Total
7 ans
8 ans
9 ans
10 ans
11 ans
12 ans
Total
26 24 50
66 70 136
64 77 141
34 38 72
33 35 68
7 9 16
230 253 483
2.2. Instrument et procédure Nous avons administré à chaque enfant les dix sous-tests principaux du WISC-IV (Cubes, Similitudes, Mémoire des chiffres, Identification de concepts, Code, Vocabulaire, Séquence Lettres-Chiffres, Matrices, Compréhension et Symboles) ainsi que le sous-test optionnel Complètement d’images. L’administration des 10 sous-tests principaux permet le calcul des 5 indices standard du WISC-IV (QIT, ICV, IRP, IMT, et IVT) ainsi que l’Indice d’Aptitude Général (IAG) et l’Indice de Compétence Cognitive (ICC). Pour calculer IAG, on additionne les scores
160
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
des 3 sous-tests ICV (Similitudes, Vocabulaire, et Compréhension) et les scores des 3 sous-tests IRP (Cubes, Matrices, et Identification de Concepts). Cette somme des notes standard peut alors être transformée sur une échelle de moyenne égale à 100 et d’écart-type égal à 15. Pour calculer le score ICC, on additionne les scores des indices de mémoire de travail et de vitesse de traitement. Cette somme des notes « QI » peut alors être transformée sur une échelle de moyenne égale à 100 et d’écart-type égal à 15. Dans cette recherche, le sous-test Complètement d’images a été administré afin de pouvoir calculer un Indice de Traitement Visuel (Gv) selon le modèle CHC. Les scores aux épreuves Cubes et Complètement d’images sont additionnés pour calculer cet indice Gv (Lecerf et al., 2012)5 . Les passations se sont déroulées pendant les heures scolaires dans les locaux des différentes écoles. 3. Résultats 3.1. Résultats descriptifs Le Tableau 2 présente les moyennes et les écart-types des différents indices standard du WISCIV. On constate que IMT est légèrement inférieur à la moyenne théorique de 100, tandis que ICV est légèrement supérieur à la moyenne théorique. Pour tous les autres indices, les scores sont proches de la moyenne théorique de 100 et des écart-types théoriques de 15. Notre échantillon est donc relativement représentatif en termes de performances moyennes et de dispersion, notamment pour ce qui concerne les indices généraux, QIT et IAG. Tableau 2 Statistiques descriptives des indices standard du WISC-IV (moyennes, écart-types).
Moyenne Écart-type
ICV
IRP
IMT
IVT
QIT
IAG
ICC
106,11 14,84
99,70 14,09
95,16 14,43
103,92 14,35
102,26 13,93
103,61 14,29
99,41 13,87
3.2. Étude de la cohésion du QIT Pour déterminer si le QIT est cohésif, certains auteurs, comme Flanagan, Kaufman et Lichtenberger par exemple, recommandent en premier lieu d’utiliser la différence entre le score de l’indice le plus haut et le score de l’indice le plus bas (« différence Haut-Bas »). Ces auteurs suggèrent alors d’utiliser la valeur seuil de 1,5 écart-type, soit 22,5 points pour évaluer si le QIT est cohésif ou non. Nos données révèlent que le score de différence entre le score de l’indice le plus haut et score de l’indice le plus bas possède une moyenne de 26,28 points et un écart type de 12,22 points (Tableau 3 : QIT [Haut-Bas]). La différence minimum est de 1 point et la différence maximum est de 66 points. La moyenne observée est donc supérieure au seuil de 22,5 points proposé par Flanagan et Kaufman. Si on applique la valeur seuil de 1,5 écart-type à ces données statistiques, on obtient la valeur seuil de 44,61 points (et non 22,5 points). En effet, le nombre de points correspondant à 1,5 écart-type est de 18,33 points (i.e., 1,5 × 12,22 points). En additionnant cette valeur de 18,33 points (soit 1,5 écart-type) à la moyenne obtenue (26,28), on obtient alors une valeur seuil de 44,61 points (Tableau 4). 5
Les résultats des indices basés sur le modèle CHC (Gf, Gc, Gv, Gs et Gsm) ne sont pas rapportés dans cet article.
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
161
Tableau 3 Statistiques descriptives des différents scores (moyennes, écart-types, minimum, et maximum en nombre de points).
Moyenne Écart-type Minimum Maximum a
QIT (Haut-Bas)
|ICV–IRP|a
Nombre de sous-tests déviants
ICV
IRP
IMT
IVT
26,28 12,22 1 66
12,51 9,62 0 48
1,85 1,44 0 6
3,15 1,88 0 13
4,02 2,31 0 11
2,36 2,03 0 13
2,51 2,01 0 13
Différence calculée pour évaluer la cohésion de IAG.
De manière à évaluer la pertinence de la valeur seuil de 22,5 points et de notre valeur seuil de 44,61 points, nous avons analysé la distribution des pourcentages des scores de différences entre le score de l’indice le plus haut et le score de l’indice le plus bas. On constate que 211 enfants – soit 43,68 % – présentent une différence entre l’indice le plus haut et l’indice le plus bas variant de 1 à 22 points (Tableau 4 : % différence Haut-Bas). En conséquence, 56,32 % des enfants (soit 272 enfants) présentent un score de différence entre le score de l’indice le plus haut et le score de l’indice le plus bas variant entre 23 points et 66 points. Sur la base de la proposition de Lichtenberger et Kaufman (2009), cela signifierait que le QIT de ces 56,32 % enfants n’est pas cohésif et donc, pas interprétable. Si on considère comme Sattler (2008), qu’un fonctionnement « clinique » (notion de différence clinique) ne concerne que 15 % au plus de la population, la valeur seuil est alors de 39 points (cela correspond à 14,4 % dans notre échantillon). En d’autres termes, la différence entre le score de l’indice le plus haut et le score de l’indice le plus bas doit être égale ou supérieure à 39 points pour que le QIT soit considéré comme non cohésif. Si on postule, à l’instar de Kaufman, qu’un fonctionnement clinique ne concerne que 10 % au plus de la population, la valeur seuil est alors de 42 points. Enfin, si l’on adopte la règle de 1,5 écart-type proposée par Flanagan et Kaufman (soit 6,7 % de la population), la valeur seuil est alors de 47 points (ce qui correspond à 6,8 % de l’échantillon dans notre étude). Dit autrement, la différence entre l’indice le plus haut et l’indice le plus bas devrait être égale ou supérieure à 47 points – et non à 23 points – pour que le QIT soit non cohésif pour 6,7 % des enfants. En résumé, la valeur seuil calculée à partir de la moyenne et de l’écart-type (i.e., 44,61 points) est très proche de la valeur seuil identifiée à partir de la distribution des pourcentages des scores de différences entre l’indice le plus haut et l’indice le plus bas (i.e., 47 points). Cette concordance suggère que nos données suivent la distribution normale. On peut donc considérer que le QIT est Tableau 4 Pourcentages d’apparition pour les différents scores composites et nouvelles valeurs seuils. Nombre de points de différence QIT |ICV–IRP|a ICV IRP IMT IVT a
0–22 (≥ 23) 0–22 (≥ 23) 0–4 (≥ 5) 0–4 (≥ 5) 0–4 (≥ 5) 0–4 (≥ 5)
% différence Haut-Bas (56,32)b
43,68 85,70 (14,30) 77,60 (22,40) 63,80 (36,20) 85,90 (14,10) 85,10 (14,90)
Nouvelles valeurs seuils 44,61 26,94 5,97 7,485 5,405 5,525
Différence calculée pour évaluer la cohésion de IAG. Entre parenthèses sont rapportés les pourcentages complémentaires (% pour lesquels les différences sont supérieures à 23 points ou à 5 points). b
162
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171 Tableau 5 Pourcentages de protocoles présentant 0, un ou plusieurs indices différents de l’indice moyen (IM). Nombre d’indices déviants
Pourcentage dans l’étude
Pourcentage dans l’échantillon de standardisationa
0 1 2 3 4
37,1 23,0 32,3 6,6 1,0
39,6 26,7 29,0 3,6 1,1
a
Grégoire (2009, p. 211)
non cohésif lorsque la différence entre l’indice le plus haut et l’indice le plus bas est supérieure à 44,61 points. Lorsque le QIT n’est pas cohésif, Flanagan, Kaufman et Lichtenberger suggèrent de considérer l’Indice d’Aptitude Général (IAG). Pour déterminer si IAG est interprétable, il faut évaluer l’amplitude de la différence entre ICV et IRP. Nos données indiquent que le score de différence entre ICV et IRP (en valeur absolue) possède une moyenne de 12,51 points et un écart-type de 9,62 (Tableau 3 : |ICV–IRP|). Si on applique la valeur seuil de 1,5 écart-type proposée par ces auteurs à ces données statistiques, on obtient la valeur seuil de 26,94 points. En effet, le nombre de points correspondant à 1,5 écart-type est de 14,43 points (i.e., 1,5 × 9,62 points). En additionnant cette valeur de 14,43 points (soit 1,5 écart-type) à la moyenne obtenue (12,51), on obtient alors une valeur seuil de 26,94 points (Tableau 4). En ce qui concerne la distribution du score de différence entre ICV et IRP, on constate que 85,7 % des enfants présentent une différence absolue inférieure ou égale à 22 points (< 1,5 écart-type ; Tableau 4 : % différence Haut-Bas). Une différence supérieure ou égale à 23 points (> 1,5 écart-type) correspond donc à un pourcentage de 14,3 % de l’échantillon. Pour obtenir 10 %, il faut choisir une valeur seuil de 27 points. Enfin, pour un pourcentage de 6,7 %, la différence entre ICV et IRP doit être au moins de 29 points. Sur la base des données statistiques et de la distribution des scores de différences entre ICV et IRP, on peut considérer que le QIT est non cohésif lorsque la différence entre ces 2 indices est supérieure à 26,94 points (Tableau 4). Pour déterminer si le QIT est cohésif, certains auteurs recommandent également de considérer le nombre d’indices déviants par rapport à l’indice moyen (IM). Cette procédure consiste à calculer la différence entre chaque indice et l’indice moyen ; ce dernier correspondant à la moyenne des 4 indices. Pour déterminer si un indice est déviant par rapport à l’indice moyen, les valeurs seuils rapportées par Grégoire (2009, p. 208) ont été utilisées. Le nombre d’indices déviants ne doit pas dépasser 2. Tout d’abord, nos résultats sont globalement similaires à ceux de Grégoire (2009). En effet, on constate que 37,1 % des enfants de notre échantillon ne présentent aucun indice déviant, 23 % présentent 1 indice déviant, 32,3 % présentent 2 indices déviants, 6,6 % présentent 3 indices déviants, et enfin 1 % présentent 4 indices déviants (Tableau 5). Les pourcentages rapportés par Grégoire (2009, p. 211) à partir de l’échantillon de standardisation franc¸ais sont respectivement de 39,6 %, 26,7 %, 29 %, 3,6 % et enfin 1,1 % (Tableau 5). Sur la base de ses résultats, Grégoire (2009) suggère que le QIT est non cohésif s’il y a au moins 3 indices déviants. En effet, 4,7 % des enfants présentent 3 ou 4 indices déviants, soit moins de 10 %6 . Dans notre étude, ce pourcentage est de 7,6 %. Malgré cette légère différence de 2,9 %, notre conclusion est similaire à celle de
6
Notion de différence « clinique ».
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
163
Grégoire : le QIT est non cohésif lorsqu’on observe au moins 3 indices déviants (car ne survenant que pour moins de 10 % de la population). Enfin, pour déterminer si le QIT est cohésif ou non, certains auteurs recommandent de considérer le nombre total de sous-tests déviants, qui ne doit pas dépasser 37 . Nos résultats indiquent que la moyenne du nombre de sous-tests déviants est de 1,85 avec un écart-type de 1,44 (Tableau 3 : nombre de sous-tests déviants). L’analyse de la distribution indique que 87 % des enfants présentent un nombre de sous-tests déviants inférieur ou égal à 3. Nos résultats sont donc compatibles avec ceux rapportés par Grégoire (2009), et avec la recommandation selon laquelle le QIT reste cohésif tant que le nombre de sous-tests déviants n’excède pas 3. 3.3. Étude de la cohésion intra-indice En ce qui concerne l’évaluation de la cohésion intra-indice, Flanagan et Kaufman ont là encore proposé d’employer la règle des 1,5 écart-type (6,7 %) entre le score du sous-test le plus haut et le score du sous-test le plus bas. Avec une moyenne de 10 et un écart-type de 3, la valeur seuil proposée par ces auteurs est donc de 4,5 points (1,5 × 3 points = 4,5 points). Dans un premier temps, nos données révèlent que les moyennes des scores de différences entre le sous-test le plus haut et le sous-test le plus bas varient de 2,36 (IMT) à 4,02 points (IRP) (Tableau 3). Les écart-types varient de 1,88 (ICV) à 2,31 points (IRP). Si on applique à ces données statistiques la valeur seuil de 1,5 écart-type proposée par ces auteurs, on obtient alors les valeurs seuils de 5,97 (ICV : 1,5 × 1,88 points = 2,82, puis 2,82 + 3,15 = 5,97), 7,485 (IRP : 1,5 × 2,31 points = 3,465, puis 3,465 + 4,02 = 7,485), 5,405 (IMT : 1,5 × 2,03 points = 3,045, puis 3,045 + 2,36 = 5,405), et 5,525 (IVT : 1,5 × 2,01 points = 3,015, puis 3,015 + 2,51 = 5,525) (Tableau 4). Une nouvelle fois, les valeurs seuils sont supérieures à celles proposées par Flanagan et Kaufman. En effet, pour que les indices soient non cohésifs, les différences doivent atteindre au moins 6 points pour ICV, IMT, et IVT, et 8 points pour IRP. Dans un second temps, nous avons étudié les distributions des scores des différences entre le score du sous-test le plus haut et le score du sous-test le plus bas au sein de chaque indice. Une différence supérieure ou égale à 5 points correspond à des fréquences d’apparition variant de 36,2 % (IRP) à 14,1 % (IMT) ; (Tableau 4 : % différence Haut-Bas). On constate que ces valeurs sont nettement supérieures au pourcentage théorique de 6,7 %. Pour que la non-cohésion corresponde à une fréquence d’apparition de 6,7 %, les différences entre le sous-test le plus haut et le sous-test le plus bas doivent être supérieures ou égales à 6 points pour ICV, IMT et IVT, et supérieures ou égales à 8 points pour IRP (Tableau 4). Ces valeurs seuils sont similaires à celles que l’on peut identifier à partir des données rapportées par Grégoire (2009). Les valeurs qui devraient être utilisées pour considérer les indices comme non cohésifs sont donc supérieures à la valeur de 5 points définie théoriquement par Flanagan et Kaufman. 4. Discussion Comme mentionné précédemment, Flanagan, Kaufman et Lichtenberger recommandent d’interpréter uniquement les scores composites – les indices – lorsqu’ils sont cohésifs. En cas de non-cohésion des scores composites, ils suggèrent alors de ne plus les interpréter car ces
7 Ce critère est le plus pertinent des trois selon la logique initialement proposée par Wechsler pour l’interprétation du QIT.
164
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
scores composites ne seraient plus représentatifs des performances et par généralisation, ne permettraient plus de faire des hypothèses sur l’attribut psychologique censé être estimé. Ces auteurs proposent d’utiliser la différence entre le score (i.e., l’indice ou le sous-test) le plus élevé et le score le plus bas pour évaluer la cohésion d’un score composite et son interprétabilité. En ce qui concerne le QIT, Flanagan et Kaufman (2009, pp. 139–140) écrivent par exemple : « Answer the following question: Is the size of the standard score difference less than 1,5 SDs (< 23 points)? If NO, then the variation in the Indexes that compose the FSIQ is considered too great (i.e., ≥ 23 points) for the purpose of summarizing global intellectual ability in a single score (i.e., the FSIQ) ». Pour Flanagan et Kaufman, il n’y a donc aucune ambiguïté : si la différence est trop importante, mais surtout peu fréquente dans la population, le QIT n’est pas interprétable (« When the FSIQ is not interpretable. . . »). En choisissant la valeur seuil de 1,5 écart-type, ces auteurs mettent en avant la rareté d’apparition de telles différences dans la population, puisque cette valeur est associée à un pourcentage de 6,7 % dans la distribution normale. Si le choix de cette valeur de 1,5 écart-type peut se comprendre, Flanagan, Kaufman et Lichtenberger ont néanmoins commis une erreur en choisissant les moyennes (100 et 10) mais surtout les écart-types (15 et 3) des indices pour définir ces valeurs seuils. En effet, ces écart-types ne s’appliquent pas aux scores de différences (« différence Haut-Bas »). Ainsi, l’utilisation des écart-types théoriques des indices et des sous-tests est inappropriée pour définir les valeurs seuils correspondant à 1,5 écart-type. L’objectif premier de cette étude était donc de démontrer que cette valeur seuil (i.e., 23 points) est incorrecte. En effet, Flanagan, Kaufman et Lichtenberger n’ont pas vérifié que cette valeur seuil de 23 points correspondait bien à 6,7 % de la population. Les résultats de notre étude indiquent que 56,32 % des enfants présentent une différence entre l’indice le plus haut et l’indice le plus bas égale ou supérieure à 23 points (Tableau 4). Il n’y aurait donc que 43,68 % des protocoles pour lesquels le QIT serait cohésif et donc interprétable. Nous sommes très loin des 6,7 %. En conséquence, si nous acceptons que la non-cohésion est définie par un pourcentage d’apparition rare dans la population (6,7 %), alors la différence entre l’indice le plus haut et l’indice le plus bas doit être égale ou supérieure à 44,61 points. Si l’on adopte la position de Sattler qui définit la rareté par une fréquence de 15 % au plus dans la population, la non-cohésion s’observe pour une différence égale ou supérieure à 39 points. À la lecture de nos données, on peut constater que l’hétérogénéité entre les performances est un phénomène très fréquent dans la population toutvenante. Ce résultat confirme les études précédentes. En conséquence, il est indispensable que les praticiens considèrent la rareté des différences pour émettre l’hypothèse d’un fonctionnement « atypique ». Une différence significative sur le plan statistique, mais fréquente dans la population, ne signifie pas que l’individu présente un problème cognitif ou une hétérogénéité cognitive. Lorsque le QIT n’est pas cohésif et donc pas interprétable, Flanagan, Kaufman et Lichtenberger suggèrent d’évaluer la différence entre ICV et IRP pour déterminer si IAG (Indice d’Aptitude Général) est cohésif et donc interprétable. Flanagan et Kaufman (2009, pp. 140–142) écrivent alors : « Answer the following question : Is the size of the standard score difference between the VCI and PRI less than 1,5 SDs (< 23 points)? If NO, then the variation in the Indexes that compose the GAI is too great (≥ 23 points) for the purpose of summarizing global ability in a single score (i.e., the GAI) ». Ces auteurs commettent la même erreur en prenant 15 points comme valeur de l’écart-type. En effet, nos données indiquent que 14,3 % des enfants présentent une différence égale ou supérieure à 23 points. Si ce pourcentage est plus proche des 6,7 % attendus, il est néanmoins trop élevé. Si l’on souhaite une différence survenant pour 6,7 % des enfants, la valeur seuil doit être de 26,94 points entre ICV et IRP (Tableau 4). En ce qui concerne l’évaluation de la cohésion des indices, Flanagan, Kaufman et Lichtenberger proposent une procédure similaire à celle du QIT et de IAG. Ces auteurs suggèrent d’utiliser la
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
165
différence entre le score du sous-test le plus élevé et le score du sous-test le plus bas pour évaluer la cohésion d’un indice et son interprétabilité. Une fois encore, ils utilisent la valeur seuil de 1,5 écart-type (6,7 %), soit 5 points pour évaluer la cohésion–non-cohésion des indices. Comme pour le QIT et IAG, nos données indiquent que les pourcentages observés sont supérieurs aux pourcentages théoriques de 6,7 %. En conséquence, en ce qui concerne les indices ICV, IMT et IVT nous recommandons d’utiliser la valeur seuil de 6 points. Pour IRP, la valeur seuil doit être de 8 points. Diverses hypothèses peuvent être avancées pour expliquer cette valeur seuil plus élevée pour IRP, mais celle qui nous paraît la plus probable est liée aux attributs psychologiques évalués par les 3 épreuves Cubes, Matrices, et Identification de concepts. De nombreuses analyses factorielles ont montré que ces épreuves évaluent des attributs différents (par exemple : Lecerf, Rossier, Favez, Reverte, & Coleaux, 2010). En effet, selon le modèle CHC, les Cubes évaluent le traitement visuel (Gv) et plus particulièrement le facteur SR (Speeded Rotations), tandis que Matrices et Identification de Concepts évaluent le Raisonnement fluide (Gf), et plus particulièrement les capacités d’induction (I). C’est la raison pour laquelle, nous avons proposé de calculer un Indice de Traitement Visuel (Gv) à partir des épreuves Cubes et Complètement d’images, et de calculer un indice de raisonnement fluide à partir des épreuves Matrices et Identification de Concepts (Lecerf et al., 2012). On peut d’ailleurs relever que le WISC-V déjà publié aux États-Unis va dans le sens de cette proposition : Cubes et Puzzles Visuels servent à calculer un indice de traitement visuel (Gv), tandis que Matrices et Balances servent à calculer un indice de raisonnement fluide (Gf). L’épreuve Identification de Concepts est devenue optionnelle au sein de l’indice Gf. Enfin, on constate que les valeurs seuils calculées à partir de l’échantillon suisse-romand correspondent à celles que l’on pouvait identifier à partir de l’échantillon d’étalonnage de l’adaptation franc¸aise du WISC-IV (Grégoire, 2009). Ces nouvelles valeurs seuils vont permettre aux praticiens d’identifier correctement si les scores composites sont cohésifs ou non. 5. Interprétation des scores composites cohésifs ou non cohésifs Dans cette dernière partie, nous souhaitons revenir sur la recommandation de Flanagan, Kaufman et Lichtenberger d’interpréter uniquement les scores composites cohésifs. Nous ne partageons pas cette recommandation. Notre position étant la suivante : les scores composites8 sont toujours interprétables qu’ils soient cohésifs ou non. En effet, selon nous, un indice non cohésif reste malgré tout représentatif des performances observées, et notamment de l’attribut psychologique partagé par diverses épreuves. Cette non-cohésion signifie simplement que le praticien doit aller plus loin dans l’interprétation pour en comprendre l’origine. En d’autres termes, le score composite reste la meilleure estimation de l’attribut psychologique partagé par plusieurs épreuves, et doit donc être systématiquement interprété. De manière à rendre plus explicite notre position, nous nous proposons de prendre comme premier exemple les 2 épreuves de l’Indice de Vitesse de Traitement du WISC-IV : Code et Symboles. Imaginons le cas d’une petite fille de 11 ans qui a obtenu les notes standard de 11 aux Symboles et de 6 au Code. Ces 2 notes standard conduisent à une valeur de 90 pour IVT (intervalle de confiance à 95 % : 82–101 ; rang percentile avec un intervalle de confiance à 95 % : 11–52). Selon Flanagan
8 Rappelons au passage que les scores composites ne sont pas la « simple moyenne » des scores des sous-tests ; la corrélation entre les scores doit être prise en compte.
166
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
et Kaufman (2009), cette différence égale à 5 points9 est considérée comme « inhabituellement élevée » (« unusually large », p. 149), si bien que les performances ne peuvent être résumées à partir d’un seul score (« indicating that this overall [Gs] ability cannot be summarized in a single score. i.e., the [IVT] »)10 . Nous considérons que ce score de 90, ou plutôt cet intervalle de confiance11 de 82–101 (ou 11–52 en termes de rang percentile), reste en réalité un bon estimateur des capacités générales de vitesse de traitement (IVT) de cette petite fille. Pour justifier notre position, nous devons repartir des éléments qui constituent les scores des épreuves Code et Symboles. La Fig. 1 présente les éléments les plus importants qui constituent
Aributs communs Aributs spécifiques
Aributs spécifiques
34%
30%
49%
41% Code
Erreur Code
Symboles
29%
17%
Erreur Symboles
IVT Fig. 1. Pourcentages de variance expliqués par les attributs partagés, les attributs spécifiques et les variances d’erreurs pour les épreuves Code et Symboles.
ces scores. Ainsi, selon Grégoire (2009, p. 170), pour l’épreuve Code la variance partagée est de 30 % (attribut commun : vitesse psychomotrice12 ), la variance spécifique est de 41 % (attributs spécifiques : capacité numérique, capacité visuo-perceptive à associer des symboles13 ), et la variance d’erreur est de 29 %. Pour l’épreuve Symboles, la variance partagée est de 34 % (i.e., vitesse psychomotrice), la variance spécifique est de 49 % (i.e., discrimination visuo-perceptive, organisation visuo-perceptive14 ), et la variance d’erreur est de 17 %. Comme son nom l’indique, la variance d’erreur traduit les erreurs qui surviennent lors de toute évaluation psychologique15 . La variance partagée traduit l’attribut psychologique qui serait évalué par le test mais également par d’autres tests (ici la vitesse psychomotrice). Enfin, la variance spécifique traduit des attri-
9 Notons que si on utilise la valeur seuil obtenue à partir de nos données (> 6 points), l’indice serait ici considéré comme cohésif. 10 Dans leur exemple, Flanagan et Kaufman évaluent ICV et non IVT. 11 Compte tenu des erreurs de mesure, les scores doivent systématiquement être rapportés sous forme d’intervalles de confiance. 12 Les hypothèses sur les attributs partagés et les attributs spécifiques ont été empruntés à Sattler (2008, pp. 380, 382). Sattler parle de « Psychomotor Speed ». 13 Sattler parle de numerical abilities et de visual-perceptual symbol-associative skills. 14 Sattler parle de visual-perceptual discrimination et de visual-perceptual organization. 15 Le coefficient de fidélité des scores d’un test permet d’estimer l’erreur d’évaluation. Si les scores d’un test possèdent une fidélité de 0,80, cela signifie que 80% de la variance est expliquée par les attributs psychologiques, et que 20% de la variance est expliquée par l’erreur d’évaluation.
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
167
buts psychologiques évalués uniquement par un test particulier (Code : capacité numérique et capacité visuo-perceptive à associer des symboles ; Symboles : discrimination visuo-perceptive). On peut d’ailleurs relever que selon le modèle CHC, ces 2 épreuves évaluent des sous-facteurs différents au sein du facteur global vitesse de traitement (Gs) : l’épreuve Symboles évalue plus spécifiquement le facteur « vitesse perceptive » (P), tandis que l’épreuve Code évalue le facteur « Rate-of-test-taking » (R9). Cette décomposition des éléments qui constituent les scores des épreuves permet de considérer que la note de 6 obtenue par cette petite fille au Code s’explique par des facteurs partagés (vitesse psychomotrice), par des facteurs spécifiques (capacité numérique, capacité visuo-perceptive à associer des symboles) et par des erreurs d’évaluation. Le raisonnement est le même pour l’épreuve Symboles. La note observée (11) s’explique par des facteurs partagés (vitesse psychomotrice), par des facteurs spécifiques (discrimination visuo-perceptive, organisation visuo-perceptive), et par des erreurs d’évaluation. Pourtant, lorsque l’on interprète le score global de vitesse de traitement (IVT), on se focalise sur les facteurs partagés, en oubliant les facteurs spécifiques. Or, comme mentionné précédemment, la part de variance expliquée par les facteurs spécifiques est supérieure à celle expliquée par l’attribut partagé (vitesse psychomotrice), (Fig. 1). Ainsi, dans les épreuves Code et Symboles, un tiers de la variance seulement est expliquée par l’attribut partagé. En conséquence, les scores aux épreuves Code et Symboles dépendent avant tout des facteurs spécifiques impliqués dans chacune d’elles (Lecerf & Kieng, 2015). Dans ce premier exemple, on peut alors faire l’hypothèse que l’origine de la différence de performances entre Code et Symboles se situe au niveau des facteurs spécifiques et non au niveau du facteur partagé. Ainsi, les 2 épreuves pourraient conduire à une estimation relativement similaire en ce qui concerne le niveau de l’attribut partagé (i.e., la vitesse psychomotrice), mais la différence de performances découlerait de l’intervention des facteurs spécifiques. Par exemple, cette petite fille pourrait avoir de très bonnes compétences de discrimination visuo-perceptive, augmentant spécifiquement le score à l’épreuves Symboles. Toutefois, la part de variance expliquée par la vitesse psychomotrice dans l’épreuve Symboles (attribut commun) pourrait être similaire à celle expliquée dans l’épreuve Code. En d’autres termes, même si la différence est significative entre les 2 épreuves, elles pourraient néanmoins être des indicateurs consistants de l’attribut partagé, c’està-dire de la vitesse psychomotrice. L’absence de cohésion de l’IVT dans cet exemple n’affaiblit donc en rien la pertinence de sa valeur. Les 2 épreuves, bien que non cohésives, permettent une estimation probable et utilisable du niveau de l’attribut partagé, la vitesse psychomotrice. On peut essayer d’illustrer de manière schématique – bien qu’incorrect sur le plan psychométrique – cet exemple à partir de notes standard fictives correspondantes à chaque composante de variance16 : • tout d’abord, en ce qui concerne le niveau de l’attribut en commun (i.e., la vitesse psychomotrice), il pourrait être faible pour cette petite fille et pourrait correspondre dans les 2 épreuves à une note standard de 6 (Fig. 2a et b) ; • en ce qui concerne les attributs spécifiques de l’épreuve Symboles, on peut imaginer que les capacités de discrimination visuo-perceptives de cette petite fille sont très bonnes, et conduisent à une note standard de 16 (Fig. 2a). En conséquence, la performance globale à l’épreuve Symboles sera proche de la note standard de 11, puisqu’elle repose sur une faible vitesse
16 Il s’agit d’un exemple théorique. À notre connaissance, seul Schneider (2013) a essayé de distinguer les différentes parts de variance en partant des données américaines du WISC-IV et a proposé des procédures de calcul des notes standard de chaque composante.
168
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
Fig. 2. Influence théorique de la vitesse psychomotrice (attribut partagé) et des facteurs spécifiques pour les épreuves Symboles (a) et Code (b).
psychomotrice générale (note standard égale à 6), mais sur une très bonne capacité de discrimination visuo-perceptive (note standard égale à 16) ; • en ce qui concerne les attributs spécifiques de l’épreuve Code, on peut imaginer que les capacités visuo-perceptives à associer des symboles de cette petite fille sont également faibles, et conduisent également à une note standard de 6 (Fig. 2b). En conséquence, la performance globale à l’épreuve Code sera proche de la note standard de 6, puisqu’elle repose sur une faible vitesse psychomotrice générale (note standard égale à 6) et sur une faible capacité visuo-perceptive à associer des symboles (note standard égale à 6). En d’autres termes, pour l’épreuve Symboles, cela suggère que de faibles capacités de vitesse psychomotrice sont compensées par de bonnes capacités de discrimination visuo-perceptive, conduisant alors à des performances globales moyennes. En revanche, dans l’épreuve Code, de faibles capacités de vitesse psychomotrice s’additionnent à de faibles capacités visuo-perceptives à associer des symboles, conduisant alors à de faibles performances globales. Dans cet exemple, bien que les scores des 2 sous-tests diffèrent de manière significative selon Flanagan et Kaufman (2009), ils évaluent de manière similaire le niveau sur l’attribut partagé, c’est-à-dire la vitesse psychomotrice générale. Par conséquent, le score composite calculé à partir de scores de sous-tests non cohésifs, représente néanmoins la meilleure estimation de la capacité générale, en considérant que les influences des facteurs spécifiques se neutralisent. À l’inverse, on peut également démontrer que la cohésion au sein d’un indice ne signifie pas que l’attribut partagé est estimé de manière correcte. Deux sous-tests pourraient présenter les mêmes notes standard et pourtant ne pas conduire à une estimation correcte du niveau de l’attribut commun. Cette configuration survient lorsque des facteurs spécifiques agissent avec la même intensité et dans la même direction dans les épreuves (Fig. 3). Prenons l’exemple d’un petit garc¸on de 11 ans, qui aurait obtenu les scores de 10 au Code et de 9 aux Symboles. Dans ce cas, cette différence de 1 point conduirait Flanagan et Kaufman a considéré que la cohésion permet
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
169
Fig. 3. Influence théorique de la vitesse psychomotrice (attribut partagé) et des facteurs spécifiques pour les épreuves Symboles (a) et Code (b).
d’interpréter le score IVT. Or, on peut imaginer que cet enfant a une très bonne vitesse de traitement générale (note standard = 15), mais a de grosses difficultés sur les 2 capacités spécifiques que sont la discrimination visuo-perceptive (Symboles : note standard = 3) et la capacité visuo-perceptive à associer des symboles (Code : note standard = 5) ; (Figs. 3a et b). De manière schématique – bien qu’incorrect sur le plan psychométrique – la performance globale à l’épreuve Symboles serait proche de 9, puisqu’elle repose sur une bonne vitesse psychomotrice générale (note standard égale à 15) et sur une faible capacité de discrimination visuo-perceptive (note standard égale à 3). Quant à la performance globale à l’épreuve Code, elle serait proche de la note standard de 10, puisqu’elle repose sur une bonne vitesse psychomotrice générale (note standard égale à 15) et sur une faible capacité visuo-perceptive à associer des symboles (note standard égale à 5). Cet exemple théorique permet de démontrer que la cohésion au sein d’un indice ne signifie pas que l’estimation de l’attribut partagé est correcte. Dans cet exemple, la capacité générale de la vitesse de traitement devrait conduire ce petit garc¸on à une note de 15. Toutefois, en raison de très grandes difficultés sur deux attributs spécifiques (discrimination visuo-perceptives, etc.), on conclurait de manière incorrecte à un score IVT moyen. Dans cette configuration, bien que les notes standard des 2 sous-tests ne diffèrent pas, le score composite obtenu ne représente pas une estimation adéquate de l’attribut partagé, la vitesse psychomotrice. La cohésion des notes standard n’est donc pas une garantie de l’adéquation du score composite. Nous nous proposons de discuter brièvement du cas du score IRP. Nous avons montré dans la première partie de cet article que la valeur seuil de l’Indice de Raisonnement Perceptif (IRP) est de 8 points (et non de 6 comme pour les autres indices). Nous avons émis l’hypothèse selon laquelle cette plus grande valeur seuil est liée au fait que les trois épreuves évaluent des attributs
170
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
différents. Toutefois, il est également important de souligner que les pourcentages de variances spécifiques sont légèrement plus élevés pour les épreuves IRP que pour les épreuves IVT. Plus précisément, la variance spécifique est de 50 % pour les Cubes, de 54 % pour Matrices et enfin, de 49 % pour Identification de Concepts. Ainsi, les facteurs spécifiques expliquent près de 50 % de la variance totale et expliquent davantage de variance que les facteurs partagés (i.e., raisonnement perceptif17 ). En d’autres termes, les scores aux épreuves Cubes, Matrices et Identification de concepts dépendent avant tout des facteurs spécifiques impliqués dans chacune de ces épreuves. Le facteur partagé vient ensuite. Ce deuxième élément peut également expliquer la valeur seuil plus importante pour IRP. À titre de comparaison, la variance partagée est de 52 % pour les épreuves ICV et la variance spécifique est de 24,66 %. On pourrait décrire d’autres configurations démontrant que la cohésion ou la non-cohésion des indices conduit à des scores composites tout aussi justes (ou tout aussi faux) dans ces 2 cas. En conséquence, le score composite est tout aussi pertinent pour interpréter le niveau de l’attribut partagé, que les notes des sous-tests (ou des indices) soient cohésives ou non cohésives. C’est la raison pour laquelle, nous recommandons de toujours considérer les scores composites – les indices – comme les estimateurs les plus probables du niveau des attributs partagés. Pour autant, cela ne signifie pas que l’étape de l’évaluation de la cohésion devient inutile. L’identification de scores non cohésifs a comme simple conséquence d’amener le praticien à aller plus loin dans l’interprétation. Il devra alors administrer des tests supplémentaires pour estimer le niveau des attributs spécifiques18 , de manière à mieux séparer l’influence des différents facteurs. En résumé, l’absence de cohésion signifie que l’interprétation de l’attribut censée être partagée par différentes épreuves ne suffit pas pour décrire les performances et qu’une autre source de variance est intervenue. 6. Conclusion Nos résultats indiquent que les valeurs seuils de 23 points et de 5 points proposées théoriquement par Flanagan, Kaufman et Lichtenberger pour évaluer la cohésion des scores composites sont incorrectes. Nous avons proposé des nouvelles valeurs seuils correspondant à 6,7 % de la distribution (Tableau 4). On peut bien sûr faire l’hypothèse que les valeurs seuils obtenues à partir de notre échantillon ne seraient pas exactement les mêmes si elles étaient calculées à partir de l’échantillon de standardisation franc¸ais. Toutefois, compte tenu du fait que les performances moyennes des scores composites, les écart-types des scores composites, le nombre d’indices déviants, ou le nombre de sous-tests déviants sont proches des données normatives et des données rapportées par Grégoire, on peut faire l’hypothèse que les valeurs seuils de 23 points et de 5 points sont également incorrects pour les enfants franc¸ais. La non-cohésion du QIT correspond à une « différence Haut-Bas » égale ou supérieure à 45 points, tandis que la non-cohésion des indices correspond à une différence égale ou supérieure à 6 points pour ICV, IMT et IVT, et à une différence égale ou supérieure à 8 points pour IRP. Plus important, l’absence de cohésion ne remet pas en question la pertinence clinique des scores composites. Enfin, les conclusions de cette étude conduite sur le WISC-IV sont également valables pour la WAIS-IV. Les valeurs seuils de 22,5 points et de 4,5 points proposées pour évaluer la cohésion des indices de la WAIS-IV sont inexactes et ne correspondent pas à 6,7 % de la population. 17 On peut, en outre, relever que selon nous IRP ne correspond pas à un attribut psychologique ; il s’agit ici d’une variable formative et non réflective. 18 Ce qui était un attribut spécifique à une tâche devient alors un attribut partagé par au moins 2 épreuves.
T. Lecerf et al. / Pratiques psychologiques 21 (2015) 155–171
171
Déclaration d’intérêts Les auteurs déclarent ne pas avoir de conflits d’intérêts en relation avec cet article. Financement : ces recherches ont été financées par le Swiss National Science Foundation dans le cadre de projets conduits par T. Lecerf, N. Favez et J. Rossier (Requêtes no 100014 118248 et 100014 135406). Références Flanagan, D. P., & Kaufman, A. S. (2009). Essentials of WISC-IV assessment (2nd Ed.). Hoboken, New Jersey: John Wiley & Sons, Inc. Grégoire, J. (2009). L’examen clinique de l’intelligence de l’enfant. Fondements et pratique du WISC-IV. Wavre, Belgique: Mardaga [2e édition revue et complétée]. Kane, M. T. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50, 1–73. Lecerf, T., Golay, P., Reverte, I., Senn, D., Favez, N., & Rossier, J. (2012). Scores composites CHC pour le WISC-IV : Normes francophones. Pratiques Psychologiques, 18, 37–50. Lecerf, T., & Kieng, S. (2015). WISC-IV : Bref état de l’art. In J. Juhel, & G. Rouxelle (Eds.), Approches contemporaines des différences individuelles en psychologie (pp. 15–33). Rennes: Presses Universitaires de Rennes. Lecerf, T., Reverte, I., Coleaux, L., Favez, N., & Rossier, J. (2010). Indice d’aptitude général pour le WISC-IV : Normes francophones. Pratiques Psychologiques, 16(1), 109–121. Lecerf, T., Reverte, I., Coleaux, L., Maillard, F., Favez, N., & Rossier, J. (2011). Indice d’aptitude général et indice de compétence cognitive pour le WISC-IV : Normes empiriques vs normes statistiques. Revue Européenne de Psychologie Appliquée, 61, 115–122. http://dx.doi.org/10.1016/j.erap.2011.01.001 ro Lecerf, T., Rossier, J., Favez, N., Reverte, I., & Coleaux, L. (2010). “The four- vs. alternative six-factor structure of the French WISC-IV: Comparison using Confirmatory Factor Analyses”. Swiss Journal of Psychology, 69, 221–232. Lichtenberger, E. O., & Kaufman, A. S. (2009). Essentials of WAIS-IV assesment. Hoboken, New Jersey: John Wiley & Sons, Inc. Markus, K. A., & Borsboom, D. (2013). Frontiers of test validity theory. New York: Routledge. Prifitera, A., Weiss, L. G., & Saklofske, D. (1998). The WISC-III in the context. In A. Prifitera, & D. Saklofske (Eds.), WISC-III. Clinical use and interpretation: Scientist-practitioner perspective (pp. 1–38). New York: Academic Press. Sattler, J. M. (2008). Assessment of children. Cognitive foundations (5th Ed.). San Diego: Jerome M. Sattler, Publisher, Inc. Schneider, W. J. (2013). What if we took our models seriously? Estimating latent scores in individuals. Journal of Psychoeducational Assessment, 31, 186–201. http://dx.doi.org/10.1177/0734282913478046 Wahlstrom, D., Breaux, K. C., Zhu, J., & Weiss, L. G. (2012). The Wechsler Preschool and Primary Scale of intelligence–Third edition, the Wechsler Intelligence Scale for Children–Fourth edition, and the Wechsler Individual Achievement Test–Third edition. In D. P. Flanagan et, & P. L. Harrison (Eds.), Contemporary intellectual assessment. Theories, tests and issues (pp. 224–248). New York: The Guilford Press. Weiss, L. G., Saklofske, D. H., Schwartz, D. M., Prifitera, A., & Courville, T. (2006). Advanced clinical interpretation of WISC-IV index scores. In L. G. Weiss, D. Saklofske, A. Prifitera, & J. Holdnack (Eds.), WISC-IV. Advanced clinical interpretation (pp. 139–179). San Diego: Elsevier Inc.