Sciences de gestion
Manu CARRICANO
Fanny POUJOL
Synthèse
de cours
exercices
corrigés
&
Toutes les étapes clés d’une analyse de
données
Une pédagogie active avec le logiciel
SPSS
Les fichiers des exercices disponibles à
l'adresse www.pearson.fr
1011001001100010
00110011010101110
011100110010101011
0011001010110011
001010100110011
collection
Synthex
Analyse de données
avec SPSS
®
Sciences de gestion
&
Analyse
de données
avec SPSS
®
Manu Carricano
INSEEC Paris
Fanny Poujol
IAE Valenciennes
Directeur de collection : Roland Gillet
Université Paris I Panthéon-Sorbonne
Avec la contribution de Laurent Bertrandias
pour la relecture de fond
Institution d’Administration des Entreprises – Université Toulouse 1
collection
Synthex
Synthèse
de cours
exercices
corrigés
prelim.fm Page I Vendredi, 25. janvier 2008 3:04 15
Livre spss.book Page II Vendredi, 25. janvier 2008 12:04 12
ISSN : 1768-7616
Tous droits réservés
Mise en page : edito.biz
Aucune représentation ou reproduction, même partielle, autre que celles prévues à l’article L. 122-5 2˚
et 3˚ a) du code de la propriété intellectuelle ne peut être faite sans l’autorisation expresse de Pearson
Education France ou, le cas échéant, sans le respect des modalités prévues à l’article L. 122-10 dudit code.
Livre spss.book Page III Vendredi, 25. janvier 2008 12:04 12
Copyright© 2009 Pearson Education France
ISBN : 978-2-7440-4075-7
Livre spss.book Page IV Vendredi, 25. janvier 2008 12:04 12
Sommaire
VSommaire
Préface ......................................................................... VII
Introduction .................................................................. IX
Les auteurs.................................................................... XI
Chapitre 1 • Analyser pour décider .................................................. 1
Chapitre 2 • Décrire les données ...................................................... 29
Chapitre 3 • Simplifier les données .................................................. 51
Chapitre 4 • Segmenter ................................................................... 79
Chapitre 5 • L’analyse de variance .................................................. 107
Chapitre 6 • La régression linéaire ................................................... 133
Chapitre 7 • L’analyse conjointe ...................................................... 155
Chapitre 8 • Communiquer les résultats ........................................... 177
Bibliographie générale.................................................. 195
Index ............................................................................ 197
Livre spssTDM.fm Page V Vendredi, 25. janvier 2008 3:06 15
Livre spss.book Page VI Vendredi, 25. janvier 2008 12:04 12
VII
Préface
Il existe aujourd’hui de nombreux livres consacrés aux études de marché et à l’analyse
marketing, ce que les Anglo-Saxons nomment marketing research. L’ouvrage de Fanny
Poujol et Manu Carricano, Analyse de données avec SPSS, se distingue clairement de ceux
existant sur le marché par son parti pris résolument opérationnel. L’instrumentation de
gestion est souvent négligée dans la littérature francophone consacrée au management.
Tendance bien cartésienne à la conceptualisation ? Bien des manuels, peut-être en contra-
diction avec la définition même de ce genre d’écrit, consacrent la portion congrue aux
outils et à leur application pratique.
Analyse de données avec SPSS prend le contre-pied d’une telle tendance. Peut-être est-ce en
raison de la jeunesse et de la singularité des auteurs : une docteur en gestion, aujourd’hui
maître de conférences à l’université de Valenciennes, et un professeur assistant dans une
grande école, tous deux chercheurs à l’Inseec et encore très proches des difficultés
d’apprentissage de la recherche quantitative en marketing ?
En tout état de cause, les huit chapitres de leur ouvrage présentent avec rigueur les problè-
mes opérationnels de la recherche quantitative en marketing et leur résolution pratique,
en prenant patiemment le lecteur par la main grâce à des exemples et des exercices et en le
guidant dans l’utilisation du logiciel SPSS. Le titre des chapitres résume ce parcours initia-
tique dans la recherche quantitative en marketing : analyser pour décider, décrire les don-
nées, simplifier les données, segmenter, l’analyse de variance, la régression linéaire,
l’analyse conjointe, communiquer les résultats. Dans ce parcours en huit étapes, c’est réso-
lument l’application et la mise en œuvre pratique qui sont privilégiées aux dépens des
considérations théoriques résumées clairement en tête de chapitre.
Outre l’aspect opérationnel, les auteurs ont également eu comme objectif de privilégier la
dimension synthétique de leurs démonstrations. Il n’était pas question pour eux de faire
une « somme » de plus sur le sujet, les bibliothèques étant déjà fournies en livres de ce
type. Certes, d’autres méthodes mériteraient de figurer dans l’ouvrage, mais on ne peut
reprocher aux auteurs d’avoir privilégié les techniques les plus couramment utilisées.
Nul doute que ce livre original connaîtra le succès qu’il mérite auprès des nombreux cher-
cheurs en marketing, professionnels et universitaires. Il sera alors temps pour les auteurs
d’offrir un second tome dans la même veine. C’est tout ce que nous leur souhaitons, pour
eux-mêmes et pour leurs futurs lecteurs.
Pierre-Louis Dubois, Professeur
Université Panthéon-Assas (Paris II)
ESCP-EAP
Président du Comité scientifique de l’Inseec
Livre spss.book Page VII Vendredi, 25. janvier 2008 12:04 12
Livre spss.book Page VIII Vendredi, 25. janvier 2008 12:04 12
IX
Introduction
Approche adoptée
La plupart des décisions de l’entreprise reposent sur des données collectées sur le marché,
les clients, les concurrents. Mais le plus souvent, ces analyses sont simplistes, limitées,
voire biaisées : d’une part, parce qu’elles se limitent à des analyses descriptives (tableaux
croisés, analyses factorielles…) et non pas explicatives des phénomènes observés; d’autre
part, parce qu’elles ne s’assurent pas toujours des conditions de validité et de fiabilité des
résultats. Dans le même temps, l’exercice du marketing s’est considérablement transformé
ces dernières années : le volume de données disponible est plus important, et les outils
d’analyse plus sophistiqués. Ces solutions analytiques, telles les suites de logiciels dévelop-
pées par SPSS, visent à tirer parti de cette profusion de données afin d’aider les dirigeants
à prendre des décisions fondées, optimales. Comme le signale Sunil Garga, président d’IRI
Analytic Insight Group : « Les approches analytiques en marketing ont amené à plus de
changement durant les 24 derniers mois que lors de ces 24 dernières années. »
La diffusion de ces nouvelles approches dans l’entreprise passe par la mise sur le marché
de jeunes diplômés éclairés et sensibilisés à une démarche analytique dépassant l’intuition
et fondée sur des modèles afin de prendre des décisions optimales. L’idée force qui nous a
guidés tout au long de la rédaction de cet ouvrage est de démontrer la valeur ajoutée de
l’analyse de données dans l’optimisation de décisions courantes au sein de l’entreprise. Le
marketing, notre domaine de spécialisation, nous a semblé tout indiqué pour mettre en
œuvre une telle approche fonctionnelle. Loin d’un inventaire de techniques statistiques,
nous avons souhaité définir une série de questions simples faisant le lien entre les outils
d’analyse de données et les décisions marketing, parmi lesquelles :
• Comment transposer un problème managérial en modèle d’analyse?
• Comment améliorer la validité et la fiabilité d’un questionnaire?
• Quelle approche mobiliser pour décrire les résultats d’une enquête?
• Comment synthétiser les données collectées?
• Comment segmenter un marché?
• Comment expliquer l’influence d’une décision sur un marché?
• Comment modéliser un comportement d’achat?
Livre spss.book Page IX Vendredi, 25. janvier 2008 12:04 12
X Analyse de données avec SPSS
• Comment expliquer les préférences des consommateurs?
• Comment communiquer les résultats?
Cet ouvrage s’adressant principalement à des étudiants – et s’inspirant fortement des
remarques de nos propres étudiants –, nous avons également cherché à présenter les infor-
mations de manière simple, passant rapidement le relais à une mise en application des
concepts statistiques par le biais d’une manipulation du logiciel SPSS. Apprendre en fai-
sant permettra au lecteur d’acquérir des compétences en analyse de données de manière
progressive, et sur l’ensemble de la démarche. Cette forme d’apprentissage par l’expé-
rience, de pédagogie active, s’étant révélée payante pour nous, nous espérons qu’elle le
sera également pour d’autres collègues enseignants et les étudiants. Afin de faciliter l’utili-
sation de ce livre dans le cadre d’un cours (en licence ou master), l’intégralité des fichiers
de données est disponible sur le site de Pearson Education France.
Structure du livre
Le domaine de l’analyse de données étant vaste et complexe, nous avons souhaité organi-
ser ce livre en deux grandes parties distinctes. Une première partie (chapitres 1 à 4) pré-
sente les méthodes descriptives en analyse de données (analyses univariées et bivariées, tris
croisés, analyses factorielles), la plupart des enquêtes en marketing se limitant aux tests
présentés dans cette partie. La seconde partie de l’ouvrage (chapitres 5 à 7) présente un
panorama de techniques plus avancées (analyse de variance, régressions, analyse con-
jointe) afin de guider l’analyste dans ces procédures plus sophistiquées. Enfin, le dernier
chapitre traite de la rédaction du rapport, la valeur ajoutée d’une démarche analytique
passant aussi par la capacité à communiquer les résultats de manière précise et intelligible.
Remerciements
Nous voudrions remercier vivement ceux qui nous ont aidés à réaliser cet ouvrage, en par-
ticulier, Roland Gillet, professeur à l'université Paris 1 Panthéon-Sorbonne et directeur de
la collection, pour ses remarques et sa confiance, et Pierre-Louis Dubois, professeur à
l'université Paris 2 Panthéon-Assas et à l'ESCP-EAP, pour ses encouragements constants et
son aide précieuse. Nos remerciements s’adressent aussi à Laurent Bertrandias (maître de
conférences à l’IAE – université Toulouse 1), René Darmon (professeur émérite à
l’ESSEC), Laurent Florès (CEO crmmetrix et professeur associé à l’INSEEC), Jean-Fran-
çois Trinquecoste (professeur à l’IAE Bordeaux), Hervé Fenneteau (professeur à l’univer-
sité Montpellier I), Jean-Philippe Grouthier (administrateur à l’Insee).
Merci aussi à Christophe Lenne et à toute l’équipe de Pearson Education France pour leur
travail éditorial constructif et enrichissant.
Enfin, nos plus vifs remerciements vont à nos proches, pour les longs instants volés, le
temps étant le plus précieux des cadeaux. Comme le dit Paul Claudel : « Le temps, tout le
consume, et l’amour seul l’emploie. »
intro.fm Page X Vendredi, 25. janvier 2008 4:53 16
XI
Les auteurs
Manu Carricano est enseignant-chercheur à l’Inseec Paris où il est responsable du dépar-
tement marketing. Il y enseigne le marketing et les études de marchés en licence et master.
Il intervient également à l’IAE de Bordeaux dans le master marketing en formation conti-
nue. Ses recherches portent sur la convergence des méthodes quantitatives et qualitatives
sur Internet ainsi que sur l’optimisation des stratégies de prix. Ses travaux ont fait l’objet
de publications et ont été présentés dans des conférences académiques internationales.
Fanny Poujol est titulaire d’un MBA de l’université de Birmingham ainsi que d’un docto-
rat de l’université Montpellier II. Elle est maître de conférences à l’IAE de Valenciennes, et
chercheur associé au laboratoire de recherche Inseec. À l’IAE, elle enseigne la méthodolo-
gie, le marketing des services, le commerce international et le management des forces de
ventes en licence et master. Elle intervient aussi en master marketing et vente à l’UPMC
(Université Pierre-et-Marie-Curie). Ses recherches portent sur la gestion des forces de
vente. Ses travaux ont été présentés dans des congrès internationaux (IAE, AFM, EMAC,
ANZMAC) et publiés dans des revues académiques (Décisions Marketing, Journal of Busi-
ness and Industrial Marketing).
Livre spss.book Page XI Vendredi, 25. janvier 2008 12:04 12
Livre spss.book Page XII Vendredi, 25. janvier 2008 12:04 12
1
1Analyser
pour décider
Une bonne décision consiste à choisir la plus optimale des
solutions parmi une série d’alternatives. Le marketing – et en
particulier sa dimension études – s’est longtemps cantonné à
un rôle purement descriptif. Mais les bonnes décisions n’arri-
vent pas par hasard : elles doivent être fondées sur des infor-
mations fiables et valides. Tour à tour, les outils d’études de
marchés et les techniques d’analyse se sont considérablement
enrichis. L’avènement d’Internet, la sophistication et l’exhaus-
tivité des données de panel, la montée en puissance des bases
de données clients et du data mining ont repoussé les limites
des études de marchés traditionnelles, favorisant l’émergence
d’une information marketing de grande qualité et d’analyses
explicatives, voire prédictives, des comportements.
Ce chapitre présente les grandes familles d’études de marchés
et pose les bases de l’analyse de données en marketing en
abordant les concepts de données, de variables et de mesure.
1. Études et recherche
en marketing...............................2
2. Des données aux variables...........7
3. Mesurer à l’aide
d’un questionnaire.....................16
Exercices
1. Quand Pampers collecte
des données..............................23
2. L’audience de la super star.........24
3. L’enquête « point de vente ».......25
Chapitre
Livre spss.book Page 1 Vendredi, 25. janvier 2008 12:04 12
2 Analyse de données avec SPSS
(1) Études et recherche en marketing
Les études et recherche marketing ont pour but d’aider le responsable marketing à résou-
dre un problème spécifique, à contrôler ses performances, à planifier les décisions (Evrard,
Pras et Roux, 2003). Leur objectif est de lier l’entreprise à son environnement en déve-
loppant des instruments de mesure, en collectant et en analysant des données, et en
communiquant les résultats et leur interprétation. Telle est la définition du processus de
recherche en marketing qui nous guidera tout au long des huit chapitres de cet ouvrage.
1.1 LA DÉMARCHE D’ÉTUDE
À partir de la définition précédente, nous pouvons résumer la démarche d’étude à cinq
étapes principales, reprises à la figure 1.1 ci-après.
La première étape de la démarche d’étude est d’identifier le problème managérial : le
besoin d’étude est donc déterminé par l’existence d’un problème à résoudre. Plusieurs
types de problèmes et plusieurs types de résolutions peuvent être envisagés, comme le
montre le tableau 1.1.
Figure 1.1
Les cinq étapes
d’une démarche
d’étude.
Tableau 1.1 : Du problème managérial à la technique d’étude
Problème
managérial
Objectifs d’étude Techniques d’étude
Existe-t-il un mar-
ché potentiel pour
un nouveau
produit?
– Tester les réactions des
consommateurs à l’idée
– Tester la composition
du produit
– Estimer le taux d’essai
et de réachat
– Test de concept
– Test de formule
– Marché-test simulé
– Marché-témoin
– Connaître les concurrents – Analyse de la concurrence
– Panels
Définition du
problème
Analyse de
la situation
Collecte
des données
Analyse et
interprétation
Résolution
du problème
Anticipation
du problème
Livre spss.book Page 2 Vendredi, 25. janvier 2008 12:04 12
3Analyser pour décider
1Chapitre
Source : adapté de Vernette, 2000.
La formulation correcte d’un problème permet de faire le lien entre un besoin de décision
et la mise en œuvre d’une démarche de recherche, de collecte, d’analyse et d’interprétation
d’informations. La fonction « étude » doit donc être envisagée autour de ce paradigme
informationnel. Son rôle consiste à transformer des informations brutes en données utiles
dans la recherche de nouvelles opportunités, à mettre en place des systèmes d’écoute du
marché et de veille concurrentielle, et à prescrire les comportements à adopter sur les mar-
chés. Au confluent des flux d’informations de l’entreprise, elle acquiert aujourd’hui une
dimension stratégique croissante.
Si la collecte et l’analyse de données sont au cœur du métier d’analyste en marketing, ces
derniers font de plus en plus appel à des données secondaires et à des données stockées
dans des entrepôts de données (data warehouses). Cette tendance est accentuée par le
recours à Internet qui, en combinant habilement sites de marque et techniques de marke-
ting direct, s’avère être une source inépuisable d’informations sur les marchés, les
consommateurs, les concurrents.
L’existence de cette profusion de données fait évoluer les besoins d’étude dans l’entreprise et
modifie par suite le recours aux différentes techniques. Auparavant, la conduite d’une étude
de marché était principalement entendue comme la nécessité de procéder à une collecte de
données terrain, souvent par le biais du questionnaire, de l’entretien ou de réunions de
consommateurs. Dorénavant, l’accès aisé à des données secondaires, à la dissémination inter-
fonctionnelle d’une intelligence marketing dans l’organisation modifie quelque peu la donne.
Cette vaste quantité d’informations disponibles rend nécessaire, pour le chargé d’étude
comme pour le chef de produit, une compétence accrue en analyse de données. Elle per-
mettra d’éviter les erreurs d’interprétation et de maîtriser la qualité d’études souvent réa-
lisées par des instituts. Un besoin croissant d’opérationnalité se fait sentir en la matière.
Cette opérationnalité passe tout d’abord par le développement de mesures pertinentes et
valides supportant des construits psychologiques (décisions d’achat, notoriété, intérêt
pour la marque, le produit, etc.), afin de bien mesurer ce qui se rapporte au problème
managérial. Elle passe ensuite par la mise en œuvre d’analyses qui permettent d’expliquer
et de prédire des comportements, afin de bien comprendre le problème managérial pour
le résoudre et agir.
– Connaître les attentes
des consommateurs
– Identifier les bénéfices recherchés
par les consommateurs
– Étude de segmentation
– Détecter les forces
et faiblesses de la marque
– Étude du capital marque
– Analyse des images de marque
des concurrents
– Déterminer un prix de vente – Test de prix psychologiques
– Analyse conjointe
Tableau 1.1 : Du problème managérial à la technique d’étude (suite)
Problème
managérial
Objectifs d’étude Techniques d’étude
Livre spss.book Page 3 Vendredi, 25. janvier 2008 12:04 12
4 Analyse de données avec SPSS
1.2 LES TECHNIQUES D’ÉTUDES
Les techniques d’études sont regroupées en deux catégories principales, selon leurs objec-
tifs et leurs limites. Les études quantitatives dominent largement le marché des études,
même si, dernièrement, les départements marketing ont manifesté un intérêt croissant
pour les études qualitatives. Le tableau 1.2 montre la répartition des différentes techniques
en fonction des méthodes de collecte les plus fréquemment utilisées en marketing.
Source : adapté de SEMO, 2008 (Syntec Études Marketing et Opinion).
Parmi les techniques les plus largement utilisées, on peut retenir :
• l’étude ad hoc : étude quantitative ou qualitative réalisée pour le compte d’un seul client;
• l’étude omnibus : étude quantitative réalisée à date régulière. Le questionnaire
regroupe l’ensemble des questions de différents souscripteurs;
• le baromètre : étude réalisée à date fixe comme l’omnibus, mais avec le même ques-
tionnaire d’une étude à l’autre, pour le compte d’un ou de plusieurs clients;
• le panel : investigation approfondie réalisée périodiquement pour plusieurs clients. Les
interviewés sont identiques d’une vague à l’autre. Il s’appuie sur des échantillons
importants de 2 000 à 10 000 individus;
Tableau 1.2 : Répartition des différentes techniques d’étude
Techniques 2005 2006
Quantitatives
Études quantitatives via Internet 13 % 20 %
Études par téléphone 29 % 30 %
Tests en salle 11 % 10 %
Études en face-à-face 42 % 37 %
Études postales 5 % 4 %
Qualitatives
Réunions de groupe 57 % 55 %
Entretiens individuels 22 % 22 %
Études qualitatives via Internet 5 % 17 %
Autres techniques qualitatives 16 % 5 %
Livre spss.book Page 4 Vendredi, 25. janvier 2008 12:04 12
5Analyser pour décider
1Chapitre
• le marché-test : étude quantitative visant à prévoir les ventes et parts de marché d’un
nouveau produit; on parle également de marché-test pour des observations de type
expérimental en magasin;
• l’entretien individuel : étude qualitative dont l’objectif est de recueillir le discours indi-
viduel. On distingue l’entretien non directif (libre propos), semi-directif (intervention
et thèmes), directif (guide d’entretien strict, questions ouvertes), associatif ou projectif
(analogie, associations de mots, compléments de phrases, jeux de rôle, etc.);
• la réunion de groupe : étude qualitative libre et non structurée d’un groupe de 8 à 12
participants, conduite par un animateur. La discussion libre repose sur les phénomènes
de psychologie collective des groupes restreints, fondée notamment sur les travaux de
Kurt Lewin.
Le tableau 1.3 représente les objectifs et les limites des approches qualitatives et quantitatives.
Source : adapté de Vernette, 2000.
Les études qualitatives sont utilisées dans une dimension principalement exploratoire,
afin de comprendre en profondeur des comportements de consommateurs par exemple.
Si elles ne permettent pas de généraliser les résultats qu’elles produisent, elles n’en sont pas
moins utiles pour dépasser les mesures d’attitudes des questionnaires. Elles permettent
d’accéder à une étude approfondie des processus liés aux comportements de consomma-
tion, grâce notamment aux entretiens et aux réunions de consommateurs, et d’accéder
plus profondément à l’explication de ces comportements, en levant le voile sur des fac-
teurs inconscients (le non-verbal, le « non-dit »), en d’autres termes le monde interne des
consommateurs et notamment leur rapport aux marques.
Les études qualitatives se distinguent également par la place qu’elles occupent dans la
démarche de recherche. Souvent considérées comme un prélude à l’étude quantitative ou
limitées à la confirmation des résultats d’une enquête par questionnaire, elles se substi-
tuent de plus en plus aux approches traditionnelles, grâce notamment à l’utilisation
d’Internet et de ses potentialités multimédias, et à la nécessité croissante pour le marketing
d’être connecté au terrain. Garnier, par exemple, a lancé, il y a peu, une vaste opération de
type ethnographique baptisée Consumer Connect, dont l’objectif était avant tout d’immer-
ger les chefs de produit parmi les consommateurs et d’observer leur utilisation du produit
in situ. L’avènement d’Internet a contribué à repopulariser cette technique auprès des ins-
tituts d’étude : on peut citer l’émergence de la netnographie (voir ci-après) ou encore le
Home Use Blog (HUB), développé conjointement par Danone et la société Repères.
Tableau 1.3 : Objectifs et limites des approches qualitative et quantitative
Approche Objectifs Limites
Qualitative
Répertorier
Explorer
Générer
Comprendre
Généralisation des résultats
Quantitative
Dénombrer
Hiérarchiser
Pondérer
Résumer
Biais déclaratifs
Mémorisation des répondants
Livre spss.book Page 5 Vendredi, 25. janvier 2008 12:04 12
6 Analyse de données avec SPSS
EXEMPLE La netnographie
On constate, depuis quelques années, un intérêt grandissant pour l’information collectée à
partir de l’observation de communautés virtuelles, nouvelles formes de communautés dont
Internet a permis l’émergence. Ainsi, de nombreuses firmes ont réalisé des études sur la
base d’informations issues de forums de discussion et n’ont pas tardé à saisir les opportuni-
tés offertes par ces nouveaux types d’interactions sociales. Kozinets a développé récemment
une approche nouvelle – l’ethnographie sur Internet ou netnographie – qu’il définit comme
« une nouvelle méthode de recherche qualitative qui adapte la méthode de l’ethnographie
à l’étude des cultures et des communautés qui émergent grâce aux communications
informatisées » (Kozinets, 2002, p. 62). En tant que technique de recherche en marketing,
la netnographie utilise l’information publique disponible sur les forums en ligne afin d’iden-
tifier et de comprendre les besoins et les influences qui pèsent sur les décisions d’achat de
groupes de consommateurs présents sur Internet. Pour Laurent Florès, CEO de la société
d’étude crmmetrix, spécialiste de l’écoute client, le canal Internet permet aux marques de
participer à de véritables conversations et de s’appuyer sur un puissant levier du
marketing : le bouche à oreille. Il est désormais possible de quantifier le volume de ces
conversations, d’analyser leur contenu et le profil des intervenants, avec un avantage impor-
tant sur les techniques traditionnelles, puisque cette approche n’altère pas le contexte étudié
par l’intervention d’un analyste mais collecte plutôt une information en langage naturel.
Les techniques quantitatives, auxquelles cet ouvrage est essentiellement consacré, consti-
tuent la part dominante des études marketing. Leur objectif est avant tout de mesurer, de
quantifier et de permettre de généraliser les résultats à partir de l’échantillon de la popula-
tion concernée. Ce type d’étude repose généralement sur un grand nombre d’observations
et sur des informations structurées (valeurs numériques, échelles ou valeurs nominales)
par opposition aux informations non structurées (discours, texte libre/questions
ouvertes, etc.). Plus précisément, trois types d’études quantitatives peuvent être distin-
gués, en fonction du contexte de découverte de l’information : décrire, expliquer, prédire.
Les études descriptives sont fondées sur des mesures dont le but est de collecter des don-
nées brutes afin de créer des structures décrivant les caractéristiques d’une population
cible ou d’un marché. Elles peuvent être utiles, entre autres, pour faire la photographie
d’un marché, de la satisfaction des consommateurs, de la notoriété d’une marque. La
dimension descriptive est l’objectif premier traditionnellement assigné aux études marke-
ting. Cette étape importante a pour objet de mesurer la force d’association entre deux
variables, par exemple, et permet de poser un cadre d’analyse nécessaire aux études expli-
catives et prédictives.
Les études explicatives ont pour objet de transformer des données brutes en structures
expliquant des relations de causalité entre deux ou plusieurs variables. L’approche explica-
tive est utile lorsque l’étude a pour objectif de comprendre les causes directes d’un phéno-
mène. Ce type d’étude peut permettre, par exemple, de modéliser l’impact de la publicité
sur les ventes. L’approche explicative est particulièrement utile dans un contexte d’aide à la
décision, où le but assigné à l’étude n’est plus simplement de décrire mais aussi de com-
prendre, de la manière la plus fiable et la plus valide, les déterminants affectant la perfor-
mance des décisions marketing.
Les études prédictives, quant à elles, ont pour objet de transformer les données brutes
collectées sur les caractéristiques comportementales des consommateurs ou des entrepri-
ses/marchés pour créer des modèles prédictifs à des fins d’optimisation. Ces approches,
Livre spss.book Page 6 Vendredi, 25. janvier 2008 12:04 12
7Analyser pour décider
1Chapitre
surtout utilisées dans des contextes de gestion de la relation client, nécessitent des obser-
vations en très grand nombre et des outils sophistiqués (voir focus 1.1). Pour notre part,
dans les chapitres suivants, nous nous concentrerons principalement sur les deux pre-
miers types d’étude.
* Focus 1.1 • Le data mining
Le data mining, ou fouille de données, est l’ensemble des méthodes et techniques destinées à
l’exploration et l’analyse de bases de données informatiques (souvent de grande taille), de
façon automatique ou semi-automatique, en vue de détecter des règles, des associations, des
tendances inconnues ou cachées, des structures particulières restituant l’essentiel de l’informa-
tion utile tout en réduisant la quantité de données. En bref, le data mining est l’art d’extraire
des informations, voire des connaissances à partir de données. Le data mining est soit descrip-
tif, soit prédictif : les techniques descriptives en data mining visent à mettre en évidence des
informations présentes mais cachées par le volume des données (c’est le cas des classifications
automatiques d’individus et des recherches d’associations de produits); les techniques prédic-
tives visent à extrapoler de nouvelles informations à partir des informations présentes, ces nou-
velles informations pouvant prendre la forme de classements ou scorings (sélection de clients
selon certains critères), ou de prédictions comme l’appétence pour un produit (probabilité
d’achat futur) ou le risque d’attrition (probabilité de départ à la concurrence).
Source : adapté de Tufféry, 2005.
(2) Des données aux variables
La plupart des entreprises sont aujourd’hui noyées sous l’information mais elles ont soif
de connaissance. C’est la capacité de l’analyste à mettre en œuvre une démarche analyti-
que qui permet de créer, de gérer et de diffuser cette connaissance dans l’organisation. Ce
processus repose sur trois concepts que nous allons maintenant définir : les données,
l’échantillon et les variables.
2.1 TYPES DE DONNÉES
Les types de données en marketing sont en général identifiés en fonction de leur source.
Ainsi, on distingue les données secondaires et les données primaires (voir figure 1.2).
Les données secondaires sont des données qui ont été collectées préalablement à l’étude,
pour répondre à d’autres problèmes, ce qui peut fortement en limiter la pertinence et la
précision (Malhotra et al., 2007). Elles sont cependant d’un accès facile et leur coût est
relativement faible. Souvent perçues comme des données à faible valeur ajoutée en marke-
ting (limitées à une définition de problème, voire à quelques tests pour mettre en valeur
les résultats principaux), elles occupent désormais une place de plus en plus importante
dans les études. Les sources d’information de cette nature sont aujourd’hui abondantes et
doivent systématiquement être prises en considération avant toute collecte de données
primaires. On distingue les données secondaires internes, issues de l’entreprise (repor-
tings, intranet, données comptables, informations émanant des salariés…) et les données
secondaires externes, issues de l’environnement de l’entreprise :
Livre spss.book Page 7 Vendredi, 25. janvier 2008 12:04 12
8 Analyse de données avec SPSS
• en premier lieu Internet qui donne accès à des données structurées (fichiers logs,
cookies, etc.) et surtout à des données non structurées (blogs, forums, interactions
sociales, etc.) que l’on commence aujourd’hui à analyser, à traiter (netnographie, ana-
lyse lexicométrique, text mining, etc.);
• les données gouvernementales : données de recensement,données macroéconomiques,etc.;
• les données de panels (consommateurs, distributeurs, audience);
• les études de marchés publiées de nature commerciale;
• les interactions avec les consommateurs ou points de contacts : lettres de réclamations,
call-centers, e-mails reçus, etc.
* Focus 1.2 • Les panels
Les panels ont considérablement évolué ces dernières années : gains de restitution de l’infor-
mation, amélioration de la couverture des circuits de distribution (données de panels et don-
nées issues du scanning en sortie de caisse), offre enrichie (information accessible en ligne,
analyses spécifiques des variables du mix et de leur performance). On distingue, en France,
plusieurs types de panels largement plébiscités (42 % du marché des études) : les panels de
consommation, les access panels (ou panels de consommateurs), les access panels on-line, les
panels de distributeurs (ou panels de détaillants) et les panels d’audience.
• Panels de consommation : recueil d’informations sur leurs achats auprès d’un échan-
tillon de ménages. Ce type de panel permet de répondre aux questions : « Qui consomme
quoi? » et « En quelle quantité? » (taux de pénétration, quantités achetées, etc.) et de mesu-
rer l’évolution de la consommation dans le temps.
• Access panels : recueil d’informations auprès d’individus ou de foyers représentatifs de
la population nationale, qui ont accepté de participer à des enquêtes ponctuelles. Ils sont
interrogés sur leurs pratiques, leurs opinions, leurs goûts et leurs préférences, pour des étu-
des ad hoc (tests de produits, de concepts, études d’usages et d’attitudes, tracking, etc.).
• Access panels on-line : recueil d’informations auprès d’internautes panélisés qui ont
accepté de participer à des enquêtes ponctuelles. Le recrutement se fait le plus souvent via
un site de recrutement sur Internet. Ils sont interrogés sur leurs pratiques, leurs opinions,
leurs goûts, leurs préférences.
Figure 1.2
Les sources de
données.
Données
secondaires
Données
primaires
Entreprise
Hors-entreprise
Observer
Interroger
Documents internes, intranet, rapports,
salariés, données comptables, etc.
Internet, gouvernement, panels, études
commerciales, publications, interactions
consommateurs, etc.
Expérimentation, ethnographie,
approches personnelles, etc.
Entretiens en profondeur, focus groupes,
questionnaires (on-line, face-à-face,
téléphone, courrier), etc.
Livre spss.book Page 8 Vendredi, 25. janvier 2008 12:04 12
9Analyser pour décider
1Chapitre
• Panels de distributeurs : recueil d’informations auprès d’un échantillon de points de
vente afin de connaître les volumes, les prix de vente, les parts de marché de différentes
marques d’un segment, d’évaluer la présence de la marque dans les différents canaux de
distribution (distribution numérique, distribution valeur), de suivre les évolutions de la distri-
bution, l’offre disponible dans les points de vente (linéaires accordés aux différentes mar-
ques, ruptures, promotions), de mesurer l’impact sur les ventes d’une modification de l’offre
(promotion, lancement, etc.). Infoscan Census (panel d’Information Resources Inc., IRI) est le
premier du genre à abandonner la méthode de l’échantillon au profit d’une remontée
exhaustive des magasins.
• Panels d’audience : échantillon représentatif de foyers dont on mesure l’écoute des dif-
férentes chaînes de télévision. Il n’existe qu’un seul panel depuis l’arrêt du panel Sofres-
Nielsen : Mediamat, de Médiamétrie, panel de 3 100 foyers, soit 8 000 individus de 4 ans
et plus équipés d’un audimètre.
Les données primaires sont des données qui ont été collectées dans le but de résoudre le
problème managérial propre à l’étude. Il s’agit de données brutes, qui doivent être prépa-
rées, analysées puis interprétées (Hair et al., 2006). Dans ce cas, les cinq étapes de la
démarche d’étude doivent être respectées. Ce chapitre étant consacré à l’étape de la col-
lecte des données, les chapitres suivants aborderont l’analyse et l’interprétation des résul-
tats pour une série de tests pouvant être mis en œuvre dans une démarche d’étude ou de
recherche marketing.
2.2 L’ÉCHANTILLON
Afin de bien illustrer les étapes d’un plan de sondage, un petit détour historique peut s’avérer
intéressant. Tout commence aux États-Unis, lorsque Franklin D. Roosevelt se représente
contre Alf Landon aux élections de 1936. Derrière les candidats, deux hommes s’affrontent
pour pronostiquer le résultat de ces élections. D’une part Codely, rédacteur en chef du Lite-
rary Digest, utilise la technique du vote de paille (straw vote) : quelques jours avant les élec-
tions, il fait paraître des bulletins de vote dans son journal et demande à ses lecteurs de
mentionner leur choix. Il reçoit 2,4 millions de réponses et donne Landon gagnant. D’autre
part, Gallup, créateur de l’institut éponyme, n’interroge que 4 000 personnes et joue Roose-
velt gagnant. La victoire de ce dernier marque la naissance des instituts de sondage. Gallup
est le père de l’échantillon représentatif, le premier à avoir eu l’idée de reconstituer une
population en miniature. Deux ans après, les sondages sont importés en France par Jean
Stoetzel, philosophe et sociologue, créateur en 1938 de l’Institut français d’opinion publique
(IFOP). Cette jeune pratique est construite autour de deux étapes principales : la définition
de la population à étudier et la sélection de l’échantillon.
La population à étudier doit être définie avec le plus grand soin (par exemple les clients
d’une enseigne de distribution). Cette définition inclut celle des unités de sondage (l’indi-
vidu détenant l’information) qui sont l’objet de l’observation. Dans de nombreux cas, en
marketing, on ne se préoccupe pas de l’ensemble de la population mais plutôt des
consommateurs de tel ou tel produit, ou catégorie de produits, qui constituent la cible des
actions envisagées.
Vient ensuite l’étape du choix de l’échantillon et de sa taille. Deux méthodes principales
sont utilisées, dont l’objectif est de sélectionner un échantillon assurant la meilleure préci-
sion possible des résultats au moindre coût (pour une description détaillée, voir Evrard
et al., 2003). La méthode probabiliste, dans laquelle chaque individu de la population
Livre spss.book Page 9 Vendredi, 25. janvier 2008 12:04 12
10 Analyse de données avec SPSS
concernée a une probabilité connue d’appartenir à l’échantillon, permet d’obtenir des
échantillons représentatifs. Généralement utilisée sur de grands échantillons, elle s’avère
très coûteuse (l’Insee, par exemple, la pratique en France). Les méthodes non probabilis-
tes (ou méthodes empiriques) permettent de constituer un échantillon résultant d’un
choix raisonné qui vise à le faire ressembler à la population dont il est issu. Parmi ces
méthodes, les instituts de sondages français recourent volontiers à la méthode dite des
quotas, qui, bien que scientifiquement moins précise, moins fiable que la méthode aléa-
toire, présente l’énorme avantage de pouvoir s’appliquer à des échantillons plus réduits, de
coûter moins cher et d’être mise en œuvre beaucoup plus rapidement. Ainsi, un sondage
au téléphone selon la méthode des quotas peut être réalisé en moins de 48 h.
La figure 1.3 détaille les méthodes d’échantillonnage qui seront définies dans la section
suivante.
• Tirage au hasard : l’échantillon aléatoire consiste à tirer au hasard un individu de la
population avec une probabilité connue et différente de zéro d’appartenir à l’échan-
tillon. La connaissance de cette probabilité d’appartenance de l’individu à l’échantillon
permet de calculer la marge d’erreur sur les résultats obtenus (voir focus 1.3). Ce type
d’échantillonnage permet de protéger les utilisateurs des résultats contre une sélection
biaisée de l’échantillon (même si les risques de biais dus au questionnaire et aux non-
réponses subsistent). On parlera de tirage aléatoire simple si les individus qui compo-
sent la population ne font l’objet d’aucun regroupement avant tirage.
• Échantillonnage stratifié : dans le cas où les variables étudiées sont fortement disper-
sées, c’est-à-dire dans ceux où des classes seraient sous- ou surreprésentées en raison du
tirage au hasard, il peut s’avérer utile d’utiliser des variables dites de stratification, qui
permettent de réaliser une répartition de la population en classes appelées « strates ».
La stratification sera d’autant plus efficace pour améliorer la précision que les strates
seront homogènes par rapport aux variables étudiées. Dans le cas d’une étude sur des
points de vente, cette variable pourra être le fait d’être client ou non.
• Méthode des quotas : cette méthode, la plus utilisée en France, reprend les principes de
qualification de l’échantillonnage stratifié. Elle est moins coûteuse que les méthodes aléa-
toires où l’enquêteur, en cas d’absence de la population, doit revenir/rappeler jusqu’à 3 ou
Figure 1.3
Les méthodes
d’échantillonnage. Échantillons
probabilistes
Échantillons
non probabilistes
Tirage au hasard
Échantillonnage
stratifié
Méthode des quotas
Méthode des itinéraires
Échantillonnage de
convenance
Échantillonnage
« boule de neige »
Livre spss.book Page 10 Vendredi, 25. janvier 2008 12:04 12
11Analyser pour décider
1Chapitre
4 fois à l’adresse/au numéro qui lui a été indiqué. Cette méthode présente l’avantage de la
simplicité : on choisit quelques caractéristiques dont on connaît la distribution statistique
dans la population étudiée (par exemple, sexe, âge, catégorie socioprofessionnelle [CSP]
du chef de famille), puis on donne à chaque enquêteur un plan de travail qui lui impose le
respect de certaines proportions au sein des interviewés. Cette méthode, par opposition
aux deux méthodes précédentes, donne des estimations biaisées car les différentes catégo-
ries de population présentent des probabilitiés différentes et inconnues d’être touchées
par un enquêteur. D’autre part, la méthode des quotas ne permet théoriquement pas de
calculer les marges d’erreur associées aux résultats trouvés, comme une méthode aléatoire
permet de le faire.
• Méthode des itinéraires (ou random route) : dans une commune, par exemple, on
impose à l’enquêteur un point de départ et un itinéraire à suivre, avec tirage systéma-
tique des logements dans lesquels il doit effectuer des interviews (par exemple, interro-
ger les foyers toutes les trois portes dans un immeuble).
• Échantillonnage de convenance : il est conçu par l’enquêteur pour des raisons de pra-
ticité. Il fait généralement appel à des personnes interceptées dans la rue, à la sortie des
caisses en magasin, etc. C’est la moins coûteuse et la plus rapide de toutes les techniques
d’échantillonnage mais elle présente de fortes limites : biais de sélection, non-représen-
tativité. Il n’est donc théoriquement;pas significatif de généraliser les résultats.
• Échantillonnage « boule de neige » : on choisit un premier groupe de répondants, au
hasard généralement, puis on leur demande d’indiquer d’autres répondants potentiels
appartenant à la population ciblée. Cette méthode peut être utile pour des enquêtes sur
les leaders d’opinion par exemple.
La détermination de la taille de l’échantillon est une étape cruciale en analyse de données.
Un échantillon trop petit peut induire une perte d’informations importante ou empêcher
la réalisation de nombreux tests soumis à des contraintes en termes de nombre d’observa-
tions. À l’inverse, un échantillon trop important constitue une perte de temps et de budget
dommageable pour la réussite de l’étude. Il est important de noter que la précision de
l’information recueillie dépend principalement de la taille de l’échantillon et non du taux
de sondage (défini par le rapport n/N, où n est la taille de l’échantillon et N celle de la
population).
Dans la pratique, les chargés d’études utilisent des abaques (feuilles de calcul) donnant la
taille de l’échantillon en fonction du degré de précision des résultats que l’on veut obtenir.
Certains professionnels des études considèrent qu’il n’y a pas de raison valable de travailler
avec des échantillons de plus de 1 000 à 1 500 répondants. En effet, s’il est admis que la
précision des résultats est influencée par la taille de l’échantillon, cette influence s’avère
négligeable au-dessus de 1 500 observations. Pour trouver la taille adéquate de
l’échantillon N, une règle empirique facile à appliquer – même si elle est contestable d’un
point de vue purement statistique – consiste à partir de l’erreur, exprimée en pourcentage,
que l’on est prêt à tolérer :
N = 1/erreur2.
Par exemple, si l’on accepte une erreur de +/–5 % au niveau de la précision des résultats,
on obtient une taille d’échantillon de 1/0,052, soit 400 répondants.
Les éléments liés à la précision de la mesure sont centraux en analyse de données. Nous
détaillons la méthode de calcul de l’intervalle de confiance dans le focus 1.3. Les éléments
de discussion dépendant du principe de test statistique seront abordés dans le chapitre 2.
Livre spss.book Page 11 Vendredi, 25. janvier 2008 12:04 12
12 Analyse de données avec SPSS
* Focus 1.3 • L’intervalle de confiance
La précision statistique d’un test (proportion ou moyenne) s’exprime en calculant l’intervalle de
confiance, qui indique la marge d’erreur lorsqu’on généralise une estimation obtenue sur un
échantillon à l’ensemble de la population représentée. La longueur de l’intervalle diminue lors-
que la taille de l’échantillon augmente.
On retient la formule suivante pour calculer l’intervalle de confiance d’une proportion :
où :
p = pourcentage observé dans l’échantillon;
q = 1 – p;
z = valeur dérivée de la loi normale centrée réduite, égale à 1,96 si α = 0,05 (degré de
confiance);
π = pourcentage réel dans la population mère;
n = taille de l’échantillon.
L’intervalle de confiance d’une moyenne m sur n individus avec un écart type se calcule de
la manière suivante :
Prenons l’exemple suivant : un sondeur réalise une étude d’audience par téléphone pour
connaître les caractéristiques sociodémographiques et les comportements – notamment en ter-
mes de dépenses en SMS – des téléspectateurs de la Super Star, émission de télé-réalité diffu-
sée en prime time sur le câble et le satellite. Il sélectionne 1 000 numéros de téléphone par
tirage aléatoire simple dans la base de données des abonnés de la chaîne (qui en compte
120 000 sur le câble et 2 100 000 sur le satellite). On pose l’hypothèse que les 1 000 person-
nes répondent effectivement aux enquêteurs. On constate que l’émission absorbe 36,8 % de
l’audience des personnes interrogées de moins de 35 ans, et que le montant moyen dépensé
par cette cible en SMS et appels téléphoniques est de 6,2 €, avec un écart type de 2,2 €.
Le montant moyen dépensé par ces abonnés est de :
Soit : 6,06 6,33
L’audience moyenne des abonnés de moins de 35 ans est de :
Soit : 33,6 % 39,7 %
Le sondage réalisé permet donc d’estimer cette proportion avec une précision absolue de
3,2 % (au degré de confiance 0,95).
p z
pq
n
p z
pq
n
− ≤ ≤ +π
m z
n
m z
n
− ≤ ≤ +
σ
π
σ
6 2 1 96
2 2
1000
6 2 1 96
2 2
1000
, ,
,
, ,
,
− ≤ ≤ +π
≤ ≤π
0 368 1 96
0 368 0 632
1000
0 368 1 96
0 368 0 632
1000
, ,
( , * , )
, ,
( , * , )
− ≤ ≤ +π
≤ ≤π
Livre spss.book Page 12 Vendredi, 25. janvier 2008 12:04 12
13Analyser pour décider
1Chapitre
SPSS SPSS permet également d’estimer l’intervalle de confiance d’une mesure. L’exemple retenu
ici servira de fil rouge tout au long de cet ouvrage. Une enseigne de grands magasins sou-
haite ouvrir un nouveau point de vente, mais elle ne le fera que si le potentiel de marché est
suffisant. Une enquête a donc été réalisée sur 400 répondants, en face-à-face. Parmi les
questions posées, les enquêteurs ont relevé l’intérêt des répondants pour l’ouverture du nou-
veau point de vente, ainsi que le montant qu’ils seraient prêts à dépenser.
Il est possible d’identifier l’intervalle de confiance d’une moyenne avec SPSS en utilisant la
procédure du test t pour échantillon unique.
Ouvrez le fichier exemple « pointdevente.sav » disponible comme tous les fichiers d’exerci-
ces sur le site de l’ouvrage 1. Allez dans le menu Analyse > Comparer les
moyennes > Test T pour échantillon unique… Une boîte de dialogue s’affiche (voir
figure 1.4).
Faites glisser dans la boîte de dialogue la variable à tester montant qui correspond à la
question suivante : « Quel montant moyen dépensez-vous par mois dans ce type de point de
vente ? »
L’analyse donne les résultats présentés à la figure 1.5.
Le premier résultat donne le nombre de répondants, la moyenne, l’écart type et l’erreur stan-
dard.
Le second résultat donne l’intervalle de confiance pour un degré de confiance de 95 % qui
se situe entre 144,55 € et 162,46 € (voir figure 1.6). Les éléments d’interprétation liés à la
théorie des tests statistiques seront approfondis au chapitre 2.
1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr.
Figure 1.4
Test t pour
échantillon unique
sous SPSS.
Figure 1.5
Statistique sur
échantillon unique.
Figure 1.6
Test sur échantillon
unique.
Livre spss.book Page 13 Vendredi, 25. janvier 2008 12:04 12
14 Analyse de données avec SPSS
Notons également qu’un des modules de SPSS (SamplePower) permet d’optimiser la combi-
naison entre la puissance du test, l’intervalle de confiance et la taille de l’échantillon.
L’approche est fondée sur des tests de moyenne et de différences de moyennes, des tests de
proportions et de différences de proportions, des analyses de variance, entre autres.
2.3 LA NOTION DE VARIABLE
Le principe de modélisation, sous-jacent à l’analyse des données, impose de définir la
notion de variable. La modélisation est entendue ici comme la réalisation d’une représen-
tation simplifiée d’un phénomène, la variable étant l’expression du caractère observé dans
la population. La formulation la plus simple d’un modèle vise à définir une relation de
cause à effet entre deux natures de variables : les variables indépendantes (ou variables
explicatives) et les variables dépendantes (ou expliquées). Dans ce modèle simple, la varia-
ble indépendante représente la cause, dont l’effet se mesure sur la variable dépendante
(voir figure 1.7). Ce modèle permet, par exemple, de représenter le lien entre la fréquence
d’achat et la fidélité au point de vente.
D’autres variables peuvent intervenir dans cette relation directe entre la (ou les) varia-
ble(s) indépendante(s) et la (ou les) variable(s) dépendante(s) [Thiétart et al. 1999,
p. 339]. Dans le premier cas, l’effet de la variable indépendante X sur la variable
dépendante Y se mesure par l’intermédiaire d’une troisième variable dite « médiatrice ».
L’association ou la causalité observée entre X et Y résulte du fait que X influence Z qui à
son tour influence Y. Cette variable Z – le montant dépensé par exemple – peut intervenir
dans la relation entre la fréquence d’achat et la fidélité au magasin. Dans le second cas, la
présence de la variable modératrice modifie l’intensité (c’est-à-dire l’amplifie ou la dimi-
nue) et/ou le signe de la relation entre la variable indépendante et la variable dépendante.
On pourra mesurer l’effet de cette variable modératrice par exemple en décomposant la
population en sous-populations (classes d’âge, segments de clients, etc.) et en testant la
relation dans les sous-groupes pour y vérifier le type d’effet (voir figure 1.8).
Les tests statistiques mis en œuvre pour mesurer ces relations seront sélectionnés en fonc-
tion de l’objectif de l’enquête (voir section 3 : Mesurer à l’aide d’un questionnaire) et en
fonction des variables collectées. Les variables sont de deux types :
• qualitatives : leurs modalités, c’est-à-dire la manière dont les observations sont regrou-
pées, ne peuvent être calculées;
Figure 1.7
Relation causale
simple.
Figure 1.8
Effets médiateur et
modérateur.
Livre spss.book Page 14 Vendredi, 25. janvier 2008 12:04 12
15Analyser pour décider
1Chapitre
• quantitatives : leurs modalités sont mesurables et les tests envisageables sont nom-
breux.
Le marketing et plus largement les sciences sociales s’intéressent également à la mesure de
phénomènes mentaux, telles les opinions, les attitudes ou encore les préférences, au tra-
vers d’indicateurs : les échelles de mesure. Ces dernières ont pour objet de fournir au
répondant un support d’expression de ces phénomènes complexes à observer, le plus sou-
vent sous la forme d’échelles de notation :
• L’échelle nominale a pour principe d’utiliser les nombres comme des étiquettes afin de
classer chacune des modalités. Les échelles nominales peuvent être utilisées pour iden-
tifier des classes d’individus. Par exemple, on peut utiliser la nomenclature des catégo-
ries socioprofessionnelles (CSP) ou encore identifier des marques lors d’une étude de
notoriété assistée, identifier des attributs de produits. Dans l’échelle nominale, chacune
des modalités de la variable est équivalente aux autres.
Exemple :
Êtes-vous? 1. Un homme 2. Une femme
• L’échelle ordinale est une échelle de classement comme l’échelle nominale, dans
laquelle les nombres attribués à chaque modalité ont une relation d’ordre avec un
continuum sous-jacent. On peut, par exemple, utiliser une échelle ordinale pour classer
des préférences de marques. L’échelle ordinale permet en effet de déterminer les rela-
tions d’ordre en calculant les fractiles, les déciles et les médianes à partir de ces données
(voir chapitre 2).
Exemple :
Notez de 1 à 5 la qualité gustative du produit X
(1 étant la note la plus faible, 5 la note la plus élevée) :
• L’échelle métrique possède les propriétés des échelles nominale et ordinale, mais elle
permet également de comparer les distances entre les objets, les modalités étant sépa-
rées par des espaces équidistants. L’exemple le plus courant est celui du thermomètre, la
différence entre 0 ˚C et 1 ˚C étant la même qu’entre 1 ˚C et 2 ˚C, etc. L’échelle métrique
est la plus couramment utilisée en marketing, même si pour ces mesures d’attitudes les
intervalles ne sont pas toujours équidistants. Appartiennent à cette catégorie, l’échelle
de différentiel sémantique d’Osgood ou l’échelle de Stapel, qui ont pour but de
conduire à l’élaboration de profils de répondants, l’échelle d’intensité de Likert ou
échelle d’accord, les échelles d’intention.
Exemples :
Échelle d’Osgood
Avez-vous trouvé que le goût du produit X était?
1 2 3 4 5
Mauvais 1 2 3 4 5 Bon
Livre spss.book Page 15 Vendredi, 25. janvier 2008 12:04 12
16 Analyse de données avec SPSS
Échelle de Stapel
Choisissez un nombre positif si vous pensez que le mot décrit bien le produit X,
un nombre négatif si vous pensez que le mot ne décrit pas bien le produit X,
en notant de +5 à –5 :
Échelle de Likert
Échelle d’intention
Si la marque M lançait ce type de produit :
SPSS Dans SPSS, ces trois types de variables (nominale, ordinale et métrique) doivent être définis
dans la partie Affichage des variables de l’éditeur de données (lorsque le fichier a été
ouvert), dans la colonne Mesure.
(3) Mesurer à l’aide d’un questionnaire
La construction d’un questionnaire amène à s’interroger sur la mesure des concepts. Com-
ment mesurer, par exemple, la qualité du service? Même en cas d’études se fondant sur une
seule question pour mesurer un concept, il est recommandé d’avoir recours à des échelles de
mesure. L’objectif d’une échelle est d’éviter d’avoir à représenter un phénomène
abstrait – un construit – par le biais d’une seule et unique variable, en privilégiant l’utilisa-
tion d’indicateurs qui permettent de représenter les différentes facettes de ce construit.Ainsi,
un chargé d’étude qui chercherait à mesurer la satisfaction vis-à-vis d’une marque pourrait
poser une question unique : « Êtes-vous satisfait? » et fonder son analyse sur cette seule
réponse. De manière évidente, le fait de développer une mesure de la satisfaction à partir
d’un ensemble d’items (de libellés) dont on sait (par des études préalables ou par le biais de
la théorie) qu’ils mesurent correctement la satisfaction, permet de collecter des réponses
mieux orientées et d’estimer la fiabilité de la mesure effectuée, non plus à partir d’une
réponse mais plutôt à partir d’une forme de réponse « moyenne » à une série de questions
associées. On mesurera donc la satisfaction en interrogeant des clients sur la satisfaction glo-
bale, la propension à recommander le produit et la probabilité de réachat par exemple.
Bon ….
Utile ….
Pratique ….
etc.
(Pas du tout d’accord) 1 2 3 4 5 (Tout à fait d’accord)
Je n’achèterai certainement
pas ce produit
1 2 3 4 5 J’achèterai certainement
ce produit
Livre spss.book Page 16 Vendredi, 25. janvier 2008 12:04 12
17Analyser pour décider
1Chapitre
Ainsi, il est généralement recommandé d’utiliser plusieurs items pour mesurer un concept
et donc de commencer par chercher s’il existe un outil de mesure du concept que l’on sou-
haite évaluer. S’il n’existe pas d’échelle (parce que le concept est nouveau ou qu’il s’appli-
que à un domaine particulier), il faut en créer une.
3.1 LE DÉVELOPPEMENT DES OUTILS DE MESURE
Churchill, qui est souvent pris comme référence dans la construction d’échelles de
mesure, précise que, pour remplir son véritable rôle, « le questionnaire doit susciter et
maintenir l’intérêt du répondant » (Churchill, 1998, p. 343). Pour ce faire, le chargé
d’étude doit se poser un certain nombre de questions afin de limiter divers biais. Ces ques-
tions sont présentées à la figure 1.9.
La forme du questionnaire et son mode d’administration ne sont pas neutres. L’introduc-
tion du questionnaire doit présenter les objectifs de l’étude et préciser le caractère confi-
dentiel de l’enquête. Une phrase d’accroche peut rassurer le répondant et l’inciter à
répondre de manière authentique.
Le choix du contenu des questions est une étape fondamentale. Il est recommandé de définir
le cadre conceptuel dans lequel se situent l’étude et les concepts de base, à l’aide d’une revue
de la littérature. L’étude des articles académiques et des ouvrages déjà parus sur le sujet per-
met d’approfondir la définition du concept étudié. Cette étape permet aussi de trouver des
instruments de mesure préexistants qui peuvent être réutilisés, traduits ou encore adaptés.
On utilise la plupart du temps des échelles de mesure préexistantes. Afin de valider dans
un contexte français ces instruments de mesure (souvent anglo-saxons), un certain
nombre d’étapes doivent être respectées (voir focus 1.4).
* Focus 1.4 • La traduction d’échelles de mesure
Il existe différentes méthodes pour traduire un questionnaire :
• la méthode traditionnelle : le chercheur effectue seul la traduction ou avec l’aide de traduc-
teurs professionnels. Cette méthode est peu recommandée si le chercheur n’est pas parfaite-
ment bilingue ou si les traducteurs sont extérieurs au domaine de la recherche;
• la méthode du comité : le chercheur réunit un ensemble de chercheurs qui maîtrisent parfai-
tement la langue et qui sont spécialistes de son domaine de recherche. Tous les items sont
traduits. Le problème de cette méthode est qu’il est difficile de réunir un tel comité d’experts;
Figure 1.9
Les étapes du
développement du
questionnaire.
1. Le type de questionnaire et son mode d’administration
2. Le contenu des questions individuelles
3. La forme de réponse à chaque question
4. La formulation de chaque question
5. La séquence des questions
6. Les caractéristiques physiques du questionnaire
7. Le prétest du questionnaire
Livre spss.book Page 17 Vendredi, 25. janvier 2008 12:04 12
18 Analyse de données avec SPSS
• la rétro-traduction : des chercheurs bilingues sont sollicités pour traduire le questionnaire.
Les traductions sont ensuite remises à des chercheurs dont la langue d’origine est celle du
questionnaire, afin qu’ils le traduisent. Cette dernière version est ensuite comparée avec la
version originale pour repérer les éventuelles différences.
Lorsque le chargé d’étude ne trouve pas d’échelle et souhaite développer son propre outil
de mesure, il est préconisé de réaliser une étude exploratoire (entretiens, méthode des
incidents critiques…). Par exemple, une recherche sur la satisfaction au travail des com-
merciaux fait ressortir plusieurs composantes : les relations avec les pairs, avec la hiérar-
chie, avec les clients, etc. Une étude qualitative a ainsi été réalisée auprès d’un échantillon
de 30 vendeurs, auxquels on demandait ce qui les satisfaisait dans leur travail.
À partir de la définition retenue, on dresse ensuite une liste d’items à partir de la littérature
(items préexistants empruntés à d’autres échelles ou adaptés) ou à partir d’une étude de
terrain exploratoire (extraction de verbatims 1). Le pool d’items est ensuite soumis à un
ou deux panels d’experts (chercheurs ou praticiens du domaine) qui éliminent les énoncés
ne leur paraissant pas adéquats à la mesure du concept. Il s’agit ici d’évaluer ce que l’on
appelle la « validité faciale du concept » (voir chapitre 3).
Nous avons présenté au point 2.3 les différentes formes possibles d’échelles. Dans un souci
de neutralité et de symétrie, il faut veiller à ce que l’équilibre des réponses positives
vs négatives autour du point médian placé au centre soit respecté. Le choix du nombre
d’alternatives de réponse se fait par arbitrage : l’attention des répondants faiblit aussi avec
le nombre de questions et de modalités de réponses.
En ce qui concerne la formulation et la séquence des questions, il est généralement recom-
mandé d’alterner l’ordre des questions et le sens des interrogations, afin de limiter les
effets de lassitude, de halo ou de contamination. L’effet de halo se manifeste lorsqu’une
suite de questions est posée dans le même sens : la personne interrogée peut alors avoir
tendance à répondre toujours de la même manière alors que l’effet de contamination
concerne l’influence directe d’une question sur les questions suivantes.
Enfin, il est très important de tester le questionnaire avant de l’administrer, d’une part,
pour vérifier que toutes les questions sont bien comprises et qu’elles n’engendrent pas
de blocage et, d’autre part, afin de tester le temps nécessaire pour y répondre. Une ving-
taine de répondants peuvent s’avérer nécessaires pour effectuer ce type de prétest de
compréhension.
3.2 LE CONCEPT DE MESURE
L’acte de mesurer est l’opération par laquelle on fait correspondre à une donnée collectée
une grandeur considérée comme capable de représenter le phénomène décrit par la don-
née. Cette opération est affectée par un certain nombre d’éléments qui éloignent la mesure
idéale de la mesure obtenue. Le modèle de la vraie valeur (Evrard et al., 1997, p. 287)
consiste à décomposer le résultat d’une mesure en ses différents éléments : la vraie valeur
(censée représenter la mesure parfaite) et les termes d’erreur (erreur aléatoire et erreur
systématique), comme le montre l’équation suivante :
1. L’extraction de verbatims fait partie des stratégies d’analyse d’un corpus textuel (type retranscriptions d’entretiens). Les verbatims
permettent de nourrir l’analyse de citations des personnes interrogées.
Livre spss.book Page 18 Vendredi, 25. janvier 2008 12:04 12
19Analyser pour décider
1Chapitre
M (mesure obtenue) = V (vraie valeur) + Es (erreur systématique) + Ea (erreur aléatoire)
La vraie valeur est la mesure « idéale », c’est-à-dire celle qui correspondrait parfaitement
au phénomène étudié. Elle est le plus souvent impossible à atteindre. L’erreur systéma-
tique (ou biais) provient du fait que l’instrument de mesure peut présenter un écart systé-
matique avec le phénomène étudié (par exemple, un biais lié au manque de clarté de
l’échelle, à une surcharge du questionnaire, etc.). L’erreur aléatoire provient du fait que le
phénomène mesuré par l’instrument peut être affecté par des aléas tels que la fatigue du
répondant, l’humeur, etc. Ces termes d’erreur ajoutent du « bruit » aux variables
observées; la mesure obtenue contient donc à la fois la « vraie valeur » de la mesure et le
« bruit ». Lorsque l’on mesurera des corrélations ou des moyennes, par exemple, l’effet
mesuré sera partiellement masqué par l’erreur de mesure, ce qui entraîne un affaiblisse-
ment de l’intensité des corrélations mesurées ou une moindre précision de la moyenne
calculée.
L’analyste doit donc s’interroger sur la qualité de l’instrument de mesure qu’il construit et
met en œuvre. La validation d’un questionnaire, par exemple, consistera donc à tester les
instruments de mesure utilisés (Hair et al., 1998, p. 117-118). Ces outils de mesure doivent
répondre à deux critères principaux : la fiabilité et la validité. La fiabilité renvoie à la
cohérence entre les indicateurs censés mesurer le même concept, alors que la validité dési-
gne la capacité d’un instrument de mesure à appréhender un phénomène.
• La validité : les instruments de mesure choisis doivent permettre d’appréhender le
mieux possible le phénomène à mesurer. Il s’agit de réduire l’ensemble des termes
d’erreur afin d’être en mesure de répondre à la question suivante : « Mesure-t-on bien
ce que l’on cherche à mesurer? ».
• La fiabilité : après s’être assuré de la validité des instruments de mesure, l’analyste peut
envisager la fiabilité des mesures, en d’autres termes le fait que si l’on mesure un phéno-
mène plusieurs fois avec le même instrument, on doit obtenir le même résultat. Il s’agit
de s’assurer de la cohérence interne de l’instrument. Ce problème est concerné par
l’erreur aléatoire.
De plus, après avoir diminué les erreurs de mesure par l’amélioration de chacune des
variables, l’analyste doit chercher à développer des mesures multiples, autrement dit des
représentations de construits cohérentes, à travers ce que l’on nomme des échelles, soit
l’association de plusieurs variables dans la mesure composite d’un phénomène (voir
chapitre 3).
3.3 STRATÉGIES D’ANALYSE
L’analyse des données n’est pas une fin en soi; elle a pour objectif d’aider à prendre une déci-
sion sur la base d’une information fiable et valide. Une stratégie d’analyse doit donc être
définie afin de procéder à la modélisation d’un ou de plusieurs phénomènes. Cette stratégie
repose sur la mise en lumière progressive des résultats et la complémentarité des techniques
utilisées, dues à la nature des données et aux propriétés des tests envisagés. Les hypothèses
qui sous-tendent les différents tests doivent être vérifiées : certaines techniques seront utiles
pour étudier les différences entre variables, d’autres pour mettre en évidence leur dépen-
dance, d’autres encore visent à classer les individus, etc. Toutes ces hypothèses seront abor-
dées lorsque nous détaillerons l’ensemble de ces tests dans les chapitres suivants.
Livre spss.book Page 19 Vendredi, 25. janvier 2008 12:04 12
20 Analyse de données avec SPSS
D’une manière générale, il est possible de représenter l’ensemble de ces techniques d’ana-
lyse en trois phases successives (voir figure 1.10).
L’analyse univariée consiste à examiner la distribution des modalités de réponse pour une
variable : dans le cas d’une variable nominale, par exemple, il s’agit d’un tri à plat, c’est-à-
dire le dénombrement des observations correspondant à chaque modalité de la variable.
L’analyse bivariée consiste à étudier les relations entre deux variables. Dans le cas de
variables nominales, il s’agira d’un tableau croisé dénombrant les nombres d’observations
correspondant à chaque combinaison possible des deux variables, ou plus généralement
de mesures d’association quantifiant la relation (par exemple coefficient de corrélation
pour des variables métriques). L’analyse multivariée permet de dépasser les techniques
précédentes en ce sens qu’elle laisse de côté la parcellisation de l’information induite par
ces techniques. En effet, si le nombre de variables est élevé, il est difficile de prendre en
compte l’ensemble des combinaisons possibles. L’analyse multivariée permet donc le trai-
tement simultané de plusieurs variables.
L’ambition du chargé d’étude quant au traitement statistique peut se situer à deux
niveaux :
• décrire les données : il s’agira par exemple de décrire une variable (moyenne, tris), de
rechercher des différences entre les modalités d’une ou de plusieurs variables (test sta-
tistique) ou encore de synthétiser et de visualiser un ensemble d’informations (analyse
factorielle, typologie par exemple);
• expliquer les données : chaque méthode a ses exigences spécifiques en matière de pro-
priété des variables (voir tableau 1.4).
Figure 1.10
Les stratégies
d’analyse.
Source : adapté de Evrard et al., 2003.
Tableau 1.4 : Panorama des méthodes envisageables
Méthodes descriptives
Variables
Nominale Ordinale Métrique
Variable Analyse factorielle des correspondances Analyse factorielle
Individu Typologie
1 Univariée Tris à plat/description de l’échantillon/recodage
2 Bivariée Tris croisés/mesures d’association
3 Multivariée
Descriptive : par groupes de variables
Explicative : entre groupes
Livre spss.book Page 20 Vendredi, 25. janvier 2008 12:04 12
21Analyser pour décider
1Chapitre
Méthodes explicatives
D’une manière générale, on peut classer les méthodes selon trois dimensions :
• descriptif/explicatif : c’est la dimension principale en ce qui nous concerne, et celle qui
structure les chapitres suivants. Les méthodes descriptives ont pour but de représenter
les données ou les observations (fréquences et tris croisés : chapitre 2; analyses
factorielles : chapitre 3; typologie : chapitre 4), tandis que les méthodes explicatives ont
pour objet la modélisation, autrement dit la liaison entre deux phénomènes (analyse de
variance : chapitre 5; régressions : chapitre 6; analyse conjointe : chapitre 7). Plus
précisément – et c’est la raison pour laquelle nous faisons le lien ici avec ce qui a été
évoqué lorsque nous avons précisé la notion de variable –, les méthodes explicatives
traitent des relations entre deux sous-ensembles de variables : les variables à expliquer,
dont on cherche à déterminer les variations; les variables explicatives, qui contribuent
à cette explication.
• types de variables traitées : cette dimension doit être prise en compte très en amont,
lors de la création de l’instrument de mesure. En effet, le recueil de données impose
automatiquement une contrainte quant aux traitements envisageables, lesquels doivent
donc être anticipés. Le tableau 1.4 reprend bien les méthodes envisageables suivant les
types de variables traitées. Il est important de garder à l’esprit que ces méthodes d’ana-
lyse de données ont été essentiellement développées dans des disciplines où les données
sont majoritairement métriques. Le marketing reposant sur des variables principale-
ment non métriques, il a été nécessaire d’adapter les méthodes d’analyse en introdui-
sant des variables nominales dans des méthodes utilisant habituellement des variables
métriques (régression avec variables binaires) ou en créant des méthodes utilisant ces
variables qualitatives comme, par exemple, l’analyse des correspondances très popu-
laire en marketing;
• nombre de variables traitées : les méthodes descriptives ne sont limitées en termes de
variables à traiter que par les capacités des logiciels utilisés. Les outils récents comme
Variables indépendantes
Une variable dépendante Nominale Ordinale Métrique
Nominale Logit
Régression logistique
Analyse discriminante
Ordinale Analyse conjointe Logit ordonné
Métrique
Analyse de
variance
Plusieurs variables
dépendantes
Nominale Ordinale Métrique
Nominale
Modèles
log-linéaires
Métrique
Équations structurel-
les
Livre spss.book Page 21 Vendredi, 25. janvier 2008 12:04 12
22 Analyse de données avec SPSS
SPSS ou SAS permettent de traiter de très larges volumes de données, et un nombre très
élevé de variables. La plupart des méthodes explicatives ne peuvent traiter qu’une seule
variable dépendante (ou à expliquer). Seules l’analyse canonique, l’analyse discrimi-
nante multiple et les analyses multivariées de la variance (MANOVA) et de la cova-
riance (MANCOVA) permettent de traiter plusieurs variables dépendantes. Ces
dernières seront abordées dans le chapitre 5.
Nous pouvons compléter notre tour d’horizon de la mise en œuvre des principales
méthodes d’analyse de données envisageables en marketing par quelques critères
complémentaires :
• l’accent sur les individus ou les variables (la typologie est plus fréquemment utilisée
pour classer des individus alors que l’analyse factorielle est associée aux variables);
• la linéarité (la régression par exemple implique des hypothèses de linéarité des rela-
tions entre les variables étudiées, alors que la segmentation ou la typologie peuvent
s’affranchir de ces hypothèses);
• l’aspect paramétrique ou non paramétrique (on suppose dans de nombreux tests que
les variables suivent des lois de distribution théoriques dépendant d’un nombre fini de
paramètres – loi normale ou multinormale par exemple; le chargé d’étude devra donc
s’assurer que ces hypothèses implicites ont été satisfaites avant de réaliser les tests).
Résumé
L’analyse de données en marketing doit être au service de la prise de décision. Ce qui
implique de respecter une démarche rigoureuse faisant le lien entre le problème qui se
pose au décideur et la méthode à mettre en œuvre. Cette démarche de recherche, de col-
lecte, d’analyse et d’interprétation de l’information définit un marketing plus analytique,
orienté vers une logique d’optimisation (Lilien et al., 2007). Aujourd’hui, le chargé d’étu-
des dispose d’un vaste éventail de méthodes, Internet ayant fait évoluer la place tradition-
nellement dévolue aux approches quantitative et qualitative – approches qui semblent
désormais converger grâce, notamment, à l’importance nouvelle accordée aux données
secondaires. Une fois les données collectées, l’analyste doit prendre en compte les éléments
liés à la précision de la mesure qu’il souhaite développer, afin de construire un instrument
fiable et valide. Il mettra ensuite en place une stratégie d’analyse reposant sur la mise en
lumière progressive des résultats et la complémentarité des techniques utilisées, dues à la
nature des données et aux propriétés des tests envisagés.
Pour aller plus loin
Sur les études de marché : Giannelloni J. C., Vernette E., Les Études de marché, Broché,
Paris, 2001.
Sur la démarche de recherche en marketing : Evrard Y., Pras B., Roux E., Market. Études et
recherche en marketing, Nathan, Paris, 2003. Malhotra N., Decaudin J. M., Bouguerra A.,
Études marketing avec SPSS, 5e éd., Pearson Education, Paris, 2007.
Livre spss.book Page 22 Vendredi, 25. janvier 2008 12:04 12
23Analyser pour décider
1Chapitre
Exercices
EXERCICE 1 QUAND PAMPERS COLLECTE DES DONNÉES
* Solution 1. Le principal intérêt de la démarche de Pampers est de mettre le consommateur au cen-
tre du processus de collecte de données. La méthode utilisée est à l’évidence qualitative.
Elle permet d’étudier en profondeur les processus de consommation en interrogeant les
parents, plus particulièrement les mères, et en observant les interactions mère-enfant. De
plus, en simulant les attitudes et les comportements des bébés, elle permet surtout
d’immerger les salariés du groupe dans la peau de jeunes enfants à différents stades de leur
évolution. Nous sommes ici dans une démarche orientée marché, où la dissémination de
l’information sur les consommateurs vers l’ensemble de l’organisation tient une place
importante. Deux méthodes sont donc principalement utilisées : une expérimentation à
Scwallbach, où les chercheurs peuvent observer et tester les comportements des bébés;
l’ethnographie en France, où les marketeurs font des séjours d’immersion dans des
familles. Des outils quantitatifs d’enquête classiques prennent ensuite le relais à partir des
données collectées dans les maternités.
2. Deux dimensions doivent être prises en considération. Les données issues des appro-
ches qualitatives font l’objet d’analyses de plusieurs ordres : des analyses de contenu par
exemple, afin de faire émerger des thèmes, des discours, mais également un traitement des
• Énoncé À Scwallbach, près de Francfort en Allemagne, plus de 1500 mères de famille fréquentent
chaque semaine le centre d’innovation de Procter & Gamble. Elles viennent prendre des
couches pour les tester et remplissent, en échange, des questionnaires. Dans l’espace de
jeu à disposition, des chercheurs étudient les attitudes et comportements de bébés venus
s’y amuser une partie de leur journée. Plus loin, des pièces au sol très mou – pour simu-
ler la marche d’un tout petit –, et aux meubles géants, mettent les salariés du groupe dans
la peau de jeunes enfants à différents stades de leur évolution. En France, les salariés en
charge du marketing peuvent faire des « séjours d’immersion » dans des familles avec
bébés, se levant la nuit avec les parents. Cette approche visant à scruter les usages et leur
évolution s’inscrit dans une nouvelle démarche qui commence avec la traditionnelle
boîte remise à la maternité. Des mailings prennent ensuite le relais. Les parents d’un pre-
mier enfant sont en général avides d’informations : un site internet de la marque Pam-
pers met en avant conseils et données, des jeux en ligne – très appréciés – pour se mettre
dans la peau d’un bébé, nourrissant débats, échanges, autant d’informations étudiées de
près par les spécialistes de la marque.
1. Quel est le principal intérêt de la démarche de Pampers? Quelle est la méthode utili-
sée, et quels en sont les principaux avantages?
2. Comment, à votre avis, les équipes de Pampers valorisent-elles les données collectées?
Selon vous, à quels outils d’analyse ont-elles recours?
3. Quel type de méthode, complémentaire, pourraient-elles mettre en place? Argumentez.
Livre spss.book Page 23 Vendredi, 25. janvier 2008 12:04 12
24 Analyse de données avec SPSS
données issues de l’expérimentation où il s’agit d’observer l’impact sur certaines variables
d’une variable dont on contrôle les effets. Pour traiter des données d’expérimentation, on
pourra utiliser l’analyse de variance (voir chapitre 4) ou l’analyse conjointe (voir
chapitre 7), par exemple, en fonction des contraintes liées à la nature des variables.
3. Les données issues de la campagne de marketing direct et provenant du site de marque
sont d’une grande richesse et peuvent nourrir de nombreuses analyses. On peut étudier les
retours de la campagne de marketing direct en mettant en relation les profils sociodémo-
graphiques des parents ayant reçu la boîte d’échantillons avec la probabilité d’achat. En ce
qui concerne le site internet, les fichiers logs, ou fichiers regroupant l’ensemble des événe-
ments survenus sur un serveur, peuvent servir de base à des analyses poussées, comme le
fait Amazon.com pour customiser sa page d’accueil en fonction des profils de navigation
des internautes.
EXERCICE 2 L’AUDIENCE DE LA SUPER STAR
* Solution 1. Si l’on avait interrogé 5 000 abonnés de la chaîne, on aurait calculé l’intervalle de
confiance de la manière suivante :
p = 0,368
q = 1 – p = 0,632
Soit : 35,4 % 38,1 %
Le sondage réalisé permet donc d’estimer cette proportion avec une précision absolue de
2,99 % (au degré de confiance 0,95). En augmentant la taille de l’échantillon, on diminue
l’amplitude de l’intervalle de confiance.
• Énoncé Reprenons l’exemple de la mesure d’audience utilisée pour illustrer l’intervalle de
confiance. Un sondeur réalise une étude d’audience par téléphone pour connaître les
caractéristiques sociodémographiques et les comportements des téléspectateurs de la
Super Star, émission de télé-réalité diffusée en prime time sur le câble et le satellite.
Il sélectionne 1 000 numéros de téléphone par tirage aléatoire simple dans la base de
données des abonnés de la chaîne (qui en compte 120 000 sur le câble et 2 100 000 sur le
satellite). On pose l’hypothèse que les 1 000 personnes répondent effectivement aux
enquêteurs. On constate que l’émission absorbe 36,8 % de l’audience des personnes
interrogées de moins de 35 ans, et que le montant moyen dépensé par cette cible en SMS
et appels téléphoniques est de 6,2 €, avec un écart type de 2,2 €.
1. Quel aurait été l’intervalle de confiance si l’étude d’audience avait porté sur 5 000
abonnés de la chaîne?
2. Un annonceur souhaite investir en devenant sponsor de l’émission à condition qu’elle
réalise 40 % d’audience sur les moins de 35 ans. Lui recommanderiez-vous l’investis-
sement publicitaire?
Livre spss.book Page 24 Vendredi, 25. janvier 2008 12:04 12
25Analyser pour décider
Exercices
1Chapitre
2. Dans le cadre de la première étude d’audience, l’intervalle de confiance se situait entre
33,8 % et 39,7 % (au degré de confiance 0,95). La borne supérieure restant en deçà de la
mesure plancher souhaitée par l’annonceur, il n’est donc pas souhaitable de réaliser l’inves-
tissement publicitaire. Il peut être intéressant de refaire le calcul pour un degré de confiance
plus faible, à 0,90 (z = 1,64), à titre d’illustration. On obtient alors les résultats suivants :
Soit : 34,3 % 39,3 %
EXERCICE 3 L’ENQUÊTE « POINT DE VENTE »
• Énoncé Reprenons l’exemple sur les points de vente que nous avons utilisé dans la section 2.2
(pointdevente.sav). Si l’on résume l’ensemble des questions de l’enquête dans le tableau
suivant, on obtient :
• Fréquentez-vous ce point de vente au moins toutes les deux semaines?
• Quel montant moyen dépensez-vous par mois dans ce type de point de vente?
• Seriez-vous prêt à faire vos achats dans ce (nouveau) point de vente?
• À combien estimez-vous le prix moyen d’une paire de chaussures dans ce point de
vente?
• Vous décririez-vous comme un auditeur régulier de radio?
• Quel type de programme de radio écoutez-vous le plus souvent?
• Regardez-vous régulièrement le journal télévisé?
• Quel journal TV regardez-vous le plus fréquemment?
• Lisez-vous la presse quotidienne?
• Quelle rubrique de presse quotidienne lisez-vous le plus souvent?
• Êtes-vous abonné à un titre de presse magazine?
• La décoration de la boutique est importante à mes yeux.
• Je préfère un point de vente situé à moins de 30 minutes de chez moi.
• Je préfère être conseillé(e) par des vendeurs(ses).
• J’aime que les collections soient originales.
• J’aime qu’il y ait de nombreuses références dans les collections.
• J’aime qu’il y ait des marques connues dans les collections.
• Je préfère une décoration sobre.
• Je préfère une décoration sophistiquée.
• Je préfère une musique d’ambiance classique.
• Je préfère une musique d’ambiance rock.
• Quelle est votre année de naissance?
• Quel est votre niveau d’étude?
Livre spss.book Page 25 Vendredi, 25. janvier 2008 12:04 12
26 Analyse de données avec SPSS
* Solution 1. Vous pouvez reprendre le tableau en y incluant le type de variable.
• Quel est votre statut marital?
• En incluant les enfants de moins de 18 ans, quelle est la taille de votre foyer?
• Quels sont approximativement les revenus de votre foyer?
• Quel est votre sexe?
• Possédez-vous une carte de fidélité de l’enseigne?
1. Décrivez le type d’échelle associé à chacune des questions du tableau.
2. Donnez trois exemples de tests que vous pourriez mettre en œuvre à partir de ces
variables.
Fréquentez-vous ce point de vente au moins toutes les deux semaines? Nominale
Quel montant moyen dépensez-vous par mois dans ce type
de point de vente?
Numérique
Seriez-vous prêt à faire vos achats dans ce (nouveau) point de vente? Échelle métrique
À combien estimez-vous le prix moyen d’une paire de chaussures dans
ce point de vente?
Numérique
Vous décririez-vous comme un auditeur régulier de radio? Nominale
Quel type de programme de radio écoutez-vous le plus souvent? Nominale (échelle)
Regardez-vous régulièrement le journal télévisé? Nominale
Quel journal TV regardez-vous le plus fréquemment? Nominale (échelle)
Lisez-vous la presse quotidienne? Nominale
Quelle rubrique de presse quotidienne lisez-vous le plus souvent? Nominale (échelle)
Êtes-vous abonné à un titre de presse magazine? Nominale
La décoration de la boutique est importante à mes yeux. Échelle métrique
Je préfère un point de vente à moins de 30 minutes de chez moi. Échelle métrique
Je préfère être conseillé(e) par des vendeurs(euses). Échelle métrique
J’aime que les collections soient originales. Échelle métrique
J’aime qu’il y ait de nombreuses références dans les collections. Échelle métrique
J’aime qu’il y ait des marques connues dans les collections. Échelle métrique
Je préfère une décoration sobre. Échelle métrique
Livre spss.book Page 26 Vendredi, 25. janvier 2008 12:04 12
27Analyser pour décider
Exercices
1Chapitre
2. De nombreux tests sont envisageables :
a. un tri croisé entre le montant moyen dépensé dans le point de vente et le niveau
d’études par exemple, afin de mettre en évidence un impact de la CSP sur les achats;
b. une analyse typologique afin de classer les individus de l’enquête en fonction de leur
profil de réponse;
c. une analyse de variance multiple (MANOVA) dont l’objet serait d’expliquer le mon-
tant moyen dépensé par une série de variables explicatives comme, par exemple, le
niveau d’études, le statut marital, etc.
Je préfère une décoration sophistiquée. Échelle métrique
Je préfère une musique d’ambiance classique. Échelle métrique
Je préfère une musique d’ambiance rock. Échelle métrique
Quelle est votre année de naissance? Numérique
Quel est votre niveau d’étude? Nominale (échelle)
Quel est votre statut marital? Nominale (échelle)
En incluant les enfants de moins de 18 ans, quelle est la taille
de votre foyer?
Numérique
Quels sont approximativement les revenus de votre foyer? Nominale (échelle)
Quel est votre sexe? Nominale
Possédez-vous une carte de fidélité de l’enseigne? Nominale
Livre spss.book Page 27 Vendredi, 25. janvier 2008 12:04 12
Livre spss.book Page 28 Vendredi, 25. janvier 2008 12:04 12
29
2Décrire
les données
La description des données est une étape importante de la
démarche d’analyse. La plupart des enquêtes se limitent à
cette étape, qui donne un premier niveau de lecture des résul-
tats ou l’identification de certaines relations entre des varia-
bles de l’étude. Cette étape peut servir de fondement, d’une
part, à des analyses plus poussées, dont l’objectif est de sim-
plifier les données (analyses factorielles par exemple), de les
classer (typologies), d’autre part, à des méthodes plus sophis-
tiquées, de nature explicative (régressions, analyses de
variance, analyse conjointe, etc.). Ce chapitre a pour objectif
de présenter les principales méthodes de description des don-
nées afin de produire une première analyse de ces données
collectées lors d’une enquête. Après avoir abordé la nature
des variables, nous étudierons les tris croisés et les principaux
tests statistiques associés, ainsi que les tests d’hypothèses
paramétriques et non paramétriques.
1. Description d’une variable..........30
2. Analyses bivariées.....................36
3. Théorie des tests statistiques........39
Exercices
1. Les tests ....................................45
2. Applications SPSS :
l’enquête « point de vente » .......46
Chapitre
Livre spss.book Page 29 Vendredi, 25. janvier 2008 12:04 12
30 Analyse de données avec SPSS
(1) Description d’une variable
On appelle « variable » l’ensemble des valeurs observées sur les différents individus pour
une caractéristique donnée (Tenenhaus, 1996). Une variable est qualitative dès lors qu’elle
a pour valeur des modalités; elle peut être nominale (lorsque l’ensemble des modalités ne
possède pas de structure particulière) ou ordinale (lorsque l’ensemble des modalités est
ordonné). Une variable est considérée comme quantitative ou métrique lorsque ses moda-
lités peuvent être mesurées (par exemple l’âge, la valeur d’une action, etc.).
1.1 DÉCRIRE UNE VARIABLE QUALITATIVE
La description d’une variable qualitative consiste à présenter les effectifs, c’est-à-dire le
nombre d’individus de l’échantillon pour chaque modalité de la variable, et les fréquen-
ces, c’est-à-dire le nombre de réponses associées aux modalités de la variable étudiée. En
effet, dans de nombreux cas, le chargé d’étude cherche à répondre à une série de questions
ne concernant qu’une seule et même variable.
SPSS Il existe plusieurs possibilités dans SPSS pour décrire les données collectées. On peut par
exemple, dans un premier temps, générer un rapport sur les observations pour s’assurer
qu’elles ne comportent pas d’erreurs de saisie, de valeurs aberrantes
(Analyse > Rapport > Récapitulatif des observations…) ou plus simplement pour prendre
connaissance des variables dans un tableau synthétique, ce qui s’avère souvent utile en
début d’analyse (Outils > variables…).
La procédure Fréquence permet d’obtenir les affichages statistiques et graphiques qui ser-
vent à décrire des variables quantitatives et qualitatives. Pour obtenir un tableau d’effectifs
et de fréquences pour une ou plusieurs variables dans SPSS, ouvrez le fichier de données
« pointdevente.sav », sélectionnez dans le menu Analyse > Statistiques descriptives > Effec-
tifs…, puis procédez à la description de la variable de type nominal marital correspondant
à la question : « Quel est votre statut marital? ». La boîte de dialogue de la figure 2.1
apparaît.
Figure 2.1
Boîte de dialogue
de la procédure
Fréquence.
Figure 2.2
Description de la
variable marital.
Livre spss.book Page 30 Vendredi, 25. janvier 2008 12:04 12
31Décrire les données
2Chapitre
La figure 2.2 correspond à un tri à plat de la variable qualitative marital ; en d’autres ter-
mes, il reprend les effectifs et les fréquences (présentés ici en pourcentage) pour une varia-
ble. L’intérêt du tri à plat est de fournir une description rapide de la variable étudiée. Le
tableau montre immédiatement que 65,8 % des individus de l’échantillon interrogé sont en
couple et que 23,3 % sont célibataires.
Ces résultats peuvent également être visualisés sous forme de graphiques (diagrammes en
bâtons, en secteurs), dans lesquels les surfaces associées aux différentes modalités sont pro-
portionnelles à leur fréquence, exprimée en valeur ou en pourcentage, comme le montre la
figure 2.3.
1.2 DÉCRIRE UNE VARIABLE QUANTITATIVE
Plusieurs critères permettent de décrire une variable quantitative :
• les mesures de la tendance centrale : moyenne, médiane, mode;
• les mesures de la dispersion : étendue, variance, écart type, coefficient de variation;
• les mesures de la distribution : asymétrie, aplatissement;
• les représentations graphiques : histogrammes ou boîtes à moustaches, par exemple.
Mesures de la tendance centrale
Les mesures de la tendance centrale ont pour objet de résumer la série d’observations par
une valeur considérée comme représentative. La plus fréquemment employée est la
moyenne, ou somme des valeurs de toutes les observations divisée par l’effectif; celle que
l’on utilise le plus souvent est la moyenne arithmétique. La moyenne révèle la tendance
centrale en ce sens que les réponses se trouvent réparties de part et d’autre de la moyenne.
Si certaines valeurs sont très éloignées les unes des autres, elles peuvent avoir une influence
importante sur la moyenne. Dans ce cas, il vaut mieux utiliser la médiane, qui n’est pas
sensible aux valeurs aberrantes ou extrêmes (outliers). La médiane représente la valeur au-
dessus et au-dessous de laquelle se situent la moitié des observations, c’est-à-dire le
50e centile (voir focus 2.1 ci-après). Le mode représente la valeur présentant la plus grande
fréquence d’occurrence. Si plusieurs valeurs à la fois présentent la plus grande fréquence
d’occurrence, chacune d’entre elles est un mode.
Figure 2.3
Diagramme en
secteurs des
effectifs de la
variable marital.
Mo = Me = X
Livre spss.book Page 31 Vendredi, 25. janvier 2008 12:04 12
32 Analyse de données avec SPSS
* Focus 2.1 • Les fractiles
Les fractiles sont les valeurs d’une variable quantitative qui divisent les données triées en classes
par centième. Les quartiles (25e, 50e et 75e centiles) divisent les observations en quatre classes
de taille égale. On les définit dans SPSS à partir de la boîte de dialogue Effectifs > Statistiques
(voir figure 1.1), en sélectionnant Partition en n classes égales (n définissant le niveau de par-
tition souhaité). Vous pouvez également spécifier des centiles particuliers (par exemple le
95e centile), autrement dit les valeurs au-dessus de 95 % des observations.
Mesures de la dispersion
Les mesures de la dispersion reposent sur les indicateurs suivants : l’étendue, la variance,
l’écart type et le coefficient de variation. L’étendue (ou intervalle) est la différence entre la
plus grande et la plus petite des valeurs observées. La variance est la mesure de la disper-
sion autour de la moyenne, égale à la somme des carrés des écarts par rapport à la
moyenne, divisée par le nombre d’observations moins un. Lorsque les données se concen-
trent autour de la moyenne, la variance est faible. Si les données sont dispersées autour de
la moyenne, la variance est élevée. Il s’agit d’une mesure plus fine de la dispersion, au sens
où toutes les données sont prises en compte. En revanche, elle est sensible aux valeurs
extrêmes. L’écart type est la mesure de la dispersion autour de la moyenne, exprimée dans
la même unité que la variable. L’écart type est la racine carrée de la variance. On l’écrit de
la manière suivante :
Le coefficient de variation est le rapport de l’écart type à la moyenne ( ), exprimé
en pourcentage. Son objet est de mesurer le degré de variation de la moyenne d’un échan-
tillon à l’autre, lorsque ceux-ci sont issus de la même distribution.
Mesures de la distribution
On mesure la symétrie et la forme de la distribution par l’asymétrie et l’aplatissement.
Ces statistiques sont présentées avec leur erreur standard.
Le coefficient de symétrie (skewness) mesure l’asymétrie d’une distribution. Une distri-
bution normale est symétrique (voir figure 2.4), c’est-à-dire que les valeurs sont les
mêmes de part et d’autre du centre de la distribution, et possède une valeur de skewness
de 0. Une distribution avec un skewness positif significatif est une distribution asymétri-
que à droite (la distribution prend la forme d’une longue queue à droite) et une distribu-
tion avec un skewness négatif significatif est une distribution asymétrique à gauche (la
distribution prend la forme d’une longue queue à gauche). Cette asymétrie s’explique par
le fait que les écarts sont plus importants dans une direction que dans l’autre.
Le coefficient d’aplatissement (kurtosis) permet de mesurer le relief ou la platitude d’une
courbe issue d’une distribution de fréquences. En d’autres termes, le coefficient d’aplatis-
sement permet de mesurer le degré de concentration des observations dans les queues de
la courbe. Le coefficient de kurtosis est de 0 pour une distribution normale (gaussienne).
s
Xi X
n
i
n
=
−
−
=
∑( )†
1
1
Livre spss.book Page 32 Vendredi, 25. janvier 2008 12:04 12
33Décrire les données
2Chapitre
Un kurtosis négatif indique donc que les queues comptent un plus grand nombre d’obser-
vations que dans une distribution gaussienne. Les coefficients de kurtosis et de skewness
peuvent être utilisés pour s’assurer que les variables suivent une distribution normale,
condition nécessaire pour de nombreux tests statistiques. On estime que le coefficient de
symétrie ou skewness doit être inférieur à 1 et le coefficient d’aplatissement ou kurtosis
doit être inférieur à 1,5 pour considérer que la variable suit bien une loi normale.
SPSS Reprenons notre exemple avec SPSS (pointsdevente.sav) : rappelez la boîte de dialogue de
la procédure précédente (Effectifs) en cliquant sur l’icône dans la barre d’outils. Procé-
dez aux mêmes opérations mais cette fois pour la variable montant. Dans la boîte de dialo-
gue Effectifs que vous venez de rappeler, cliquez sur l’onglet Statistiques et cochez les
statistiques de mesure de la tendance centrale, de dispersion et de distribution, puis sélec-
tionnez un graphique (un histogramme avec courbe gaussienne par exemple) pour repré-
senter la distribution.
Les figures 2.5 et 2.6 reprennent les statistiques descriptives de la variable montant.
Figure 2.4
Représentation
d’une distribution
normale.
Figure 2.5
Description de la
variable montant.
Mo = Me = X
Livre spss.book Page 33 Vendredi, 25. janvier 2008 12:04 12
34 Analyse de données avec SPSS
Le montant moyen dépensé dans le point de vente est de 153,51 €, avec un écart type de
91,15 €. Pour 59 répondants, le montant est nul, c’est-à-dire qu’il s’agit de non-clients du
magasin. En termes de dispersion, la variance est élevée (8 307,9) en raison de valeurs
extrêmes importantes, ce qui est confirmé par l’écart type. On constate que l’asymétrie pour
la variable montant est légèrement négative (–0,67).
Représentations graphiques
En ce qui concerne les représentations graphiques, les fréquences peuvent être représentées
par des histogrammes et des graphiques en secteurs, comme nous l’avons vu précédem-
ment. Pour visualiser la répartition des fréquences, les diagrammes en bâtons sont souvent
pertinents.
La réalisation des graphiques dans SPSS s’effectue soit à partir des boîtes de dialogue des
différents tests (dans notre cas, le menu Effectifs), soit directement dans le menu Graphes.
Parmi les options qui vous sont proposées, sélectionnez Boîtes de dialogues héritées dans le
menu Graphes, puis de nouveau la variables montant. Sélectionnez le graphique Boîte à
moustaches, puis, dans Données du diagramme, l’option Analyse par variable (voir
figure 2.7).
Figure 2.6
Représentationd’un
graphique de la
variable montant.
Figure 2.7
Création d’une
boîte à moustaches.
Livre spss.book Page 34 Vendredi, 25. janvier 2008 12:04 12
35Décrire les données
2Chapitre
La boîte à moustaches est une représentation graphique intéressante car elle permet de
récapituler une variable numérique en représentant la médiane, les quartiles et les valeurs
extrêmes. Cliquez sur Définir : on vous propose d’étiqueter les observations en utilisant une
variable de type numérique ou une variable textuelle afin d’identifier les valeurs extrêmes.
Si vous ne choisissez rien, les numéros d’observation serviront à étiqueter ces valeurs. Nous
obtenons le graphique représenté à la figure 2.8.
L’intérêt de cette représentation est qu’elle permet de visualiser de manière compacte la dis-
persion des données. La figure 2.8 montre des valeurs extrêmes qui apparaissent isolées du
graphique. On peut donc observer que le montant dépensé varie entre 444 € (observation
n˚ 43) et 0 € (moustache inférieure), avec une médiane qui partage la boîte centrale et qui
est de 172 €.
Il est possible d’aller plus loin dans la description des variables en sélectionnant les obser-
vations sur lesquelles on souhaite faire porter l’analyse. On peut notamment chercher à
savoir si les hommes dépensent en moyenne plus ou moins que l’ensemble de la population.
Pour ce faire, il faudra filtrer les observations en fonction du sexe des répondants. Dans le
menu Données, appelez la boîte de dialogue Sélectionner les observations puis, dans la
partie Sélectionner, cliquez sur Selon une condition logique. Pour ne sélectionner que les
hommes, vous devez faire glisser la variable sexe en précisant la condition : « sexe = 1 »
(1 étant l’étiquette retenue pour les hommes). Vous obtenez la boîte de dialogue de la
figure 2.9.
Figure 2.8
Représentation de
la variable montant
sous forme de boîte
à moustaches.
Figure 2.9
Boîte de dialogue
Sélectionner des
observations.
Livre spss.book Page 35 Vendredi, 25. janvier 2008 12:04 12
36 Analyse de données avec SPSS
Dans la fenêtre de résultats, on obtient un montant moyen dépensé par les hommes de
155,89 €, avec un écart type de 95,31 €, montants légèrement supérieurs à la dépense
moyenne de l’échantillon. On remarque également que les hommes représentent un peu
plus de la moitié des répondants (204 observations).
(2) Analyses bivariées
L’examen de variables uniques permet une première lecture intéressante des résultats mais
elle ne présente pas de véritable intérêt en termes d’analyse. Les descriptions faites sur les
variables soulèvent toute une série de questions sur leurs relations, qui devront être mises en
lumière en les rapprochant deux à deux dans des analyses bivariées. Les tris croisés, par
exemple, permettent d’examiner les relations entre deux ou plusieurs variables. Ces relations
peuvent être symétriques – l’analyse cherche à mesurer la liaison entre les deux variables et à
en tester la signification –, ou dissymétriques – l’analyse cherche à expliquer les variations
d’une variable dépendante par les variations d’une variable indépendante (Evrard et al.,
2003). Ce dernier cas constituant le plus souvent une occurrence particulière des méthodes
multivariées explicatives (corrélations,ANOVA, etc.), il sera traité dans les chapitres suivants.
2.1 TRIS CROISÉS
Les tableaux croisés à deux ou plusieurs modalités sont en général complétés par des
mesures d’association qui permettent de démontrer la signification statistique d’une asso-
ciation observée entre les variables. Ces tests seront développés dans la section suivante.
Les tris croisés ont pour objet de rassembler dans un tableau unique les distributions de fré-
quences de deux ou plusieurs variables. Ce premier outil d’analyse des relations entre deux
variables, ou relations bivariées, permet de répondre à des questions qui se posent dès l’ori-
gine de l’étude (par exemple : « Les hommes dépensent-ils plus que les femmes sur le point
de vente? »; « Le sexe et les revenus ont-ils une influence sur le montant moyen dépensé? »)
ou de mettre en lumière des relations dont on soupçonne l’existence à l’issue des traitements
réalisés variable par variable. Le principe du tableau croisé est de proposer une ventilation
des fréquences de réponse par variable et par modalité (voir figure 2.10).
SPSS Il existe deux approches pour générer un tableau croisé dans SPSS. Vous pouvez créer un
tableau croisé depuis le menu Analyse > Statistiques descriptives > Tableaux croisés… ou
bien depuis le menu Analyse > Tableaux > Tableaux personnalisés… Nous utiliserons ici la
seconde possibilité. Pour ventiler les montants moyens dépensés en fonction du sexe – nous
avons déjà obtenu les données variable par variable –, faites glisser la variable montant de
la liste des variables vers la zone Lignes du tableau. L’unité d’analyse proposée par défaut
est la moyenne, la variable étant métrique. Puis faites glisser la variable sexe de la liste vers
la zone Colonnes du tableau.
Figure 2.10
Tri croisé du
montant moyen
dépensé en fonction
du sexe.
Livre spss.book Page 36 Vendredi, 25. janvier 2008 12:04 12
37Décrire les données
2Chapitre
Poursuivons l’exploration en introduisant une troisième variable : les revenus. L’introduction
d’une troisième variable est pertinente si elle permet d’affiner l’association entre les deux
variables. Rappelez la boîte de dialogue Tableaux personnalisés et faites glisser la variable
revenus de la liste vers la zone Colonnes du tableau. Le tableau obtenu est relativement dif-
ficile à lire, car trop large. Double-cliquez sur le tableau obtenu dans votre feuille de résul-
tats SPSS pour ouvrir un tableau pivotant. Le tableau pivotant vous permet d’inverser lignes
et colonnes. On obtient la figure 2.11 ci-après.
On constate que les montants moyens dépensés augmentent a priori en fonction des reve-
nus, relation qui apparaît relativement moins évidente en fonction du sexe. Les tris croisés
ne nous permettent pas de déduire quoi que ce soit quant au type de relation existant
entre les variables. Avant de conclure à une éventuelle relation entre le montant moyen
dépensé et les revenus ou le sexe, le chargé d’étude doit donc mesurer la force d’associa-
tion entre ces variables. S’il souhaite étudier l’influence d’une variable sur une autre, il
devra mettre en œuvre le test approprié (voir la section 3 du chapitre).
2.2 TESTS D’ASSOCIATION DE DEUX VARIABLES
Les tris croisés présentent la distribution des fréquences de réponse pour deux ou plu-
sieurs variables mises en relation mais ils ne permettent pas de démontrer l’existence de
cette association du point de vue statistique. Pour mesurer véritablement la relation entre
les variables, il est nécessaire de mettre en place des tests de signification statistique de
l’association. Nous aborderons de manière plus précise la théorie des tests statistiques
dans la section 3 de ce chapitre.
Test du khi-deux
Le test le plus couramment utilisé est celui du khi-deux (χχχχ2), car il consiste à tester la
signification statistique d’une association de deux variables qualitatives (nominales ou
ordinales). Plus précisément, il a pour objet de tester l’indépendance des variables dans un
tableau croisé en comparant la distribution observée (Oij) sur l’échantillon à une distribu-
tion théorique (Tij) qui correspond à l’hypothèse que l’on veut tester. Le χ2 observé sur
l’échantillon se calcule de la manière suivante :
χ2 =
Figure 2.11
Tri croisé du
montant moyen
dépensé en fonction
du sexe et des
revenus.
Livre spss.book Page 37 Vendredi, 25. janvier 2008 12:04 12
38 Analyse de données avec SPSS
La loi du khi-deux suit une distribution asymétrique dont la forme dépend du nombre de
degrés de liberté (DDL). Le nombre de degrés de liberté varie en fonction du nombre de
modalités des variables comparées et se calcule de la manière suivante : n – 1 × p – 1 (avec
n : modalités de la 1re variable et p : modalités de la 2e variable). On rejettera l’hypothèse
nulle (pas d’association entre les variables) si le χ2 calculé est supérieur à la valeur de réfé-
rence du χ2 se trouvant dans la table de khi-deux pour n degrés de liberté (lignes) et pour
un α (niveau de précision donné en colonnes). Pour interpréter la valeur du χ2, il est pré-
férable de se référer au seuil de signification statistique (> 0,05 par exemple) plutôt qu’à la
valeur du χ2 qui varie selon le nombre de degrés de liberté.
Le test du khi-deux s’obtient par la procédure des tableaux croisés vue plus haut
(Analyse > Statistiques descriptives > Tableaux croisés…) et peut être sélectionné dans
le menu Statistiques, comme l’indique la figure 2.12.
Si l’on cherche à établir le profil des clients les plus fidèles en croisant le statut marital et la
possession d’une carte de fidélité, par exemple, le test du khi-deux permettra de définir si
ces deux variables sont indépendantes. Il est important de noter que ce test est assez sensi-
ble à la taille de l’échantillon et que chaque case du tableau doit comporter au moins cinq
observations (voir figures 2.12 et 2.13).
Nous avons créé un tableau croisé dans SPSS selon la procédure présentée plus haut et
sélectionné le test du khi-deux dans le menu Statistiques de la boîte de dialogue Tableaux
croisés. Conformément à ce que nous pouvions penser a priori, la valeur du χ2 est à la fois
élevée et supérieure à la valeur critique correspondant au seuil de signification statistique
de 0,05 (nous obtenons 0,035). Ce résultat nous permet de rejeter Ho (« il n’existe pas de
lien entre les variables ») et de conclure qu’il existe bien une relation entre le statut marital
et la possession d’une carte de fidélité dans la population observée.
Figure 2.12
Boîte de dialogue
du tableau croisé et
test du khi-deux.
Figure 2.13
Tableau croisé des
variables marital/
carte.
Livre spss.book Page 38 Vendredi, 25. janvier 2008 12:04 12
39Décrire les données
2Chapitre
Autres tests
Dans le cas particulier des tableaux carrés ou 2 × 2 (2 lignes et 2 colonnes), qui comparent
deux variables à deux modalités, il est recommandé d’appliquer une correction au χ2, ou
d’utiliser le coefficient phi (φ). Celui-ci correspond à la racine carrée du χ2 divisé par la
taille de l’échantillon, soit :
φ = √(χ2/n)
Le coefficient de contingence (C) peut être appliqué pour des mesures d’association sans
contrainte de taille de tableau. L’indicateur oscille entre une borne inférieure de 0 lorsqu’il
n’y a aucune association (lorsque χ2 = 0) et une borne supérieure inférieure à 1. Cette
valeur maximale du coefficient dépend de la taille du tableau (nombre de lignes × nombre
de colonnes), raison pour laquelle il ne doit être employé que pour comparer des tableaux
de même taille. On le calcule de la manière suivante :
C = √(χ2/χ2+n)
Le V de Cramer est un coefficient normé, c’est-à-dire qu’il peut atteindre 1, quelle que soit
la taille du tableau. Il s’agit d’une version modifiée du coefficient phi (φ). Il est noté :
V =
Le coefficient d’association prédictive (lambda) permet de mesurer le pourcentage
d’amélioration de la valeur d’une variable nominale dépendante en fonction de la valeur
de la variable nominale indépendante, celle-ci étant utilisée comme pivot. Le lambda est
un coefficient dissymétrique, c’est-à-dire que le résultat varie selon la variable qui sert de
pivot (ainsi dans la régression, par exemple).
(3) Théorie des tests statistiques
Les tests statistiques reposent sur le principe d’inférence, c’est-à-dire le fait de procéder à
des généralisations sur les comportements d’une population. Ils sont fondés sur des mesu-
res effectuées sur des variables ou sur des facteurs à partir d’observations réalisées sur un
échantillon de cette population. L’objectif de la statistique dans la logique inférentielle est
donc de tester des hypothèses formulées essentiellement sur la base d’une théorie préexis-
tante ou de résultats antérieurs.
Figure 2.14
Test du khi-deux
des variables
marital/carte.
Livre spss.book Page 39 Vendredi, 25. janvier 2008 12:04 12
40 Analyse de données avec SPSS
3.1 L’HYPOTHÈSE STATISTIQUE
Une hypothèse statistique est un énoncé quantitatif concernant les caractéristiques d’une
population ou, plus précisément, une affirmation portant sur une ou plusieurs variables.
Elle se présente traditionnellement sous la double forme d’une première hypothèse, appe-
lée hypothèse nulle, et d’une seconde hypothèse, appelée hypothèse alternative. Son
objectif est de réfuter l’hypothèse nulle, laquelle concerne le plus souvent un statu quo ou
une absence de différence, au profit de l’hypothèse alternative.
Exemple : on peut poser l’hypothèse nulle Ho qu’il n’existe pas de différence de ventes entre les
points de vente situés en centre-ville et ceux de la périphérie urbaine, et l’hypothèse
alternative H1 qu’elles sont différentes en centre-ville et en périphérie urbaine.
Les tests statistiques étant conçus pour la réfutation d’hypothèses et non pour leur confir-
mation, l’hypothèse alternative est celle qui sera acceptée si l’hypothèse nulle est rejetée.
Accepter une hypothèse revient donc à dire que l’hypothèse est non rejetée plutôt
qu’acceptée, c’est-à-dire que les données recueillies au cours d’une expérience particulière
sont compatibles avec l’hypothèse alternative proposée.
L’objectif de l’analyse de données est donc de prendre une décision : en l’occurrence, reje-
ter ou non l’hypothèse nulle Ho. Les tests étant fondés sur des informations incomplètes
issues d’observations portant sur un échantillon de la population, il est nécessaire de défi-
nir le seuil de signification du test, seuil formulé en pourcentage de chances de rejeter
l’hypothèse nulle alors qu’en réalité celle-ci était vraie. Le seuil de signification est habi-
tuellement noté α et exprimé en pourcentage. Le choix du seuil est lié au niveau de risque
accepté (1 % ou 5 % étant les valeurs usuelles). Son complément (1 – α ), appelé seuil de
confiance, correspond au pourcentage de cas où on acceptera l’hypothèse nulle à juste
titre. On appelle erreur de type I le fait de rejeter, à la suite des résultats d’un test statisti-
que, une hypothèse qui serait en réalité vraie (condamner un innocent) et erreur de
type II l’erreur liée au fait d’accepter une hypothèse qui serait en réalité fausse (innocenter
un coupable). La probabilité de commettre ce type d’erreur est notée β ; on appelle puis-
sance du test son complément (1 – β), lequel correspond à la probabilité de rejeter une
hypothèse qui serait réellement fausse (voir tableau 2.1).
Bien que l’α établisse le niveau de signification du test, c’est la puissance du test (1 – β) qui
donne une estimation de la probabilité de trouver des différences significatives – si elles
existent – dans les données. Pourquoi, dès lors, ne pas prendre en compte l’α et le β en
tant que niveaux de confiance? La raison évoquée est que l’erreur de type I et l’erreur de
Tableau 2.1 : Types d’erreurs dans un test statistique
Situation dans la population
Ho vraie Ho fausse
Décision
Ho acceptée
Décision correcte
(seuil de confiance = 1 – α)
Erreur de type II
(ββββ)
Ho rejetée
Erreur de type I
(seuil de signification = αααα)
Décision correcte
(puissance du test = 1 – ββββ)
Livre spss.book Page 40 Vendredi, 25. janvier 2008 12:04 12
41Décrire les données
2Chapitre
type II sont inverses : plus l’erreur de type I devient restrictive (proche de 0) et plus la pro-
babilité d’une erreur de type II augmente; de même, réduire l’erreur de type I réduit la
puissance du test. L’analyste doit donc trouver le juste équilibre entre le degré de
confiance (α) et la puissance du test qui en résulte. La seule manière de faire baisser
simultanément α et β est d’augmenter la taille de l’échantillon étudié.
3.2 LES TESTS D’HYPOTHÈSES
Les tests d’hypothèses, ou tests d’inférence, ont pour objectif de mesurer l’effet d’une
variable indépendante sur une variable dépendante, en fonction du nombre d’échan-
tillons et en fonction de la nature des variables étudiées. On nomme tests paramétriques
les approches reposant sur des données métriques (et par suite sur des paramètres connus
tels que la moyenne ou l’écart type, par exemple), et tests non paramétriques les appro-
ches reposant sur des données non métriques (et qui, par suite, peuvent s’affranchir de
conditions de distribution particulières). Les tests non paramétriques étant peu sensibles à
la taille de l’échantillon et aux données aberrantes, ils sont utilisés en marketing où les
échantillons peuvent parfois être de petite taille (moins de 30 individus). Le nombre
d’échantillons joue également un rôle important dans le choix du test approprié. En effet,
deux situations doivent être distinguées : lorsque l’on étudie deux populations distinctes
sur une même variable, on parle de mesures indépendantes (comparer les clients et les
non-clients); et lorsque les mêmes individus sont mesurés sur une même variable dans
deux situations distinctes, on parle de mesures appariées (comparer les niveaux de prix à
deux périodes distinctes). Ces éléments affectent de manière importante les statistiques de
tests (voir figure 2.15).
Figure 2.15
Tests paramétriques
et tests non
paramétriques
(Malhotra et al.,
2007).
Tests
non paramétriques
Tests d’hypothèses
Tests paramétriques
Échantillon
unique
Deux
échantillons
ou plus
Échantillon
unique
Deux
échantillons
ou plus
- Test t
- Test z
- Khi-deux
- Kolmogorov
- Smirnov
- Séquenes
- Binomial
- Test t à deux
classes
- Test z
- Extension
du test t
- Khi-deux
- Mann
- Whitney
- Médiane
- Kolmogorov
- Smirnov
- Signe
- Wilcoxon
- McNemar
- Khi-deux
Échantillons
indépendants
Échantillons
appariés
Échantillons
indépendants
Échantillons
appariés
Livre spss.book Page 41 Vendredi, 25. janvier 2008 12:04 12
42 Analyse de données avec SPSS
3.3 TESTS PARAMÉTRIQUES
Les deux principaux tests paramétriques sont le test t et le test Z, qui ont pour objet de tes-
ter des différences de moyenne. Ces tests sont souvent mis en œuvre en marketing, car ils
permettent, par exemple, de comparer la moyenne d’une variable dépendante métrique
en fonction des modalités d’une variable nominale. On formule alors une hypothèse nulle
qui sera vérifiée par le test t ou le test Z. Pour plus de simplicité, ces deux tests sont présen-
tés ici pour des échantillons uniques.
Test t
Le test t est directement lié à la statistique t de Student, qui suppose que la variable adopte
une distribution normale, que la moyenne soit connue et que la variance, lorsqu’elle est
inconnue, soit estimée sur l’échantillon. On le calcule de la manière suivante :
Dans SPSS, ce test paramétrique peut être estimé avec la procédure suivante : menu
Analyse > Comparer les moyennes > Test T pour échantillon unique…, procédure que
nous avons utilisée au chapitre 1 pour estimer l’intervalle de confiance. Pour comparer les
moyennes de deux échantillons indépendants (comparaison des clients et des non-clients
par exemple), on utilisera une analyse de variance (ANOVA) à 1 facteur (voir chapitre 4).
Pour comparer les moyennes de deux échantillons appariés (comparaison de relevés de
prix à deux périodes distinctes par exemple), on suivra une extension du test t pour
échantillons appariés qui est disponible dans la même boîte de dialogue.
Test Z
Le test Z peut être mis en place lorsque la variance de l’échantillon est connue. La valeur
de Z s’obtient par la formule suivante :
Z = où : est l’écart type de la population
Ce test peut également être étendu pour tester des proportions.
3.4 TESTS NON PARAMÉTRIQUES
Les tests non paramétriques sont souvent mis en œuvre dans la pratique en marketing : ils
s’appliquent aux variables qualitatives et s’avèrent relativement performants sur de petits
échantillons, même s’ils sont moins puissants que les tests paramétriques. Voici les princi-
paux tests paramétriques présentés ici : un test d’ajustement (le test de Kolmogorov-
Smirov), des tests de comparaison d’échantillons indépendants (le test U de Mann-
Whitney et le test de la médiane), ainsi que des tests de comparaison d’échantillons
appariés (le test de Wilcoxon, le test du signe et le test de McNemar).
• Test de Kolmogorov-Smirov (K-S)
t =
: moyenne de l’échantillon
Où : : moyenne de la variable
: variance de l’échantillon
X sX
−( )µ /
Livre spss.book Page 42 Vendredi, 25. janvier 2008 12:04 12
43Décrire les données
2Chapitre
Le test de Kolmogorov-Smirov est un test dit d’ajustement, car il permet d’établir si une
population donnée suit une distribution particulière (normale, uniforme ou poisson
par exemple), condition exigée par de nombreux tests. Le K-S est calculé à partir de la
plus grande différence (en valeur absolue) entre les fonctions de distribution théorique
et observée cumulées :
K = Max |Ai-Oi|
Le K-S pour un échantillon s’obtient dans SPSS à partir du menu Analyse > Tests non
paramétriques > K-S à 1 échantillon…
• Test U de Mann-Whitney
Le test de Mann-Whitney permet de vérifier que deux échantillons (ou groupes) pro-
viennent bien de la même population. On peut l’utiliser, par exemple, pour comparer
les réponses dans un département par rapport aux réponses nationales. La statistique
du test U réunit les deux échantillons et ordonne les observations par ordre croissant
de taille. Le test calcule le nombre de fois où un résultat du groupe 1 précède un résul-
tat du groupe 2, ainsi que le nombre de fois où un résultat du groupe 2 précède un
résultat du groupe 1. U est d’autant plus petit que les groupes sont différents.
Pour calculer le U de Mann-Whitney dans SPSS, il faut d’abord définir la variable qui
servira à scinder les données en deux échantillons : Analyse > Test non
paramétrique > 2 échantillons indépendants…, puis sélectionner une variable de
regroupement (Facteur) et cliquer sur Définir les niveaux. Pour définir les groupes,
vous devez indiquer les valeurs pour le groupe 1 et celles pour le groupe 2. Sélectionnez
ensuite le test U de Mann-Whitney dans la boîte de dialogue.
• Test de la médiane
Ce test, moins puissant que le U de Mann-Whitney, permet de déterminer si deux
groupes sont issus de populations ayant la même médiane, en estimant la position de
chaque observation par rapport à la médiane globale des deux échantillons.
Pour calculer le test de la médiane dans SPSS, vous devez suivre la procédure suivante :
Analyse > Test non paramétrique > K échantillons indépendants…, puis sélection-
ner le test de la médiane dans le menu du type de test envisagé.
• Test de Wilcoxon
Le test de Wilcoxon est utilisé dans le cas de la comparaison de deux échantillons appa-
riés, c’est-à-dire lorsque l’on souhaite, par exemple, comparer deux types de réponses :
avant/après l’exposition à un message publicitaire, attitude par rapport à une marque A
et une marque B, etc. La statistique z du test de Wilcoxon s’obtient en calculant la diffé-
rence entre les scores des deux observations par paires d’observations, puis en calculant
le rang de toutes les différences, et enfin la somme des rangs positifs et des rangs néga-
tifs. On rejette l’hypothèse nulle (absence de différence entre les deux groupes) s’il y a
une différence entre la somme des rangs positifs et la somme des rangs négatifs. Le sens
de la statistique indique le sens de la différence de la paire examinée.
Dans SPSS, ouvrez le menu Analyse > Test non paramétrique > 2 échantillons liés…,
puis sélectionnez le test que vous souhaitez mettre en œuvre (Wilcoxon, Signe, McNe-
mar), comme le montre la figure 2.16.
• Test du signe
Le test du signe est relativement proche du test de Wicoxon, mais il est plus limité et par
suite moins puissant. Il ne s’attache en effet qu’à une comparaison des signes des diffé-
rences, sans procéder à un classement comme le fait le test de Wilcoxon.
Livre spss.book Page 43 Vendredi, 25. janvier 2008 12:04 12
44 Analyse de données avec SPSS
• Test de McNemar
Le test de McNemar peut également être mis en œuvre dans le cas d’échantillons appa-
riés, pour comparer les valeurs de deux variables dichotomiques (à deux dimensions).
Résumé
Première étape de l’analyse à proprement parler, la description des données permet de
représenter les valeurs observées sur les différents individus de l’échantillon. L’analyse
univariée, qui examine une seule variable à la fois, repose sur la description (fréquences,
tendance centrale, dispersion, distribution) et la visualisation graphique des variables,
ainsi que sur l’inférence, c’est-à-dire la comparaison à des valeurs déterminées. L’analyse
bivariée permet d’aller plus loin par l’étude des relations entre deux variables, grâce aux
tris croisés et aux principaux tests d’analyse bivariée : tests d’association (khi-deux) et
tests de comparaison (test t, test K-S, test U de Mann-Whitney, etc.). Pour aller encore
plus loin dans l’analyse, le chargé d’étude devra mettre en place des analyses multivariées,
lesquelles seront abordées dans les chapitres suivants.
Pour aller plus loin
Evrard Y., Pras B., Roux E., Market. Études et recherche en marketing, Nathan, Paris, 2003.
Hair J. F., Anderson R. E., Tatham R. L., Black W. C., Multivariate Data Analysis, Prentice
Hall International, New Jersey, 2007.
Malhotra N., Decaudin J. M., Bouguerra A., Études marketing avec SPSS, 5e éd., Pearson
Education, Paris, 2007.
Tenenhaus M., Méthodes statistiques en gestion, Dunod, Paris, 2006.
Figure 2.16
Boîte de dialogue
des tests de
comparaison de
deux échantillons
appariés.
Livre spss.book Page 44 Vendredi, 25. janvier 2008 12:04 12
45Décrire les données
Exercices
2Chapitre
Exercices
EXERCICE 1 LES TESTS
• Énoncé Répondez aux questions suivantes.
1. Quel(s) test(s) recommanderiez-vous à un chargé d’étude souhaitant comparer
l’intention d’achat d’un produit avant et après son exposition dans un film
publicitaire?
2. Une compagnie de téléphonie mobile cherche à déterminer les principaux facteurs
explicatifs de l’attrition, c’est-à-dire de la résiliation de l’abonnement en faveur d’un
concurrent. En complément des données dont l’entreprise disposait dans sa base de
données, une étude par téléphone a été commandée auprès d’un institut pour inter-
roger les clients et les anciens clients. Interprétez les résultats mentionnés dans le
tableau suivant.
……Item Clients Anciens clients Signification
Âge moyen 47,6 ans 22,1 ans ,000
Durée de l’abonnement 7,1 ans 1,3 ans ,000
Possession d’un abonnement fixe 87 % 85 % ,372
Possession d’un abonnement Internet 72 % 79 % ,540
Possession d’un deuxième téléphone portable 13 % 23 % ,025
Degré de satisfaction* exprimé :
– qualité globale du service
5,5 4,9 ,459
– couverture du réseau 6,1 5,8 ,248
– qualité des communications 5,5 2,3 ,031
– qualité du centre d’appel 6,3 5,9 ,462
– options de l’abonnement 5,7 3,2 ,001
– nombre de SMS dans l’abonnement 5,8 5,2 ,659
– prix de l’abonnement 6,1 4,0 ,001
– coût total mensuel de l’abonnement 5,2 4,8 ,001
* Mesuré sur une échelle de Likert en 7 points.
3. Quel test pourriez-vous mettre en place pour en apprendre davantage sur les deux
derniers items du tableau ci-dessus : « prix de l’abonnement » et « coût total mensuel
de l’abonnement »?
Livre spss.book Page 45 Vendredi, 25. janvier 2008 12:04 12
46 Analyse de données avec SPSS
* Solution 1. Dans ce cas de figure, le chargé d’étude doit comparer la moyenne des réponses de deux
échantillons à deux périodes distinctes, en d’autres termes avant et après l’exposition du
produit dans un message publicitaire. Il s’agit donc d’une mesure sur échantillons appa-
riés. Il pourra, par exemple, mettre en œuvre une extension du test t.
2. Les résultats de l’enquête comportent 7 résultats significatifs à un degré de confiance de
95 %. On peut donc conclure que les abonnés ayant préféré la concurrence sont en général
plus jeunes et que leur abonnement était plus récent que celui des abonnés interrogés. En
outre, ils sont plus nombreux à posséder un second téléphone portable et sont relative-
ment moins satisfaits de la qualité des communications, des options de leur abonnement
ainsi que du prix et du coût global mensuel de l’abonnement que les abonnés interrogés.
3. On peut réaliser un tri croisé des deux variables qualitatives et procéder à un test de khi-
deux pour savoir si les deux variables sont liées. Comme nous n’avons aucune information
sur le nombre d’observations, nous ne sommes pas certains de pouvoir respecter la condi-
tion de 5 observations par case du tableau. En outre, il est possible de procéder à un test
sur échantillons appariés pour comparer les réponses aux deux questions : un test de
Wicoxon serait alors approprié.
EXERCICE 2 APPLICATIONS SPSS : L’ENQUÊTE « POINT DE VENTE » 2
• Énoncé Reprenons l’enquête sur le point de vente abordée dans la partie théorique de ce chapi-
tre. Notre chargé d’étude cherche à en savoir davantage sur les données dont il dispose.
Afin de progresser dans la maîtrise de l’outil SPSS, ouvrez le fichier « pointdevente.sav »
disponible sur le site de l’ouvrage, et accompagnez le chargé d’étude dans sa réflexion en
répondant aux questions suivantes.
1. Nous souhaitons en savoir un peu plus sur les répondants à l’enquête. Vous devez par
conséquent poursuivre la description des variables de l’enquête que nous avons amor-
cée. Que pouvez-vous dire à propos des variables suivantes :
a. progradio?
b. édition TV?
c. rubrikpress?
2. Quel est le profil type du client de ce point de vente? Que pouvez-vous en conclure sur
le type de magasin dont il s’agit?
3. L’enseigne mise sur ses clients les plus fidèles. L’équipe du magasin considère en effet
que les clients ayant la plus forte intention d’effectuer leurs achats dans le magasin
sont également ceux qui sont susceptibles de dépenser le plus. L’équipe a-t-elle raison
de penser de la sorte? Combien ces clients sont-ils susceptibles de dépenser pour un
tee-shirt? Les prix moyens affichés dans le magasin étant de 9 €, qu’en concluez-vous?
4. L’enquête s’intéresse également aux goûts des clients potentiels. Nous avons lancé des
pistes en ce qui concerne les prix, mais pouvez-vous aider l’équipe marketing du
magasin à choisir la bonne musique d’ambiance : plutôt rock ou plutôt classique?
Livre spss.book Page 46 Vendredi, 25. janvier 2008 12:04 12
47Décrire les données
Exercices
2Chapitre
* Solution 1. Ces trois variables sont des variables qualitatives (nominales) et nous souhaitons les
décrire. Il faut donc appeler la boîte de dialogue Effectifs dans le menu Analyse, puis le
sous-menu Statistiques descriptives… Nous ne représenterons ici que la variable progra-
dio, qui correspond à la question : « Quel type de programme radio écoutez-vous le plus
souvent? » et qui peut être décrite de la manière suivante (voir figure 2.17).
Nous avons choisi de représenter la variable progradio d’une façon relativement simple, en
ne demandant que les effectifs, les pourcentages ainsi que le mode. Le mode représentant la
valeur la plus fréquemment obtenue pour chaque modalité, le résultat est confirmé dans le
tableau ci-dessus où la radio rock est la plus fréquemment écoutée (39,8 % des réponses).
On peut également représenter la variable par un diagramme bâtons (voir figure 2.18).
2. Pour établir le profil type du client de ce point de vente, il est nécessaire de décrire un
certain nombre de variables de catégorisation, tels l’âge, le sexe (nous avons déjà décrit
cette variable dans la partie théorique du chapitre), les revenus, le niveau d’études, etc.
Dans le jeu de données, seule l’année de naissance est disponible. Il faut donc transformer
cette variable afin de définir l’âge des répondants. Dans le menu Transformer, ouvrez la
boîte de dialogue Calculer la variable. Pour calculer l’âge des répondants, il suffit de reti-
rer l’âge de chaque répondant à l’année actuelle (2008) comme le montre la figure 2.19.
Figure 2.17
Effectifs de la
variable progradio.
Figure 2.18
Diagramme bâtons
de la variable
progradio.
Livre spss.book Page 47 Vendredi, 25. janvier 2008 12:04 12
48 Analyse de données avec SPSS
Nous appelons AGE la nouvelle variable créée. On peut maintenant calculer l’âge moyen
des répondants (voir figure 2.20).
Décrivons maintenant les revenus ainsi que le niveau d’études des répondants (voir
figures 2.21 et 2.22).
Pour conclure rapidement, on peut dire que l’âge moyen du répondant est de 39,33 ans, qu’il
s’agit de ménages aisés (seuls 29 % des foyers gagnent moins de 50 000 € annuels), ayant fait
des études supérieures (plus de 80 % ont au moins une licence).Si l’on complète en incorpo-
rant les éléments vus dans la partie cours, on peut également dire qu’il s’agit aussi bien
d’hommes que de femmes, et que le montant moyen mensuel dépensé dans le magasin est
relativement élevé (pour en savoir plus, il faudrait mettre en place une analyse typologique).
Il pourrait s’agir d’une enseigne de prêt-à-porter moyen de gamme, même si les données
dont nous disposons sont relativement limitées pour ce genre de conclusion.
3. Pour apporter une réponse à l’équipe marketing du magasin, il faut d’abord sélection-
ner les répondants qui nous intéressent. Allez dans le menu Données > Sélectionner des
observations… Sélectionnez les observations de la variable intention (« Seriez-vous prêt à
faire vos achats dans ce point de vente? ») selon la condition logique : intention = 5
Figure 2.19
Boîte de dialogue
Calculer une
variable.
Figure 2.20
Âge des
répondants.
Figure 2.21
Revenus des
répondants.
Livre spss.book Page 48 Vendredi, 25. janvier 2008 12:04 12
49Décrire les données
Exercices
2Chapitre
(5 étant le score de la plus haute intention d’achat). Une fois que vous avez cliqué sur OK,
les autres observations sont barrées dans l’éditeur de données. Nous cherchons donc à cal-
culer la moyenne des dépenses du groupe des répondants ayant la plus forte intention
d’achat, en essayant d’établir s’ils sont prêts à payer plus que la moyenne des clients du
magasin (on suppose ici que le prix moyen est le prix affiché). Il s’agit d’un test t sur
échantillon unique où la valeur comparée sera le prix affiché (p = 9). Les résultats appa-
raissent dans les tableaux de la figure 2.23.
Les clients ayant la plus forte intention d’achat dépensent en moyenne plus de 18 € pour
un tee-shirt, soit plus du double du prix affiché. Ces résultats sont significatifs (p < 0.05),
ce qui signifie que la différence moyenne constatée (+9,13 € ) est statistiquement diffé-
rente du prix moyen affiché. Une piste pour élargir la fourchette des prix pratiqués?
4. On peut comparer les réponses à deux questions mesurées de la même manière par le
biais d’un test t pour échantillons appariés, ou bien en mettant en place un test de Wil-
coxon si l’on préfère un test non paramétrique. Attention! Vous devez sélectionner de
nouveau l’ensemble des répondants. Les tableaux de la figure 2.24 présentent les statisti-
ques et les résultats du test t.
Figure 2.22
Desription du
niveau d’études des
répondants.
Figure 2.23
Comparaison de
moyenne de la
variable prix.
Livre spss.book Page 49 Vendredi, 25. janvier 2008 12:04 12
50Décrire les données
Exercices
2Chapitre
Le premier tableau reprend les moyennes de réponses ainsi que les statistiques associées.
On constate que la préférence va à la musique rock. Le second tableau permet de rejeter
l’hypothèse nulle relative à l’égalité des deux mesures. Il existe donc une préférence signi-
ficative pour une musique d’ambiance de type rock.
On peut également obtenir ces résultats en utilisant le test de Wilcoxon comme l’indiquent
les résultats reportés sur la figure 2.25.
Le test de Wilcoxon confirme le résultat précédent. Le sens de la statistique confirme éga-
lement le sens de la différence examinée, en faveur du second élément de la paire : la musi-
que rock.
Figure 2.24
Statistiques et test t
sur échantillons
appariés.
Figure 2.25
Rangs et test de
Wilcoxon sur
échantillons
appariés.
Livre spss.book Page 50 Vendredi, 25. janvier 2008 12:04 12
51
3Simplifier
les données
La simplification ou l’agrégation des données est fondamen-
tale, elle sert à identifier les différentes dimensions d’un con-
cept. L’analyse factorielle est utilisée pour décrire les données
en un nombre agrégé de facteurs. Elle traduit une matrice de
nombres difficile à lire par une série de tableaux plus simples,
représentés sous forme de graphiques.
Les principes de validation d’une échelle de mesure : les notions
de validité et de fiabilité sont tout d’abord exposés. Ensuite,
nous présentons l’analyse factorielle et ses applications.
1. Principes de validation
d’une échelle de mesure.............52
2. L’analyse factorielle ...................54
Exercices
1. Analyse d’une AFC....................68
2. Analyse de la validité
et de la fiabilité .........................70
3. Générer une carte perceptuelle
par l’AFC..................................72
Chapitre
syntex.fm Page 51 Vendredi, 25. janvier 2008 4:55 16
52 Analyse de données avec SPSS
(1) Principes de validation
d’une échelle de mesure
Nous avons vu dans le chapitre 1 que les concepts étaient mesurés avec plusieurs questions
ou items. Par exemple, pour estimer l’attitude du client à l’égard d’un produit, le chargé
d’étude pose des questions qui permettent de bien saisir les différentes facettes de ce
concept (part affective, cognitive, etc..). Ensuite, il faut vérifier que ces différentes ques-
tions ou items mesurent bien ce que l’on cherche à mesurer, afin d’obtenir au final des
résultats plus proches de la réalité.
Dans l’article intitulé « Un paradigme pour développer de meilleures mesures des cons-
truits marketing », Churchill (1979) propose une procédure pour renforcer la validité et la
fiabilité des mesures. Après avoir sélectionné des échelles (jeu d’items pour mesurer un
concept), il s’agit, dans un premier temps, de les soumettre à l’analyse factorielle explora-
toire puis au test de la fiabilité 1.
1.1 LA VALIDITÉ D’UNE ÉCHELLE DE MESURE
La validité d’une échelle de mesure désigne sa capacité à appréhender un phénomène
(Hair et al., 2006). Les tests de validité ont pour objectif de vérifier si les différents items
d’un instrument sont une bonne représentation du phénomène étudié : mesure-t-on ce
que l’on cherche à mesurer? (Evrard et al., 2003).
La validité prend plusieurs formes; il existe donc plusieurs techniques pour la vérifier :
• la validité faciale ou de contenu : il s’agit de savoir si la mesure capture les différents
aspects du phénomène étudié. Elle est fondée sur le jugement du chercheur et de ses
pairs. Par exemple, lors du test du questionnaire, des experts du domaine peuvent
émettre un avis sur la capacité des items à recouvrir tous les aspects d’un concept;
• la validité de trait ou de construit : est-ce que les différents indicateurs offrent une
bonne représentation du phénomène étudié ? Il faut vérifier si les indicateurs censés
mesurer le même phénomène sont corrélés (validité convergente) et s'ils se distinguent
des indicateurs censés mesurer des phénomènes différents (validité discriminante)
(Evrard et al., 2003) :
– la validité convergente est établie lorsque les mesures d’un même construit sont
corrélées;
– la validité discriminante est destinée à s’assurer que les indicateurs de mesure d’un
construit sont faiblement corrélés aux indicateurs de mesure d’autres construits,
conceptuellement distincts du premier. L’analyse factorielle exploratoire (AFE) per-
met de tester ces deux validités;
• la validité nomologique ou prédictive résulte de la conformité des relations entre les
mesures d’un concept et celles d’autres concepts avec les prédictions de la théorie (Evrard
et al., 2003). Cette étape de validation intervient au cours de la phase confirmatoire.
1. Puis, dans une phase de validation, les échelles modifiées après suppressions d’énoncés subissent une deuxième fois ces procédures, on parle
d’analyse confirmatoire. Cette seconde étape vise à connaître les qualités psychométriques des instruments de mesure.
Livre spss.book Page 52 Vendredi, 25. janvier 2008 12:04 12
53Simplifier les données
3Chapitre
1.2 LA FIABILITÉ D’UNE ÉCHELLE DE MESURE
La fiabilité correspond au degré avec lequel les instruments utilisés mesurent de façon
constante le construit étudié (Evrard et al., 2003). Par conséquent, une échelle est fidèle si
l’on retrouve plusieurs fois les mêmes résultats sur les mêmes sujets. Trois méthodes per-
mettent de tester la fiabilité d’une mesure :
• la méthode du « test/retest » : le questionnaire est administré deux fois à la même
population et les résultats obtenus sont comparés. Cette technique est particulièrement
appropriée pour la mise au point d’instrument de mesure;
• la méthode du « Split half », ou des deux moitiés : le questionnaire est administré au
même moment à des échantillons différents (l’échantillon est scindé en deux) et les
résultats sont comparés. Il existe cependant un risque de sélection; les deux échan-
tillons sont-ils appariés? se ressemblent-ils?
• la technique des formes alternatives : il s’agit d’introduire dans le questionnaire plusieurs
questions sur le même phénomène mais formulées différemment. Le questionnaire est
administré aux mêmes individus.Le coefficient alpha de Cronbach est calculé pour vérifier
si les énoncés partagent des notions communes, et s’ils sont en cohérence entre eux.
* Focus 3.1 • Estimer la fiabilité avec le coefficient alpha de Cronbach
L’alpha de Cronbach est un coefficient de fiabilité qui mesure la cohérence interne d’une échelle
construite à partir d’un ensemble d’items. La pratique consiste à réduire un grand nombre
d’items initiaux dans un processus itératif de conservation/élimination des items en fonction de
la valeur du coefficient alpha, qui varie entre 0 et 1. Plus la valeur de l’alpha est proche de 1,
plus la cohérence interne de l’échelle (sa fiabilité) est forte. On élimine donc les items qui dimi-
nuent le score, et on conserve ceux qui contribuent à augmenter l’alpha. L’examen de l’alpha de
Cronbach évite au chargé d’étude de tomber dans un travers fréquent qui consiste à reprendre
un questionnaire existant sans se préoccuper de ses problèmes de mesure.
Le seuil d’acceptabilité de l’alpha varie selon l’objectif de la recherche. Pour une étude
exploratoire, un coefficient plus faible est acceptable (0,7) alors que dans le cadre d’une
recherche fondamentale, il doit être plus élevé (> 0,8) (Nunnally et Bernstein, 1994).
Lorsqu’une échelle est utilisée pour comparer des groupes, un alpha de 0,8 est satisfaisant,
et il est inutile d’essayer d’obtenir un niveau supérieur. De Vellis (2003) propose une typo-
logie (voir tableau 3.1).
Tableau 3.1 : Les valeurs de l’alpha de Cronbach
< 0,6 Insuffisant
entre 0,6 et 0,65 Faible
entre 0,65 et 0,7 Minimum acceptable
entre 0,7 et 0,8 Bon
entre 0,8 et 0,9 Très bon
> 0,9 Considérer la réduction du nombre d’items
Livre spss.book Page 53 Vendredi, 25. janvier 2008 12:04 12
54 Analyse de données avec SPSS
Il existe une relation entre le nombre d’items et la valeur de l’alpha : un nombre restreint
d’items (de deux à trois) donne un alpha généralement plus faible (0,6) qu’une mesure de
quatre énoncés (0,7). Au-delà de 0,9, l’alpha risque, en revanche, de traduire davantage
une redondance inter-items, appauvrissant ainsi le domaine conceptuel étudié (Peterson,
1995). Il est, par conséquent, recommandé de ne pas dépasser le seuil de 0,9.
Le logiciel SPSS fournit les niveaux du coefficient d’alpha de l’échelle lorsque chaque item
est supprimé. Les items dont la suppression améliore sensiblement le coefficient ne sont
généralement pas retenus si la validité de contenu ne s’en trouve pas amoindrie.
* Focus 3.2 • Le traitement des items inversés
La conception d’un questionnaire demande des précautions (plusieurs items, non-réponse pos-
sible, clarté de la question, ordre des questions, etc.) car la formulation des questions peut
influencer la mesure d’un concept. L’inversion d’item est souvent employée pour s’assurer de la
validité et de la fiabilité de la mesure (par exemple, la satisfaction à l’égard d’un service est
mesurée par un item : « je suis pleinement satisfait par ce service » et un autre, inversé, « ce
service ne me satisfait pas pleinement »).
Nous cherchons à évaluer dans quelle mesure les items utilisés sont de bons indicateurs des
concepts qu’ils sont censés mesurer. Pour cela, il est généralement conseillé de réaliser une
analyse factorielle exploratoire pour vérifier que les items se « regroupent » bien de la manière
prévue, et de calculer ensuite le coefficient alpha de Cronbach qui évalue la fiabilité de chaque
échelle (Churchill, 1979).
(2) L’analyse factorielle
L’analyse factorielle est une méthode exploratoire d’analyse des tableaux de contingence
développée essentiellement par J.-P. Benzecri durant la période 1970-1990. Elle désigne un
ensemble de méthodes statistiques multivariées dont le principal objectif est de définir la
structure des corrélations entre un grand nombre de variables (par exemple, les réponses à
un questionnaire) en déterminant un ensemble de dimensions communes appelés facteurs.
2.1 LES UTILISATIONS DE L’ANALYSE FACTORIELLE
L’analyse factorielle sert à identifier les dimensions de la structure et à déterminer dans
quelle mesure chaque variable peut expliquer chaque dimension.
Les deux objectifs de l’analyse factorielle sont :
• Résumer les données. L’analyse factorielle fait ressortir les dimensions sous-jacentes
qui, une fois interprétées, décrivent les données de manière synthétique.
• Réduire les données. Elle calcule des scores pour chaque dimension et les substitue aux
variables originelles.
Alors que dans les autres méthodes (régressions, analyse de variance, etc.) les variables
sont considérées comme des variables soit dépendantes, soit indépendantes, dans l’analyse
factorielle, toutes les variables sont considérées chacune par rapport aux autres. Les fac-
teurs sont formés pour maximiser l’explication de l’ensemble des variables et non pour
prédire des variables dépendantes. Dès lors, l’analyse factorielle est appropriée dans une
optique exploratoire (analyse factorielle exploratoire ou AFE).
Livre spss.book Page 54 Vendredi, 25. janvier 2008 12:04 12
55Simplifier les données
3Chapitre
EXEMPLE Les critères importants dans l’évaluation d’un club de sport
Dans une enquête sur les attentes des clients vis-à-vis de leur salle de sport, on interroge les
individus sur une vingtaine de critères. L’analyse factorielle sert à regrouper les attentes en
trois ou quatre points plus simples. Elle agrège les variables en facteurs ou combinaisons de
variables. L’objectif est de rendre l’information plus synthétique et facile à lire sur une carte
factorielle (voir tableaux 3.2 et 3.3).
À titre d’exemple, le confort, les aspects défoulement, dynamisme et santé représentent peut-
être en fait la même chose : être en forme.
La solution de l’analyse factorielle est trouvée par essai/erreur et le jugement s’établit en
fonction des concepts (voir figure 3.1). Sur l’axe horizontal de la figure, à gauche les atten-
Tableau 3.2 : Exemple d’application de l’analyse factorielle
Rencontre
Muscles
Esthétisme
Défoulement
Santé
Dynamisme
Priseencharge
Confort
Économie
Lieuagréable
1 4 1 4 2 4 1 1 2 1 2
2 1 2 4 5 4 1 1 1 1 1
3 2 4 2 4 3 1 1 2 4 2
4 3 4 2 4 3 3 3 2 1 2
5 1 4 3 4 4 4 4 3 2 3
6
Tableau 3.3 : Exemple d’application de l’analyse factorielle (suite)
Facteur 1
Forme
Facteur 2
Contact
Facteur 3
1
2
3
4
5
6
Livre spss.book Page 55 Vendredi, 25. janvier 2008 12:04 12
56 Analyse de données avec SPSS
tes des clients portent sur la forme physique ; à droite, sur le confort de la salle. Sur l’axe
vertical s’opposent le côté sociable du club de sport et le besoin de s’y défouler.
Au total, la variance restituée par ces deux axes (les deux premiers facteurs) est de 50,43.
L’analyse factorielle exploratoire permet d’identifier des groupes d’items qui covarient les
uns avec les autres et semblent représenter des variables latentes pertinentes. Autrement
dit, l’AFE consiste à explorer la relation entre des variables mesurées, afin de déterminer si
ces relations peuvent être résumées par un nombre moins important de construits latents.
L’AFE permet de vérifier le nombre de dimensions ou, plus souvent, l’unidimensionalité
d’un concept. En effet, un concept peut comporter une ou plusieurs facettes. Par exemple,
l’implication comporte une composante affective, une composante calculée et une com-
posante normative. Lorsque l’on fait appel à des échelles de mesure déjà utilisées, l’AFE
permet de vérifier si l’on retrouve, pour l’échantillon étudié, la même structure factorielle.
Elle fera alors ressortir autant de facteurs que le construit a de dimensions (un seul facteur
si le construit est unidimensionnel). Dans le cadre du développement de nouveaux instru-
ments, l’AFE permet de constater si les items correspondent effectivement aux concepts
présentés aux répondants.
2.2 LES CONDITIONS ET OPTIONS DE L’ANALYSE FACTORIELLE
En fonction des caractéristiques de l’échantillon et des données collectées, plusieurs
options sont possibles pour la réalisation d’une AFE (analyse factorielle exploratoire).
Nous verrons, dans un premier temps, la taille de l’échantillon requise avant de présenter
les différentes options et tests permettant de valider les résultats d’une AFE.
La taille de l’échantillon nécessaire
La taille de l’échantillon dépend du nombre d’items soumis à l’AFE. Il faut un minimum de
cinq observations par item (un ratio de 10 pour 1 est préférable). Le nombre total d’observa-
tions doit être d’au moins 50 et il est souhaitable d’interroger au moins 100 individus.
Figure 3.1
Représentation
graphique de
l’analyse
factorielle.
Livre spss.book Page 56 Vendredi, 25. janvier 2008 12:04 12
57Simplifier les données
3Chapitre
La méthode d’extraction utilisée
La méthode d’extraction la plus employée est l’analyse en composantes principales (ACP).
L’ACP a pour objet de résumer l’ensemble des données quantitatives d’un tableau individus/
variables. En effet, l’ACP synthétise les données en construisant un petit nombre de variables
nouvelles, les composantes principales. Les éléments critiques de la grille peuvent alors être
captés rapidement, à l’aide de représentations graphiques établies à partir des ACP.
Le choix de la matrice des données
Il est possible de travailler sur la matrice de corrélation ou sur la matrice de covariance.
Pour simplifier, ce choix s’effectue ainsi :
• matrice de corrélation : lorsque les variables sont mesurées avec des échelles
différentes;
• matrice de covariance : lorsque l’on applique l’analyse factorielle à plusieurs groupes
avec des variances différentes pour chaque variable.
L’adéquation des données
Avant de réaliser l’analyse, il est important de s’assurer que les données sont factorisables.
Elles doivent former un ensemble cohérent pour pouvoir y chercher des dimensions com-
munes qui aient un sens et qui ne soient pas des artefacts statistiques (Evrard et al., 2003).
La matrice des données doit comporter suffisamment de corrélations pour justifier la réa-
lisation d’une AFE. Plusieurs indicateurs peuvent être utilisés :
• La matrice des corrélations anti-image représente la valeur négative des corrélations
partielles. Des corrélations anti-image importantes indiquent que la matrice des don-
nées n’est peut-être pas adaptée à l’AFE.
• Le test de Sphéricité de Bartlett examine la matrice des corrélations dans son intégra-
lité et fournit la probabilité de l’hypothèse nulle selon laquelle toutes les corrélations
sont de zéro.
• La « Measure of Sampling Adequacy » (MSA) ou Kaiser-Meyer-Olkin (KMO) indique
dans quelle proportion les variables retenues forment un ensemble cohérent et mesu-
rent de manière adéquate un concept. Elle teste si les corrélations partielles entre les
variables sont faibles.
Des valeurs de KMO comprises entre 0,3 et 0,7 représentent des solutions factorielles
acceptables. Ce test, d’abord réalisé pour chaque variable, doit ensuite être repris avec
l’ensemble des variables (Hair et al., 2006).
L’extraction des facteurs
Il n’existe pas de base quantitative exacte pour déterminer le nombre de facteurs à extraire.
Les critères sont souvent choisis sur la part de variance de chaque item qu’un facteur per-
met d’expliquer :
• l’« eigenvalue », ou règle des valeurs propres > 1 ou règle de Kaiser-Guttman : une
valeur propre représente la quantité d’informations capturée par un facteur. Un facteur
qui aurait une valeur propre inférieure à 1 représenterait moins d’informations qu’un
simple item.
• le « Scree Test », ou test du coude ou de l’éboulis : ce test se fonde également sur les
valeurs propres des facteurs mais dans une perspective relative et non absolue. Étant
Livre spss.book Page 57 Vendredi, 25. janvier 2008 12:04 12
58 Analyse de données avec SPSS
donné que chaque facteur est extrait d’une matrice qui est le résidu de l’extraction pré-
cédente, la quantité d’informations contenue dans les facteurs successifs décroît. Lors-
que, entre deux facteurs, la décroissance en termes d’informations devient faible ou
nulle, on peut estimer que le dernier facteur ne contient pas suffisamment d’informa-
tions pour être retenu.
• le critère du pourcentage de variance : il s’agit d’une approche par laquelle on observe
les pourcentages cumulés de la variance extraite par les facteurs successifs. L’objectif est
de s’assurer qu’un facteur explique une quantité significative de variance. Il est souvent
conseillé d’arrêter l’extraction lorsque 60 % de la variance expliquée est extraite (Hair
et al., 2006).
La rotation des facteurs
Afin de pouvoir interpréter les facteurs, il est généralement nécessaire de réaliser une rota-
tion. Celle-ci permet d’identifier des groupes de variables fortement liés les uns aux autres.
La rotation fait en sorte que chaque item ne soit fortement lié qu’à un seul facteur. Cette
opération est réalisée par une redistribution de la variance des premiers facteurs extraits
aux facteurs successifs, afin d’aboutir à une structure factorielle plus simple (Hair et al.,
2006). Lorsque les axes sont maintenus à 90 degrés, on parle de rotation orthogonale;
lorsque les axes ne sont pas contraints à être indépendants, on parle de rotation oblique.
Il existe plusieurs méthodes de rotation :
• Varimax : rotation orthogonale qui minimise le nombre de variables ayant de fortes
corrélations sur chaque facteur. Simplifie l’interprétation des facteurs.
• Oblimin direct : rotation oblique, c’est-à-dire dans laquelle les axes se positionnent en
fonction des items et ne sont donc pas orthogonaux.
• Quartimax : méthode qui minimise le nombre de facteurs requis pour expliquer cha-
que variable. Simplifie l’interprétation des variables observées.
• Equamax : méthode de rotation qui minimise à la fois le nombre de variables qui
pèsent fortement sur un facteur et le nombre de facteurs requis pour expliquer une
variable (combinaison des méthodes Varimax et Quartimax).
* Focus 3.3 • L’analyse factorielle exploratoire : rotation orthogonale ou oblique?
Les critères de choix entre la rotation orthogonale (Varimax) et la rotation oblique sont les
suivants :
La rotation orthogonale maintient les axes de l’espace factoriel en angle droit. Ce type de rota-
tion permet de minimiser le nombre d’items ayant des contributions élevées sur un axe et donc
de simplifier les facteurs. Elle permet d’obtenir une structure factorielle plus claire.
Si la corrélation entre facteurs est faible, inférieure à 0,15 (De Vellis, 2003) ou à 0,3 (Nunnally
et Bernstein, 1994), la rotation orthogonale sera préférée pour sa simplicité. Toutefois, si l’on a
des raisons de penser que des items ou facteurs sont corrélés, il est logique de réaliser une
rotation oblique. On peut également comparer la solution avec rotation oblique et rotation
orthogonale. S’il est possible d’assigner un item au même facteur dans les deux cas, alors la
rotation orthogonale sera choisie pour sa simplicité.
Dans la grande majorité des cas, une rotation orthogonale est suffisante pour aboutir à une
structure simple. Hair et al. (2006) estiment cependant que la rotation oblique est conseillée si
l’on souhaite déterminer des facteurs représentant des concepts qui seront analysés postérieu-
rement car la structure factorielle obtenue possède une plus grande stabilité.
Livre spss.book Page 58 Vendredi, 25. janvier 2008 12:04 12
59Simplifier les données
3Chapitre
2.3 L’ÉPURATION DES DONNÉES
L’AFE pour vérifier le nombre de dimensions d’un concept
L’analyse factorielle est utilisée pour vérifier la validité de trait ou de construit. Il s’agit de
tester et de purifier les échelles d’un questionnaire. L’AFE permet de s’assurer que l’échelle
évalue précisément et exclusivement le construit qu’elle est censée mesurer. Lorsque le
construit est unidimensionnel, l’AFE fera ressortir un seul facteur, plusieurs pour les
construits multidimensionnels. Il est aussi possible de fixer a priori le nombre de facteurs
sous SPSS.
Nous traitons ici de la question des items et facteurs à retenir ou, au contraire, à suppri-
mer, suite à une AFE. En effet, lorsque les facteurs sont extraits, il est nécessaire d’évaluer
la validité convergente et discriminante au niveau de l’item ainsi que la fiabilité des échel-
les. La validité convergente concerne le fait que les réponses obtenues par différents indi-
cateurs du même construit soient fortement corrélées; la validité discriminante est
démontrée lorsque la mesure d’un construit déterminé est faiblement corrélée à une
mesure d’un autre construit.
Ces analyses sont réalisées pour chaque échelle. Les items présumés mesurer un même
construit doivent donc être fortement corrélés les uns aux autres (validité convergente) et
faiblement corrélés aux items censés mesurer d’autres construits (validité discriminante).
Le niveau du coefficient structurel de l’AFE (composante) sert à déterminer si l’item satis-
fait au critère de validité convergente. Le tableau 3.4 présente les niveaux de significativité
des contributions factorielles des items selon la taille de l’échantillon étudié.
Source : adapté de Hair et al., 2006.
Tableau 3.4 : Niveau de significativité des coefficients structurels
selon la taille de l’échantillon
Niveau des coefficients structurels Taille de l’échantillon nécessaire
0,30 350
0,35 250
0,40 200
0,45 150
0,50 120
0,55 100
0,60 85
0,65 70
0,70 60
0,75 50
Livre spss.book Page 59 Vendredi, 25. janvier 2008 12:04 12
60 Analyse de données avec SPSS
L’épuration d’une échelle de mesure se fait en deux temps :
D’une part, pour les coefficients structurels ou composantes, un seuil est déterminé en
fonction de la taille de l’échantillon. Par exemple, pour un test d’échelle sur un échantillon
de 200 individus, un seuil de 0,40 sera retenu. Pour les échelles multidimensionnelles, sont
éliminés les items dont les poids factoriels sont supérieurs à 0,30 sur plusieurs facteurs et
ceux n’ayant aucune contribution supérieure ou égale à 0,50 sur l’une des composantes
principales identifiées. Ces seuils peuvent aussi varier en fonction de la taille de l’échan-
tillon (Hair et al., 2006).
D’autre part, la formation des facteurs repose sur l’importance des variables initiales sur
ces facteurs. Les « communalités » (part de variance expliquée par l’item) doivent dépas-
ser 0,5 et si possible 0,7. Le niveau de représentation est considéré comme moyen pour un
seuil de 0,40, bon pour un seuil de 0,65 et excellent lorsque la communalité dépasse 0,80
(Evrard et al., 2003).
SPSS Dans cet exemple, nous testons l’échelle destinée à mesurer l’ambition professionnelle.
Cette échelle unidimensionnelle de 10 items est issue de la littérature. Les réponses aux
questions sont collectées grâce à une échelle de Likert à cinq échelons allant de « Pas du
tout d’accord » à « Tout à fait d’accord » (voir tableau 3.5).
1. Le r signifie que cet item est inversé.
Les 10 items sont, dans un premier temps, soumis à une analyse factorielle exploratoire
(méthode de l’ACP), afin de vérifier la structure du construit mesuré. Cette échelle est testée
avec un échantillon de 106 individus.
Ouvrez le fichier « challenge » 1. Allez dans le menu Analyse > Positionnement > Analyse
factorielle. Une boîte de dialogue apparaît (voir figure 3.2).
Tableau 3.5 : Exemple de l’échelle destinée à mesurer l’ambition
Item 1 - J’aimerais avoir un poste plus important et que les autres m’envient.
Item 2 - J’aime bien discuter avec des gens importants.
Item 3 - Je veux être une personne importante dans la communauté.
Item 4 - J’admire beaucoup les gens qui ont gravi les échelons et sont au sommet.
Item 5r1 - Si j’avais suffisamment d’argent, je ne travaillerais plus*.
Item 6 - Même si je gagnais beaucoup d’argent au jeu, je continuerais à exercer mon métier.
Item 7r - Si je pouvais toucher le chômage, je préférerais ne pas travailler*.
Item 8 - J’aime être admiré(e) pour ma réussite.
Item 9r - Je n’aime pas être remarqué(e)*.
Item 10 - J’aime que des employés me demandent conseil.
1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr.
Livre spss.book Page 60 Vendredi, 25. janvier 2008 12:04 12
61Simplifier les données
3Chapitre
Transférez les items destinés à mesurer l’ambition en les sélectionnant chacun à leur tour et
en cliquant sur la flèche.
Avant de lancer l’AFE, plusieurs commandes sont à effectuer. Afin de vérifier l’adéquation
des données, on peut demander l’indice KMO et le test de Bartlett par le bouton Descripti-
ves dans la boîte de dialogue précédente. La structure initiale (précochée) donne les com-
munalités, les valeurs propres et la part de variance expliquée initiale (voir figure 3.3).
Cliquez ensuite sur Poursuivre pour revenir à la boîte de dialogue initiale.
Pour sélectionner la méthode de l’analyse factorielle, cliquez sur Extraction et la boîte de
dialogue de la figure 3.4 apparaît.
Nous pouvons choisir la méthode de l’analyse factorielle (composantes principales; facteurs
communs, etc.). Nous sélectionnons Composantes principales.
Pour obtenir les facteurs, le logiciel présélectionne les valeurs propres supérieures à 1. Mais
il est aussi possible de déterminer le nombre de facteurs. Dans une optique exploratoire,
nous laissons libre ce nombre de facteurs.
Le choix de la matrice de départ est aussi fixé dans cette boîte de dialogue : la matrice de
corrélation est présélectionnée. Nous gardons cette matrice pour l’analyse.
On peut demander un graphique des valeurs propres qui sert à éliminer des facteurs avec
le test du coude.
Cliquez ensuite sur Poursuivre pour revenir à la boîte de dialogue initiale.
Figure 3.2
Demanded’analyse
factorielle.
Figure 3.3
Demande de
l’indice KMO et du
test de Bartlett.
Livre spss.book Page 61 Vendredi, 25. janvier 2008 12:04 12
62 Analyse de données avec SPSS
Pour sélectionner la méthode de rotation, cliquez sur Rotation et la boîte de dialogue de la
figure 3.5 apparaît. Cochez la méthode choisie, nous sélectionnons Varimax.
Cliquez ensuite sur Poursuivre pour revenir à la boîte de dialogue puis sur OK pour lancer
l’AFE.
Les résultats de l’analyse apparaissent dans l’onglet résultats (voir figure 3.6).
L’indice KMO (0,816) ainsi que le test de Bartlett permettent d’accepter les résultats de cette
analyse factorielle.
Figure 3.4
Choix de la
méthode
d’extraction, de la
matrice de départ
et demande de
graphique.
Figure 3.5
Choix de la
méthode de
rotation.
Figure 3.6
Interprétation des
résultats de l’AFE :
KMO, test de
Bartlett et
communalités.
Livre spss.book Page 62 Vendredi, 25. janvier 2008 12:04 12
63Simplifier les données
3Chapitre
Les résultats montrent que les deux facteurs qui n’expliquent pas plus de 50 % (48,21) de la
variance (voir figure 3.7). Nous éliminons les items dont les communalités sont trop faibles
(soit 8r et 9 qui ont des communalités respectives de 0,24 et 0,19).
En outre, la matrice des composantes atteste que deux items (5r et 6) ne se trouvent pas sur
le même facteur (voir figure 3.8). Or, ce second facteur n’explique, à son tour, qu’une faible
part de la variance. Nous éliminons donc ces deux items.
À ce stade, il faut refaire une AFE en rappelant la boîte de dialogue ou en allant dans le
menu Analyse > Factorisation > Analyse factorielle. La boîte de dialogue de la figure 3.9
apparaît.
Il faut alors faire passer les items éliminés (5r, 6, 8r et 9) dans la liste des variables, en les
sélectionnant, toujours avec la flèche, mais dans le sens inverse.
Les options choisies restent cochées (extraction, demande du KMO, etc.) et il n’est donc pas
nécessaire de recommencer cette procédure. Cliquez sur OK.
Les résultats de cette deuxième AFE apparaissent, toujours dans l’onglet résultats, à la
figure 3.10.
La solution est maintenant, comme dans la théorie, unidimensionnelle, mais elle ne parvient
toujours pas à expliquer plus de 50 % de la variance. Dès lors, l’item 3r dont la communa-
lité est insuffisante (0,38) est supprimé.
Nous rappelons donc la boîte de dialogue (voir figure 3.11) et nous faisons passer l’item
ambition3r dans la liste des variables. Puis nous cliquons sur OK.
Figure 3.7
Interprétation des
résultats de l’AFE :
pourcentage de
variance expliquée,
nombre de facteurs.
Figure 3.8
Interprétation des
résultats de l’AFE :
matrice des
composantes
(coefficients
structurels).
Livre spss.book Page 63 Vendredi, 25. janvier 2008 12:04 12
64 Analyse de données avec SPSS
Les résultats de cette troisième AFE apparaissent à la suite des autres, dans l’onglet résultats,
à la figure 3.12.
Figure 3.9
Demanded’analyse
factorielle (bis).
Figure 3.10
Interprétation des
résultats de l’AFE :
KMO, test de
Bartlett et
communalités (bis).
Figure 3.11
Demande d’AFE
n˚ 3.
Livre spss.book Page 64 Vendredi, 25. janvier 2008 12:04 12
65Simplifier les données
3Chapitre
Cette dernière solution unidimensionnelle permet d’expliquer 53,72 % de la variance; les
communalités et les composantes de chaque item sont respectivement supérieures à 0,45 et
0,67. La matrice des composantes (voir figure 3.13) indique que tous les items ont un coef-
ficient structurel ou > à 0,65.
Les items 1, 2, 4, 7 et 10 sont donc conservés pour la suite de l’analyse.
À ce stade nous procédons à l’examen de la fiabilité de l’échelle avec le coefficient alpha
de Cronbach.
Le calcul du coefficient alpha de Cronbach pour vérifier la fiabilité d’une échelle
Nous continuons le processus d’épuration des données avec le même exemple d’échelle de
mesure de l’ambition du vendeur. Nous avons vu que le coefficient alpha de Cronbach était
un indicateur de la cohérence interne d’une échelle de mesure.
Allez dans le menu Analyse > Positionnement > Analyse de fiabilité. La boîte de dialogue
de la figure 3.14 apparaît.
Transférez les items sélectionnés destinés à mesurer l’ambition à l’aide de l’analyse facto-
rielle exploratoire en les sélectionnant chacun à leur tour puis en cliquant sur la flèche.
Avant de lancer le calcul de l’alpha de Cronbach, cliquez sur le bouton Statistiques, la boîte
de dialogue de la figure 3.15 apparaît alors. Nous demandons l’alpha pour chaque item,
pour l’échelle et l’échelle sans l’item.
Figure 3.12
Interprétation des
résultats de l’AFE :
KMO, test de
Bartlett et
communalités n˚ 3.
Figure 3.13
Interprétation des
résultats de l’AFE :
matrice des
composantes
(coefficients
structurels) n˚ 3.
Livre spss.book Page 65 Vendredi, 25. janvier 2008 12:04 12
66 Analyse de données avec SPSS
Les résultats apparaissent dans l’onglet résultats, à la figure 3.16.
Le coeficient alpha de Cronbach apparaît dans le deuxième tableau.
Figure 3.14
Test de la fiabilité
de cohérence
interne avec le
coefficient alpha de
Cronbach.
Figure 3.15
Choix des
statistiques pour le
calcul du coefficient
alpha de Cronbach.
Figure 3.16
Résultats du calcul
du coefficient alpha
de Cronbach.
Livre spss.book Page 66 Vendredi, 25. janvier 2008 12:04 12
67Simplifier les données
3Chapitre
Le premier tableau présente la moyenne et la variance de l’échelle en cas de suppression de
calcul des items (colonnes 1 et 2), la corrélation de chaque item aux autres (colonne 3) et
l’alpha de Cronbach en cas de supression d’un item.
Cette échelle présente une fiabilité de cohérence interne acceptable (alpha = 0,78). Il n’est
pas possible d’améliorer l’alpha en éliminant un ou plusieurs items (cf. colonne droite du
tableau alpha en cas de suppression de l’élément). Nous gardons donc les cinq items (1, 2,
4, 7 et 10) pour mesurer l’ambition.
Pour aller plus loin
Evrard Y., Pras B., et Roux E., Market. Études et recherches en marketing, Nathan, Paris,
2003.
Gerbing D. W., Anderson J. C., « An updated paradigm for scale development incorpora-
ting unidimensionality and its assessment », Journal of Marketing Research, 25, 1988,
p. 186-192.
Hair J. F., Anderson R. E., Tatham R. L., Black W. C., Multivariate Data Analysis, 4e éd.,
Prentice Hall International, New Jersey, 2006.
Figure 3.17
Résultat du calcul
du coefficient alpha
de Cronbach.
Livre spss.book Page 67 Vendredi, 25. janvier 2008 12:04 12
68 Analyse de données avec SPSS
Exercices
EXERCICE 1 ANALYSE D’UNE AFC
• Énoncé Il existe différentes sources de satisfaction au travail, ces valences sont évaluées en posant
la question : « Quelle importance accordez-vous à ces aspects de votre travail? » (collecte
des réponses à l’aide d’une échelle de Likert en cinq points allant de « Pas du tout » à
« Très important »).
VAL1 - Une augmentation de votre sentiment réussite
VAL2 - Le sentiment que vous utilisez bien vos compétences
VAL3 - Votre satisfaction personnelle
VAL4 - L’occasion de développer des relations avec les autres employés de l’entre-
prise
VAL5 - De meilleures relations de travail avec votre manager
VAL6 - De meilleures relations avec les autres commerciaux
VAL7 - L’implication dans la formation des autres employés
VAL8 - Plus d’autonomie de la part de votre manager
VAL9 - Davantage de respect de la part de vos collègues
VAL10 - Une baisse des réclamations de la part de vos clients
VAL11 - La reconnaissance de vos clients sur le fait que vous les avez bien conseillés
VAL12 - Plus d’opportunités de développer des contacts clients
VAL13 - De meilleures relations avec vos clients
VAL14 - Une augmentation de vos revenus
VAL15 - Plus d’influence sur les décisions de votre manager
VAL16 - Recevoir la reconnaissance de votre hiérarchie
VAL17 - Une augmentation de votre prestige personnel
VAL18 - La chance d’être muté dans une agence ayant plus de potentiel
VAL19 - L’évolution vers un poste de management
Nous collectons aussi la valence par rapport à la victoire au challenge :
VALVI1 - La victoire à ce challenge
VALVI2 - Être parmi les gagnants du challenge en question
Suite à une première AFE, seuls les items apparaissant en gras ont été conservés.
Question : décrivez les résultats de l’AFC (voir figures 3.18, 3.19, 3.20 et 3.21).
Livre spss.book Page 68 Vendredi, 25. janvier 2008 12:04 12
69Simplifier les données
Exercices
3Chapitre
Figure 3.18
Résultats de l’AFC (1).
Figure 3.19
Résultats de l’AFC (2).
Figure 3.20
Résultats de l’AFC (3).
Livre spss.book Page 69 Vendredi, 25. janvier 2008 12:04 12
70 Analyse de données avec SPSS
* Solution Les résultats de l’AFC sont comparables à ceux qui peuvent être obtenus à l’aide d’une ACP.
Le premier facteur représente 32,97 % de la variance, le second compte pour 23,67 %.
Sur l’axe horizontal, nous trouvons les relations que le vendeur entretient avec ses clients,
ses pairs. Sur l’axe vertical (deuxième composante), nous trouvons la valence pour la vic-
toire au challenge. Nous observons que les items 18 et 9, qui portent sur les promotions,
sont proches de cet axe. Le challenge serait donc associé aux opportunités de carrière, au
respect des pairs. Sur cet axe, nous retrouvons les aspects relationnels du travail, en interne
(avec les collègues) ou en externe (avec les clients).
EXERCICE 2 ANALYSE DE LA VALIDITÉ ET DE LA FIABILITÉ
• Énoncé Il n’existe pas d’échelle dans la littérature pour mesurer l’attitude générale à l’égard des
challenges de vente. L’échelle de mesure de cette attitude a été créée grâce à une étude
qualitative : 7 items ont été créés puis utilisés dans un questionnaire. Les réponses sont
recueillies auprès de 747 commerciaux sur une échelle de Likert à cinq grades.
Une analyse factorielle exploratoire (ACP), puis un test de la fiabilité de cette échelle sont
réalisés (voir figures 3.22, 3.23 et 3.24).
À partir de ces analyses, répondez aux questions suivantes :
1. Cette échelle est-elle multidimensionnelle?
2. Faut-il conserver tous les items de cette échelle?
Sinon quel(s) item(s) élimineriez-vous? Comment prenez-vous cette décision?
3. Cette échelle de mesure est-elle fiable?
Figure 3.21
Résultats de l’AFC (4).
Livre spss.book Page 70 Vendredi, 25. janvier 2008 12:04 12
71Simplifier les données
Exercices
3Chapitre
Figure 3.22
Résultats de l’AFE (1).
Figure 3.23
Résultats de l’AFE (2).
Figure 3.24
Résultats de l’AFE (3).
syntex.fm Page 71 Vendredi, 25. janvier 2008 3:08 15
72 Analyse de données avec SPSS
* Solution 1. L’analyse en composantes principales atteste de la nature unidimensionnelle de ce con-
cept. Cette solution factorielle parvient à expliquer plus de 53 % de la variance totale. Le
test KMO, tout à fait satisfaisant (0,88) valide cette solution factorielle.
2. Non, il ne faut pas conserver tous les items.
L’examen des communalités des énoncés indique que l’item atig5, dont l’indice de com-
munalité (0,23) et le poids factoriel (0,48) sont faibles, affaiblit la validité de cette échelle.
Cet item doit par conséquent, être éliminé pour la suite des analyses.
3. Cette échelle est fiable puisque le coefficient alpha de Cronbach dépasse 0,8 (0,84).
Toutefois la fiabilité peut être meilleure si l’item atig5 est éliminé (l’alpha monte à 0,85).
2.1 EXERCICE 3 : GÉNÉRER UNE CARTE PERCEPTUELLE PAR L’AFC
* Solution 3 1. Pour commander l’analyse factorielle, sélectionnez le menu Analyse > Factorisation >
Analyse factorielle et faites passer les variables à factoriser dans la partie Variables avec la
flèche (voir figure 3.25).
Ensuite, dans l’onglet Descriptives (voir figure 3.26), la case Structure initiale est déjà
cochée (elle donne les communautés, valeurs propres et pourcentage de variance expli-
qués par chaque dimension). Dans la partie Matrice des corrélations, cochez les cases
Coefficients et Reconstituée.
• Énoncé Une enquête portant sur les perceptions de différentes marques de voitures a été réalisée
auprès de consommateurs. Les individus ont évalué 10 marques d’après 15 critères,
notés sur des échelles de Likert de 1 à 9. Les variables perceptuelles sont les suivantes :
Notoriété Ergonomie
Finition Prestige
Qualité Familial
Confort Économique
Nouveauté Image
Qualité-prix Innovation
Robustesse Sportif
Spacieux
Les résultats de l’enquête, c’est-à-dire la moyenne des scores obtenus à chaque variable,
sont représentés dans le fichier « Facto.sav ». Sur ces données, une analyse factorielle
exploratoire peut permettre d’identifier les perceptions de consommateurs, mais aussi de
représenter les marques en fonction de ces perceptions dans ce que l’on nomme une
carte perceptuelle, ou mapping perceptuel.
1. Générez l’analyse factorielle sur les données de l’étude.
2. Interprétez l’analyse factorielle. Quelles conclusions tirez-vous de cette analyse?
Livre spss.book Page 72 Vendredi, 25. janvier 2008 12:04 12
73Simplifier les données
Exercices
3Chapitre
Dans l’onglet Extraction (voir figure 3.27), la case Matrice de corrélation est cochée et la
méthode en Composantes principales sélectionnée. Cochez Graphique des valeurs pro-
pres et Structure factorielle sans rotation. Sélectionnez un nombre de facteurs égal à 2,
afin de générer une carte à deux dimensions.
Dans l’onglet Rotation, choisissez Varimax et cliquez sur Carte factorielle comme l’indi-
que la figure 3.28.
Une fois tous les paramètres définis, cliquez sur OK pour lancer l’analyse factorielle.
2. L’interprétation de l’analyse factorielle s’établit à l’aide des tableaux qui apparaissent
dans la partie Résultats :
Figure 3.25
Commande de
l’analyse
factorielle.
Figure 3.26
Options d’Analyse
factorielle.
Figure 3.27
Méthode
d’extraction de
l’analyse
factorielle.
Livre spss.book Page 73 Vendredi, 25. janvier 2008 12:04 12
74 Analyse de données avec SPSS
Le tableau de la variance totale expliquée (voir figure 3.29) présente les deux dimensions
qui résument l’information. La première dimension permet d’expliquer 46,32 % de la
variance du phénomène, c’est-à-dire que les variables qui composent cette première
dimension synthétisent 51,63 % du phénomène. La seconde dimension explique 23,95 %
de la variance. Les deux dimensions expliquent plus de 70 % de la variance totale. On con-
seille en général d’arrêter l’extraction de facteurs lorsque 60 % de variance cumulée a été
extraite (Hair et al., 1998). Cette variance cumulée indique que la réduction des variables
à deux composantes permet de conserver l’essentiel du phénomène mesuré par les quinze
variables perceptuelles initiales. Notre représentation du phénomène est donc de qualité.
La qualité de la représentation (voir figure 3.30) permet de vérifier si les variables initiales
sont bien prises en compte par les variables extraites. Ici, la qualité de représentation ou
communalité de la variable « notoriété » est de 0,989. Ce qui signifie que 98,9 % de la
variance de la variable est prise en compte par l’une des deux dimensions extraites. Dans
cet exemple, les variables « nouveauté » et « innovation » ne sont pas bien représentées.
La matrice des composantes (voir figure 3.31) montre les dimensions extraites (deux dimen-
sions) avec les composantes. Chaque colonne correspond à une dimension extraite contenant
les coefficients ou composantes qui peuvent s’interpréter comme des coefficients de corrélation.
La qualité et le confort sont ainsi reliés à la dimension 1, alors que le rapport qualité-prix
ou la dimension économique du modèle sont reliés à la dimension 2. On passe donc en
revue les coefficients afin d’identifier les variables reliées à chacune des dimensions. De
cette manière, la matrice des composantes permet de nommer les dimensions extraites par
l’étude des composantes. La première composante relève de l’image perçue (prestige à
gauche de l’axe, et familial à droite de l’axe; voir figure 3.32); la seconde composante
relève du rapport qualité-prix perçu.
Figure 3.28
Choix de la
méthode de
rotation de
l’analyse
factorielle.
Figure 3.29
Les résultats de
l’analyse
factorielle : la
variance totale
expliquée.
Livre spss.book Page 74 Vendredi, 25. janvier 2008 12:04 12
75Simplifier les données
Exercices
3Chapitre
Le diagramme des composantes correspond à la représentation graphique de la matrice
des composantes (voir figure 3.32).
Figure 3.30
Les résultats de
l’analyse
factorielle : la
qualité de
représentation.
Figure 3.31
Les résultats de
l’analyse
factorielle : la
matrice des
composantes.
Figure 3.32
Les résultats de
l’analyse
factorielle : le
diagramme des
composantes.
Livre spss.book Page 75 Vendredi, 25. janvier 2008 12:04 12
76 Analyse de données avec SPSS
La matrice des composantes permet également de calculer les coordonnées pour représen-
ter graphiquement les individus par rapport aux dimensions extraites. On peut ainsi com-
parer la position de chacune des observations, en d’autres termes, positionner les marques
dans l’espace factoriel créé.
Afin de retrouver les marques sur chacun de ces axes, vous devez relancer l’analyse
factorielle : Analyse > Analyse factorielle puis, dans l’onglet Facteurs, cocher Enregistrer
dans des variables et la méthode Régression (voir figure 3.33).
Deux nouvelles variables sont alors créées dans l’éditeur de données (voir figure 3.34).
Elles donnent les scores factoriels, c’est-à-dire pour chaque individu (chaque marque) sa
moyenne sur chacune des deux dimensions. On peut constater par exemple que la
Citroën C4 est reliée à la dimension Image. C’est ce que nous allons maintenant voir à
l’aide d’un graphique.
Pour commander le graphique, sélectionnez le menu Graphes > Boîtes de dialogue
héritées > Dispersion/Points, puis cliquez sur Définir (voir figure 3.35).
Ensuite faites passer les facteurs créés dans les axes Y et X et, afin d’afficher chaque mar-
que, faites glisser la variable « modèle » vers Etiqueter les observations par (voir
figure 3.36).
Figure 3.33
La commande
Analyse factorielle :
représentation
graphique
d’individus.
Figure 3.34
La représentation
graphique
d’individus dans
l’analyse
factorielle.
Figure 3.35
Commande d’une
représentation
graphique
d’individus dans
l’analyse
factorielle.
Livre spss.book Page 76 Vendredi, 25. janvier 2008 12:04 12
77Simplifier les données
Exercices
3Chapitre
Vous devez également cliquer sur l’onglet Options et cocher Afficher le diagramme avec
les étiquettes d’observations pour les faire apparaître (voir figure 3.37).
Ensuite, cliquez sur OK : le graphique n’est cependant pas très lisible car les axes n’appa-
raissent pas. Pour y remédier, double-cliquez sur le graphique pour ouvrir l’éditeur de
diagramme (voir chapitre 8), activez le diagramme en cliquant une nouvelle fois dessus et
sélectionnez dans le menu Édition la ligne de référence de l’axe X; la position de l’axe 0 est
présélectionnée. Dans le menu Propriétés, sélectionnez Afficher la ligne à l’origine, dans
l’onglet Echelle (voir figure 3.38). Recommencez cette opération pour l’axe Y.
Figure 3.36
Commande d’une
représentation
graphique
d’individus dans
l’analyse factorielle
(suite).
Figure 3.37
Commande d’une
représentation
graphique
d’individus dans
l’analyse factorielle
(suite).
Livre spss.book Page 77 Vendredi, 25. janvier 2008 12:04 12
78Simplifier les données
Exercices
3Chapitre
Le graphique suivant (voir figure 3.39) apparaît alors, représentant les modèles de véhicu-
les en fonction des perceptions déclarées des consommateurs interrogés. Ce type de repré-
sentation peut servir à positionner les offres concurrentes sur le marché.
Figure 3.38
Commande d’une
représentation
graphique
d’individus dans
l’analyse
factorielle (suite).
Figure 3.39
Représentation
graphique
d’individus dans
l’analyse
factorielle.
Livre spss.book Page 78 Vendredi, 25. janvier 2008 12:04 12
79
4Segmenter
De nombreuses enquêtes en marketing ont pour objet de clas-
ser des individus en groupes homogènes, afin, par exemple,
de procéder à une segmentation du marché. Comme l’analyse
factorielle (voir chapitre 3), l’analyse typologique permet de
réduire le nombre des observations en les regroupant en des
classes (ou types) homogènes et différenciées. (Evrard et al.,
2003). Cependant, contrairement à l’analyse factorielle, les
résultats peuvent fortement diverger en fonction des choix
effectués. Nous verrons, dans ce chapitre, les concepts clés
liés à cette méthode, les mesures statistiques associées, ainsi
que les principaux éléments de sa mise en œuvre.
1. Fondements...............................80
2. Concepts associés......................83
3. Mise en œuvre ..........................90
Exercices
1. Habitudes alimentaires...............94
2. Achats On-line..........................97
3. Segmenter le marché
automobile..............................102
Chapitre
Livre spss.book Page 79 Vendredi, 25. janvier 2008 12:04 12
80 Analyse de données avec SPSS
(1) Fondements
La réalisation d’une typologie, ou encore d’une taxinomie, a été pendant longtemps le
principe fondateur de la science moderne. Il s’agissait alors de décrire le monde afin de le
comprendre. En français, les termes pour décrire ce principe de classification des
individus – typologie, taxinomie, segmentation, classification, catégorisation –, sont rela-
tivement ambigus. En anglais, en revanche, le terme clustering rend compte à la fois du fait
de classer, c’est-à-dire de faire émerger des groupes d’individus, mais également du prin-
cipe de classification, c’est-à-dire de l’affectation des individus aux différents groupes.
L’analyse typologique, terme générique que nous retiendrons dans ce chapitre, est au
cœur de la démarche marketing. Elle peut être utilisée pour simplifier la lecture des don-
nées en regroupant des observations ayant des caractéristiques communes, ou encore
pour faire émerger des groupes d’individus homogènes des données collectées. Cette
approche est fréquemment retenue en marketing, où l’une des premières décisions straté-
giques consiste à agréger des segments de marché en fonction des attentes des consomma-
teurs afin de définir les choix de marchés possibles. Le marketing considère, en effet, que
les marchés sur lesquels il opère peuvent être constitués d’attentes plus ou moins homogè-
nes, qu’il s’agira de rendre intelligibles. On parle de marketing de masse lorsque les atten-
tes sont homogènes, de marketing individualisé lorsque les attentes sont fortement
hétérogènes, et de marketing segmenté lorsque les attentes sont groupées (voir
figure 4.1).
Le rôle du chargé d’étude dans cette perspective est de créer ex nihilo des groupes de
consommateurs similaires entre eux mais différents des autres segments. Le principe de la
segmentation, c’est-à-dire « le fait de former des groupes de clients homogènes », est directe-
ment fondé sur des caractéristiques propres des individus (les consommateurs en l’occur-
rence) qui nous indiquent pourquoi les segments diffèrent. Ces critères vont permettre au
chargé d’étude d’identifier et de rapprocher les membres d’un segment. Pour qu’ils soient
utiles, ces critères de segmentation doivent permettre de générer des segments distincts,
en d’autres termes qui ne se recoupent pas. Il n’existe pas de segmentation optimale : la
segmentation est un moyen par lequel on pourra, par exemple, identifier les cibles d’une
campagne de mailing, orienter une extension de gamme de produits, définir le message
publicitaire adapté à un profil de consommateurs, etc. Il existe donc plusieurs résultats
possibles lors d’une segmentation, et le chargé d’étude devra réaliser des choix, afin de
concilier exigence statistique et besoin d’opérationalité de la décision.
Figure 4.1
Les attentes en
marketing.
Attentes
homogènes
Attentes
groupées
Attentes
hétérogènes
Marketing
de masse
Marketing
segmenté
Marketing
individualisé
Livre spss.book Page 80 Vendredi, 25. janvier 2008 12:04 12
81Segmenter
4Chapitre
Pour regrouper des consommateurs, on considérera des variables de segmentation :
• géographiques : région, type d’habitat, type d’agglomération, etc.;
• sociodémographiques : âge, sexe, taille du foyer, revenus, catégorie socioprofession-
nelle, niveau d’éducation, etc.;
• psychographiques : style de vie, rapport au temps, personnalité, valeurs, etc.;
• comportementales : attitudes, préférences, comportement d’achat (Récence, Fré-
quence, Montant), etc.
Dans un cadre de marketing industriel ou B to B (pour segmenter des entreprises), on
pourra utiliser l’activité exercée par l’entreprise (le code NAF de l’Insee par exemple), la
taille de l’entreprise (nombre d’employés, chiffre d’affaires), la localisation, la structure
(divisions, magasins propres/franchises), etc.
EXEMPLE GDF et la segmentation à 360˚ 1
Pour faire face à l’ouverture du marché de l’énergie mise en place en France le 1er juillet
2007, GDF mène depuis quelques années une réflexion approfondie sur ses méthodes de
segmentation, afin de mieux connaître ses clients et leurs comportements, et surtout limiter
leur départ vers la concurrence. Cette segmentation repose sur une base de données recou-
pant les informations issues de données commerciales, marketing (CRM) et d’administration
des ventes (niveau de consommation, facturation et paiement). En défragmentant les don-
nées clients, GDF a affiné sa vision de la valeur économique de son portefeuille clients. La
conséquence est une nouvelle approche de la segmentation clients : quinze segments de
clientèle ont été constitués et agrégés en cinq macrosegments : les clients à convaincre, à
conforter, à consolider, à observer et à tolérer. Une stratégie différenciée a ensuite été mise
en place pour chacun des quinze segments (fidélisation, promotions, etc.).
Nous nous intéresserons ici aux principales approches, les plus diffusées dans la pratique
et les plus aisées à mettre en œuvre en termes d’analyse de données, que nous regroupe-
rons sous le terme d’ «analyse typologique ». L’analyse typologique peut être définie de la
façon suivante : « Étant donné un ensemble d’objets (ou d’individus) décrits par un cer-
tain nombre de caractéristiques (ou variables), constituer des groupes (ou types) d’objets
tels que les objets soient les plus similaires possibles au sein d’un groupe et que les groupes
soient aussi dissemblables que possible; la ressemblance ou la dissemblance étant mesurée
sur l’ensemble des variables décrivant les objets » (Evrard et al., 2003). Ces regroupements
sont effectués en fonction de variables, dont on peut distinguer deux types : des variables
comportementales pour classer les individus dans les segments, et des variables d’identifi-
cation afin de pouvoir interpréter les groupes ainsi générés. Le choix des variables
employées est hautement important. En effet, lorsque l’on procédera à l’analyse typologi-
que, les résultats devront montrer une forte homogénéité intragroupe (proximité des
mesures au sein d’un groupe), et une forte hétérogénéité intergroupe (distance entre les
groupes) comme le montre la figure 4.2.
La figure 4.2. représente un nuage de points issu du croisement de deux variables, soit par
exemple l’âge (V1) et la fréquence d’achat (V2) d’un produit X. Le centre de gravité du
nuage de points est représenté par le point au centre des trois segments. Comme on peut
le constater, trois grands groupes émergent lorsque l’on croise ces deux variables. Chaque
point représentant la combinaison des deux variables pour une observation, on remarque
1. Adapté de « GDF : Fidéliser et conquérir de nouveau marchés grâce au data mining », Decisio, 43, juin 2007.
Livre spss.book Page 81 Vendredi, 25. janvier 2008 12:04 12
82 Analyse de données avec SPSS
que les individus regroupés sont relativement homogènes, proches, et différents – c’est-à-
dire distants – des autres membres des deux autres segments en termes d’âge et de fré-
quence d’achat. Le chargé d’étude pourra aisément recommander des stratégies pour
servir ces trois segments en termes de promotion ou de message publicitaire, par exemple.
On peut voir, en effet, que les consommateurs les plus âgés, puis les plus jeunes, achètent
le plus fréquemment, alors que les consommateurs des classes d’âge intermédiaires achè-
tent le moins fréquemment. Malheureusement, il est extrêmement rare, pour ne pas dire
impossible, que de tels segments émergent dans la pratique; l’objectif de la segmentation
sera donc de créer des groupes distincts les uns des autres, mais dont les caractéristiques
seront proches au sein même des groupes. En d’autres termes, il s’agira de diminuer le
plus possible les traits pleins sur le schéma, à l’intérieur des groupes, et d’augmenter au
maximum les traits en pointillés afin de bien distinguer les segments les uns des autres.
Le chargé d’étude, afin d’éviter les erreurs liées à ce type d’exercice, devra, au-delà d’une
maîtrise des principales mesures associées à la typologie, être en mesure de décider du
nombre de segments satisfaisant les objectifs de l’enquête, et interpréter correctement le
contenu de chacun des segments générés. Le problème que pose l’analyse typologique, que
nous avons définie comme une technique d’analyse de données multivariée utilisée pour
segmenter des populations, est précisément qu’elle repose sur un classement des individus
et non une mesure des variables comme c’est le cas pour les autres tests statistiques. En
d’autres termes, il n’existe pas une mais des analyses typologiques. De nombreuses possi-
bilités sont donc offertes au chargé d’étude. Cet outil présente une grande flexibilité d’uti-
lisation, mais également une importante complexité car le risque d’obtenir des résultats
pertinents mais influencés par les procédures de calcul retenues et non par les données est
important. C’est ce que l’on nomme le risque d’artefact.
Figure 4.2
La segmentation.
V1
V2
Barycentre
Livre spss.book Page 82 Vendredi, 25. janvier 2008 12:04 12
83Segmenter
4Chapitre
(2) Concepts associés
Il existe un certain nombre de concepts associés à l’analyse typologique. Deux dimensions
principales doivent être abordées : les mesures statistiques de distance entre les individus
et le processus de constitution des groupes qui sera sélectionné par l’analyste.
2.1 MESURES DE DISTANCE
Le concept de distance est aisément compréhensible si l’on se réfère à la représentation des
données sous forme de points dans un espace tel que représenté par la figure 4.2. On peut
faire un parallèle ici avec l’analyse factorielle que nous avons étudiée au chapitre 3. Lors
d’une analyse factorielle, la matrice des corrélations est employée pour regrouper des
variables deux à deux au sein de différents facteurs. La corrélation représente le lien entre
deux variables parmi toutes les observations. L’analyse factorielle regroupe donc au sein
d’un même facteur toutes les variables ayant de fortes corrélations entre elles. La démar-
che est un peu similaire lors d’une analyse typologique. La mesure de distance est calculée
pour chaque paire d’objets sur la base de leurs caractéristiques telles que spécifiées par
l’analyste. Ainsi, chaque objet peut être comparé par le biais de cette mesure de distance
afin de former des groupes homogènes.
Les mesures de distance, comme leur nom l’indique, représentent l’éloignement entre
deux observations en fonction de leurs caractéristiques, une valeur élevée représentant
une faible proximité. Cette distance peut être convertie en mesure de proximité en inver-
sant la relation. La principale mesure utilisée est la distance euclidienne, qui consiste à
calculer la racine carrée de la somme des carrés des différences entre les valeurs de chaque
variable. La figure 4.3 illustre cette mesure.1
Figure 4.3
Illustration de la
distance
euclidienne 1.
1. Adapté de Hair et al., 2006, p. 575.
X
Y
Observation 2
(X2,Y2)
Observation
1 (X1,Y1)
Y2-Y1
X2-X1
Distance = (X2-X1)2+(Y2-Y1)2
Livre spss.book Page 83 Vendredi, 25. janvier 2008 12:04 12
84 Analyse de données avec SPSS
On peut voir sur la figure 4.3 que la distance euclidienne mesure la distance (ou la proxi-
mité) entre deux observations dont les coordonnées dans l’espace sont données par les
valeurs des variables X et Y. Pour l’observation 1, ces coordonnées sont (X1, Y1) et (X2,
Y2) pour l’observation 2. La distance euclidienne entre ces deux points est la longueur de
l’hypothénuse du triangle rectangle. Il est également possible de prendre le carré de la dis-
tance euclidienne en enlevant la racine carrée de la formule ci-dessus. C’est une approche
qui facilite le calcul et qui peut être utilisée, par exemple, dans la méthode de Ward (voir
ci-après).
D’autres mesures de distance peuvent s’avérer appropriées dans le cadre de données
métriques :
• le coefficient de corrélation de Pearson : c’est une mesure d’association qui permet
d’établir si deux variales mesurées sur le même ensemble d’observations varient de
façon analogue ou non;
• la distance de Tchebycheff : il s’agit de la différence maximale absolue entre les valeurs
relatives aux éléments de la classification;
• la distance de Minkowski : c’est la racine nième de la somme des différences absolues
entre les valeurs relatives aux éléments à la puissance n.
Dans le cadre d’une classification avec des données binaires, on privilégiera :
• l’indice de Sokal et Michener : il représente le rapport entre les appariements (rappro-
chements deux à deux) et le nombre total de valeurs;
• l’indice de Rogers et Tanimoto : cet indice attribue un poids deux fois plus important
aux non-appariements (non-coïncidences);
• l’indice de Sokal et Sneath : un poids plus important est accordé aux appariements qui
comptent le double.
De nombreuses autres mesures de distance existent; il est fortement conseillé de tester
empiriquement ces techniques afin de définir la mesure qui représentera de la manière la
plus efficace la structure des données collectées.
Un certain nombre de limites doivent cependant être prises en compte. Lors d’analyses
typologiques reposant sur des mesures différentes – par exemple des échelles de Likert,
des pourcentages, des montants en euros, etc. –, il est nécessaire de standardiser les mesu-
res et d’élimer les observations aberrantes. En ce qui concerne la standardisation, l’appro-
che la plus courante est la méthode de l’écart type, mais d’autres approches peuvent être
testées. L’utilisation de mesures de distance différentes peut conduire à des résultats de
classification différents. L’analyse typologique est en ce sens une méthode empirique, où,
comme nous l’avons signalé, de nombreuses combinaisons doivent être testées avant de
déterminer la configuration optimale.
2.2 CONSTITUTION DES GROUPES
Il existe deux types de méthodes de constitution des groupes (classification) : les
méthodes dites hiérarchiques et les méthodes non hiérarchiques (voir figure 4.4).
Les méthodes de classification hiérarchique consistent à établir une structure arbores-
cente ascendante (à partir de chaque individu de groupe différent en constituant des
groupes de plus en plus gros) ou descendante (à partir de tous les individus regroupés).
Les méthodes de classification non hiérarchique visent à constituer k groupes (k étant
Livre spss.book Page 84 Vendredi, 25. janvier 2008 12:04 12
85Segmenter
4Chapitre
spécifié en début d’analyse) à partir des n individus de départ. Nous présentons dans cette
section les méthodes les plus couramment mises en œuvre.
Classification hiérarchique ascendante
La classification hiérarchique ascendante est un processus relativement simple et répétitif.
Les individus/observations sont regroupés en segments aux caractéristiques communes.
On peut définir le processus de classification comme suit :
• chaque observation représente un groupe, le nombre de groupes est par conséquent
égal au nombre d’observations;
• les deux groupes aux caractéristiques les plus proches sont agrégés au sein d’un même
groupe en fonction de la mesure de distance choisie (euclidienne par exemple) et de la
méthode d’agrégation retenue (voir ci-après);
• le processus d’agrégation ci-dessus est répété n – 1 fois (n étant le nombre d’observa-
tions), c’est-à-dire jusqu’à ce qu’il n’y ait plus qu’un seul groupe.
Prenons l’exemple d’une enquête comportant 100 observations : la classification démarre
avec 100 groupes d’une observation, ensuite les deux groupes les plus proches sont agré-
gés, puis l’on recherche parmi les 99 groupes les deux groupes les plus proches, jusqu’à ce
que les deux derniers groupes soient agrégés au sein d’un même et dernier groupe.
En ce qui concerne la constitution des groupes, là encore plusieurs approches peuvent être
envisagées (Malhotra et al., 2007). On retiendra cinq méthodes (ou algorithmes) d’agré-
gation principales :
• le saut minimum : cette méthode consiste à prendre la plus petite distance mesurée
entre un élément de chaque groupe, puis la plus petite distance suivante, etc.;
• la distance du diamètre : la distance entre deux groupes est calculée partir de la dis-
tance entre leurs deux points les plus éloignés;
• la distance moyenne : cette méthode est relativement proche; la distance entre deux
groupes est définie par la moyenne des distances entre toutes les paires d’individus en
prenant en compte, pour chaque paire, un membre de chaque groupe. Cette méthode
est couramment employée du fait qu’elle utilise l’information de toutes les paires de
distances;
• la méthode des barycentres : il s’agit, comme la méthode de Ward, d’une méthode fon-
dée sur la variance. Ces méthodes ont pour objet en effet de générer des groupes afin de
minimiser la variance à l’intérieur de ceux-ci. On mesure la distance entre deux grou-
pes en établissant la distance entre leurs barycentres (point construit à partir des
moyennes de toutes les variables);
Figure 4.4
Choisir une
méthode de
classification.
Classifications
Hiérarchique Non hiérarchique
Ascendante Descendante Centres
mobiles
Nuées
dynamiques
Livre spss.book Page 85 Vendredi, 25. janvier 2008 12:04 12
86 Analyse de données avec SPSS
• la méthode de Ward : on calcule les moyennes pour toutes les variables de chaque
groupe, puis, pour chaque individu, le carré de la distance euclidienne au centre de la
classe.
La figure 4.5 représente ce que l’on nomme un dendogramme, autrement dit la représen-
tation graphique des résultats de la classification des individus en groupes. On lit le den-
dogramme de gauche à droite pour une classification hiérarchique ascendante, et de
droite à gauche pour une classification hiérarchique descendante. Les traits horizontaux
de la partie gauche du dendogramme représentent les 8 segments finaux réalisés lors de la
classification hiérarchique. La longueur de ces traits horizontaux est également caractéris-
tique de la distance qui sépare les groupes. Les lignes verticales représentent l’agrégation,
le rapprochement de deux groupes. Sur le graphique présenté, les segments 1 et 2 peuvent
être agrégés (ils sont proches à une distance de 1 à peu près) 1, ce qui est également le cas
des segments 5 et 6 (à une distance de 1,5 environ). L’agrégation suivante se fait à une dis-
tance de 2 et concerne le nouveau segment (composé des segments initiaux 5 et 6) et du
segment 7. Nous développons l’interprétation d’un dendogramme plus en détail dans la
partie suivante.
Classification hiérarchique descendante
La classification hiérarchique descendante consiste à considérer l’ensemble des observa-
tions rassemblées au sein d’un même segment, puis à les diviser en deux segments, puis en
trois, quatre, etc., jusqu’à obtenir un nombre maximum de segments (des groupes ne
contenant qu’un seul individu).
Figure 4.5
Interprétation des
deux grandes
méthodes de
classification.
1. Les distances ici sont fictives, elles ont pour but d’illustrer l’écart relatif entre les groupes.
1
2
3
4
5
6
7
8
0
1 2 3 4 5 6 7
Descendante
Ascendante
Livre spss.book Page 86 Vendredi, 25. janvier 2008 12:04 12
87Segmenter
4Chapitre
SPSS La procédure à suivre dans SPSS est la suivante : Menu Analyse > Classement > Classifica-
tion hiérarchique… La boîte de dialogue de la figure 4.6 s’affiche.
Si vous classez des observations, vous devez sélectionner au moins une variable numéri-
que. Si vous classez des variables, sélectionnez au moins trois variables numériques. Il est
également possible de sélectionner une variable d’information pour étiqueter les observa-
tions (par exemple classer les observations par pays). Le menu graphique vous permet de
générer un arbre hiérarchique ou dendogramme (voir ci-après) souvent utile pour l’interpré-
tation. En ce qui concerne la méthode (voir figure 4.7), plusieurs possibilités existent : le
saut minimum, la distance du diamètre, la distance moyenne, la méthode des barycentres et
la méthode de Ward (la plus couramment utilisée).
Une fois la méthode retenue, la mesure doit être sélectionnée : l’analyste peut choisir entre
la distance euclidienne ou le carré de la distance euclidienne par exemple, mais encore la
corrélation de Pearson, la distance de Tchebycheff, la distance de Minkowski, l’indice de
Sokal et Michener, l’indice de Rogers et Tanimoto, l’indice de Sokal et Sneath que nous
avons abordés dans la section précédente. Il est préférable de tester plusieurs méthodes et
plusieurs mesures avant de retenir une solution définitive. En effet, ces approches peuvent
produire des résultats différents, plus ou moins lisibles ou utiles pour la décision. L’arbre de
décision ou dendogramme peut faciliter la lecture des résultats.
Figure 4.6
Boîte de dialogue
du menu
Classification
Hiérarchique.
Figure 4.7
Boîte de dialogue
du sous-menu
Méthode.
Livre spss.book Page 87 Vendredi, 25. janvier 2008 12:04 12
88 Analyse de données avec SPSS
2.3 CLASSIFICATION NON HIÉRARCHIQUE
Les méthodes de classification non hiérarchiques visent à constituer k groupes (k étant
spécifié en début d’analyse) à partir des n individus de départ. Ces méthodes sont très lar-
gement utilisées car elles permettent de traiter des volumes importants tout en optimisant
les critères de classification. La particularité de ces méthodes, à la différence des méthodes
de classification hiérarchique, est que le choix du nombre de groupes se fait en début de
processus. Il s’agit d’un paramètre que l’analyste doit fixer avant de lancer l’algorithme.
C’est un élément qui peut poser problème, étant donné que l’on ne connaît jamais ex ante
le nombre idéal de groupes existant au sein d’une population étudiée. Dans la pratique, il
est préférable de ne pas avoir à traiter un nombre trop élevé de groupes, ce qui rendrait
difficile l’interprétation. On recommande donc de faire plusieurs essais avec des nombres
de groupes différents afin d’identifier la meilleure solution au regard de critères statisti-
ques de validité (la variance intergroupe divisée par la variance totale par exemple). On
utilise en général des solutions comprenant entre 5 et 10 groupes.
On distingue deux méthodes principales de classification non hiérarchique, qui sont en
réalité deux niveaux d’une même approche : la méthode des centres mobiles et la
méthode des nuées dynamiques.
• la méthode des centres mobiles : méthode décomposant un ensemble d’individus en
un nombre n de classes choisies a priori par un processus itératif convergeant de sélec-
tion des représentants de chaque classe (un centre par classe), qui peut être initialisé au
hasard ou par l’utilisateur de la méthode. Les individus sont donc regroupés autour de
ces centres de classe, les groupes étant constitués des individus les plus proches du cen-
tre du groupe. Une fois les individus affectés, on remplace les centres par les barycentres
(c’est-à-dire le point d’équilibre de tous les points pris en compte) afin de recalculer les
classes;
• la méthode des nuées dynamiques : il s’agit d’une généralisation de la méthode des
centres mobiles, dans laquelle chaque classe est représentée par un noyau de plusieurs
éléments et non plus par un seul. Par ailleurs, le barycentre de chaque groupe est recal-
culé à chaque nouvel individu et non lors de l’affectation de tous les individus. La
convergence est ainsi plus rapide et parfois même possible en une seule itération, ce qui
peut être utile sur de gros volumes de données (Tufféry, 2006).
La méthode des nuées dynamiques est une méthode fréquemment employée. Elle est par-
ticulièrement performante en marketing, où le nombre d’observations (questionnaires
collectés par exemple) est fréquemment supérieur à 100. Les classifications hiérarchiques
sont en effet lourdes à manipuler au-delà de ce seuil, le nombre d’itérations étant trop
important en termes de capacité de calcul. L’approche des nuées dynamiques est intéres-
sante également car elle permet d’adopter un raisonnement utile pour l’interprétation.
Elle suppose, en effet, qu’il existe pour chaque groupe un individu plus représentatif que
les autres de la classe à laquelle il est affecté, celui qui est le plus proche du barycentre.
Notons que les variables doivent être quantitatives et/ou que la mesure de distance
employée est la distance euclidienne simple. Si vous souhaitez utiliser une autre mesure de
distance, il est préférable d’utiliser la méthode de classification hiérarchique.
Livre spss.book Page 88 Vendredi, 25. janvier 2008 12:04 12
89Segmenter
4Chapitre
* Focus 4.1 • Application aux données textuelles
Les méthodes de classification hiérarchiques, mais également les nuées dynamiques, ont été
depuis les travaux de Benzécri, puis de Reinert, appliquées au domaine de la lexicométrie (ou
statistique textuelle), et plus récemment au Text Mining (extension aux données textuelles du
Data Mining classique). Le principe sous-jacent au déploiement de ces méthodes est qu’il est
possible de mettre à jour dans un discours ou un texte, une structure, des séquences qui vont
permettre une analyse fine de ce type de données complexes à traiter. Plus précisément, la sta-
tistique textuelle a pour objet de découper un texte en unités textuelles (des mots par exemple)
puis de regrouper les unités qui sont proches de façon à obtenir des classes homogènes de dis-
cours, suffisamment distinctes les unes des autres, que Reinert nomme des « mondes lexicaux »
et qui correspondent aux différentes facettes d’un corpus textuel. Il est ainsi possible, par exem-
ple, d’extraire de grandes classes de mots utilisés par les consommateurs pour parler d’une
marque; un premier groupe de mots fait référence à l’image, un deuxième au rapport qualité/
prix, un troisième aux concurrents, etc. De nombreux logiciels permettent de traiter ces don-
nées textuelles : Alceste (le logiciel développé par Max Reinert du CNRS), Tropes, Sphinx
Lexica, mais également dans une approche de Text Mining : Lexiquest et Clementine de SPSS
et Text Miner de SAS.
SPSS La procédure à suivre dans SPSS est la suivante : Analyse > Classification > Nuées dynami-
ques… La boîte de dialogue de la figure 4.8 apparaît.
La première étape consiste à sélectionner les variables qui paraissent les plus pertinentes.
On spécifie ensuite le nombre de classes que l’on souhaite obtenir (entre 5 et 10). Une indi-
cation du nombre de classes souhaitable peut être fournie par une première analyse de type
ACP (analyse en composantes principales), par exemple pour simplifier des données collec-
tées (voir le chapitre 3 sur la simplification des données). Le menu Options permet de spéci-
fier un certain nombre d’éléments qui seront utiles à l’interprétation : préciser les centres de
classe initiaux ou créer un tableau ANOVA afin de déterminer les variables les plus discri-
minantes dans la constitution des groupes et éliminer ainsi les centres de classe initiaux
(pour l’interprétation de l’ANOVA, voir le chapitre 5). Il est possible également d’exclure les
valeurs manquantes. On clique ensuite sur Itérer pour lancer la procédure.
Figure 4.8
Boîte de dialogue
du menu Nuées
dynamiques.
Livre spss.book Page 89 Vendredi, 25. janvier 2008 12:04 12
90 Analyse de données avec SPSS
(3) Mise en œuvre
L’analyse typologique est une méthode qui suppose de tester empiriquement un grand
nombre de combinaisons différentes. La nature des données à segmenter mais également
les choix opérés au niveau de la mesure de distance et des méthodes de constitution des
groupes rendent extrêmement complexe le choix d’une combinaison optimale. À titre
d’exemple, le nombre de regroupements possibles de 1 000 personnes en 6 classes est de
l’ordre de 1015! (Evrard et al., 1997) Dès lors, un certain nombre de problèmes pratiques
se posent à l’analyste. Les deux premiers sont liés à la mise en œuvre de la démarche : le
choix du nombre des groupes et l’interprétation du profil des groupes constitués. Le troi-
sième problème est lié à la validité de la classification; d’importantes précautions doivent
être prises au cours de cette étape, comme nous le montre l’exemple suivant.
EXEMPLE Pour illustrer la mise en œuvre d’une démarche de classification, prenons un exemple con-
cret. Une entreprise du secteur informatique, fabriquant et commercialisant des ordinateurs
et des baladeurs numériques, souhaite se diversifier en lançant un téléphone portable nou-
velle génération. Elle réalise une étude de marché afin de lancer une gamme de produits
déclinables en fonction de segments de consommateurs ayant des besoins suffisamment dif-
férenciés les uns des autres pour éviter toute cannibalisation. L’enquête a été administrée à
160 consommateurs regroupés en 7 segments différents et qui ont été interrogés sur leurs
préférences, notées sur une échelle de 1 à 7, sur un total de 15 attributs :
3.1 CHOISIR LE NOMBRE DE GROUPES
Étant donné le nombre d’observations, le chargé d’étude décide de mettre en place une
classification hiérarchique afin de constituer les groupes. Les résultats sont représentés
dans l’arbre de décision de la figure 4.9.
Intérêt nouveauté
Utilisation SMS
Utilisation voix
Utilisation agenda
Réception données
Émission données
Bluetooth
Wi-Fi
Taille écran
Fonction E-mail
Fonction Internet
Appareil photo
Design
Prix abonnement
Prix achat (hors abon.)
Figure 4.9
Représentation
graphique des
résultats de la
première
classification.
Livre spss.book Page 90 Vendredi, 25. janvier 2008 12:04 12
91Segmenter
4Chapitre
Le dendogramme nous fournit à la fois une visualisation graphique des résultats et le
niveau en termes de distance des regroupements effectués. On peut voir, par exemple, que
les segments 5 et 7 sont les plus proches, à une distance de 0,17 seulement. On constate
ensuite que les deux segments suivants, les segments 1 et 6, ne sont séparés que par une
distance de 0,21. Le « saut » suivant est effectué à une distance de 0,32 et regroupe l’agré-
gation des segments 5 et 7 avec le segment 2. On entend par « saut » les écarts de distance
entre les regroupements effectués. On peut les identifier avec SPSS dans le fichier des
résultats, où on les retrouve dans la chaîne des agrégations, tableau qui reprend les dis-
tances auxquelles ont été effectués les regroupements (voir exercice 1). On constate dans
cet exemple que le saut suivant se situe à une distance de 1,15, qui correspond pratique-
ment au triple en termes de distance du précédent regroupement. Il existe donc un écart
important entre les trois premiers regroupements et les suivants. Une solution à 4 classes
semble donc pertinente (les 7 classes sont obtenues par 6 regroupements successifs; si l’on
fusionne les trois premiers regroupements énoncés, on n’obtient plus que 3 regroupe-
ments séparant 4 classes différentes).
3.2 INTERPRÉTER LES GROUPES
Une lecture de la classification à 4 groupes donnerait les résultats présentés à la figure 4.10.
La première étape dans l’interprétation de la classification obtenue consiste à revenir sur
les centres de groupes. Plus précisément, on cherche à établir les coordonnées de ces
points, que l’on pourrait assimiler à des centres de gravité des classes constituées, en repre-
nant les moyennes des scores des variables pour tous les individus appartenant à la classe.
Il est important d’obtenir une classification pertinente du nombre de classes à exploiter
mais également une lecture aisée de ces groupes d’individus ou de variables (voir
tableau 4.1).
On décrit les segments obtenus en observant les scores moyens par variable et par groupe
et en les comparant au score moyen de l’ensemble des répondants (colonne Total). On
constate que le segment 1 est caractérisé par un intérêt fort porté à la nouveauté proposée
par l’entreprise, par un bloc de variables (de Ut_Tel à Émission) correspondant aux fonc-
tions classiques du téléphone et aux fonctions avancées (E-mail, Internet, Appareil
photo). Le segment 2 est plutôt caractérisé par l’emploi des SMS, les éléments liés à la
connectivité à distance, une taille d’écran importante. Le segment 3 peut être décrit par
une forte émission/réception de données, un intérêt pour les éléments de connectivité à
distance ainsi que pour la taille de l’écran, le design du produit; il est relativement peu
sensible au prix. Le segment 4 regroupe des individus attirés par la nouveauté, utilisant
Figure 4.10
Représentation
graphique la
classification en
4 groupes.
Livre spss.book Page 91 Vendredi, 25. janvier 2008 12:04 12
92 Analyse de données avec SPSS
fortement leur téléphone, appréciant toutes les nouveautés technologiques proposées
dans le nouveau produit et insensibles au prix. On peut considérer (on le voit également
d’un point de vue graphique) qu’il existe deux segments principaux composés chacun de
deux sous-segments. Les segments 1 et 4 regroupent en effet des individus attirés par la
nouveauté. Le segment 4 étant moins sensible au prix, on pourrait les comparer à des early
adopters ou adoptants précoces, qui sont les premiers à acheter les nouveautés sur le mar-
ché. Le segment 4 représente des individus attirés par la nouveauté mais relativement peu
informés et relativement désargentés. Ils pourraient constituer une cible intéressante pour
une seconde vie du produit, avec abonnement, une fois que l’innovation aura été diffusée
auprès d’une première couche de population, plus rentable. Le second groupe, constitué
des segments 2 et 3, représente une population qui diffère légèrement de la première. Le
segment 3, caractérisé par les variables depuis Émission jusqu’à Écran, est sensible au
design et très peu au prix. Il s’agit d’un segment probablement CSP + ou professionnel, à
qui l’on peut destiner une version haut de gamme, tant d’un point de vue technique qu’en
ce qui concerne les services associés (ils téléchargent et émettent un volume important de
données). Le segment 2 est un segment plus mass market a priori, qui pourrait correspon-
dre à une population plus jeune (SMS), connectée (Bluetooth, Wi-Fi) et qui souhaite uti-
Tableau 4.1 : Centres de groupes
Variable Total S 1 S 2 S 3 S 4
Intérêt 3,47 3,71 2,43 2,19 5,11
Ut_SMS 4,21 3,68 5,63 3,19 3,49
Ut_Tel 5,56 5,84 5,43 4,31 5,84
Ut_Agenda 4,01 5,89 2,33 3,06 3,86
Réception 4,45 5,02 3,88 6,12 3,65
Émission 4,50 5,20 3,90 6,25 3,51
Bluetooth 3,99 3,86 5,04 5,31 2,16
Wi-Fi 3,71 3,39 3,73 6,12 3,14
Écran 4,79 4,29 5,55 5,00 4,43
E-mail 4,72 5,96 3,31 2,88 5,59
Internet 4,47 5,66 3,04 1,44 5,97
Ap_Photo 4,01 5,20 5,45 1,94 5,27
Design 4,63 3,95 4,16 5,50 5,95
Px_Abon 28,8 24,6 25,3 45,3 32,6
Px_Achat 332 290 273 488 411
Livre spss.book Page 92 Vendredi, 25. janvier 2008 12:04 12
93Segmenter
4Chapitre
liser les fonctionnalités multimédias de l’appareil (Écran, Appareil photo) afin de
communiquer.
Pour s’assurer de la validité de la classification obtenue, il est recommandé de vérifier en
premier lieu la cohérence au sein des différents groupes (effectuer une analyse de variance
par exemple). L’analyste peut également réaliser des tests statistiques sur chaque variable
(fréquences, etc.) afin de comparer les résultats au sein d’un groupe avec l’ensemble des
observations. Ces démarches ne sont utiles que si un certain nombre de combinaisons
(méthode, distance, ajout/omission de variables, etc.) ont déjà été testées.
Résumé
L’analyse typologique est une méthode fréquemment mobilisée en analyse de données.
Elle permet non seulement de classer des individus ou des variables, mais également de
réduire les données en les regroupant au sein de classes homogènes. Il n’existe pas une
mais des méthodes de segmentation. Que l’on opte pour une procédure de classification
hiérarchique ou non hiérarchique, l’analyse typologique confère une grande liberté à
l’analyste, mais rend également plus complexe le choix de la bonne approche. Elle suppose
de tester empiriquement un grand nombre de combinaisons avant de trouver la démarche
qui aboutisse à des résultats exploitables (nombre de groupes et interprétation) et valides.
Pour aller plus loin
Evrard Y., Pras B., Roux E., Market. Études et recherche en marketing, Nathan, Paris, 2003.
Hair J. F., Anderson R. E., Tatham R. L., Black W. C., Multivariate Data Analysis, Prentice
Hall International, New Jersey, 2007.
Malhotra N., Decaudin J. M., Bouguerra A., Études marketing avec SPSS, 5e éd., Pearson
Education, Paris, 2007.
Tufféry S., Data mining et statistiques décisionnelles, éditions Technip, Paris, 2007.
Livre spss.book Page 93 Vendredi, 25. janvier 2008 12:04 12
94 Analyse de données avec SPSS
Exercices
EXERCICE 1 HABITUDES ALIMENTAIRES
* Solution 1. L’analyse typologique permet de « réduire le nombre d’observations en les regroupant
en des classes homogènes et différenciées ». Dans ce cas précis, l’objectif de l’analyse typo-
logique pourrait être de faire apparaître des catégories de pays en fonction des habitudes
alimentaires. L’utilité pour l’enseigne est multiple : en faisant émerger ces grands types de
consommation, elle sera à même d’optimiser sa stratégie de négociation avec les fournis-
seurs, sa politique d’achat, structurer son département achat par régions, etc.
2. L’enquête porte sur seulement 25 observations, une classification hiérarchique semble
pertinente. Dans ce cas précis, rien ne nous oriente vers une classification hiérarchique
ascendante ou descendante. Il est préférable de s’orienter vers les pratiques les plus
diffusées : nous pourrions essayer dans un premier temps de réaliser une classification hié-
rarchique ascendante. Un premier essai en utilisant la méthode de Ward et le carré de la
distance euclidienne (préférable lorsqu’on utilise la méthode de Ward comme nous
l’avons vu) pourrait s’avérer fructueux.
3. La procédure est la suivante : Analyse > Classement > Classification hiérarchique…
Faites glisser les variables de « viande rouge » à « fruits et légumes » dans la case Varia-
ble(s), et sélectionnez « Nom du pays » afin d’étiqueter les observations. Dans le menu
Graphique sélectionnez Arbre hiérarchique. En ce qui concerne la méthode, on peut,
dans un premier temps, essayer d’utiliser la méthode de Ward combinée à une mesure par
le carré de la distance euclidienne. On obtient le dendogramme de la figure 4.11.
• Énoncé Une enseigne de grande distribution cherche à réaliser une enquête sur les habitudes ali-
mentaires en Europe afin d’adapter sa politique d’achat et de référencement. Les données
concernant 25 pays ont été recueillies. Elles portent sur les indices globaux de consom-
mation de 9 catégories de produits alimentaires : viande rouge, viande blanche, œuf, lait,
poisson, céréales, féculents, oléagineux, fruits et légumes. Les données issues de l’enquête
sont disponibles dans le fichier « alimentaire.sav ».
1. Quelle pourrait être l’utilité de l’analyse typologique dans ce cas précis?
2. Quelle méthode de classification recommandez-vous?
3. Réalisez et décrivez l’arbre de classification.
4. Dans le cas de la classification hiérarchique, on peut également interpréter le nombre
de groupes par le biais de la chaîne d’agrégation, qui reprend dans un tableau les dis-
tances auxquelles les groupes sont agrégés. L’interprétation de cette chaîne consiste à
repérer des « sauts » de distance dans la constitution des groupes. Commentez le
tableau de la chaîne d’agrégation obtenu.
5. Combien de groupes faut-il garder?
6. Êtes-vous satisfait des résultats de l’analyse?
Livre spss.book Page 94 Vendredi, 25. janvier 2008 12:04 12
95Segmenter
Exercices
4Chapitre
On peut observer sur l’arbre de décision que deux grands blocs de pays se détachent assez
nettement. La première classe est constituée des pays allant du Danemark au Liechtens-
tein, la seconde de la Bulgarie à l’Albanie. Ces deux blocs sont repris dans le tableau 4.2.
La classification semble assez cohérente. Le premier groupe correspond a priori à des pays
plus développés, ou faisant partie du premier cercle de l’Union européenne d’un point de
vue historique. Le second groupe, à l’exception de l’Italie, fait partie de pays ayant adhéré
plus tardivement à l’UE ou hors UE. On peut supposer que, même si les écarts de dévelop-
pement ont été rattrapés pour certains d’entre eux (Espagne, Grèce, etc.), les difficultés
Figure 4.11
Représentation
graphique des
résultats de la
première
classification.
Tableau 4.2 : Les deux premiers groupes de pays
Groupe 1 Groupe 2
Danemark
Suède
Norvège
Islande
France
Belgique
Royaume-Uni
Suisse
Irlande
Pays-Bas
Allemagne
Liechtenstein
Bulgarie
Yougoslavie
Roumanie
Espagne
Portugal
Ukraine
Pologne
République tchèque
Hongrie
Grèce
Italie
Russie
Albanie
Livre spss.book Page 95 Vendredi, 25. janvier 2008 12:04 12
96 Analyse de données avec SPSS
passées se notent dans les comportements alimentaires. Les données dont nous disposons
ne nous permettent pas encore de véritable interprétation.
4. En ce qui concerne la chaîne d’agrégation, on obtient les résultats de la figure 4.12.
Nous recherchons des « sauts » de distance dans la chaîne d’agrégation. Le premier saut
apparaît nettement et confirme la description en deux classes principales : la distance dou-
ble entre les étapes 23 et 24 (de 2 632,676 et 5 243,414). Le deuxième saut (22-23) est
caractérisé par un écart de 900 environ, le troisième saut (21-22) par un écart de 500 envi-
ron, et enfin le quatrième saut (20-21) par un écart de 200 seulement. Les troisième et
quatrième sauts étant caractérisés par des écarts trop faibles si on les compare aux deux
précédents, une solution à trois classes semble se profiler. Cette solution nous amènera à
distinguer deux sous-groupes au sein du deuxième groupe de pays : un groupe constitué
de la Bulgarie, de la Yougoslavie et de la Roumanie, d’un côté (ce qui a du sens d’un point
de vue purement géographique) et le reste des pays, de l’autre.
5. Au vu des résultats précédents, et des objectifs que pourrait potentiellement mettre en
œuvre l’enseigne de distribution, il semble qu’une solution à deux groupes soit préférable.
En effet, le troisième groupe que nous avons fait apparaître n’étant constitué que de trois
pays, la portée managériale de cette distinction est faible (mettre en place une cellule ou
adapter la stratégie pour ces trois pays). Il faudrait croiser l’analyse avec d’autres variables,
de type risque pays par exemple, qui sont fournies par les grands organismes internatio-
naux (FMI, Banque mondiale, OMC, Eurostat, etc.) pour savoir s’il s’agit de pays à exclure
des décisions stratégiques dans cette région.
6. Ces commentaires sont effectués sur les résultats d’une seule analyse. Ils ne donnent pas
entière satisfaction et il est souhaitable de tester d’autres approches avant de donner un
résultat définitif. À vous de tester d’autres procédures pour mieux déterminer les groupes.
Figure 4.12
Chaîne
d’agrégation de la
typologie pays.
Livre spss.book Page 96 Vendredi, 25. janvier 2008 12:04 12
97Segmenter
Exercices
4Chapitre
EXERCICE 2 ACHATS ON-LINE
* Solution 1. Le nombre élevé d’observations nous oriente assez naturellement vers une méthode de
classification non hiérarchique. Ces méthodes, rappelons-le, visent à constituer k groupes
(nombre spécifié dès le départ) à partir des n individus (1 400 dans cet exemple). Le choix
d’une méthode non hiérarchique s’explique par le recours à un nombre moins élevé d’ité-
rations que dans le cas d’une classification hiérarchique, ce qui « allège » l’algorithme en
termes de capacité de calcul (si vous lancez SPSS avec une classification hiérarchique sur
ces données vous risquez d’attendre très longtemps vos résultats!). Enfin, les méthodes
non hiérarchiques que nous avons abordées (centre mobiles et nuées dynamiques) sont
intéressantes en termes d’interprétation car elles supposent qu’il existe un centre de classe,
c’est-à-dire un individu plus représentatif de son groupe d’appartenance. Il semble donc
judicieux de mettre en œuvre une analyse par la méthode des nuées dynamiques (K-
means).
2. Pour lancer la méthode des nuées dynamiques reprenez la démarche vue dans la partie
cours : Analyse > Classement > Nuées dynamiques… La procédure affiche la boîte de
dialogue de la figure 4.13.
• Énoncé Une enquête portant sur un nombre élevé de répondants (1 400 questionnaires exploita-
bles) vient d’être réalisée. L’objet de cette enquête, commanditée par une chaîne de
magasins spécialisée dans l’électroménager est de mieux comprendre le comportement
multicanal du consommateur, c’est-à-dire si son comportement on-line diffère de son
comportement off-line (en magasin traditionnel). Une première approche en termes
d’analyse des résultats est de faire émerger des types de répondants. Une extraction des
résultats de cette enquête est disponible dans le fichier « on-line.sav » disponible sur le
site : http://www.pearsoneducation.fr.
1. Quelle démarche peut-on mettre en œuvre? Argumentez.
2. Décrivez puis interprétez les segments obtenus.
Figure 4.13
Boîte de dialogue
de la méthode des
nuées dynamiques.
Livre spss.book Page 97 Vendredi, 25. janvier 2008 12:04 12
98 Analyse de données avec SPSS
La première étape consiste à choisir les variables les plus adaptées à l’analyse. Vous pouvez
vous aider des étiquettes des variables (dans l’éditeur de données cliquez sur l’onglet
« affichage des variables »). Nous n’avons pas vraiment d’indication, en dehors des questions
posées (pas d’analyse factorielle par exemple sur la structure des données). Nous pouvons
inclure, dans un premier temps, l’ensemble des variables (à l’exception du numéro de ques-
tionnaire, sans objet). Faites glisser les variables dans la cellule « variable(s) ». Choisissez
ensuite le nombre de classes que vous souhaitez obtenir : une AFC peut être utile ici pour
vous orienter.Vous pouvez la réaliser en vous reportant au chapitre 3.
Nous allons procéder de manière plus empirique. Tout d’abord, nous choisissons un
nombre légèrement plus élevé de classes que celui attendu a priori (ou suggéré par l’AFC/
ACP). Les données que nous utilisons sont pour la plupart des échelles en 5 points, sauf la
variable dichotomique sur la récence de la visite d’un site d’e-commerce qui pourrait être
une variable relativement discriminante (de même que le sexe). Proposons dans un pre-
mier temps une classification en 4 classes et observons les résultats. Étant donné que nous
allons classer un nombre élevé de variables, il faut augmenter le menu Itérer à
30 itérations maximum (nous pourrons augmenter/diminuer le nombre d’itérations si les
résultats nous indiquent que ce nombre s’avère insuffisant/trop élevé). Il est possible, dans
ce menu, de sauvegarder les classes en tant que nouvelles variables; cette opération est
utile en fin d’analyse pour vérifier la validité des résultats. Dans les Options, choisissez
d’ajouter un tableau ANOVA (analyse de variance) qui sert à déterminer quelles sont les
variables les plus discriminantes dans la constitution des groupes. Lancez la procédure.
Nous obtenons les résultats présentés à la figure 4.14.
Dans la plupart des cas on peut laisser le menu itérer par défaut (à 10 itérations maxi-
mum). Les classes convergent dans notre cas avant la 23e itération, c’est-à-dire que la
valeur ,000 est atteinte dans chacune des quatre classes.
On observe ensuite le nombre d’observations dans chaque classe. Il faut veiller à ce que
celles-ci ne soient pas trop déséquilibrées. Une bonne pratique consiste à ne garder que les
classes qui représentent 10 % ou plus des observations. Dans notre cas, on obtient la
répartition de la figure 4.15.
Figure 4.14
Historique des
itérations.
Livre spss.book Page 98 Vendredi, 25. janvier 2008 12:04 12
99Segmenter
Exercices
4Chapitre
La répartition semble homogène. Si les résultats avaient été déséquilibrés à ce niveau, il
aurait fallu éliminer une classe. Étudions maintenant les variables les plus discriminantes
en décrivant les résultats du tableau ANOVA (voir figure 4.16).
Le test de significativité F est utilisé dans l’interprétation de l’analyse de variance (voir
chapitre 4). Ici, le F ne doit être utilisé que dans un but descriptif car il s’agit de maximiser
les différences entre les observations des différentes classes. On recherche seulement les
valeurs significatives de F les plus élevées. Deux constats peuvent être faits à la lecture du
tableau : les variables les plus discriminantes pour la constitution des classes sont : 1) les
visites avant achat (F = 2 853,781); 2) la fréquence d’achat sur Internet (F = 1 733,540);
3) le sentiment de sécurité lors de l’achat en ligne (F = 1 495,489). Le second constat pro-
vient des variables qui peuvent être éliminées de l’analyse : il s’agit des variables vendeur
(« je n’aime pas me faire conseiller par un vendeur »), on-line (« j’aime acheter on-line »)
et multicanal (« je fais mes recherches on-line mais j’achète en magasin traditionnel ») qui
ne sont pas significatives (respectivement à 0,682/0,251/0,159). On peut relancer l’analyse
en éliminant ces trois variables : nous obtenons alors une convergence en 20 itérations et
les résultats présentés aux figures 4.17, 4.18 et 4.19.
On interprète les 4 classes en fonction des centres de classe finaux. On s’aperçoit assez
rapidement qu’il s’agit d’hommes principalement et que les segments sont divisés en deux
catégories principales : les pour et les contre (pour l’interprétation, on reprend la signifi-
cation des valeurs en fonction des étiquettes de variables : 1 = absolument pas
d’accord, etc.). On peut lancer une segmentation à deux classes pour faire apparaître plus
clairement cette dichotomie. Les figures 4.20, 4.21, 4.22 et 4.23 présentent les résultats.
Figure 4.15
Nombre
d’observations
dans chaque classe.
Figure 4.16
Tableau ANOVA.
Livre spss.book Page 99 Vendredi, 25. janvier 2008 12:04 12
100 Analyse de données avec SPSS
Figure 4.17
Résultats deuxième
analyse par les
nuées
dynamiques (1).
Figure 4.18
Résultats deuxième
analyse par les
nuées dynamiques
(2).
Figure 4.19
Résultats deuxième
analyse par les
nuées
dynamiques (3).
Livre spss.book Page 100 Vendredi, 25. janvier 2008 12:04 12
101Segmenter
Exercices
4Chapitre
Figure 4.20
Résultats finaux (1).
Figure 4.21
Résultats finaux (2).
Figure 4.22
Résultats finaux (3).
Figure 4.23
Résultats finaux (4).
Livre spss.book Page 101 Vendredi, 25. janvier 2008 12:04 12
102 Analyse de données avec SPSS
On note tout d’abord que le calcul a été plus rapide (6 itérations seulement) et que les
deux classes sont relativement homogènes (644 et 756 individus respectivement). Le pre-
mier groupe correspond à des habitués de l’achat en ligne, qui ont visité récemment un
site d’e-commerce, qui achètent régulièrement sur Internet, et qui ont visité de nombreu-
ses fois le site avant de faire leur achat, que ce soit sur le site ou en point de vente tradition-
nel. Le second segment correspond à des consommateurs qui sont plus réfractaires au
commerce en ligne et qui ont visité peu de fois le site avant de faire leur achat. Dans les
deux classes il s’agit principalement d’hommes. Nous n’avons pas d’information sur le
canal utilisé pour réaliser l’achat : site ou magasin traditionnel. Une piste intéressante à
suggérer à votre responsable : mettre en œuvre une analyse plus avancée pour expliquer
l’achat on- ou off-line par l’ensemble des variables que nous venons d’étudier.
EXERCICE 3 SEGMENTER LE MARCHÉ AUTOMOBILE1
* Solution 1. Nous allons procéder à une classification hiérarchique ascendante. Comme nous l’avons
signalé, cette méthode est peu performante sur de gros volumes de données. Le tableau de
données contenant 157 modèles concurrents, il est souhaitable de sélectionner les obser-
vations pour en retenir un nombre moins élevé. Nous pouvons centrer notre analyse sur
les modèles les plus performants sur le marché par le biais de la procédure « sélectionner
les observations » (que nous avons abordée au chapitre 2).
Dans le menu Données choisissez le sous-menu Sélectionner les observations… Nous
nous intéressons aux modèles ayant vendu plus de 100 000 unités sur le marché améri-
cain. Sélectionnez les observations selon une condition logique : Si « (type = 0) &
(ventes > 100) » comme indiqué sur la figure 4.24.
Pour lancer la classification hiérarchique ascendante, suivez les procédures que nous avons
vues plus haut : Analyse > Classement > Classification hiérarchique…
Nous allons fonder notre analyse sur un certain nombre de variables de classification per-
tinentes dans le cas d’une segmentation de produits. Sélectionnez les variables allant de
Prix en millier ($) jusqu’à Consommation en les faisant glisser dans la cellule
« Variable(s) ». Nous allons utiliser une variable afin d’ordonner les résultats : faites glisser
la variable Modèle dans la cellule « Etiqueter les observations par ». Dans le menu graphi-
• Énoncé L’exemple 1 que nous allons étudier reprend des informations sur les caractéristiques de
différents modèles concurrents sur le marché US, ainsi que leur performance en termes
de prix et de vente. L’objet de l’application est de réaliser une typologie des principales
marques en présence sur ce marché. Ouvrez le fichier « ventes_voitures.sav » disponible
sur le site : http://www.pearsoneducation.fr.
1. Peut-on, sur ces données, mettre en œuvre une classification hiérarchique
ascendante? Décrivez les étapes nécessaires à sa mise en œuvre.
2. Décrivez et interprétez les segments obtenus.
1. Il s’agit ici d’une version légèrement modifiée d’un fichier disponible dans les fichiers exemples de SPSS (car_sales.sav). De nombreux
fichiers de ce type peuvent être utilisés pour manipuler et expérimenter les différents tests disponibles sur SPSS.
Livre spss.book Page 102 Vendredi, 25. janvier 2008 12:04 12
103Segmenter
Exercices
4Chapitre
que, cochez la case « Arbre hiérarchique » et sélectionnez la case « Aucun » dans le sous-
menu Stalactites afin de produire le dendogramme que nous analyserons dans la section
suivante. Poursuivez et cliquez sur « Méthode » afin d’afficher la boîte de dialogue des
mesures de distance de la classification. Nous allons procéder par une agrégation suivant
le saut minimum, c’est-à-dire en déterminant la plus petite distance mesurée entre un élé-
ment de chaque groupe, puis la plus petite distance suivante, et ainsi de suite. Les données
étant mesurées sur des échelles différentes (dollars, litres, etc.) nous allons les standardiser
par l’emploi de l’écart type, comme indiqué sur la figure 4.25.
Cliquez sur Poursuivre et lancez la classification.
La classification hiérarchique ascendante nous a permis d’obtenir 10 segments de véhicu-
les, comme le montre le dendogramme à la figure 4.26.
Figure 4.24
Boîte de dialogue
Sélectionner les
données selon une
condition logique.
Figure 4.25
Boîte de dialogue
Choix de la
méthode
d’agrégation et de
la mesure de
distance.
Figure 4.26
Dendogramme des
résultats de la
classification
hiérarchique.
Livre spss.book Page 103 Vendredi, 25. janvier 2008 12:04 12
104 Analyse de données avec SPSS
2. Lorsqu’on cherche à définir le nombre de groupes idéal sur la base d’un dendogramme,
on souhaite identifier de manière empirique des « sauts » de distance entre les différents
regroupements effectués. En lisant le dendogramme de la droite vers la gauche, on cons-
tate qu’il y a un saut important entre 25 et 20 qui sépare le marché automobile en deux
segments principaux, comme le montrent les traits en pointillés sur la figure 4.27.
Rappelons la règle de lecture du dendogramme énoncée plus haut : les axes verticaux
représentent les regroupements de segments, les axes horizontaux les distances entre les
segments. Il s’agira donc de ne conserver que les segments les plus distants et d’agréger les
segments les plus proches (ayant la plus petite distance). On peut constater, si l’on pour-
suit la lecture des résultats graphiques, qu’il existe un autre saut, entre 10 et 15, qui sug-
gère 6 segments différents si l’on compte le nombre de lignes horizontales entre ces deux
mesures. On peut encore lire les résultats différemment : on constate qu’il existe un écart
visuel entre les 5 premiers axes verticaux (les 5 premiers regroupements suggérant donc
6 segments) et les axes verticaux suivants situés sur la partie gauche du graphique. En
effet, le 5e axe se situe à une distance de 14 à peu près, tandis que le suivant se situe à une
distance de 8.
Une telle solution à 6 segments n’apporte pas suffisamment de clarté à notre lecture du
marché automobile. Il peut être intéressant alors d’essayer une autre méthode d’agréga-
tion qui pourrait s’avérer plus pertinente. Rappelez la boîte de dialogue et choisissez la
méthode d’agrégation suivant la distance du diamètre, calculée à partir de la distance
entre les deux points les plus éloignés des groupes comparés deux à deux. On obtient
l’arbre de classification présenté à la figure 4.28.
Figure 4.27
Lecture du premier
segment sur le
dendogramme.
Figure 4.28
Lecture du second
dendogramme.
Livre spss.book Page 104 Vendredi, 25. janvier 2008 12:04 12
105Segmenter
Exercices
4Chapitre
On voit apparaître les résultats plus clairement. Deux segments différents peuvent être
identifiés : les modèles du haut (de Accord à Corolla) représentent les véhicules les plus
petits, les modèles du bas (de Malibu à Mustang) représentent les modèles les plus grands.
On peut remarquer également que deux sous-segments se distinguent au sein des plus
petits véhicules : la Focus, la Civic et la Corolla sont des véhicules moins chers que les trois
modèles du haut.
En ce qui concerne la chaîne des agrégations de notre second cas, on obtient le tableau de
la figure 4.29.
Dans ce tableau, le coefficient d’agrégation réalise un saut important (plus du double)
entre les étapes 9 et 10 : la solution à deux groupes est bien appropriée.
Figure 4.29
Chaîne des
agrégations.
Livre spss.book Page 105 Vendredi, 25. janvier 2008 12:04 12
Livre spss.book Page 106 Vendredi, 25. janvier 2008 12:04 12
107
5L’analyse
de variance
L’analyse de variance désigne une famille de méthodes desti-
nées à examiner et à interpréter les différences de moyennes
observées entre plusieurs groupes pour une même variable
(ANOVA pour ANalysis Of VAriance) ou pour plusieurs
variables (MANOVA pour Multivariate ANalysis Of
VAriance). Ces méthodes sont souvent utilisées pour analyser
des données issues d’une expérimentation où des caractéristi-
ques d’un objet sont manipulées afin d’optimiser l’objet au
moindre coût.
Nous verrons dans un premier temps les techniques d’analyse
de variance et de covariance avant de découvrir un terrain
d’application privilégié de l’ANOVA : la méthode du plan
d’expérience.
1. Les différentes analyses
de variance.............................108
2. La méthode du plan
d’expérience ...........................120
Exercices
1. Questions de recherche
et type d’analyse de variance...127
2. Étude du point de vente............128
3. Quel régime est
le plus efficace ?......................130
Chapitre
Livre spss.book Page 107 Vendredi, 25. janvier 2008 12:04 12
108 Analyse de données avec SPSS
(1) Les différentes analyses de variance
Différents types d’analyses de variance existent. La figure 5.1 présente le type d’analyse
selon la nature des variables dépendantes et indépendantes. Nous commençons par
détailler les principes de l’analyse univariée de la variance avant de passer à l’analyse mul-
tivariée puis à l’analyse de covariance.
1.1 LES PRINCIPES DE L’ANALYSE DE VARIANCE
L’analyse de variance entre dans le cadre général du modèle linéaire, où une variable
quantitative (ou plusieurs) est expliquée par une variable qualitative (ou plusieurs).
L’objectif essentiel est de comparer les moyennes empiriques de la variable quantitative
observées pour les variables qualitatives (facteurs) ou quantitatives découpées en classes
(niveaux). À titre d’exemple, on étudiera la satisfaction du client à l’égard d’un produit
selon les différentes caractéristiques de ce produit (parfum, texture, etc.).
Il s’agit de savoir si un facteur, ou une combinaison de facteurs (interaction), a un effet sur
la variable quantitative expliquée. Par exemple, il s’agira de déterminer les caractéristiques
optimales d’un paquet de céréales pour un petit déjeuner destiné aux enfants. Des indica-
teurs statistiques permettent de tester la significativité de cette combinaison linéaire.
1.2 L’ANALYSE UNIVARIÉE DE LA VARIANCE : ANOVA À UN FACTEUR
L’analyse de variance sert à tester l’hypothèse d’égalité des moyennes. Cette technique est
une extension du test t pour deux échantillons indépendants. Elle permet de traiter les dif-
férences de moyennes d’une variable dépendante quantitative Y lorsque la variable indé-
pendante a plus de deux modalités. Ce type d’ANOVA permet de savoir si au moins une
des moyennes diffère des autres. Ainsi, le salaire (variable quantitative) peut-il être expli-
qué par le diplôme (variable qualitative).
Figure 5.1
Type d’analyse de
variance selon la
nature des
variables.
Une seule variable
dépendante quantitative
Plusieurs variables
dépendantes quantitatives
qualitative(s)test t mixtes qualitatives mixtes
MANOVAANCOVAANOVA MANCOVA
une seule variable
indépendante
qualitative
plusieurs variables
indépendantes
plusieurs variables
indépendantes
Source : adapté de Malhotra (2007).
Livre spss.book Page 108 Vendredi, 25. janvier 2008 12:04 12
109L’analyse de variance
5Chapitre
L’hypothèse nulle est vérifiée par le test F sous SPSS. Afin d’identifier les moyennes qui dif-
fèrent, on peut comparer les moyennes avec les contrastes ou avec les tests post hoc.
Deux conditions sont nécessaires pour que les conclusions d’une ANOVA soient valides :
l’homogénéité de la variance intragroupe et la normalité des données. Le test de Levene
(> 0,05) est utilisé pour accepter l’hypothèse d’homogénéité de la variance intragroupe. Il
faut, par ailleurs, vérifier la présence éventuelle de mesures aberrantes par le contrôle de la
distribution des résidus à l’aide d’un graphique, les erreurs de saisie pouvant générer des
hétérogénéités.
Si les données ne sont pas appropriées à une ANOVA (hétérogénéité des variances ou don-
nées fortement asymétriques), on doit alors utiliser des tests non paramétriques qui ne
supposent ni homogénéité de la variance, ni une distribution normale, par exemple le test
de Kruskall-Wallis.
* Focus 5.1 • Les tests post hoc et de comparaisons multiples
Lorsqu’on a déterminé qu’il existe des différences parmi les moyennes, les tests d’intervalle post
hoc et de comparaisons multiples par paires déterminent les moyennes qui diffèrent. Ces tests
servent à connaître, parmi plusieurs niveaux de modalités, ceux qui sont significativement dif-
férents des autres. Ils sont utilisés après que l’analyse de variance a été effectuée, si un facteur
est significatif, et ils ne concernent que les facteurs ayant plus de deux niveaux.
Les tests post hoc les plus courants sont ceux de Duncan, de Tukey, de Scheffé et de Bonferroni.
Le test de Duncan compare des moyennes deux à deux et suit un ordre pas à pas. Il utilise la
statistique d’intervalle studentisé. Le test de Bonferroni, fondé sur la statistique t de Student,
ajuste le niveau de signification observé en fonction du nombre de comparaisons multiples qui
sont effectuées. Pour comparer un grand nombre de paires de moyennes, le test de Tukey est
plus efficace que celui de Bonferroni. Le niveau de signification du test de Scheffé permet toutes
les combinaisons linéaires possibles des moyennes de groupes à tester. Ce test est donc souvent
plus strict que les autres; une plus grande différence de moyenne est nécessaire pour qu’il soit
significatif.
SPSS Étude du format du challenge avec une ANOVA à un facteur
De plus en plus d’entreprises organisent des challenges ayant un format de compétition
mixte, c’est-à-dire comptant à la fois des objectifs individuels et des objectifs collectifs. Nous
cherchons à connaître l’attitude des vendeurs à l’égard de ce nouveau format de
compétition : le préfèrent-ils aux deux autres formats ?
Ouvrez le fichier « challenge » 1, allez dans le menu Analyse > Comparer les moyennes >
Anova à 1 facteur.
La boîte de dialogue apparaît (voir figure 5.2), transférez les variables en les sélectionnant
une à une puis en cliquant sur les flèches. La variable dépendante à tester est l’attitude à
l’égard du challenge (ATTITUDECHALLENGE) et la variable indépendante est placée dans
le champ Facteur.
Avant de lancer l’ANOVA à un facteur, nous vérifions l’homogénéité des moyennes.
Cliquez sur Option. Dans la boîte de dialogue qui apparaît (voir figure 5.3), cliquez sur Test
d’homogénéité.
Cliquez sur Poursuivre pour revenir à la boîte de dialogue MLG Univarié puis sur OK.
1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr.
Livre spss.book Page 109 Vendredi, 25. janvier 2008 12:04 12
110 Analyse de données avec SPSS
Le test de Levene (voir figure 5.4) est significatif (0,52 > 0,05), l’hypothèse d’homogénéité
des échantillons est donc acceptée. Nous pouvons procéder à l’analyse des résultats de
l’ANOVA.
Plus la valeur de p est petite, plus la preuve est forte contre l’hypothèse nulle. Ici, les
moyennes sont très différentes (F = 5,25; p = 0,005). L’hypothèse nulle est rejetée, le for-
mat a bien un effet sur l’attitude des commerciaux à l’égard du challenge mais, à ce stade,
nous ne savons pas quel est leur type de format préféré. Pour cela, il faut réaliser un test de
comparaisons multiples, aussi appelé test post hoc.
Figure 5.2
Commande d’une
ANOVA à 1 facteur.
Figure 5.3
Test d’homogénéité
pour ANOVA à
1 facteur.
Figure 5.4
Interprétation du
test d’homogénéité.
Livre spss.book Page 110 Vendredi, 25. janvier 2008 12:04 12
111L’analyse de variance
5Chapitre
Cliquez sur Post Hoc. Dans la boîte de dialogue qui apparaît (voir figure 5.5), cliquez sur
le test de votre choix. Nous sélectionnons ici le test de Duncan, souvent employé pour des
tests de comparaisons de plusieurs moyennes. Dans notre cas, il s’agira des formats mixte,
individuel ou en équipe.
Cliquez sur Poursuivre pour revenir à la boîte de dialogue ANOVA à un facteur (voir
figure 5.5) puis sur OK.
Le test de Duncan montre (voir figure 1.6) que le format de compétition en équipe est
supérieur aux autres. L’attitude moyenne à son égard est de 2,97, significativement plus
élevée que celle des formats individuel (2,69) ou mixte (2,64).
En d’autres termes, les vendeurs préfèrent un format de compétition en équipe plutôt
qu’individuel ou mixte (avec des objectifs à la fois individuels et collectifs).
Figure 5.5
Demande de test de
comparaisons
multiples a
posteriori pour
ANOVA à 1 facteur.
Figure 5.6
Résultats ANOVA à
1 facteur.
Livre spss.book Page 111 Vendredi, 25. janvier 2008 12:04 12
112 Analyse de données avec SPSS
1.3 L’ANALYSE DE VARIANCE À X FACTEURS
L’ANOVA à plusieurs facteurs consiste à tester l’hypothèse d’égalité des moyennes d’une
variable quantitative selon plusieurs variables qualitatives. Par exemple, on pourra tester
les variations de salaire selon le diplôme et le sexe de l’employé. Le test de significativité est
un test F. Il s’appuie sur la décomposition de la variance qui comprend : les effets princi-
paux, les effets d’interaction et un terme résiduel. La notion d’interaction correspond au
fait que l’effet d’une variable explicative sur la variable à expliquer n’est pas identique
selon le niveau de l’autre variable explicative (Evrard et al., 2003). L’interaction peut être
ordinale, l’ordre des effets liés au premier facteur respecte alors celui des niveaux du
second facteur. Dans le cas d’une interaction non ordinale, nous avons en revanche une
modification dans l’ordre des effets. Une interaction non ordinale peut être non croisée ou
croisée. Cette dernière interaction est la plus forte de toutes.
L’existence d’une interaction se détecte par l’observation des courbes : leur parallélisme
indique une absence d’interaction (l’effet conjoint des facteurs combinés est égal à la
somme de leurs effets principaux individuels) alors que leur croisement montre que l’effet
relatif des niveaux du premier facteur varie en fonction des niveaux de l’autre.
SPSS Étude de l’impact de trois modalités des challenges avec une ANOVA
Lors des challenges, les vendeurs changent souvent leur manière de vendre; ils seraient plus
agressifs afin de gagner et moins attentifs aux attentes de leurs clients. Nous cherchons à
savoir comment ils réagissent, quelle est leur orientation client (OC) selon trois caractéristi-
ques des challenges : la fréquence de ceux-ci, le nombre de gagnants et le format de com-
pétition du challenge.
Ouvrez le fichier exemple « challenge », disponible sur le site de l’ouvrage 1.
Allez dans le menu Analyse > Comparer les moyennes > Anova à un facteur. Dans la boîte
de dialogue qui apparaît (voir figure 5.7), transférez les variables en les sélectionnant une
à une puis en cliquant sur les flèches. La variable dépendante est l’orientation client lors du
challenge (OCCHALLENGE) et les variables indépendantes ou explicatives sont placées
dans le champ Facteur(s) fixe(s). Ici, les modalités des challenges sont : fréquence, format
de compétition, nombre de gagnants (FREQUENCE, NBGAGNANTS, FORMAT).
Quelques remarques sur les boutons de cette boîte de dialogue :
Modèle. Ce bouton permet de préciser le type de modèle à analyser et le type d’erreur. Par
défaut, sont cochées l’option plan complet, où tous les effets sont calculés, et l’erreur de
type III, qui permet de tester des modèles équilibrés ou non (un modèle est déséquilibré lors-
que les cellules ne contiennent pas le même nombre d’observations). Il faut cliquer sur le
bouton Autre, faire passer les variables dans la partie Modèle et choisir les effets (princi-
paux, d’interaction, d’ordre 2, etc.) pour en analyser seulement certains.
Contrastes. Sert à tester les différences entre les niveaux des facteurs.
Diagrammes. Ce bouton permet de comparer avec des graphiques les moyennes de la
variable dépendante selon le niveau de chaque facteur.
Post Hoc. Permet d’identifier, parmi plusieurs moyennes, celles qui diffèrent (voir focus 5.1).
Enregistrer. Permet de sauvegarder les valeurs prédites avec le modèle, les résidus et les
autres mesures comme nouvelles variables dans l’éditeur de données.
1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr.
Livre spss.book Page 112 Vendredi, 25. janvier 2008 12:04 12
113L’analyse de variance
5Chapitre
Options. Pour obtenir diverses statistiques, par exemple, le test d’homogénéité des varian-
ces. Il permet aussi de spécifier le seuil de significativité (fixé par défaut à 0,05) pour l’étude
des comparaisons de moyennes et le calcul d’intervalles de confiance.
Avant de lancer l’ANOVA, nous devons vérifier l’homogénéité des moyennes.
Cliquez sur Option. Dans la boîte de dialogue qui apparaît (voir figure 5.8), cliquez sur
Tests d’homogénéité.
Cliquez sur Poursuivre pour revenir à la boîte de dialogue MLG Univarié puis sur OK.
Le test de Levene (voir figure 5.9) est significatif (0,18 > 0,05), l’hypothèse d’homogénéité
des échantillons est donc acceptée. Nous pouvons procéder à l’analyse des résultats de
l’ANOVA (voir figure 5.10).
Le modèle explique 5 % de l’orientation client du vendeur pendant un challenge. Le nombre
de gagnants (F = 6,70; p = 0,01) et l’interaction de fréquence/format (F = 4,34; p = 0 03)
ont un impact significatif sur l’orientation client.
Figure 5.7
Commande d’une
ANOVA à 3
facteurs.
Figure 5.8
Tests
d’homogénéité
pour ANOVA.
Livre spss.book Page 113 Vendredi, 25. janvier 2008 12:04 12
114 Analyse de données avec SPSS
Cependant, à ce stade, nous ne savons pas lequel des deux niveaux affecte le moins l’orien-
tation client du vendeur. Les facteurs manipulés ayant chacun deux niveaux, il est possible
de visualiser directement leurs effets à l’aide de graphiques.
Allez dans le menu Analyse > Modèle Linéaire Général > Univarié. Dans la boîte de dialo-
gue qui apparaît, cliquez sur le bouton Diagrammes. Faites passer les facteurs significatifs
dans Axe horizontal et Courbes distinctes (effets d’interaction) puis cliquez sur Ajouter (voir
figure 5.11).
Cliquez sur Poursuivre pour revenir à la boîte de dialogue MLG Univarié puis sur OK.
Le graphique (voir figure 5.12) atteste que lorsque le nombre de gagnants au challenge est
faible, l’orientation client des commerciaux baisse moins que lorsque le challenge fait un
nombre moyen de gagnants. Le challenge qui préserve mieux l’orientation client fait donc
peu de vainqueurs.
Figure 5.9
Interprétation du
test d’homogénéité.
Figure 5.10
Résultats de
l’ANOVA à
3 facteurs.
Figure 5.11
Obtention de
graphique afin de
visualiser les effets
des facteurs
significatifs.
Livre spss.book Page 114 Vendredi, 25. janvier 2008 12:04 12
115L’analyse de variance
5Chapitre
Nous constatons (voir figure 5.13) que le challenge en équipe avec une fréquence faible
(un seul challenge organise à la fois) maximise l’orientation client du vendeur.
1.4 L’ANALYSE MULTIVARIÉE DE LA VARIANCE : MANOVA
L’analyse multivariée de la variance est une extension de l’ANOVA pour mesurer les diffé-
rences de moyenne de deux variables dépendantes quantitatives (ou plus) en fonction de
plusieurs variables qualitatives. Ce que la MANOVA apporte en plus de l’analyse de
variance simple concerne la corrélation des variables à expliquer, décomposée en intra et
intergroupe. Ces interactions apparaissent lorsque les effets d’un facteur donné sur les
variables expliquées dépendent des modalités des autres facteurs.
Figure 5.12
Graphique d’un
facteur ayant un
effet principal
significatif.
Figure 5.13
Graphique de
facteurs dont l’effet
d’interaction est
significatif.
Livre spss.book Page 115 Vendredi, 25. janvier 2008 12:04 12
116 Analyse de données avec SPSS
Un des apports majeurs de l’analyse multivariée de la variance est la mise en évidence,
parmi un ensemble de variables quantitatives, de celles dont la valeur est la plus affectée
par les variations d’un ensemble de variables quantitatives ou qualitatives. Cela tient
compte des intercorrélations entre variables à expliquer; nous pouvons ainsi déceler les
variables qui contribuent le plus à la formation de la combinaison linéaire pour les sou-
mettre ensuite à une analyse de variance univariée (Evrard et al., 2003).
En règle générale, les modalités de la variable indépendante sont présumées fixes (modèle
à effet fixe).
Plusieurs conditions sont à valider lors de l’utilisation d’une MANOVA (Hair et al., 2006) :
• Seuil d’observations par cellule de 20 ou au minimum supérieur au nombre de varia-
bles dépendantes.
• Indépendance des observations.
• Égalité des matrices de variance-covariance entre les groupes. La violation de cette
hypothèse, vérifiée par le test de Box, n’a toutefois qu’un impact limité si les groupes
sont de taille à peu près identique. Il est généralement recommandé d’avoir un rapport,
entre la taille du groupe le plus important et celle du plus grand groupe, inférieur à 1,5.
• Multinormalité des distributions des moyennes pour chaque variable dépendante. La
MANOVA est cependant robuste en cas de violation de cette hypothèse si la taille des
groupes est importante.
• Linéarité des variables dépendantes.
• La significativité des différences de moyennes s’appuie sur le test F, complété d’autres
statistiques : la trace de Hotelling, la plus grande racine de Roy, le lambda de Wilks et le
critère de Pillai-Bartlett pour chaque variable explicative. Si le critère de Pillai est le plus
robuste à la violation de certaines conditions d’utilisation de la MANOVA, il est conseillé
de comparer cette statistique aux autres indicateurs.
L’interprétation d’une MANOVA se fait en deux temps. À la première étape, l’examen du
critère de Pillai indique la significativité des variables explicatives. À la seconde, il faut déce-
ler, parmi les variables expliquées, celles qui sont affectées par la variable indépendante. Les
résultats se lisent alors, comme pour une ANOVA, sur les courbes des diagrammes.
1.5 L’ANALYSE DE COVARIANCE : ANCOVA ET MANCOVA
L’analyse de covariance (ANCOVA) combine les techniques de l’analyse de variance et
de la régression. La MANCOVA est une extension des principes de l’ANCOVA à l’analyse
multivariée, c’est-à-dire sur plusieurs variables dépendantes.
Ces méthodes sont recommandées pour éliminer des erreurs systématiques hors du contrôle
du chercheur et pouvant biaiser les résultats. L’ajout d’une covariable peut éliminer une
source potentielle de variance qui aurait appartenu à l’erreur expérimentale si elle avait été
ignorée (Nunnally et Bernstein, 1994). Cependant, trop de covariables réduit l’efficience sta-
tistique des procédures. Une règle de base est d’avoir un nombre de covariables inférieur à :
(0,1 × la taille de l’échantillon) – (nombre de groupes – 1) [Hair et al., 2006].
Afin d’améliorer l’analyse de covariance, il faut essayer de minimiser le nombre de cova-
riables tout en s’assurant que les plus importantes ne sont pas éliminées. Une covariable
est pertinente si elle est corrélée à la variable dépendante et non corrélée à la (ou aux)
Livre spss.book Page 116 Vendredi, 25. janvier 2008 12:04 12
117L’analyse de variance
5Chapitre
variable(s) indépendante(s). Une autre fonction de l’ANCOVA réside aussi dans la prise
en compte des différences de réponses dues aux caractéristiques des répondants.
L’interprétation d’une ANCOVA et d’une MANCOVA se fait en deux étapes. En premier
lieu, il faut considérer l’effet de la (ou des) covariable(s). Ce résultat se lit comme celui
d’une régression. Ensuite, il faut interpréter les résultats des facteurs explicatifs (variables
qualitatives).
SPSS Réalisation d’une ANCOVA
Nous cherchons à expliquer l’attitude du vendeur à l’égard du challenge. Pour cela, nous
avons réalisé une ANOVA ayant pour facteurs la fréquence, le format et le nombre de
gagnants. Pour améliorer la précision de ces résultats, nous ajoutons des variables qui pour-
raient expliquer les variations d’attitude des commerciaux. À ce titre, deux nouveaux élé-
ments sont pris en compte : l’entreprise, c’est-à-dire l’établissement bancaire où travaille
chaque vendeur, dont nous pouvons supposer qu’il influe sur les résultats et, la fonction du
vendeur. En effet, l’échantillon étant composé de vendeurs issus d’entreprises et de fonctions
différentes, il est possible que ces variables entreprise et fonction soit à l’origine de varia-
tions dans les réponses. L’intégration de ces covariables améliore la précision de l’analyse
et permet de redresser les biais dus au fait que les répondants ont différentes responsabili-
tés. En conséquence, l’entreprise et la fonction du commercial sont ajoutées aux variables
explicatives pour toutes les variables expliquées afin de les contrôler.
Par ailleurs, deux caractéristiques individuelles des vendeurs sont des variables explicatives
importantes du processus de motivation : l’esprit de compétition et l’ambition du vendeur.
Nous testerons donc les effets de ces covariables sur l’attitude du vendeur à l’égard du chal-
lenge.
Ouvrez le fichier exemple « challenge », disponible sur le site de l’ouvrage 1.
Allez dans le menu Analyse > Modèle Linéaire Général > Univarié. Dans la boîte de dialo-
gue qui apparaît (voir figure 5.14), transférez les variables en les sélectionnant une à une
puis en cliquant sur les flèches. La variable dépendante est l’attitude à l’égard du challenge
(ATTITUDECHALLENGE). Les variables indépendantes sont placées dans les champs Fac-
teur(s) fixe(s) et Covariable(s). Les facteurs fixes sont : les modalités des challenges (FRE-
QUENCE, FORMAT, NBGAGNANTS); les covariables sont : l’entreprise, la fonction du
vendeur (entreprise, fonction), l’esprit de compétition et l’ambition.
1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr.
Figure 5.14
Commande d’une
ANCOVA.
Livre spss.book Page 117 Vendredi, 25. janvier 2008 12:04 12
118 Analyse de données avec SPSS
Le test de Levene (voir figure 5.15) est significatif (0,22), l’hypothèse d’homogénéité des
échantillons est donc acceptée. Nous pouvons procéder à l’analyse des résultats de
l’ANCOVA (voir figure 5.16).
Les caractéristiques des challenges ainsi que les covariables expliquent 55 % de l’attitude
du vendeur à l’égard du challenge (voir figure 5.16).
Les résultats de l’ANCOVA montrent que les covariables entreprise et esprit de compétition
ont un effet significatif sur l’attitude du vendeur à l’égard du challenge. Comme nous l’avi-
ons postulé, l’esprit de compétition du vendeur a un effet significatif, cependant, à ce stade,
nous ne savons pas s’il est positif.
Pour le découvrir, retournez dans la boîte de dialogue : Analyse > Modèle Linéaire
Général > Univarié et cliquez sur Options puis sur Estimations des paramètres (voir
figure 5.17). Les résultats apparaissent alors pour l’ensemble des variables et des covaria-
bles.
Les résultats de cette commande se lisent à la figure 5.18.
Le tableau d’estimations des paramètres montre que, conformément à ce qui apparaît à la
figure 5.18, l’entreprise et l’esprit de compétition ont un effet significatif sur l’attitude du ven-
deur à l’égard du challenge. L’esprit de compétition a un effet positif sur cette attitude
(β = 0,77 ; t = 14,19).
Comme pour une ANOVA, la lecture des effets des variables qualitatives se fait à l’aide
d’un graphique. La figure 5.19 atteste que le format a un impact significatif sur l’attitude du
vendeur. Pour commander un diagramme pour ce facteur, allez dans le menu Analyse >
Modèle Linéaire Général > Univarié puis cliquez sur le bouton Diagrammes.
Figure 5.15
Interprétation du
test d’homogénéité.
Figure 5.16
Résultats de
l’ANCOVA à cinq
variables
explicatives.
Livre spss.book Page 118 Vendredi, 25. janvier 2008 12:04 12
119L’analyse de variance
5Chapitre
Dans la boîte de dialogue Diagrammes de profils, faites passer le format dans Axe horizon-
tal puis cliquez sur Ajouter. Le graphique visible figure 5.19 apparaît.
Le graphique montre que le format qui maximise l’attitude du vendeur à l’égard du chal-
lenge est le format de compétition en équipe.
Figure 5.17
Commande des
résultats des
covariables.
Figure 5.18
Interprétation des
covariables.
Figure 5.19
Interprétation des
variables
explicatives de
l’ANCOVA.
Livre spss.book Page 119 Vendredi, 25. janvier 2008 12:04 12
120 Analyse de données avec SPSS
Cet exemple dévoile comment une ANCOVA prend en compte des variables explicatives à
la fois qualitatives et quantitatives dans un même traitement. La MANCOVA va plus loin
puisqu’elle traite en même temps plusieurs variables explicatives de différentes natures
ainsi que plusieurs variables dépendantes quantitatives. Par exemple, elle permet d’étudier
les effets des caractéristiques de challenges et de l’esprit de compétition des vendeurs sur
leur attitude à l’égard des challenges ainsi que sur leurs comportements à l’égard de la
clientèle (orientation client). De fait, il est possible d’étudier le challenge optimal en ter-
mes de satisfaction vendeur et de satisfaction client.
Concernant les covariables, les résultats de la MANCOVA et ceux de l’ANCOVA se lisent
de façon similaire. D’autres statistiques, telles que la trace de Hotelling, la plus grande
racine de Roy, le lambda de Wilks et le critère de Pillai-Bartlett, servent à interpréter, pour
chaque variable explicative, leurs effets sur les variables dépendantes.
La méthode du plan d’expérience, que nous allons explorer, est un terrain d’application
privilégié de l’analyse de variance.
(2) La méthode du plan d’expérience
L’expérimentation fait partie de notre quotidien. Nous cherchons souvent à connaître
l’effet de facteurs sur divers résultats. La plupart du temps, cela se fait de manière infor-
melle, par exemple, en se posant les questions : Est-ce qu’en partant trente minutes plus
tôt au travail, j’aurai plus de chance de trouver une place de parking? Quid de vingt minu-
tes ou de dix minutes?
La méthode du plan d’expérience a été mise au point dans les années 1920, par Ronald
A. Fisher, dans le cadre d’études agronomiques. Son utilisation s’est développée en scien-
ces sociales et en marketing depuis une trentaine d’années.
Après avoir présenté l’expérimentation, nous aborderons des exemples de plans d’expé-
rience permettant d’en comprendre l’utilité.
2.1 LA MÉTHODE EXPÉRIMENTALE EN SCIENCES DE GESTION
L’expérimentation est une opération où l’on cherche à vérifier des relations de cause à effet
par manipulation de facteurs. Il s’agit de manipuler une variable indépendante (ou plu-
sieurs) et d’en mesurer l’effet sur une variable dépendante (ou plusieurs), cela en contrô-
lant les variables externes susceptibles d’influer sur les résultats.
L’avantage majeur de cette méthode est donc l’isolement de ce qui est dû à la variable
déterminante examinée. Son inconvénient principal réside dans la validité externe limitée
de l’expérience. En outre, des variables externes, ou biais, peuvent brouiller les mesures
des variables dépendantes et affaiblir la validité des résultats.
L’expérimentation peut s’appuyer sur la méthode dite des scénarios ou des vignettes qui
est ici détaillée.
Livre spss.book Page 120 Vendredi, 25. janvier 2008 12:04 12
121L’analyse de variance
5Chapitre
* Focus 5.2 • La méthode des scénarios ou des vignettes
La méthode dite des scénarios ou des vignettes est issue des techniques projectives utilisées en
psychologie et dont l’objectif est de s’intéresser aux attitudes et aux comportements des acteurs.
Le scénario est une brève histoire qui, si elle est soigneusement élaborée, simule de vraies
expériences de la vie. Les individus, mis dans une situation hypothétique, doivent répondre
« comme si » ils se trouvaient réellement dans ces situations. La mise en situation présente
l’avantage de rendre l’expérience plus réaliste et, par là, de mieux impliquer les répondants
dans la création de sens.
Une description verbale, un texte descriptif écrit, une photo, un dessin ou un prototype peuvent
servir à présenter les stimuli. Il faut ici veiller à ce que les scénarios soient crédibles et qu’aucun
ne soit manifestement trop attractif ou, au contraire, répulsif. Les stimuli doivent de fait avoir
une apparence similaire afin que les préférences des individus soient bien le fruit des attributs
testés.
Les biais de l’expérimentation
Afin de renforcer la validité de l’expérience, il faut connaître les principaux biais
expérimentaux :
• Histoire. Un événement porteur d’effets se produit entre deux mesures, par exemple, la
crise de la vache folle a changé la perception de la qualité de la viande en France.
• Maturation. Des changements se produisent chez les individus au fil de l’expérience
(fatigue, désintérêt).
• Effet de test. La situation d’expérience provoque par elle-même un biais. Par exemple,
la réponse à une première question suscite une réflexion qui va modifier les réponses
aux questions suivantes.
• Effet de l’instrument. L’application de l’instrument de mesure fausse le résultat.
• Mortalité. Personnes de l’échantillon initial qui ne veulent plus répondre dans le cas où
l’expérimentation s’effectue en plusieurs étapes (étude longitudinale).
Typologie des plans d’expérience
Voici une typologie simplifiée des plans d’expérience : préexpérimentaux (étude de cas
unique, prétest/post-test sur un seul groupe, groupe statique), expérimentaux (prétest/
post-test ou seulement post-test avec groupe de contrôle) et modèles statistiques (bloc
aléatoire, carré latin, plan factoriel) [Malhotra et al., 2007].
• Étude de cas unique. Un seul groupe d’individus (ou d’autres entités) est exposé à une
variable et on ne prend qu’une seule mesure de la variable dépendante. La sélection des
individus est réalisée de manière arbitraire. Le problème est que cette étude ne permet
pas d’obtenir le niveau de la variable expliquée s’il n’y avait pas eu d’exposition.
• Prétest/post-test et groupe de contrôle. Lorsque l’expérience inclut un prétest, les
individus évaluent deux fois la variable dépendante : avant et après le test. L’effet
d’expérimentation est alors calculé (mesure post – mesure prétraitement).
• Groupe statique. Le plan expérimental comprend deux groupes : un exposé à la varia-
ble indépendante et l’autre non (groupe de contrôle). L’effet de l’expérimentation est
mesuré (mesure du groupe de contrôle – mesure du groupe expérimental).
• Modèles statistiques. Ils permettent de mesurer les effets de plus d’une variable indépen-
dante simultanément et de contrôler statistiquement des variables externes précises. On
Livre spss.book Page 121 Vendredi, 25. janvier 2008 12:04 12
122 Analyse de données avec SPSS
distingue le bloc aléatoire et le plan factoriel. Le bloc aléatoire regroupe les individus en
fonction d’une seule variable externe majeure (par exemple, le type de client) susceptible
d’influer sur la variable dépendante. Les répondants de chaque bloc sont affectés aléatoi-
rement aux groupes de traitement. Le plan factoriel autorise l’étude de deux variables
externes non interactives ou plus et d’une ou plusieurs variables indépendantes.
Nous allons aborder maintenant le plan factoriel et ses différentes versions.
2.2 LE PLAN FACTORIEL
Le plan factoriel sert à mesurer les effets de plusieurs variables indépendantes ayant plu-
sieurs niveaux différents. Il permet l’étude à la fois des effets principaux et des effets
d’interaction de ces niveaux. Par exemple, on pourra examiner l’effet du type de carburant
et du type de conduite sur la consommation de carburant.
La notion d’interaction correspond au fait que l’effet d’une variable explicative sur une
variable à expliquer est changeant selon le niveau de l’autre variable explicative. Il y a inte-
raction quand l’effet simultané de plusieurs variables diffère de leurs effets séparés cumu-
lés. Par exemple, un individu peut préférer sortir au cinéma (plutôt que d’aller au théâtre,
au concert ou encore chez des amis) et l’été peut être sa saison favorite pour sortir (plutôt
que les trois autres saisons), mais il peut ne pas préférer aller au cinéma l’été.
D’un point de vue statistique, un plan factoriel est l’agrégation de variables
indépendantes : ensemble de niveaux de chaque variable indépendante et combinaisons
de ces niveaux sélectionnés pour l’expérimentation. Le dispositif expérimental doit per-
mettre de répondre aux trois questions suivantes :
1. Quels sont les facteurs fondamentaux sélectionnés?
2. Comment les niveaux de ces facteurs varient-ils?
3. Comment ces niveaux doivent-ils être combinés?
Par exemple, pour une étude de packaging de céréales pour petit déjeuner, on se
demandera :
1. Quels facteurs sélectionne-t-on? La forme du paquet, les codes couleur, le style, le
matériau utilisé?
Ensuite, si l’on choisit d’étudier la taille du paquet et le style :
2. Combien de niveaux choisit-on d’examiner? Pour la taille du paquet : grand, moyen,
petit? Pour le style : sport, santé, régime?
3. Croise-t-on tous ces niveaux ou seulement les combinaisons les plus pertinentes?
La sélection des facteurs et des niveaux étudiés revient au chargé d’étude qui estime les
variables les mieux à même d’expliquer la variable dépendante. Le choix des combinai-
sons à tester détermine ensuite celui du plan factoriel utilisé (complet ou fractionné).
Souvent, l’étude d’un grand nombre de facteurs et de niveaux conduit à employer un
plan fractionné.
Livre spss.book Page 122 Vendredi, 25. janvier 2008 12:04 12
123L’analyse de variance
5Chapitre
2.3 PLAN FACTORIEL COMPLET OU FRACTIONNÉ ?
Le plan factoriel complet permet de tester tous les niveaux de chacun des facteurs sur cha-
cun des niveaux des autres facteurs. Dans notre exemple de packaging de céréales pour
petit déjeuner, si l’on sélectionne trois niveaux de taille du paquet (grand, moyen et petit),
deux niveaux de messages (sport et santé), un plan factoriel complet permettra de tester
toutes les combinaisons possibles, c’est-à-dire 6 (3 × 2). Les influences de chaque facteur
et de ses interactions avec tous les autres facteurs seront étudiées. S’il nécessite davantage
d’expériences, ce plan est plus riche que le plan factoriel fractionné.
L’avantage du plan factoriel fractionné, constitué d’un sous-ensemble de combinaisons
d’un plan complet, réside dans sa capacité à examiner un grand nombre de facteurs dont
il serait difficile de tester tous les niveaux. Il permet ainsi de réaliser des économies subs-
tantielles d’expériences. Toujours avec notre exemple de packaging, un plan factoriel frac-
tionné permettra d’examiner un plus grand nombre de modalités (taille du paquet,
message, codes couleurs, style, etc.) et de niveaux (3, 4 niveaux pour chaque facteur exa-
miné) tout en ne testant qu’un nombre restreint de paquets différents.
Malgré l’intérêt qu’il présente en termes d’économie d’expériences, ce type de plan
compte des effets confondus. Ces effets gênent l’interprétation de certains effets princi-
paux qui sont mélangés avec des interactions.
* Focus 5.3 • Les plans fractionnés en carrés latin et gréco-latin
Lorsque le chargé d’étude ne peut pas tester l’ensemble des attributs et de leurs niveaux parce
qu’ils sont trop nombreux, il est fréquent d’avoir recours à un plan fractionné. Le carré latin et
le gréco-latin (second carré latin sur un premier) sont souvent utilisés car ils permettent de faire
des économies importantes d’expériences : 9 au lieu de 27 (3 × 3 × 3) combinaisons pour le
carré latin ou 81 (3 × 3 × 3 × 3) pour le carré gréco-latin. Ces plans ou carrés ne croisent pas
tous les facteurs. On peut par exemple tester l’influence de la fréquence de challenges de vente,
du nombre de gagnants et du format de compétition en créant un niveau supplémentaire pour
chacun de ces facteurs.
L’inconvénient principal des carrés latin et gréco-latin est donc l’obligation d’avoir, pour cha-
que facteur manipulé, le même nombre de niveaux. Autre problème important, ces plans ne
permettent d’examiner que l’effet principal de chacun des facteurs et non leurs interactions.
Les deux exemples d’application suivants illustrent la réalisation d’une expérimentation
avec un plan complet puis avec un plan fractionné.
EXEMPLE Étude des caractéristiques de challenges de vente avec un plan factoriel complet
À la suite d’entretiens avec des commerciaux, trois caractéristiques des challenges appa-
raissent très importantes dans la formation de leur attitude : le format de compétition, la fré-
quence des challenges et le nombre de gagnants. Nous cherchons à tester l’effet des trois
facteurs ayant chacun deux niveaux (voir figure 5.20). Pour chacun des facteurs, les diffé-
rents niveaux examinés seront les suivants :
• le format de compétition : individuel (1) ou en équipe (2) ;
• la fréquence : faible (1) ou élevée (2);
• le nombre de gagnants : faible (1) ou moyen (2).
Livre spss.book Page 123 Vendredi, 25. janvier 2008 12:04 12
124 Analyse de données avec SPSS
L’étude de toutes les modalités des challenges et de leurs niveaux requiert l’utilisation d’un
plan complet. Le protocole de l’expérimentation est par conséquent constitué de 2 × 2 × 2,
soit 8 combinaisons de caractéristiques de challenges. Il faudra donc présenter aux indivi-
dus huit challenges de vente différents.
Le plan factoriel complet orthogonal permet l’estimation de la moyenne des effets des fac-
teurs sans craindre que les résultats subissent une distorsion par l’effet des autres facteurs.
Toutes les interactions sont testées. L’orthogonalité est vérifiée en mettant en place ce
protocole : (1) on remplace les valeurs 1, 2 dans la matrice plan par les valeurs –1, 1
respectivement; (2) on additionne ensuite les valeurs correspondantes de chacune des
colonnes; (3), si la somme est égale à zéro, les colonnes sont orthogonales et les effets
représentés par ces colonnes sont alors dits orthogonaux.
Par exemple, le scénario no 2 correspond ici à un challenge individuel, peu fréquent et fai-
sant un nombre moyen de gagnants.
Figure 5.20
Le plan testé.
Tableau 5.1 : Plan factoriel complet
Scénarios Format Fréquence Nb gagnants Orthogonalité
no 1 1 1 1 –3
no 2 1 1 2 –1
no 3 1 2 1 –1
no 4 1 2 2 1
no 5 2 1 1 –1
no 6 2 1 2 1
no 7 2 2 1 1
no 8 2 2 2 3
Σ = 0
- Format
- Fréquence
- Nombre de gagnants
Challenge de vente
Attitude du vendeur à
l’égard du
challenge de vente
Livre spss.book Page 124 Vendredi, 25. janvier 2008 12:04 12
125L’analyse de variance
5Chapitre
EXEMPLE Étude des caractéristiques de challenges de vente
avec un plan factoriel fractionné
Trois caractéristiques des challenges de vente sont maintenant étudiées avec, pour chacun
de ces facteurs ou attributs, non plus deux mais trois niveaux :
• le format de compétition : individuel (A), en équipe (B) ou mixte (C) (objectifs individuels
et collectifs);
• la fréquence : élevée, moyenne ou faible;
• le nombre de gagnants : élevé, moyen ou faible.
Il faudrait normalement 3 × 3 × 3 = 27 combinaisons. Nous avons vu au focus 5.3 que le
carré latin permettait de passer de 27 à seulement 9 combinaisons ou challenges testés.
Voici comment se construit ce plan fractionné.
Le format de compétition qui est la troisième variable manipulée est soit individuel (A), soit
en équipe (B), soit mixte (C). Chacun de ses niveaux doit apparaître dans chaque ligne et
chaque colonne.
Pour comprendre l’élaboration de ce plan, nous prenons l’exemple du format de compéti-
tion. Le format individuel (A) apparaît en colonne 1, ligne 1, en colonne 2, ligne 2 et en
colonne 3, ligne 3 ; le format en équipe (B) figure en colonne 1, ligne 3, en colonne 2,
ligne 1 et en colonne 3, ligne 2 ; le format mixte (C) figure en colonne 1, ligne 2, en
colonne 2, ligne 3 et en colonne 3, ligne 1.
Chacun des niveaux de la fréquence et du nombre de gagnants est testé une fois avec tous
les autres niveaux des deux autres facteurs. Il en est de même pour tous les niveaux du fac-
teur nombre de gagnants.
Par exemple, le scénario no 7 correspond ici à un challenge mixte, peu fréquent et faisant
un faible nombre de gagnants.
Tableau 5.2 : Carré latin
Fréquence
Nb gagnants
Élevé Moyen Faible
Élevée A – no 1 B – no 4 C – no 7 ABC
Moyenne C – no 2 A – no 5 B – no 8 CAB
Faible B – no 3 C – no 6 A – no 9 BCA
ACB BAC CBA
Livre spss.book Page 125 Vendredi, 25. janvier 2008 12:04 12
126 Analyse de données avec SPSS
Résumé
L’analyse de variance et de covariance sert à évaluer les écarts des valeurs moyennes d’une
variable dépendante sous l’effet de variables indépendantes contrôlées et, cela, en tenant
compte de l’influence de variables indépendantes non contrôlées. L’ANOVA permet
d’effectuer un test sur les moyennes de deux populations ou plus. Le test F permet de véri-
fier l’hypothèse nulle qui suppose l’égalité des moyennes.
L’analyse multivariée de la variance implique l’examen simultané de plusieurs variables
indépendantes qualitatives. Elle permet l’évaluation de l’interaction de ces variables. Le
test F sert à vérifier la signification de l’effet global, des effets principaux et des interac-
tions. Il y a interaction lorsque l’effet d’une variable indépendante sur une variable dépen-
dante diffère en fonction des modalités ou niveaux d’une autre variable indépendante.
L’analyse de covariable fait référence, en plus de variable(s) indépendante(s) qualita-
tive(s), au test de variable(s) indépendante(s) quantitative(s). Cette dernière, appelée
covariable, est souvent utilisée pour éliminer la variation externe de la variable dépen-
dante.
Pour aller plus loin
Evrard Y., Pras B., et Roux E., Market. Études et recherches en marketing, Nathan, Paris,
2003.
Goupy J., Introduction aux plans d’expérience, Dunod, Paris, 2006.
Hair J. F., Anderson R. L., Black W. C., Multivariate Data Analysis, 4e éd., Prentice Hall
International, Londres, 2006.
Malhotra et al., Études marketing avec SPSS, Pearson Education, Paris, 2007.
Livre spss.book Page 126 Vendredi, 25. janvier 2008 12:04 12
127L’analyse de variance
Exercices
5Chapitre
Exercices
EXERCICE 1 QUESTIONS DE RECHERCHE ET TYPE D’ANALYSE DE VARIANCE
* Solution 1. ANOVA à un facteur, la couleur du packaging ayant trois niveaux (rouge, vert, bleu).
2. ANOVA à un facteur, la CSP ayant cinq niveaux.
3. ANOVA à deux facteurs, le pays d’origine de la marque et le réseau de distribution, les-
quels ayant respectivement quatre niveaux (France, Espagne, Italie, États-Unis) et deux
niveaux (très sélectif, non sélectif).
4. MANOVA à trois facteurs et deux variables expliquées. Les trois facteurs sont le prix, la
notoriété de la marque et la fréquence des contacts, qui ont respectivement trois niveaux
(élevé, moyen et faible), deux (forte ou faible) et deux (forte ou faible). Les deux variables
expliquées sont l’attitude vis-à-vis de la marque et l’intention d’achat de la marque par les
consommateurs.
5. ANCOVA à trois variables explicatives : deux variables qualitatives (prix et conditionne-
ment) et une variable quantitative, covariable (attitude vis-à-vis des marques de lessive).
Le prix et le conditionnement ont respectivement deux niveaux (élevé, faible) et trois
(familial, standard, mini).
6. ANCOVA à deux variables explicatives : le style de la publicité (qui a trois niveaux,
informative, humoristique, sexy) et la covariable attitude vis-à-vis de la marque.
7. MANCOVA à deux variables explicatives (l’âge [qui a 5 niveaux] et la qualité du service
perçue [covariable]) et deux variables expliquées (la satisfaction et la fidélisation des clients).
• Énoncé Pour chacune des questions de recherche suivantes, trouvez le type d’analyse de variance
approprié en spécifiant le nombre de facteurs avec leurs niveaux.
1. L’intention d’achat des consommateurs varie-t-elle en fonction de la couleur du pac-
kaging (rouge, vert ou bleu)?
2. La CSP (5 catégories) a-t-elle un effet sur la qualité du service perçu?
3. L’attitude vis-à-vis de la marque d’un produit de luxe varie-t-elle en fonction du pays
d’origine de la marque (France, Espagne, Italie, États-Unis) et de son réseau de distri-
bution (très sélectif ou non sélectif)?
4. L’interaction entre le prix (élevé, moyen ou faible), la notoriété de la marque (forte ou
faible) et la fréquence des contacts (forte ou faible) affecte-t-elle l’attitude vis-à-vis de
la marque et l’intention d’achat de cette marque?
5. Le niveau de prix (élevé ou faible), le conditionnement (familial, standard, mini) et l’atti-
tude vis-à-vis des marques de lessive affectent-ils l’achat de lessive par les personnes âgées?
6. Le style de la publicité (informative, humoristique, sexy) et l’attitude vis-à-vis de la mar-
que ont-ils un impact sur l’intention d’achat d’un produit solaire de cette même marque?
7. L’âge des clients (5 catégories) et la qualité du service perçue affectent-ils la satisfac-
tion et la fidélisation des clients dans le secteur bancaire?
Livre spss.book Page 127 Vendredi, 25. janvier 2008 12:04 12
128 Analyse de données avec SPSS
EXERCICE 2 ÉTUDE DU POINT DE VENTE1
* Solution 1. Afin de savoir si la décoration du magasin a une influence en fonction du sexe des
clients, il faut mener une ANOVA (voir figure 5.21). Allez dans le menu Analyse > Com-
parer les moyennes > Anova à 1 facteur. Indiquez la décoration de la boutique comme
variable dépendante et le sexe comme variable indépendante puis cliquez sur OK.
Pour effectuer un test d’homogénéité (voir figure 5.22), cliquez sur Options, Test
d’homogénéité puis sur OK.
• Énoncé Vous travaillez sur une enquête destinée à mieux comprendre les comportements d’achat
des clients d’un magasin de chaussures. Vous cherchez à identifier ces clients et à connaî-
tre leur attitude à l’égard du point de vente. Vous avez collecté 400 réponses et vous vou-
lez exploiter ces données (fichier « pointdevente » 1).
Le gérant du magasin souhaite savoir :
1. Si la décoration du magasin est plus importante pour les femmes que pour les hommes.
2. Si le montant dépensé par client est influencé par l’écoute régulière de médias (radio
et TV).
1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr.
Figure 5.21
Commande de
l’ANOVA à
1 facteur.
Figure 5.22
Interprétation de
l’ANOVA à
1 facteur.
Livre spss.book Page 128 Vendredi, 25. janvier 2008 12:04 12
129L’analyse de variance
Exercices
5Chapitre
Le test de Levene est significatif (0,78 > 0,05), l’hypothèse d’homogénéité des échantillons
est donc acceptée. Les résultats de l’ANOVA attestent que le sexe n’a pas d’influence sur
l’importance de la décoration (0,78).
2. Afin de savoir si le fait que les clients écoutent régulièrement des médias (radio et TV) a
un impact sur le montant qu’ils dépensent, il faut faire une ANOVA. Allez dans le menu
Analyse > Modèle Linéaire Général > Univarié. Choisissez comme variable dépendante
le montant moyen dépensé par mois, et comme variable indépendante : la fréquence
d’écoute radio et TV qui correspond aux questions : « Vous décririez-vous comme un
auditeur régulier de radio? » et « Regardez-vous régulièrement le journal télévisé? »
Faites ensuite un test d’homogénéité des variances (voir figure 5.24) : cliquez sur Options,
Test d’homogénéité puis sur OK.
Ici le test de Levene (0,00) ne permet pas d’accepter l’hypothèse d’homogénéité des
variances intragroupes. Les résultats de l’ANOVA ne sont donc pas valables et on ne peut
pas dire que le fait de regarder régulièrement la TV ou la radio a un effet sur la consomma-
tion des clients dans le mois.
Figure 5.23
Commande d’une
ANOVA.
Figure 5.24
Interprétation d’une
ANOVA.
Livre spss.book Page 129 Vendredi, 25. janvier 2008 12:04 12
130 Analyse de données avec SPSS
EXERCICE 3 QUEL RÉGIME EST LE PLUS EFFICACE ?
* Solution Pour saisir les données, allez dans Fichier > Nouveau > Données (voir figure 5.25).
Ensuite, dans Affichage des variables, rentrez le Nom des variables et leur Étiquette. Nous
avons des données qualitatives (régime) et des données quantitatives (kilos perdus) : la
colonne Mesure affiche Nominales et Échelle.
Il faut ensuite entrer les données dans la partie Affichage des données (voir figure 5.26).
Il faut ensuite commander une ANOVA à un facteur (voir figure 5.27). Allez dans le menu
Analyse > Comparer les moyennes > ANOVA à un facteur. Choisissez comme variable
dépendante le nombre de kilos perdus et comme variable indépendante le type de régime.
Demandez ensuite un test d’homogénéité des variances (voir figure 5.28). Cliquez sur
Options, Test d’homogénéité puis sur OK.
• Énoncé Un nutritionniste veut tester l’effet de différents régimes sur la perte de poids. Il souhaite
évaluer l’effet de trois régimes sur des groupes d’individus. Le tableau suivant donne les
résultats de ces régimes en nombre de kilogrammes perdus après un mois pour trois
groupes d’individus ayant suivi les régimes.
Les groupes sont composés comme suit :
Groupe A : individus ayant suivi un régime hyperprotéiné;
Groupe B : individus ayant suivi un régime d’association d’aliments;
Groupe C : individus ayant suivi un régime hypocalorique.
Après avoir saisi ces données, faites une analyse de variance pour vérifier si les moyennes
des trois groupes sont différentes.
Tableau 5.3 : Expérience sur les régimes
Groupe A Groupe B Groupe C
3 1 11
4 1 9
6 5 10
8 6 5
3 1 10
3 2 6
4 1 9
6 5 10
3
Livre spss.book Page 130 Vendredi, 25. janvier 2008 12:04 12
131L’analyse de variance
Exercices
5Chapitre
Figure 5.25
Expérience sur les
régimes :
l’enregistrement
des données.
Figure 5.26
Expérience sur les
régimes :
l’enregistrement
des données (suite).
Figure 5.27
Expérience sur les
régimes :
commande de
l’ANOVA.
Figure 5.28
Expérience sur les
régimes :
interprétation des
résultats de
l’ANOVA.
Livre spss.book Page 131 Vendredi, 25. janvier 2008 12:04 12
132 Analyse de données avec SPSS
Le test de Levene est significatif (0,52), l’hypothèse d’homogénéité des échantillons est
donc acceptée. Nous pouvons procéder à l’analyse des résultats de l’ANOVA.
Le type de régime a un effet significatif sur la perte de poids. Cependant, à ce stade, nous
ne connaissons pas le type de régime le plus efficace. Il faut demander un test de différence
de moyenne (test post hoc) [voir figure 5.29].
Allez dans le menu Analyse > Comparer les moyennes > ANOVA à un facteur, cliquez sur
le bouton Post Hoc puis choisissez un test (ici, le test de Duncan).
Les résultats de l’ANOVA montrent que le régime hypocalorique est le plus efficace. En
effet, la moyenne des kilos perdus par les personnes qui ont suivi ce régime est significati-
vement plus importante que les autres.
Figure 5.29
Expérience sur les
régimes :
interprétation des
résultats de
l’ANOVA (suite).
Livre spss.book Page 132 Vendredi, 25. janvier 2008 12:04 12
133
6La régression
linéaire
Il est fréquent d’observer des phénomènes où l’on peut penser
qu’il existe une liaison entre deux variables. Par exemple,
l’âge d’une voiture et son kilométrage varient généralement
dans le même sens. Ce lien n’est cependant pas absolu : com-
ment mesurer l’intensité de la relation entre ces deux
variables? Le modèle de régression linéaire a pour objectif
d’expliquer la variation d’un phénomène mesurable (variable
dépendante quantitative) par celle d’un ou de plusieurs autres
(variables quantitatives). La régression linéaire simple ou mul-
tiple estime les coefficients de l’équation linaire impliquant
cette ou ces variables indépendantes, qui évaluent le mieux la
valeur de la variable dépendante.
Cette méthode est largement utilisée en marketing, par exem-
ple pour expliquer les variations des ventes, de préférence de
marques, produits ou services.
Avant de présenter l’analyse de régression, nous abordons le
coefficient de corrélation qui constitue la base conceptuelle de
la régression.
1. La corrélation linéaire..............134
2. La régression linéaire...............136
Exercices
1. Étude du point de vente............146
2. Les déterminants de la moyenne
des étudiants...........................147
3. Étude du point de vente............152
Chapitre
Livre spss.book Page 133 Vendredi, 25. janvier 2008 12:04 12
134 Analyse de données avec SPSS
(1) La corrélation linéaire
La corrélation linéaire est une statistique largement utilisée car elle synthétise l’importance
de la relation entre deux variables métriques.Le tableau 6.1 montre bien que le coefficient de
corrélation est le test statistique pour mesurer le lien entre deux variables quantitatives.
Après avoir présenté les principes de la corrélation, nous procédons à une démonstration
avec la réalisation d’une corrélation multiple avec le logiciel SPSS.
1.1 LES PRINCIPES DE LA CORRÉLATION LINÉAIRE
Le coefficient de corrélation de Pearson est une mesure d’association qui permet d’éta-
blir si deux variables mesurées sur le même ensemble d’observations varient de façon ana-
logue ou non.
La corrélation « r » est égale à la covariance divisée par le produit des écarts types de x et y :
r = covXY/Sx Sy
Cette corrélation correspond également au coefficient de régression (b) divisé par l’écart
type de la variable dépendante :
r = b/Sy
Une corrélation proche de 1 ou de –1 en valeur absolue signifie que deux variables sont
liées entre elles et peuvent s’expliquer mutuellement. Lorsque r est proche de 0, il y a une
faible corrélation. Si r est proche de +1, cela veut dire que les deux variables varient dans le
même sens. Si r est proche de –1, cela signifie que les deux variables varient en sens inverse
l’une de l’autre.
1.2 LA RÉALISATION D’UNE CORRÉLATION LINÉAIRE
Avant de réaliser une corrélation linéaire, il faut s’assurer que les variables à tester sont
bien quantitatives. En effet, comme nous l’avons vu au tableau 6.1, le coefficient de corré-
lation ne fonctionne que pour des variables métriques.
Tableau 6.1 : Rappel sur la nature des variables et le type d’analyse
Nature des variables Type d’analyse Test statistique
Qualitatives Tri croisé Khi-deux
Qualitatives et quantitatives ANOVA Test F
Quantitatives Régression Coefficient de corrélation
Livre spss.book Page 134 Vendredi, 25. janvier 2008 12:04 12
135La régression linéaire
6Chapitre
SPSS Étude des liens entre diverses caractéristiques des vendeurs
et leur attitude à l’égard des challenges
Nous cherchons à savoir s’il existe une relation entre des caractéristiques du vendeur telles que
l’âge, l’ancienneté dans l’entreprise et dans le poste, l’ambition et l’attitude à l’égard des challen-
ges de vente. Nous réalisons donc une corrélation linéaire sur toutes ces variables quantitatives.
Ouvrez le fichier « challenge » 1. Allez dans le menu Analyse > Corrélation > Bivariée. La
boîte de dialogue de la figure 6.1 apparaît.
Gardez le coefficient de Pearson coché. Transférez les variables en les sélectionnant chacune
à leur tour et en cliquant sur les flèches. Faites OK. Les résultats apparaissent (voir figure 6.2).
Les résultats indiquent le coefficient de corrélation et la signification (Sig.). Si Sig. < 0,05,
on peut dire qu’il existe une corrélation entre les deux variables au seuil de 0,05. Le
signe ** indique que la corrélation est significative au seuil de 0,01.
Dans cet exemple, nous observons que l’esprit de compétition et l’attitude à l’égard des
challenges de vente sont fortement liés (0,71; p < 0,01).
À ce stade, nous ne pouvons cependant pas dire si c’est l’esprit de compétition qui a un
impact sur l’attitude à l’égard du challenge ou bien l’inverse. C’est grâce à la régression
linéaire que nous pouvons expliquer le sens de la relation entre ces deux variables.
1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr.
Figure 6.1
Commande d’une
corrélation.
Figure 6.2
Interprétation d’une
corrélation.
Livre spss.book Page 135 Vendredi, 25. janvier 2008 12:04 12
136 Analyse de données avec SPSS
(2) La régression linéaire
La régression linéaire vise à expliquer une variable dépendante par une ou un ensemble
de variables indépendantes quantitatives. Lorsque le problème implique une seule variable
indépendante, la technique statistique est appelée régression simple. Lorsque le problème
implique plusieurs variables indépendantes, il s’agit d’une régression multiple. La régres-
sion est utilisée pour l’explication et la prédiction.
Les principes et conditions d’application de la régression simple sont exposés avant
d’aborder ceux de la régression multiple. Ces deux techniques sont chacune illustrées par
des exemples d’applications.
2.1 LA RÉGRESSION LINÉAIRE SIMPLE
La régression vise à estimer ou prédire la valeur d’une variable à partir d’une seule autre.
Par exemple, on peut expliquer la consommation de SMS par l’âge du consommateur.
Dans une régression simple, les valeurs de la variable dépendante (Y) sont estimées à par-
tir de la variable indépendante (X) par équation linéaire :
Yi = aC+ bXi + e
Où Yi est la valeur estimée de Y, b est la pente (coefficient de régression) et a la constante.
Les conditions d’application de la régression
Le modèle de la régression pose un certain nombre d’hypothèses lors de l’estimation des
paramètres et des tests d’hypothèses. Ces conditions d’application de la régression sont :
• la linéarité du phénomène mesuré;
• la variance constante du terme d’erreur ou homoscédasticité;
• l’indépendance des termes d’erreur;
• la normalité de la distribution du terme d’erreur.
La linéarité est importante car le concept de corrélation est fondé sur une relation
linéaire. La linéarité d’une relation bivariée est vérifiée par l’examen des résidus.
L’homoscédasticité est vérifiée par l’examen des résidus ou par un simple test statistique.
Le logiciel SPSS fournit le test d’homogénéité de Levene, qui mesure l’égalité des variances
pour une seule paire de variables. Son utilisation est souvent recommandée.
L’indépendance des termes d’erreur est une autre condition de l’analyse de régression
multiple. Outre l’examen du graphique des résidus, cette hypothèse peut aussi être validée
par le test de Durbin-Watson.
La normalité de la distribution du terme d’erreur (voir chapitre 2).
L’interprétation des résultats de la régression
Les résultats de la régression se lisent grâce aux indices suivants :
• R : le coefficient de corrélation multiple est un indice standardisé variant de –1 à +1,
indiquant la force de la relation entre l’ensemble des variables indépendantes et la
Livre spss.book Page 136 Vendredi, 25. janvier 2008 12:04 12
137La régression linéaire
6Chapitre
variable dépendante. Plus la corrélation est élevée, plus la relation linéaire entre les
variables indépendantes et la variable dépendante est élevée.
• R2 : la corrélation multiple au carré, appelée coefficient de détermination, est un
indice de la part de variance de la variable dépendante expliquée par les variables indé-
pendantes qui sont dans l’équation. Il donne ainsi la part de variance de la variable
expliquée par la variable indépendante.
• Le Bêta : ce coefficient standardisé permet de comparer la contribution de chaque
variable puisqu’il s’agit du coefficient de régression ramené sur une échelle standard
(entre –1 et +1).
• Le test F : sa valeur indique si la variance ou l’ajout de variance expliquée est significa-
tive, c’est-à-dire si, quelle que soit la force de la relation entre les variables indépendan-
tes et la variable dépendante, cette relation est susceptible d’exister dans la population
et n’est pas due simplement au hasard de l’échantillonnage.
• Le test t : sa valeur doit être plus grande que 2 (1,96) pour être significative (notée** à
p < 0,05). Elle indique si chacun des coefficients des variables présentes dans l’équation
est significatif.
* Focus 6.1 • Concomitance et corrélation
Concomitance et corrélation ne veulent pas dire obligatoirement relation de cause à effet. Il
faut d’abord comprendre le lien de causalité entre la variable explicative et la ou les variables
expliquées, vérifier expérimentalement la solidité du lien (via les méthodes de régression), et
seulement alors s’en servir en explicatif ou en prévisionnel. Le risque sinon est de mettre en évi-
dence une relation forte entre deux grandeurs n’ayant aucune relation de cause à effet, mais
simplement reliées toutes les deux pour des raisons très différentes à une même troisième.
Par exemple, on cite fréquemment l’exemple de la bonne corrélation entre le nombre de meur-
tres par an en Grande-Bretagne et la consommation de chocolat; de là à en conclure que la
consommation de chocolat rend agressif! (alors que les deux varient en fonction de la popula-
tion, et si on neutralise cet effet, il n’y a aucune corrélation, à population fixée, entre la crimi-
nalité et la consommation de chocolat!). Ce risque est particulièrement présent lorsque l’on
adopte des méthodes de type pas à pas, en introduisant les variables « explicatives » unique-
ment en fonction de critères de performance et non pas en analysant sur un plan conceptuel la
relation de cause à effet.
SPSS Étude de la relation entre l’esprit de compétition et l’attitude envers le challenge
Nous cherchons à savoir si l’esprit de compétition du vendeur influence son attitude à
l’égard du challenge de vente.
Pour obtenir une régression linéaire simple, allez dans le menu Analyse > Régression >
Linéaire. La boîte de dialogue de la figure 6.3 apparaît. Transférez les variables en les
sélectionnant chacune à leur tour et en cliquant sur les flèches. Mettez la variable à expliquer
dans Variable dépendante, la variable explicative dans Variables explicatives.
Le premier tableau récapitule les variables explicatives prises en compte dans le modèle.
Ici, il n’y a qu’une seule variable puisque nous travaillons sur une régression simple.
Le troisième tableau indique si le modèle est significatif ou non. Dans ce cas-ci, le modèle
obtenu est significatif (p < 0,05), le lien entre l’esprit de compétition et l’attitude du vendeur
à l’égard des challenges de vente est significatif (t = 26,34 > 2) et positif (R2 ou coefficient
standardisé de 0,50) [voir le premier tableau de la figure 6.4].
Livre spss.book Page 137 Vendredi, 25. janvier 2008 12:04 12
138 Analyse de données avec SPSS
Figure 6.3
Commande d’une
régression simple.
Figure 6.4
Interprétation d’une
régression simple.
Figure 6.5
Interprétation d’une
régression simple
(suite).
Livre spss.book Page 138 Vendredi, 25. janvier 2008 12:04 12
139La régression linéaire
6Chapitre
* Focus 6.2 • De la nécessité d’observer les données au préalable
Tout travail de type recherche de corrélation et de modélisation commence par une séance
approfondie de statistique descriptive. Avant de faire des calculs de régression, regardons
attentivement les données. Il faut en particulier se méfier des points aberrants, susceptibles de
« tirer » les coefficients de régression, ou d’un nuage de points organisé en deux paquets
orientés suivant deux directions, ou d’autres cas de ce type.
Ce travail se fait par l’examen des résidus comme nous allons maintenant le découvrir.
2.2 L’EXAMEN DES RÉSIDUS
L’estimation réalisée par l’équation de régression n’atteint habituellement pas l’exactitude
complète. D’un point de vue géométrique, les points des données ne se retrouvent pas sur
la ligne droite spécifiée par l’équation de régression. Les résidus représentent les différen-
ces sur les variables prédites; ils constituent un indicateur de performance de la droite de
régression.
L’examen de ces résidus sert à estimer l’exactitude des estimations. Il est donc recom-
mandé de demander une analyse des résidus avec des graphiques qui fournissent des aper-
çus utiles pour s’assurer que les hypothèses fondamentales et la qualité du modèle de
régression ont bien été respectées.
L’hypothèse de distribution normale du terme d’erreur est vérifiée par l’observation du
graphique des résidus. L’hypothèse d’une valeur constante de la variance du terme d’erreur
(homoscédasticité) est validée à l’aide du graphique des résidus en fonction des valeurs esti-
mées de la variable dépendante. Si la configuration n’est pas aléatoire, la variance du terme
d’erreur n’est pas constante. La variation des variances des termes d’erreur doit être com-
prise entre –3 et +3. Ce graphique sert aussi à vérifier une autre condition importante :
l’absence de corrélation ou indépendance entre les termes d’erreur.
L’exemple suivant montre comment demander un examen des résidus avec le logiciel
SPSS et comment interpréter les résultats de ce diagnostic.
SPSS Pour obtenir l’examen des résidus, retournez à la boîte de dialogue
(Analyse > Régression > Linéaire), cliquez sur Statistiques et, dans l’encadré Résidus,
cochez Diagnostic des observations (voir figure 6.6).
Figure 6.6
Demande d’un
tableau des résidus.
Livre spss.book Page 139 Vendredi, 25. janvier 2008 12:04 12
140 Analyse de données avec SPSS
Cliquez ensuite sur Poursuivre et, pour avoir un graphique des résidus, cliquez sur le bouton
Diagrammes. La boîte de dialogue de la figure 6.7 apparaît.
Pour commander un diagramme de résidus standardisés (*ZRESID) contre les valeurs prédi-
tes standardisées (ZPRED), il faut transférer avec les flèches *ZRESID dans la case face à Y
et *ZPRED dans la case face à X. Cochez Diagramme P-P gaussien afin d’avoir la droite de
régression. Cliquez ensuite sur Poursuivre pour revenir à la boîte de dialogue précédente et
enfin sur OK.
Le tableau Diagnostic des observations montre que les observations 61, 202 et 337 sortent
de l’intervalle [–3; +3] avec un score moyen de 4,33 pour l’attitude à l’égard du challenge.
Le résidu standardisé est supérieur à 4 pour l’observation 61 et 3 pour les deux dernières.
Afin d’éliminer ces observations éloignées de la droite de régression, il faut aller dans le
menu Données > Sélectionnez des observations. Cliquez sur le bouton Selon une condition
logique (voir figure 6.9).
Figure 6.7
Demande d’un
diagramme des
résidus (suite).
Figure 6.8
Diagnostic des
observations.
Figure 6.9
Diagnostic des
résidus.
Livre spss.book Page 140 Vendredi, 25. janvier 2008 12:04 12
141La régression linéaire
6Chapitre
Le graphique de répartition des résidus par rapport à une répartition normale montre que la
majorité des résidus est alignée.
Le nuage de points édité des résidus standardisés en rapport avec les valeurs prédites stan-
dardisées ne fait apparaître aucun modèle particulier, ce qui confirme l’hypothèse de valeur
constante de la variance du terme d’erreur (homoscédasticité) et d’indépendance des termes
d’erreur.
D’autres diagrammes, comme l’histogramme des résidus standardisés, sont aussi à exami-
ner. Idéalement, la distribution doit être normale.
2.3 LA RÉGRESSION LINÉAIRE MULTIPLE
La régression multiple est une extension de la régression simple où la variable dépen-
dante est régressée sur un ensemble de variables. Elle sert à analyser la relation entre une
variable dépendante qualitative et plusieurs variables indépendantes quantitatives. Cha-
que variable indépendante est évaluée par la procédure de régression de façon à maximiser
la prédiction de la variable expliquée.
Cette technique multivariée est la plus utilisée pour prédire et expliquer. Dans le cas de la
prédiction, l’objectif est de maximiser le pouvoir prédictif des variables indépendantes. Il
est aussi possible de comparer des variables indépendantes dans leur pouvoir explicatif.
Dans le cas de l’explication, la régression sert à déterminer l’importance relative de chaque
variable indépendante par sa magnitude et sa direction. Par exemple, le nombre de SMS
peut dépendre de l’âge du consommateur, de son revenu et de ses consommations télé-
phoniques.
La régression cherche la combinaison de poids (b) pour les variables indépendantes (Xi)
qui amènerait les valeurs de Y prédites par l’équation aussi près que possible des valeurs de
Y mesurées :
Yi = a + b1X1 + b2X2 + … + bnXn
C’est un indice de la relation entre les valeurs prédites et les valeurs mesurées.
Figure 6.10
Nuage de points
des résidus
standardisés.
Livre spss.book Page 141 Vendredi, 25. janvier 2008 12:04 12
142 Analyse de données avec SPSS
Les méthodes de sélection des variables de régression
La sélection d’une méthode permet de spécifier la manière dont les variables indépendan-
tes sont entrées dans l’analyse.
Voici ces différentes méthodes :
• entrée (par défaut) : toutes les variables d’un bloc sont introduites en une seule opération;
• pas à pas : les variables indépendantes sont ajoutées à l’équation une par une et peuvent
être enlevées subséquemment si elles ne contribuent plus significativement à la régression.
Le processus s’arrête lorsqu’aucune variable ne peut plus être introduite ou éliminée;
• éliminer bloc : toutes les variables dans un bloc sont supprimées en une seule étape;
• descendante : toutes les variables sont entrées initialement dans l’équation et sont
ensuite éliminées une à une. La variable ayant la plus petite corrélation avec la variable
dépendante est d’abord étudiée pour l’élimination. Si elle est éliminée par le modèle, la
prochaine variable avec le plus petit coefficient de corrélation est étudiée, jusqu’à ce
qu’aucune variable ne satisfasse plus au critère d’élimination;
• ascendante : les variables sont introduites séquentiellement une par une. Si la première
variable est introduite dans l’équation, la variable explicative ne figurant pas dans
l’équation et présentant la plus forte corrélation partielle est considérée ensuite. La pro-
cédure s’arrête lorsqu’il ne reste plus de variables satisfaisant le critère d’introduction.
La méthode pas à pas est une combinaison des méthodes descendantes et ascendantes,
elle est généralement recommandée comme étant la meilleure méthode.
Toutes les variables doivent respecter le critère de tolérance pour être entrées dans l’équa-
tion, quelle que soit la méthode d’entrée spécifiée. Le niveau de tolérance par défaut est
0,0001. Une variable n’est pas entrée si elle fait passer la tolérance d’une autre variable déjà
entrée dans le modèle en dessous du seuil de tolérance.
Les conditions de la régression multiple
La régression multiple est complexifiée par la présence de multicolinéarité. En effet, la
majorité des études mettent en jeu des variables explicatives qui sont corrélées. Une
méthode simple pour détecter une trop grande corrélation entre variables indépendantes
consiste à demander des tests de colinéarité : tolérance et facteur d’inflation de la
variance (VIF).
La tolérance est définie comme la part de variabilité de la variable indépendante qui n’est
pas expliquée par une ou d’autres variables indépendantes. Une tolérance élevée corres-
pond à un faible degré de colinéarité. Le seuil de 0,3 est recommandé. À l’inverse, le seuil
du facteur d’inflation de la variance (VIF) doit être faible : < 3.
SPSS Étude de la relation entre l’esprit de compétition, l’ambition, la relation
avec le manager et l’attitude des vendeurs envers les challenges de vente
Nous cherchons à savoir si l’esprit de compétition, l’ambition et la relation du vendeur avec
son manager influencent son attitude à l’égard des challenges de vente. Nous souhaitons
déterminer, parmi ces variables explicatives, celle qui explique le mieux l’attitude à l’égard
du challenge de vente.
Pour obtenir une régression linéaire multiple, allez dans le menu Analyse > Régression >
Linéaire. La boîte de dialogue de la figure 6.11 apparaît.
Livre spss.book Page 142 Vendredi, 25. janvier 2008 12:04 12
143La régression linéaire
6Chapitre
Transférez les variables en les sélectionnant chacune à leur tour et en cliquant sur les flè-
ches. La variable à expliquer dans Variable dépendante, les variables explicatives dans
Variables explicatives.
La méthode de sélection des variables pas à pas est choisie eu égard à notre choix de
recherche.
Cliquez ensuite sur Statistiques et demandez les Tests de colinéarité.
Cliquez ensuite sur Poursuivre et OK (voir figure 6.12).
Les résultats de la régression multiple apparaissent dans l’onglet Résultats (voir figures 6.13
et 6.14).
Ce premier tableau présente les variables introduites : l’esprit de compétition et la relation
avec le manager. Nous remarquons ici que l’ambition n’est pas prise en compte car cette
variable ne contribue pas significativement à la régression.
Les deux variables prises en compte expliquent 51 % de l’attitude à l’égard du challenge
(R2 ajusté). Le tableau ANOVA atteste que les deux modèles sont significatifs
(Signification = 0,00).
Nous lisons ensuite les résultats du test de colinéarité (voir figure 6.15).
Figure 6.11
Commande d’une
régression multiple.
Figure 6.12
Commande de tests
de colinéarité.
Livre spss.book Page 143 Vendredi, 25. janvier 2008 12:04 12
144 Analyse de données avec SPSS
Tolérances et facteurs d’inflation de la variance (VIF) sont proches de 1, largement dans les
limites recommandées (tolérance > 0,3 et VIF < 3,3). Les variables explicatives sont donc
peu corrélées entre elles, ce qui est un indice de qualité du modèle.
Comme nous pouvons le voir (voir figure 6.16), la variable ambition a été exclue car elle a
de mauvaises statistiques de colinéarité.
Figure 6.13
Interprétation des
résultats d’une
régression multiple.
Figure 6.14
Interprétation des
résultats d’une
régression multiple
(suite).
Figure 6.15
Interprétation des
résultats d’une
régression
multiple : tests de
colinéarité.
Livre spss.book Page 144 Vendredi, 25. janvier 2008 12:04 12
145La régression linéaire
6Chapitre
Nous pouvons conclure que le modèle 2 est satisfaisant, car il explique 51 % de l’attitude à
l’égard du challenge (R2 ajusté). Il est significatif (voir tableau ANOVA, figure 6.14), les
coefficients de la pente de régression sont significatifs et il n’y a pas de problème de coli-
néarité (voir tableau coefficients, figure 6.15).
L’esprit de compétition et la relation du vendeur avec son manager sont deux déterminants
de l’attitude du vendeur à l’égard des challenges de vente.
Résumé
La corrélation sert à mesurer la force de l’association de deux variables quantitatives. Le coef-
ficient de corrélation linéaire mesure la relation linéaire entre les deux variables quantitatives.
La régression utilise la présence de cette relation pour prédire les valeurs de la variable
dépendante à partir d’une variable indépendante. L’objectif est donc d’estimer ou de pré-
dire une variable à partir d’une autre grâce à une équation de régression.
La régression simple sert à tester l’effet d’une seule variable indépendante sur une variable
dépendante. La force de la relation est mesurée par le coefficient de détermination R2. La
régression multiple implique au moins deux variables indépendantes et une variable
dépendante. La signification de l’équation de régression globale est testée grâce au test t.
Les graphiques des résidus servent à vérifier la pertinence des hypothèses sous-jacentes et
l’ajustement du modèle de régression
Pour aller plus loin
Malhotra N., Decaudin J. M., Bouguerra A., Études marketing avec SPSS, 5e éd., Pearson
Education, Paris, 2007.
Hair J. F., Anderson R. E., Tatham R. L., Black W. C., Multivariate Data Analysis, Prentice
Hall International, New Jersey, 2007.
Evrard Y., Pras B., Roux E., Market. Études et recherche en marketing, Nathan, Paris, 2003.
Figure 6.16
Interprétation des
résultats d’une
régression
multiple : variables
exclues.
Livre spss.book Page 145 Vendredi, 25. janvier 2008 12:04 12
146 Analyse de données avec SPSS
Exercices
EXERCICE 1 ÉTUDE DU POINT DE VENTE
* Solution 1. Les variables les plus reliées au montant moyen dépensé par mois sont le niveau d’étu-
des (0,66) et le revenu du foyer (0,83). L’intention d’achat est plus faiblement corrélée au
montant moyen dépensé par mois. Le signe ** indique que la corrélation est significative
au seuil de 0,01.
La taille du foyer n’est pas reliée au montant moyen dépensé par mois. En effet, la corréla-
tion de 0,03 n’est pas significative, il n’y a pas de signe ** à l’intersection de « Taille du
foyer » et de « Montant moyen dépensé par mois ».
2. Comme pour le montant moyen dépensé par mois, l’intention d’achat est aussi liée au
niveau d’études et n’est pas liée à la taille du foyer. Toutefois, à la différence du montant
moyen dépensé par mois, l’intention d’achat et le niveau de revenus du foyer ne sont pas
fortement corrélés (0,28).
• Énoncé Une étude sur la clientèle d’un magasin vise à mieux comprendre les clients et notam-
ment les variables liées à l’intention d’achat. Voici les résultats de la corrélation multiple
entre le montant moyen dépensé par mois, l’intention d’achat, le niveau d’études, la
taille du foyer et le niveau de revenus du foyer (voir figure 6.17).
1. Quelles variables sont le plus reliées au montant moyen dépensé par mois?
2. Ces variables sont-elles différentes de celles qui sont reliées à l’intention d’achat dans
le point de vente?
Figure 6.17
Interprétation
des résultats
d’unecorrélation
multiple.
Livre spss.book Page 146 Vendredi, 25. janvier 2008 12:04 12
147La régression linéaire
Exercices
6Chapitre
EXERCICE 2 LES DÉTERMINANTS DE LA MOYENNE DES ÉTUDIANTS
• Énoncé On a demandé à des étudiants d’une classe d’évaluer la qualité de l’enseignement en uti-
lisant une échelle de notation en 5 points (1 = médiocre, 5 = excellent). Nous avons aussi
relevé la moyenne et le jour d’absence du trimestre des étudiants de la classe.
1. Enregistrez les données récoltées dans le tableau sous SPSS au tableau 6.2.
2. Ces variables sont-elles corrélées?
3. Effectuez une analyse par régression multiple de la qualité perçue de l’enseignement et
de l’absentéisme durant le trimestre sur la moyenne du trimestre. Interprétez les coef-
ficients de régression. La régression est-elle significative? Que concluez-vous?
Tableau 6.2 : Données récoltées
Étudiant
Moyenne du
trimestre
Qualité perçue
de
l’enseignement
Absentéisme en
jours par
trimestre
1 5 4 10
2 7 4 2
3 15 3 0
4 11 2 0
5 16 3 0
6 12 2 1
7 11 3 0
8 14 4 0
9 10 4 0
10 14 4 0
11 11 3 0
12 9 4 1
13 9 2 2
14 11 4 0
15 10 4 0
16 7 2 1
17 14 4 0
18 15 4 0
19 11 3 0
20 14 4 0
Livre spss.book Page 147 Vendredi, 25. janvier 2008 12:04 12
148 Analyse de données avec SPSS
* Solution 1. Pour rentrer ces données sous SPSS, allez dans Fichier > Nouveau > Données. Ensuite,
dans Affichage des variables entrez le Nom des variables et leur Etiquette. Nous avons ici
des données quantitatives et donc la Mesure sélectionnée est Echelle (voir figure 6.18).
Il faut ensuite entrer les données dans la partie Affichage des données. Chaque ligne cor-
respond à la réponse d’un étudiant. Nous avons ainsi un tableau de trois colonnes et 28
lignes pour les 28 étudiants de la classe (voir figure 6.19).
2. Afin de savoir si les variables sont corrélées, il faut demander une corrélation entre les
trois variables : qualité de l’enseignement perçue, absentéisme des élèves et moyenne du
trimestre.
Allez dans Analyse > Corrélation > Bivariée. La boîte de dialogue de la figure 6.20 appa-
raît. Faites passer les variables de gauche à droite à l’aide de la flèche, puis cliquez sur OK.
Les résultats de la corrélation apparaissent dans le tableau de résultats à la figure 6.21.
Le tableau des corrélations obtenu entre la note du trimestre, l’absentéisme en nombre de
jours par trimestre et la qualité perçue de l’enseignement montre qu’il existe un lien signi-
ficatif entre l’absentéisme et la note moyenne. Le signe – atteste que ces deux variables
évoluent de manière inversement proportionnelle. Autrement dit, plus un étudiant est
absent moins sa note du trimestre est bonne. Il n’y a pas de corrélation entre la note
moyenne du trimestre et la qualité perçue de l’enseignement, comme il n’y a pas de lien
entre le taux d’absentéisme des étudiants et la qualité perçue de l’enseignement.
Étudiant
Moyenne du
trimestre
Qualité perçue
de
l’enseignement
Absentéisme en
jours par
trimestre
21 12 3 0
22 11 4 0
23 9 3 0
24 8 2 2
25 11 4 0
26 10 3 0
27 14 4 0
28 12 4 0
Figure 6.18
Rappel de la
procédure pour
rentrer les données
sous SPSS.
Livre spss.book Page 148 Vendredi, 25. janvier 2008 12:04 12
149La régression linéaire
Exercices
6Chapitre
Figure 6.19
Rappel de la
procédure pour
rentrer les données
sous SPSS (suite).
Figure 6.20
Demande de
corrélation entre la
qualité de
l’enseignement,
l’absentéisme et la
moyenne.
Figure 6.21
Résultats de la
corrélation entre la
moyenne,
l’absentéisme et la
qualité de
l’enseignement.
Livre spss.book Page 149 Vendredi, 25. janvier 2008 12:04 12
150 Analyse de données avec SPSS
3. Pour réaliser la régression multiple (pas à pas), allez dans le menu Analyse >
Régression > Linéaire.
Transférez la variable note moyenne vers Variable dépendante, puis les variables qualité
de l’enseignement et absentéisme, chacune à leur tour, vers Variables explicatives en cli-
quant sur les flèches.
La méthode de sélection des variables par défaut est choisie. Cliquez ensuite sur OK (voir
figure 6.22).
Avant de lancer la commande de régression, la non-colinéarité entre les variables indépen-
dantes doit être vérifiée. Pour ceci, il faut faire des tests de colinéarité. Retournez dans la
boîte de dialogue puis cliquez sur Statistiques, Tests de colinéarité. Cliquez ensuite sur
Poursuivre et OK (voir figure 6.23).
Les résultats de la régression multiple figurent dans la boîte de résultats à la figure 6.24.
Figure 6.22
Demande d’une
régression multiple
(Pas à pas) sur la
moyenne du
trimestre.
Figure 6.23
Demande de tests
de colinéarité.
Livre spss.book Page 150 Vendredi, 25. janvier 2008 12:04 12
151La régression linéaire
Exercices
6Chapitre
Toutes les variables sont conservées pour la régression puisque nous n’avons pas spécifié
de méthode de régression particulière ; la méthode par défaut prend toutes les variables
explicatives (voir figure 6.25).
Les deux variables prises en compte expliquent 37 % de la moyenne du trimestre (R2
ajusté). Le tableau ANOVA atteste que le modèle est significatif (Signification = 0,00).
Tolérances et facteurs d’inflation de la variance (VIF) sont égaux à 1, ce qui montre que les
variables explicatives sont peu corrélées entre elles et représentent un indice de qualité du
modèle.
Le test t de la régression de la qualité de l’enseignement sur la note moyenne du trimestre
n’est pas significatif (p > 0,0; t < 2), nous pouvons donc conclure que seul l’absentéisme a
un effet significatif et négatif sur la moyenne du trimestre (t = – 4,01; p < 0,01). Autre-
ment dit, plus les étudiants sont absents, moins leur moyenne est bonne.
Figure 6.24
Interprétation des
résultats de la
régression multiple
sur la moyenne du
trimestre.
Figure 6.25
Interprétation des
résultats de la
régression multiple
sur la moyenne du
trimestre (suite).
Livre spss.book Page 151 Vendredi, 25. janvier 2008 12:04 12
152 Analyse de données avec SPSS
EXERCICE 3 ÉTUDE DU POINT DE VENTE1
* Solution 1. Une corrélation permet de savoir si la taille du foyer et le montant dépensé dans le
magasin sont liés.
Voici la commande à effectuer : Analyse > Corrélation > Bivariée. Faites passer les varia-
bles foyer et montant vers Variables, puis OK (voir figure 6.26).
Les résultats de la corrélation figurent dans la boîte de résultats à la figure 6.27.
L’absence de signe ** indique que la corrélation entre la taille du foyer et le montant
dépensé dans le magasin n’est pas significative. Il n’y a pas de lien entre ces deux variables.
• Énoncé Vous travaillez sur une enquête destinée à mieux comprendre les comportements d’achat
de clients d’un magasin de chaussures. Vous cherchez à identifier ces clients et connaître
leur attitude à l’égard du point de vente. Vous avez collecté 400 réponses et cherchez à
exploiter ces données (fichier « pointdevente » 1).
Le gérant du magasin souhaite savoir :
1. s’il existe une relation entre la taille du foyer et le montant dépensé dans le magasin;
2. si le niveau d’études influence l’intention d’achat dans le point de vente.
1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr.
Figure 6.26
Demande de
corrélation entre la
taille du foyert et le
montant dépensé.
Figure 6.27
Interprétation des
résultats de la
corrélation entre la
taille du foyert et le
montant dépensé.
Livre spss.book Page 152 Vendredi, 25. janvier 2008 12:04 12
153La régression linéaire
Exercices
6Chapitre
2. Pour savoir si le niveau d’études influence l’intention d’achat au point de vente, il faut
faire une régression du niveau d’études sur l’intention d’achat.
Voici la commande à effectuer : Analyse > Régression > Linéaire. Faites passer l’intention
d’achat vers Variable dépendante et le niveau d’études (Question : Quel est votre niveau
d’études?) vers Variables explicatives, puis faites OK (voir figure 6.28).
Les résultats de la régression apparaissent dans les tableaux de la figure 6.29.
Figure 6.28
Demande de
régression du
niveau d’études sur
l’intention d’achat.
Figure 6.29
Interprétation des
résultats de la
régression du
niveau d’études sur
l’intention d’achat.
Livre spss.book Page 153 Vendredi, 25. janvier 2008 12:04 12
154 Analyse de données avec SPSS
Le tableau ANOVA atteste que le modèle est significatif. Le test t de la régression du niveau
d’études sur l’intention d’achat est supérieur à 2. Nous pouvons donc conclure que le
niveau d’études a un effet significatif et positif sur l’intention d’achat dans le magasin
(t = 11,58; p < 0,01). Le niveau d’études explique 25 % de l’intention d’achat (R2 ajusté).
Autrement dit, plus les individus ont des diplômes, plus ils sont prêts à effectuer des achats
dans le magasin.
Livre spss.book Page 154 Vendredi, 25. janvier 2008 12:04 12
155
7L’analyse
conjointe
L’analyse conjointe est une forme d’analyse de variance qui
permet de mesurer les préférences des individus relatives aux
attributs d’un objet. L’objectif est d’identifier les préférences
globales et de mesurer l’effet conjoint de caractéristiques. Par
exemple, il s’agira de cerner les critères les plus importants
dans l’achat d’un ordinateur (puissance, marque,
design, etc.). Cette technique permet d’expliquer les préféren-
ces pour un objet en fonction de ses caractéristiques, de
déduire l’importance de ces différentes caractéristiques et de
leurs modalités dans l’évaluation globale portée par les indi-
vidus. L’analyse conjointe est surtout utilisée dans le contexte
des biens de consommation, où elle sert à améliorer les pro-
duits ou les services selon les résultats.
Nous verrons dans un premier temps les principes de l’ana-
lyse conjointe avant de présenter le déroulement, la réalisa-
tion et l’interprétation de cette méthode.
1. Les principes
de l’analyse conjointe ..............156
2. La préparation
de l’analyse conjointe ..............158
3. L’interprétation de l’analyse......164
Exercices
1. Étude sur la consommation
de thé – création de plan
d’expérience et de scénario......172
2. Étude sur la consommation
de thé Calcul des préférences
des consommateurs .................174
Chapitre
Livre spss.book Page 155 Vendredi, 25. janvier 2008 12:04 12
156 Analyse de données avec SPSS
(1) Les principes de l’analyse conjointe
Les travaux de Green dans les années 1970 marquent le début de la prise en compte de
l’analyse conjointe dans la recherche en marketing. La méthode dite de l’« analyse des
mesures conjointes », au développement croissant depuis les années 1980, vise à mieux
comprendre le comportement des individus et, en particulier, du consommateur.
Le sketch de Coluche illustre la problématique de l’analyse conjointe sur la préférence
entre être « grand, riche, beau et intelligent » et « petit, pauvre, moche et bête ». Si l’on pré-
sente les combinaisons suivantes « grand, riche, moche et bête » ou « petit, pauvre, beau et
intelligent », l’individu est alors amené à faire des compromis dans lesquels l’avantage
d’une caractéristique compense une autre qu’il doit rejeter. L’analyse conjointe permet de
répondre aux questions suivantes : Quelle est l’importance de tel ou tel attribut (prix,
dimensions, etc.) du produit pour le consommateur? Quelle est l’importance de certains
niveaux d’attributs (niveau de prix, dimensions en cm, etc.) par rapport à d’autres dans
l’esprit du consommateur? Cette méthode détermine à la fois l’importance relative de
chaque attribut et les niveaux des attributs préférés des répondants.
Lorsqu’on dispose d’informations sur les répondants (données démographiques ou
autres), l’analyse conjointe permet d’identifier les segments de marché pour lesquels des
produits spécifiques seront plus adaptés. Par exemple, une personne appartenant à une
CSP+ et un étudiant peuvent avoir des goûts différents auxquels des offres de produits dis-
tincts pourront répondre.
L’analyse conjointe repose sur la décomposition de la préférence en utilités partielles. Pour
déterminer l’utilité totale d’un produit, on suppose que l’individu additionne les utilités
partielles des attributs du produit. On parle de modèle additif. Au final, l’individu choisit
parmi les produits celui qui lui procure l’utilité totale la plus élevée. L’estimation permet
ainsi d’obtenir, pour chaque facteur et ses niveaux, des utilités partielles ainsi que l’impor-
tance de chaque attribut. Ce qui compte est donc l’individu tel qu’il réagit dans une situa-
tion déterminée.
L’analyse conjointe appartient aux modèles de décomposition (voir focus 7.1 sur le
modèle compensatoire) où l’importance des caractéristiques est estimée à partir des pré-
férences déclarées du consommateur et de ses notations des différents produits sur plu-
sieurs caractéristiques. Elle permet d’analyser l’importance des caractéristiques du
produit dans la formation des préférences.
* Focus 7.1 • Le modèle compensatoire
Le modèle d’attitude implicite de l’analyse conjointe est un modèle compensatoire, où l’évalua-
tion se fonde sur le principe du compromis, c’est-à-dire qu’un peu moins d’un attribut peut être
compensé par un peu plus d’un autre.
Par exemple, un individu qui cherche un appartement peut avoir plusieurs critères : le montant
du loyer, la superficie, le nombre de pièces, la luminosité, la proximité des transports
publics, etc. Si l’un de ces critères n’est pas satisfait (superficie insuffisante), il peut être com-
pensé par un montant du loyer plus faible dans un modèle compensatoire (ce n’est pas le cas
dans le modèle non compensatoire).
Livre spss.book Page 156 Vendredi, 25. janvier 2008 12:04 12
157L’analyse conjointe
7Chapitre
1.1 LES UTILISATIONS DE L’ANALYSE CONJOINTE EN MARKETING
L’analyse conjointe est largement utilisée en marketing pour l’identification d’un nouveau
concept, pour divers tests (prix, produits, publicité, distribution, etc.), pour l’analyse
concurrentielle ou la segmentation du marché (voir tableau 7.1). Il s’agit, par exemple :
• de déterminer l’importance relative d’attributs dans le processus de choix des
consommateurs;
• d’estimer la part de marché des marques qui diffèrent au niveau des attributs;
• de déterminer la composition d’objets les plus appréciés;
• de segmenter le marché à partir des similarités de préférences pour des niveaux d’attri-
buts.
1.2 LES CONDITIONS D’APPLICATION DE L’ANALYSE CONJOINTE
L’analyse des mesures conjointes nécessite que les variables explicatives soient qualitati-
ves ou nominales et que les variables à expliquer soient quantitatives. Ces dernières
peuvent être évaluées :
• à l’aide d’une échelle de mesure;
• à l’aide d’un ordre de préférence (classement) entre différentes combinaisons de
niveaux de facteurs.
Par exemple, dans le cadre d’une étude sur la préférence des clients à l’égard d’une offre de
transport aérien, on pourra demander aux individus d’évaluer différentes offres de com-
pagnies avec une note de 1 à 9, autrement dit de les classer. Ces offres incluront, par exem-
ple, le prix du billet (bas, moyen, élevé), la qualité du service à bord (excellente, moyenne,
mauvaise), le nombre d’escales, etc. Il sera ainsi possible d’estimer, parmi ces facteurs et
leurs niveaux, celui qui a le plus d’importance pour les clients dans leur choix d’une offre
de transport aérien. L’objectif est ensuite d’élaborer une offre optimale pour la clientèle.
Tableau 7.1 : Les applications de l’analyse conjointe
Pour les biens de consommation courante
Nouveaux produits 72 %
Prix 61 %
Segmentation 48 %
Publicité 39 %
Distribution 7 %
Livre spss.book Page 157 Vendredi, 25. janvier 2008 12:04 12
158 Analyse de données avec SPSS
1.3 LES ÉTAPES DE L’ANALYSE CONJOINTE
La méthodologie de l’analyse conjointe est jalonnée par trois grandes étapes (Green et Sri-
nivasan, 1990) :
• collecte des données : choix du plan factoriel complet ou fractionné, de la forme des
questions et de la méthode de recueil;
• définition de l’échelle de mesure de la variable dépendante : choix de la mesure (clas-
sement, notation des combinaisons, comparaison de paires de combinaisons);
• estimation : étape liée à la nature de la mesure de la variable dépendante (ANOVA si la
variable dépendante est quantitative, analyse monotone de la variance si elle est ordi-
nale).
Ces étapes sont développées au cours de la section suivante.
(2) La préparation de l’analyse conjointe
L’analyse conjointe demande au préalable la résolution d’un certain nombre de questions.
En effet, avant même de collecter les données, le chargé d’étude doit s’interroger sur les
attributs qu’il cherche à évaluer et leurs niveaux. Cette première sélection des attributs ou
facteurs les plus importants et de leurs niveaux ou modalités déterminera le plan d’expé-
rience et le mode de collecte des données.
Le schéma de la figure 7.1 présente les différentes phases de la méthode de l’analyse
conjointe et met l’accent sur la première étape de la sélection des attributs et des niveaux.
Source : adapté de Liquet et Benavent.
Figure 7.1
Les étapes de
l’analyse conjointe.
Livre spss.book Page 158 Vendredi, 25. janvier 2008 12:04 12
159L’analyse conjointe
7Chapitre
2.1 LA SÉLECTION DES ATTRIBUTS OU FACTEURS ET DE LEURS NIVEAUX
La sélection des variables et des niveaux à tester est cruciale. Les facteurs choisis doivent
correspondre à l’ensemble des critères intervenant dans le choix des individus. Il est donc
primordial que tous les attributs soient importants et indépendants, qu’ils décrivent com-
plètement le produit et qu’ils soient manipulables. Par exemple, pour identifier le packa-
ging de biscuits pour le goûter des enfants, le chargé d’étude sélectionnera le format du
paquet, le type d’emballage, le code couleurs, etc., et en termes de niveaux, deux tailles
pour le format (moyen, petit), deux pour le type d’emballage (carton, sachet) et trois pour
le code couleurs (bleu-rouge; bleu-vert; bleu-jaune).
Pour synthétiser, les attributs ou facteurs doivent être :
• Exhaustifs. Il ne doit pas manquer de facteurs majeurs dans l’évaluation de l’objet.
• Importants. Les facteurs sélectionnés doivent être essentiels dans l’évaluation de l’objet
par les individus.
• Indépendants. Les facteurs ne doivent pas être corrélés, sinon c’est la redondance qui
est mesurée au lieu de la préférence.
Si plusieurs attributs sont fortement corrélés, il faut alors essayer de les regrouper en un
facteur globalisant. À titre d’exemple, voici quatre attributs employés pour décrire
l’ambiance d’un restaurant : le décor (raffiné ou simple), l’agencement (banal ou élaboré),
la lumière (tamisée ou non) et le niveau sonore (élevé, moyen, faible). Ces attributs pour-
ront être regroupés sous une variable unique, intitulée « ambiance du restaurant » et
comptant trois modalités (agréable, neutre ou désagréable). Les autres facteurs pourront
être le tarif, l’emplacement du restaurant, la variété des plats, la qualité du service, etc.
Les attributs et leurs niveaux doivent être importants et proches du réel des individus qui
seront interrogés. Ils doivent aussi être suffisamment contrastés afin que les personnes
puissent se prononcer. Enfin, le panier d’attributs doit être manipulable lors d’une simu-
lation. Reprenons l’exemple de l’emballage de biscuits : le format, le type d’emballage et le
code couleurs sont indépendants. À propos de leur importance, le chercheur doit s’assurer
au préalable, par exemple grâce à une étude qualitative, que les attributs clés sont sélec-
tionnés. Des entretiens avec des enfants sur leurs préférences concernant l’emballage de
biscuits pour le goûter serviront à identifier les facteurs et leurs modalités clés.
Il est généralement recommandé d’avoir un nombre de niveaux équilibré, c’est-à-dire
équivalent pour chaque attribut. Cela permet d’éviter que les individus accordent plus de
poids aux attributs présentant davantage de niveaux que les autres. Un nombre limité de
niveaux (2 ou 3) permet, en outre, de présenter aux personnes interrogées des options
plus claires. Dans le cas de notre exemple, le facteur code couleurs a trois niveaux, ce qui
peut lui attribuer une plus grande importance. Il faut en tenir compte dans l’analyse.
* Focus 7.2 • Comment identifier les attributs déterminants?
Afin d’optimiser la phase clé de sélection des attributs et de leurs niveaux, une étude explora-
toire est souvent nécessaire. Elle vise à repérer quels sont, pour les individus, les attributs les
plus importants et leurs niveaux. Elle permet de s’assurer que les facteurs auxquels le chargé
d’étude a pensé sont pertinents et qu’il n’a pas oublié de facteurs ou niveaux importants.
Nous prenons ici l’exemple d’une étude sur les préférences des consommateurs à l’égard de
crèmes glacées. Un questionnaire proposé à 300 ménages a permis d’identifier les attributs
Livre spss.book Page 159 Vendredi, 25. janvier 2008 12:04 12
160 Analyse de données avec SPSS
déterminants du processus d’achat de crèmes glacées. Ils ont dû évaluer chacun de ces critères
selon le degré d’importance (de « pas du tout » à « très important ») :
• le prix;
• le parfum;
• la marque;
• le conditionnement.
Une question ouverte (Autre) a permis d’identifier d’autres critères clés, par exemple :
• la composition du produit.
La sélection du nombre de facteurs a une incidence directe sur le plan d’expérience utilisé.
En effet, lorsqu’on cherche à tester un nombre important d’attributs et de niveaux, il est
souvent difficile de considérer toutes les configurations possibles (voir focus 7.3, Plan
complet et plan fractionné) car c’est trop coûteux en termes d’expérience.
* Focus 7.3 • Plan complet et plan fractionné
Lorsqu’on utilise un plan complet, chaque profil décrit un objet complet, c’est-à-dire une com-
binaison différente de niveaux de facteurs pour tous les facteurs ou tous les attributs. Cette
méthode permet donc d’avoir une évaluation de toutes les combinaisons possibles.
Cependant, lorsqu’on cherche à évaluer beaucoup d’attributs et de niveaux, le nombre total de
profils à évaluer devient trop important pour que les répondants puissent les classer ou les
noter de façon cohérente. Il est alors préférable d’utiliser un plan fractionné qui présente une
fraction appropriée de toutes les combinaisons possibles de niveaux de facteurs.
L’ensemble qui en résulte, appelé « tableau orthogonal », est conçu pour saisir les effets princi-
paux de chaque niveau de facteur.
2.2 LA MISE EN ŒUVRE DE LA SIMULATION
La construction de scénarios (voir focus sur la méthode des scénarios vue au chapitre 6)
détermine la crédibilité de l’expérience. En effet, l’analyse conjointe repose sur des infor-
mations collectées auprès d’individus à qui l’on demande de faire des choix, de déclarer
leurs préférences entre divers objets présentés avec des stimuli. Les stimuli sont des combi-
naisons d’attributs et de leurs niveaux qui sont évalués en fonction de leurs attraits. L’ana-
lyse conjointe repose sur la méthode des scénarios.
La méthode des scénarios ou des vignettes
La méthode dite des scénarios ou des vignettes s’appuie sur l’utilisation de scénarios. Le
scénario simule de vraies expériences, comme celle du choix d’un paquet de biscuits pour
le goûter. Les individus, mis dans une situation hypothétique, doivent répondre « comme
si » ils se trouvaient réellement dans ces situations. En prenant l’exemple du choix du
paquet de biscuits, on demandera aux enfants de choisir entre les différents emballages qui
pourront être dessinés. Ils choisiront, non pas selon des questions directement posées sur
leurs préférences en termes de format (petit ou grand), de code couleurs, etc., mais en
fonction de combinaisons de niveaux d’attributs.
Livre spss.book Page 160 Vendredi, 25. janvier 2008 12:04 12
161L’analyse conjointe
7Chapitre
La mise en situation possède l’avantage de rendre l’expérience plus réaliste et, par là, de
mieux impliquer les répondants dans la création de sens. Le but est aussi de s’éloigner de
la rationalisation et d’effectuer son choix comme dans une situation réelle d’achat.
Une description verbale, un texte descriptif écrit, une photo, un dessin ou un prototype
peuvent servir à présenter les stimuli. Il faut ici veiller à ce que les scénarios soient crédi-
bles et qu’aucun ne soit manifestement trop attractif ou, au contraire, répulsif. Les stimuli
doivent, de fait, avoir une apparence similaire afin que les préférences des individus soient
bien le fruit des attributs testés.
Le tableau 7.2 expose les méthodes de présentation des scénarios les plus usitées.
Source : Cattin et Wittink, 1982.
Exemple de vignettes
Voici un exemple de vignettes utilisées pour décrire différentes offres de chambres d’hôtel.
Les facteurs manipulés sont :
• la localisation de l’hôtel (centre-ville, proche d’une autoroute, excentré);
• le type de chambre (luxe, standard, simple);
• le prix de la chambre (élevé, économique);
• la marque (chaîne d’hôtel connue ou pas).
Le tableau 7.3 liste les vignettes qui permettent de décrire les diverses combinaisons pré-
sentées aux individus.
Tableau 7.2 : Les méthodes de présentation des stimuli les plus utilisées
de l’analyse conjointe
Description verbale 50 %
Texte descriptif 20 %
Descriptif visuel 19 %
Prototype 7 %
Autres 4 %
Tableau 7.3 : Vignettes décrivant les offres de chambres d’hôtel
Description des concepts
Évaluation
Classement ou Note
1. Chambre standard de la chaîne d’hôtels connue Y
excentré, économique
2. Chambre de luxe de la chaîne d’hôtels connue Y
excentré, économique
3. Chambre de luxe de la chaîne d’hôtels connue Y
centre-ville, prix élevé
Livre spss.book Page 161 Vendredi, 25. janvier 2008 12:04 12
162 Analyse de données avec SPSS
2.3 LA COLLECTE DES DONNÉES
Lors de la phase de collecte des données, le chargé d’étude s’interroge sur le choix de la
méthode de comparaison des vignettes ou des scénarios à tester, du mode d’administra-
tion et du mode de recueil des données. Nous verrons successivement ces trois points clés.
Le choix de la méthode de comparaison des scénarios
Trois méthodes sont le plus souvent utilisées pour la collecte des données mais c’est celle
du profil complet qui est la plus courante. Avec la méthode du profil complet, chacun des
répondants est exposé à toutes les combinaisons de niveaux de facteurs. Elles sont décrites
séparément et l’individu doit évaluer chacune d’elles. Si on reprend l’exemple du choix
d’une chambre d’hôtel, les individus devraient noter les différentes offres décrites par les
vignettes, soit un total de 36.
Par conséquent, il est recommandé de sélectionner un nombre de facteurs inférieur à 6 et
un nombre de niveaux pour chacun de ces facteurs limité à 3 ou 4. En effet, même si l’uti-
lisation de plans fractionnés (voir chapitre 5) permet de réduire les profils que les indivi-
dus évaluent, il existe des biais de réponses dus à un effet d’apprentissage. L’ordre de
présentation des concepts influence l’appréciation des répondants, il faut donc veiller à
présenter les vignettes de façon aléatoire.
La méthode de comparaison par paires présente les différentes vignettes ou les différents
scénarios deux à deux. Les personnes interrogées estiment les paires de concepts jusqu’à ce
qu’ils soient tous évalués. Si on reprend l’exemple de l’emballage de biscuits pour le goû-
ter, on demandera aux individus de choisir parmi les propositions (combinaison x de
niveaux de facteurs) : un sachet de petit format et un code couleurs bleu-rouge seront
comparés à un carton de petit format et un code couleurs bleu-jaune… Cela jusqu’à ce
qu’ils aient évalué toutes les combinaisons. Il est aussi possible de faire noter différentes
paires à des groupes d’individus différents, ce qui permet de gagner du temps.
La méthode du trade off utilise deux facteurs à la fois. On demande aux répondants de
classer par ordre de préférence toutes les combinaisons des niveaux des deux facteurs.
Cette méthode repose sur une matrice qui croise l’ensemble de combinaisons des niveaux
de facteurs deux à deux. Elle a pour inconvénient majeur sa lourdeur lorsque le nombre de
facteurs est élevé.
4. Chambre simple de la chaîne d’hôtels connue Y
proche d’une autoroute, économique
5. Chambre simple, proche d’une autoroute, économique
6. Chambre de luxe, centre-ville, prix élevé
…
Tableau 7.3 : Vignettes décrivant les offres de chambres d’hôtel (suite)
Description des concepts
Évaluation
Classement ou Note
Livre spss.book Page 162 Vendredi, 25. janvier 2008 12:04 12
163L’analyse conjointe
7Chapitre
L’avantage des méthodes du trade off et de comparaison par paires est que les individus
perçoivent clairement les offres et répondent facilement. Leur principal inconvénient est
le nombre important d’évaluations nécessaires. La méthode du profil complet en exige
moins. Elle est donc intéressante lorsqu’on cherche à tester un nombre important d’attri-
buts et de niveaux d’attributs.
Pour les deux méthodes,il n’est pas toujours utile de faire évaluer toutes les combinaisons possi-
bles même si l’emploi de plans fractionnés (voir focus 7.3) peut parfois pallier ce problème.
Le choix du mode d’administration de l’enquête
L’information collectée est déduite des évaluations d’objets par les individus interrogés. La
taille de l’échantillon, issu de la population cible de l’objet testé, varie entre 100 et 1 000.
Elle doit être suffisamment importante pour assurer la fiabilité des résultats.
Une fois l’échantillon choisi, le chargé d’étude propose les scénarios ou profils à chaque
répondant. Selon le nombre de scénarios à tester, il peut administrer soit la totalité des
configurations possibles (plan complet), soit une sélection (plan fractionné).
Les données sont ensuite collectées (voir tableau 7.4), le plus souvent via des entretiens de
groupe, des réunions, en interrogeant les individus directement ou encore en suivant un
protocole. Il est recommandé de travailler avec un expert du domaine (chef de produit,
par exemple) pour élaborer des scénarios réalistes et diffuser l’étude. Ces interventions
permettent de renforcer la validité de l’étude.
Le choix du mode de recueil des données
Dans l’analyse conjointe, la variable mesurée est généralement la préférence ou l’intention
d’achat. Les individus interrogés fournissent donc un score ou un rang en fonction de
leurs goûts et de leurs intentions d’achat.
Trois méthodes de recueil des données existent. On peut demander aux individus :
• de donner un score à chaque profil, selon leurs préférences (donnée métrique);
• d’assigner un rang à chaque profil, de 1 jusqu’au nombre total de profils;
• de trierlesprofilsentermesdepréférences par ordre croissant ou décroissant (classement).
Les données sont le plus souvent recueillies à partir d’un classement des profils ou à l’aide
d’un score sur chaque profil.
Certains chercheurs estiment que le classement ou l’attribution d’un rang reflète plus précisé-
ment le comportement des individus lors de la prise d’une décision. D’autres, tenants des
données d’évaluation, pensent, au contraire, qu’elles sont plus pratiques pour les répondants.
Dans les deux cas, étant donné que l’ordre de présentation des stimuli peut affecter l’éva-
luation des répondants, il est recommandé de varier l’ordre de présentation des scénarios.
Tableau 7.4 : Les conditions d’administration de l’analyse conjointe
Interventions d’experts dans l’étude (manager, etc.) 30 %
Entretiens de groupe 26 %
Questionnements directs d’individus 18 %
Autres 26 %
Livre spss.book Page 163 Vendredi, 25. janvier 2008 12:04 12
164 Analyse de données avec SPSS
(3) L’interprétation de l’analyse
C’est à partir d’une application que nous verrons comment réaliser et interpréter une ana-
lyse conjointe. Dans un premier temps, nous voyons la sélection des attributs, l’enregistre-
ment des réponses, la création des scénarios et du plan via le logiciel SPSS. Ensuite, nous
présentons les résultats de l’analyse conjointe ainsi que les procédures de vérification de sa
fiabilité et de validité.
3.1 EXEMPLE DE RÉALISATION ET D’INTERPRÉTATION DE L’ANALYSE CONJOINTE
Le choix des attributs et de leurs niveaux
Notre étude porte sur le challenge de vente préféré des commerciaux. Il ressort d’entre-
tiens avec eux que trois caractéristiques des challenges sont très importantes : le type
d’objectif, le format de compétition et le budget (fermé, avec un nombre de gagnants et un
budget défini à l’avance, ou ouvert, avec un quota à atteindre et un nombre de gagnants et
un budget méconnu au départ). Ces trois caractéristiques indépendantes les unes des
autres sont donc sélectionnées (condition essentielle de l’analyse conjointe).
Le nombre de niveaux d’attributs est équilibré à deux : l’objectif est soit quantitatif (chiffre
d’affaires), soit qualitatif (évaluation de la connaissance des produits), le format est soit
individuel (objectif assigné individuellement), soit en équipe (objectif collectif) et le bud-
get est soit ouvert (niveau à atteindre précis), soit fermé (classement). Trois caractéristi-
ques de base, ayant chacune deux modalités sont sélectionnées (voir tableau 7.5).
Le nombre d’attributs et de niveaux étant faible, nous pouvons utiliser la méthode du plan
complet. Nous devrions avoir : 2 × 2 × 2 = 8 profils.
Nous allons voir maintenant la procédure à suivre sur SPSS pour générer le plan qui ser-
vira de base au développement des scénarios de l’analyse conjointe.
Tableau 7.5 : Les attributs sélectionnés et leurs niveaux
Format de compétition
Individuel
En équipe
Type d’objectif
Quantitatif
Qualitatif
Budget
Ouvert
Fermé
Livre spss.book Page 164 Vendredi, 25. janvier 2008 12:04 12
165L’analyse conjointe
7Chapitre
La création du plan orthogonal
Pour créer le plan orthogonal, allez dans le menu Données > Plan orthogonal > Générer.
Dans la boîte de dialogue qui apparaît (voir figure 7.2), saisissez le nom et l’étiquette de
chacun des attributs ou facteurs.
Ici, nous commençons par inscrire objectif dans le champ Nom facteur et objectif du
challenge dans le champ Etiquette facteur.
Cliquez ensuite sur le bouton Ajouter pour insérer les autres facteurs, toujours dans les
champs Nom facteur et Etiquette facteur. Nous saisissons format et format du challenge
puis, après avoir cliqué sur Ajouter : budget et budget du challenge.
Ensuite, il faut définir les niveaux de chacun des facteurs. Pour cela, sélectionnez chaque
facteur et cliquez sur le bouton Définir valeurs (voir figure 7.3). Nous choisissons d’attri-
buer la valeur 1 au format individuel et la valeur 2 au format en équipe. Cliquez ensuite
sur Poursuivre pour revenir à la boîte de dialogue et refaites cette action pour chacun des
attributs (la valeur 1 pour les objectifs quantitatifs et la valeur 2 pour les objectifs
qualitatifs ; idem pour le budget du challenge, la valeur 1 pour le budget fermé et la
valeur 2 pour le budget ouvert) [voir figure 7.4].
Figure 7.2
Création du plan
orthogonal.
Figure 7.3
Enregistrement des
attributs.
Livre spss.book Page 165 Vendredi, 25. janvier 2008 12:04 12
166 Analyse de données avec SPSS
Ensuite, vous devez indiquer où placer ce plan orthogonal. Pour cela, cliquez sur le bouton
Fichier de la boîte de dialogue visible à la figure 7.5 (choisissez un emplacement où il peut
être facilement récupéré et souvenez-vous de son intitulé).
Attention ! Le nom du fichier doit être en majuscules sinon SPSS ne génère pas le plan
orthogonal.
Nous appelons le fichier ORTHO7.
La procédure de l’analyse des mesures conjointes sous le logiciel SPSS requiert un mini-
programme ou une macrocommande qui indique au logiciel les facteurs étudiés ainsi que
leurs niveaux. SPSS crée ainsi le plan factoriel qui donne les combinaisons à tester
(ORTHO).
Ensuite, le logiciel croise le plan factoriel avec les réponses enregistrées dans le fichier
(DATA) comme nous allons le découvrir. Très important pour la suite de l’analyse : cli-
quez sur le bouton Coller de la même boîte de dialogue afin d’avoir la syntaxe de la
macrocommande (voir figure 7.6).
C’est seulement après cette action que vous cliquez sur OK (pour cela, revenez au menu
Données > Plan orthogonal > Générer). Le message suivant (voir figure 7.7) doit alors
apparaître dans Résultats.
Figure 7.4
Enregistrement des
niveaux des
attributs.
Figure 7.5
Sauvegarde du
fichier et demande
de copie de la
syntaxe.
Livre spss.book Page 166 Vendredi, 25. janvier 2008 12:04 12
167L’analyse conjointe
7Chapitre
À ce stade, le plan généré, qui se trouve à l’emplacement choisi, permet de créer les scéna-
rios. Le scénario no 2 présentera aux individus un challenge individuel (format = 1), un
objectif quantitatif (format = 2) et un budget fermé (budget = 2).
La création des scénarios
Afin de rendre l’expérience plus réaliste, nous optons pour une présentation des profils de
challenges à travers une simulation destinée à mettre les commerciaux en situation pour
effectuer leur arbitrage. Nous créons, avec l’aide de managers, des scénarios de challenges
ayant déjà été utilisés au sein de différentes entreprises. Les personnes interrogées en con-
naissent le principe, ce qui renforce le réalisme de la simulation.
Après une brève introduction sur la situation du vendeur au sein de l’entreprise, on annonce
que la direction cherche à connaître le challenge préféré des commerciaux. Il leur est
demandé d’en classer huit par ordre décroissant de préférence sur une grille de classement.
Voici un exemple du scénario no 8, qui correspond à la dernière ligne du plan sous
SPSS (voir figure 7.9).
L’administration de la simulation
Compte tenu du nombre limité de variables, les données sont collectées selon la méthode
des profils complets. Concernant le recueil des données, nous avons choisi un classement
des profils par ordre décroissant de préférence.
L’ensemble des huit stimuli a été classé (par ordre décroissant de préférence) par un échan-
tillon de 86 commerciaux lors d’une réunion de formation. Ces données ont été récupé-
rées sur un questionnaire.
Figure 7.6
Copie de la
syntaxe.
Figure 7.7
Annonce de la création
du plan orthogonal.
Figure 7.8
Affichage du plan
orthogonal.
Livre spss.book Page 167 Vendredi, 25. janvier 2008 12:04 12
168 Analyse de données avec SPSS
L’enregistrement des réponses
Une fois les scénarios classés (ou notés), les réponses doivent être saisies dans une base de
données spécifique (selon le nombre de profils testés). Pour cela, allez dans le menu
Fichier > Nouveau > Créer.
Nous avons un plan orthogonal à huit profils, il faut donc huit colonnes : de V1 à V8. Il est
recommandé de créer une première colonne supplémentaire qui servira d’identifiant à
chacun des questionnaires : c’est la colonne « id ». Il faut ensuite entrer le rang pour cha-
cun des scénarios pour chacun des répondants. Nous obtenons une grille de 9 colonnes et
86 lignes (voir figure 7.10).
Sur la première ligne, figure le classement des huit challenges du premier vendeur inter-
rogé. Nous observons qu’il a préféré le challenge n˚ 1, puis le 7e.
Figure 7.9
Exemple de
scénario.
Figure 7.10
Enregistrement des
données.
Scénario 8
Vous gagnez le challenge
cette semaine
si vous êtes le meilleur vendeur
du produit X
Scénario 8
Vous gagnez le challenge
cette semaine
si vous êtes le meilleur vendeur
du produit X
Livre spss.book Page 168 Vendredi, 25. janvier 2008 12:04 12
169L’analyse conjointe
7Chapitre
Vous devez sauvegarder cette base de données dans le répertoire du document contenant
les données du plan orthogonal : Fichier > Enregistrer sous > C : …
À ce stade, nous avons le plan orthogonal généré par SPSS et les données recueillies et
transcrites dans le fichier précédent. Nous utilisons une macrocommande pour réaliser
l’analyse conjointe.
La commande de l’analyse conjointe
Afin d’exécuter l’analyse conjointe avec SPSS, il faut passer en mode « Syntaxe ». Pour cela,
allez dans le menu Fichier > Ouvrir > Syntaxe.
Pour écrire la macrocommande, entrez les huit paramètres suivants :
• CONJOINT. Indique au logiciel le type d’analyse à réaliser.
• PLAN. Indique l’emplacement du document qui contient le design orthogonal.
• /DATA. Indique l’emplacement de la base de données.
• /SUBJECT. Indique le nom de la colonne qui sert à identifier les questionnaires : id.
• /RANK. Indique l’étendue des colonnes où se trouvent les valeurs accordées aux diffé-
rents profils.
On spécifie ici le nom de la première et de la dernière colonne.
• /PLOT et /PRINT. Servent à générer les outputs.
• /UTIL. Indique l’emplacement du document contenant l’utilité de chacun des profils
pour chacun des questionnaires.
Respectez bien les signes utilisés dans l’écriture de la macrocommande. L’oubli d’un seul
«  », « : » ou du point « . » à la fin de la commande empêche le logiciel de réaliser l’analyse
(voir figure 7.11).
Sélectionnez ensuite l’ensemble des syntaxes et cliquez sur la flèche noire dans la barre
d’outils (voir figure 7.12).
Figure 7.11
Macrocommande.
Figure 7.12
Exécution de la
macrocommande.
Livre spss.book Page 169 Vendredi, 25. janvier 2008 12:04 12
170 Analyse de données avec SPSS
L’analyse conjointe est réalisée.Un message apparaît qui indique que la procédure a bien fonc-
tionné. Dans le cas contraire, vérifiez l’écriture correcte de la macrocommande de syntaxe.
Les résultats de l’analyse conjointe apparaissent dans la boîte Résultats du logiciel SPSS.
Nous allons voir comment les interpréter.
L’interprétation de l’analyse conjointe
Les résultats de l’analyse des mesures conjointes se lisent individuellement, pour chaque
observation, puis, à la fin de tous les résultats individuels, pour les résultats globaux.
Les utilités des modalités de facteurs sont obtenues par décomposition des scores de pré-
férence. Pour valider les utilités ainsi obtenues, il faut comparer l’ordre dérivé des utilités
de chaque combinaison de modalités avec l’ordre fourni par les préférences. Cela permet
de s’assurer que les estimations des utilités fournies par les mesures conjointes permettent
bien de prédire les préférences exprimées par les individus. Le coefficient tau de Kendall
ou le rhô de Spearman fournissent une mesure du degré d’association ou de corrélation
entre les ordres dérivés des utilités et ceux provenant des préférences. Ils varient entre 0
et 1. Plus le coefficient est proche de 1, plus les ordres associés sont proches.
Dans notre exemple (voir figure 7.13), le coefficient de concordance (tau de Kendall) qui
teste l’homogénéité des préférences des individus à l’égard des challenges étant de 0,78
(proche de 1), les résultats globaux peuvent donc être acceptés.
Les modalités qui ont les utilités moyennes les plus fortes sont respectivement : l’objectif
quantitatif, le format en équipe et le budget fermé. La figure 7.14, qui expose les utilités
moyennes et l’importance de chaque attribut, met en évidence le poids de l’objectif dans
les choix du challenge, devant le format et le budget. Si aucun des trois attributs n’est
négligeable, le type d’objectif est deux fois plus important que les deux autres.
Le choix des commerciaux se porte en premier lieu sur le type d’objectif du challenge, fac-
teur très important pour eux, qui préfèrent les objectifs quantitatifs. Ensuite, apparaît le
format de compétition, qu’ils apprécient en équipe. Enfin, le budget du challenge compte
moins, les commerciaux inclinant pour un budget fermé avec un classement plutôt que
pour un quota à atteindre.
Figure 7.13
Résultats de
l’analyse des
mesures conjointes.
Livre spss.book Page 170 Vendredi, 25. janvier 2008 12:04 12
171L’analyse conjointe
7Chapitre
Cette analyse des mesures conjointes permet donc de souligner le type de concours idéal
pour les commerciaux interviewés dans cette expérimentation : un challenge quantitatif,
organisé en équipe et avec un budget fermé.
Résumé
Le comportement des individus, et en particulier des consommateurs, vis-à-vis des pro-
duits résulte d’opérations complexes qui mettent en jeu perceptions et préférences. Pour
réussir la conception d’un objet, il est donc utile d’évaluer ces préférences et de modéliser
les jugements des individus. L’analyse conjointe résout ce type de problème.
Cette méthode repose sur l’idée que l’importance relative accordée à un attribut par les
consommateurs et les utilités qu’ils attachent aux niveaux des attributs peuvent être déter-
minées lorsqu’ils évaluent des profils d’objets, construits à partir de ces attributs et de
leurs niveaux. Il faut donc commencer par identifier les attributs et les niveaux clés pour
construire les stimuli. Les plans fractionnés, générés par SPSS, permettent de réduire le
nombre de profils à tester. La variable dépendante est généralement une préférence esti-
mée par un score ou un classement.
Les résultats mettent en exergue les attributs les plus importants dans l’évaluation d’un
objet et les niveaux préférés à l’aide des utilités partielles. Ils permettent ainsi de dégager le
produit optimal aux yeux des individus.
Pour aller plus loin
Dussaix et al., L’Analyse conjointe, la statistique et le produit idéal, Ceresta, 1992.
Liquet J.C, Cas d’analyse conjointe, Broché, 2001.
Louviere J.J, Analyzing Decision Making: Metric Conjoint Analysis, Sage, New-York, 1998.
Figure 7.14
Résultats de
l’analyse des
mesures conjointes
(bis).
Livre spss.book Page 171 Vendredi, 25. janvier 2008 12:04 12
172 Analyse de données avec SPSS
Exercices
EXERCICE 1 ÉTUDE SUR LA CONSOMMATION DE THÉ
– CRÉATION DE PLAN D’EXPÉRIENCE ET DE SCÉNARIO
* Solution 1. La création du plan orthogonal
Allez dans le menu Données > Plan orthogonal > Générer. Dans la boîte de dialogue qui
apparaît (voir figure 7.15), tapez le nom et l’étiquette de chacun des attributs ou facteurs.
Inscrivez température dans le champ Nom facteur et Etiquette facteur. Cliquez sur le
bouton Ajouter pour ajouter les autres facteurs toujours dans la case Nom facteur et Eti-
quette facteur, inscrire : sucre, Ajoutez, force, Ajoutez, citron et Ajoutez.
Pour définir les niveaux de chacun des facteurs, sélectionnez chaque facteur et cliquez sur
le bouton Définir valeurs.
• Énoncé Vous êtes chef de produit chez Lipton, on vous confie le lancement d’un nouveau thé.
Dans ce cadre, vous cherchez à connaître les préférences des consommateurs. Après avoir
animé une réunion de groupe, vous cherchez à évaluer quatre éléments importants :
• la température (chaude, tiède, froide);
• le sucre (pas de sucre, un sucre, deux sucres);
• la force (fort, moyen, léger);
• l’ajout de citron (avec ou sans).
1. Créez le plan orthogonal à l’aide du logiciel SPSS.
2. Créez les stimuli du test de produit.
Figure 7.15
La création du plan
orthogonal.
Livre spss.book Page 172 Vendredi, 25. janvier 2008 12:04 12
173L’analyse conjointe
Exercices
7Chapitre
Attribuez des valeurs à tous les niveaux de chacun des attributs. Pour la température du
thé, 1 pour chaud, 2 pour tiède, 3 pour froid (voir figure 7.16).
Cliquez ensuite sur le bouton Poursuivre pour revenir à la boîte de dialogue et refaites
cette action pour chacun des attributs.
Pour le sucre, la valeur 1 pour « pas de sucre », 2 pour « un sucre », 3 pour « 2 sucres ». Pour
la force du thé, la valeur 1 pour « fort », 2 pour « moyen », 3 pour « léger ». Enfin pour le
citron, la valeur 1 pour « avec citron », 2 pour « sans citron ». Cliquez enfin sur Poursuivre.
Lorsque tous les attributs et leurs niveaux sont saisis, indiquez où vous allez placer le plan
orthogonal (voir figure 7.17). Cliquez sur Fichier et choisissez un emplacement où le
plan peut être récupéré.
Ensuite, cliquez sur le bouton Coller de la même boîte de dialogue (voir figure 7.18) afin
d’avoir la syntaxe de la macrocommande.
Cliquez enfin sur OK (pour cela, revenez au menu Données > Plan orthogonal > Géné-
rer). Le message « Un plan est généré correctement avec 9 cartes » doit apparaître dans
l’onglet Résultats.
Récupérez le plan orthogonal là où vous l’avez enregistré.
2. La création des stimuli pour le test de produit
Le plan orthogonal créé est un plan fractionné. En effet, nous aurions dû tester
3 × 3 × 3 × 2 = 54 profils. Or, notre plan nous permet une importante économie d’évalua-
tions de 54 – 9 = 45 expériences.
Le profil 1 correspond à un thé froid, comptant un sucre, léger avec du citron.
Le profil 2 correspond à un thé froid, comptant deux sucres, fort et sans citron. Etc.
Figure 7.16
Enregistrement des
niveaux d’attributs.
Figure 7.17
Copie de la
syntaxe.
Livre spss.book Page 173 Vendredi, 25. janvier 2008 12:04 12
174 Analyse de données avec SPSS
EXERCICE 2 ÉTUDE SUR LA CONSOMMATION DE THÉ
CALCUL DES PRÉFÉRENCES DES CONSOMMATEURS
Figure 7.18
Sauvegarde du
fichier et demande
de copie de la
syntaxe.
Figure 7.19
Affichage du plan
orthogonal.
• Énoncé Des données ont été récoltées.
1. Rentrez-les sous SPSS.
2. Commandez l’analyse des mesures conjointes et interprétez les résultats de cette analyse.
Thés
Individus
1 2 3 4 5 6 7 8 9
1 6 5 9 9 3 4 7 2 1
2 6 9 2 2 5 8 1 7 3
3 1 7 9 9 5 2 8 6 4
4 1 5 4 4 6 2 3 9 8
5 5 2 8 8 3 6 7 9 4
Livre spss.book Page 174 Vendredi, 25. janvier 2008 12:04 12
175L’analyse conjointe
Exercices
7Chapitre
* Solution 1. L’enregistrement des données collectées
Nous avons les résultats du classement de ces neuf profils de thés. Pour saisir les données,
créez un nouveau document. Allez dans Fichier > Nouveau > Créer.
Puisque nous avons un plan orthogonal à neuf profils, nous devons créer neuf colonnes,
de V1 à V9, et une colonne d’identifiant à chacun des questionnaires : colonne « id ».
Il faut ensuite entrer le rang pour chacun des profils pour les huit répondants (voir
figure 7.20).
Sauvegardez la base de données dans le répertoire du document contenant les données du
plan orthogonal : Fichier > Enregistrer sous > C: …
2. La commande de l’analyse conjointe
Afin d’exécuter l’analyse conjointe avec SPSS, allez dans le menu Fichier > Ouvrir > Syntaxe.
Écrivez la commande suivante (attention à l’emplacement de vos fichiers!) [voir
figure 7.21].
Sélectionnez ensuite l’ensemble des syntaxes et cliquez sur la flèche noire dans la barre
d’outils.
Les résultats de l’analyse conjointe apparaissent dans la partie Résultats (voir figures 7.22
et 7.23).
Le test d’homogénéité des préférences (tau de Kendall) est de 0,97, ce qui permet d’accep-
ter les résultats globaux.
Il ressort de l’analyse conjointe que la force, la température et le sucre sont les trois attri-
buts les plus importants dans les préférences des consommateurs de thé. Les modalités
Thés
Individus
1 2 3 4 5 6 7 8 9
6 2 3 4 4 1 8 7 6 9
7 9 2 3 3 7 1 5 8 4
8 6 2 1 1 5 8 9 7 3
Figure 7.20
Enregistrement des
données.
Livre spss.book Page 175 Vendredi, 25. janvier 2008 12:04 12
176 Analyse de données avec SPSS
ayant les utilités moyennes les plus fortes sont la température (les consommateurs préfè-
rent le thé froid), le sucre (un sucre), la force (moyen) et le citron (sans).
Figure 7.21
Écriture de la
macrocommande.
Figure 7.22
Interprétation des
résultats de
l’analyse conjointe.
Figure 7.23
Interprétation des
résultats de
l’analyse conjointe
(bis).
Livre spss.book Page 176 Vendredi, 25. janvier 2008 12:04 12
177
8Communiquer
les résultats
La communication des résultats constitue la dernière étape d’un
projet d’étude. Ce chapitre souligne les éléments clés qui font de
la communication des résultats une étape incontournable de
toute analyse réussie. En effet, communiquer les résultats d’une
analyse consiste à proposer au lecteur une interprétation adap-
tée à ses connaissances. Au-delà des éléments liés à l’interpré-
tation des tests, que nous avons abordés tout au long des
chapitres précédents, l’analyste doit être capable de formuler
de manière intelligible les résultats de son étude.
1. Rédiger le rapport ...................178
2. Mettre en valeur les résultats.....181
Exerices
1. Étude de l’impact
d’une campagne de publicité ...190
2. Étude d’un lectorat...................191
Chapitre
Livre spss.book Page 177 Vendredi, 25. janvier 2008 12:04 12
178 Analyse de données avec SPSS
(1) Rédiger le rapport
La rédaction d’un rapport d’étude n’est pas directement liée à l’analyse des données.
Cependant, même si le projet a été bien mené, un rapport inégal peut compromettre le
succès et la valorisation d’une étude. Cette communication des résultats de l’enquête peut
faire l’objet d’une ou de plusieurs mises en forme, et se trouve le plus souvent complétée
d’une présentation orale que nous n’aborderons pas ici.
1.1 LA STRUCTURE D’UN RAPPORT D’ANALYSE
On retrouve, en général, les mêmes éléments structurants dans un rapport, qu’il s’agisse
d’un rapport d’étude ou de recherche. Ces éléments peuvent être modifiés à la marge en
fonction du destinataire. Nous développerons, dans ce chapitre, la dimension profession-
nelle du rapport et ferons donc référence à des illustrations provenant du secteur des étu-
des de marchés.
Le rapport d’analyse fait écho au brief de l’étude (voir focus 1) et se structure en huit par-
ties principales représentées à la figure 8.1.
* Focus 1 • Le brief de l’étude
Le brief de l’étude (ou projet d’étude) peut servir de base à la rédaction du rapport. Il s’agit du
document qui cadre l’interaction entre le client et la société d’étude, et dont la Fédération Syn-
tec Études Marketing et Opinions a défini les grandes lignes :
« À partir des informations fournies par le client ou à défaut d’informations complètes, en pré-
cisant ses hypothèses de travail, la société pourra remettre une proposition :
• rappelant les objectifs de l’étude et les types de résultats qui seront fournis;
• précisant les modalités techniques :
– mode d’échantillonnage;
– modalité de recueil des données;
– nombre et dispersion des points de sondage;
– plan du questionnaire;
– analyse et rapport ;
• indiquant les délais;
• faisant mention du prix et des paramètres permettant de le calculer;
• faisant état d’autres dispositions éventuelles. »
• Objectifs de l’analyse : cette partie est essentielle car elle résume les éléments clés de
l’analyse et reprend les éléments liés à la définition du problème (tels que nous les avi-
ons abordés dans le chapitre 1). Le rappel des objectifs permet de communiquer plus
précisément sur des aspects qui sont généralement maîtrisés par le chargé d’étude tels
que l’approche méthodologique ou les interprétations statistiques. En les faisant appa-
raître clairement au destinataire, le rédacteur du rapport peut mettre en avant la résolu-
tion progressive de ces objectifs de départ. Dans le cadre de notre enquête fil rouge sur
le point de vente, on pourrait formuler notre analyse en la résumant ainsi : « Qui sont
les clients du futur point de vente? ».
Livre spss.book Page 178 Vendredi, 25. janvier 2008 12:04 12
179Communiquer les résultats
8Chapitre
• Questions à résoudre : il s’agit ici d’établir les questions principales qui permettent
d’avancer dans la satisfaction aux objectifs de l’analyse. Dans notre exemple, il s’agis-
sait, dans un premier temps, de décrire les clients en fonction des variables d’identifica-
tion (âge, sexe, revenus, etc.), de les classer en grands segments homogènes, puis enfin
de comprendre leurs comportements (intention d’achat par exemple).
• Procédures de collecte des données : cette rubrique reprend les données utilisées pour
les besoins de l’étude. Il faut en préciser la source s’il s’agit de données secondaires, ainsi
que les caractéristiques principales (nombre d’observations, de variables, etc.). Dans le
cas de données primaires, le rédacteur du rapport devra apporter un soin particulier à
la description des procédures de collecte. Quelle méthode d’échantillonnage? Quel ins-
trument de mesure? Comment les données brutes ont-elles été préparées? Dans notre
exemple sur le point de vente, les données sont issues d’un questionnaire administré en
face-à-face à 400 répondants, clients de l’enseigne.
• Méthodes d’analyse : les méthodes employées et les stratégies d’analyse sont présentées
à ce stade. Dans un premier temps, les tests de nature descriptive (tris croisés, compa-
raisons de moyenne, etc.), puis les tests liés à la représentation des données (analyse fac-
torielle, typologie), et enfin les tests de nature explicative (régressions, analyses de
variance, etc.). Dans notre étude, nous avons tout d’abord décrit les clients par le biais
des principales variables d’identification, puis mis en place deux analyses des corréla-
tions multiples pour établir les variables liées au montant moyen dépensé et à l’inten-
tion d’achat des futurs clients du point de vente.
• Résultats principaux : cette partie, la plus importante du rapport, peut être constituée
de plusieurs sous-parties. Pour plus de clarté, il est recommandé d’organiser ces sous-
parties en fonction de thèmes énoncés dès le départ. Dans le cadre d’une étude d’image
Figure 8.1
Structure d’un
rapport d’étude.
Objectifs de l’analyse
Questions à résoudre
Procédures de collecte des données
Méthodes d’analyse
Résultats principaux
Interprétations détaillées
Conclusions
Recommandations et limites
Livre spss.book Page 179 Vendredi, 25. janvier 2008 12:04 12
180 Analyse de données avec SPSS
de marque par exemple, le premier niveau de résultats consiste à évaluer les scores de
notoriété obtenus, puis à les rapprocher des résultats par groupes d’attributs pour iden-
tifier les attentes des consommateurs. Les résultats principaux doivent répondre point
par point aux objectifs de l’analyse et apporter une solution à la demande du client de
l’étude. À la question de départ « Qui sont les clients du futur point de vente? », nous
avons répondu en plusieurs séquences : la description des variables clés, la définition
des segments de clients, l’identification de déterminants de l’intention d’achat, etc.
• Interprétations détaillées : les interprétations détaillées ont pour objet d’apporter un
éclairage technique aux résultats et d’éclairer le lecteur du rapport sur la démarche
méthodologique. On trouve, dans cette rubrique, l’explication des tests mis en œuvre,
les hypothèses à respecter, l’interprétation des indicateurs de significativité des tests,
entre autres. Ces éléments techniques doivent être présentés de manière intelligible en
fonction du profil du lecteur. En effet, ceux-ci n’ont pas tous la même expertise en ter-
mes d’échantillonnage ou de tests statistiques, et le chargé d’étude doit veiller à formu-
ler ces éléments de manière à être compris de tous les destinataires du rapport.
• Conclusions : cette partie est essentielle au client de l’étude et a pour objet de lui four-
nir tous les éléments de synthèse utiles pour la valorisation et l’utilisation de l’étude.
Une étude récente sur la situation de la grande distribution en Europe présentait ses
conclusions autour de quatre grands défis à relever : les défis de la grande consomma-
tion, les défis de la gestion des ressources humaines, les défis de la relation client et les
nouveaux chantiers informatiques.
• Recommandations et limites : les recommandations accompagnent la présentation des
résultats et représentent l’engagement de l’analyste dans la réponse au problème posé
par l’entreprise commanditaire. La recommandation n’est pas systématique et suppose
une expertise de la part de l’analyste, ou à tout le moins que le problème posé ait été
analysé suffisamment en profondeur. En principe, le fait de réaliser l’étude suppose que
l’on se soit informé au préalable sur le secteur, que l’on ait été briefé par le client et, en
conséquence, que l’on est en mesure de dépasser la simple description et de s’impliquer
dans la résolution du problème managérial. Enfin, les limites ayant pesé sur l’étude doi-
vent être mentionnées (temps, budget, moyens, etc.). Ce retour sur les conditions de
réalisation de l’analyse et sur les précautions que le commanditaire devra prendre lors
de l’utilisation des résultats est un élément important qui doit prévenir toute extrapola-
tion hasardeuse, sans toutefois minimiser les résultats de l’étude.
1.2 LES POINTS CLÉS DU RAPPORT
La qualité d’un rapport d’analyse se juge sur deux dimensions principales : la précision et
l’intelligibilité.
La précision représente la qualité du rapport en termes de crédibilité des résultats. Le
document doit établir de manière précise la pertinence des choix effectués en matière de
méthode, d’analyse et de résultats, ce qui présuppose que les données collectées soient de
qualité, que les analyses soient valides et fiables, et que les résultats soient correctement
interprétés. Ce tryptique (données, analyses, résultats) est au cœur de la démarche d’ana-
lyse et doit naturellement être envisagé de manière conjointe, ces trois dimensions établis-
sant collectivement la crédibilité de l’étude. Plus exactement, pour que le rapport soit
précis, les données doivent l’être aussi; le rédacteur devra prendre des précautions impor-
tantes quant à la manipulation des données, la définition, l’exécution et l’interprétation
Livre spss.book Page 180 Vendredi, 25. janvier 2008 12:04 12
181Communiquer les résultats
8Chapitre
des tests statistiques. Autrement dit, aucune erreur n’est tolérable dans un rapport d’ana-
lyse. Erreurs de calcul ou de syntaxe, fautes d’orthographe, maladresses conceptuelles et
terminologiques ne sont que quelques exemples de ce manque de précision qui pénalise la
crédibilité d’un rapport.
La clarté de l’expression, la logique du raisonnement, la rigueur de l’expression et de l’ana-
lyse sont les fondements naturels du second critère de qualité d’un rapport : l’intelligibi-
lité. Le lecteur du rapport peut éprouver des difficultés de compréhension – et par suite
des doutes quant à la qualité du travail effectué – lorsque le raisonnement n’apparaît pas
clairement (des hypothèses de travail insuffisamment mises en avant par exemple), ou
lorsque la présentation manque de précision (une méthode d’échantillonnage qui reste
confuse). Les « croyances » des commanditaires jouent également un rôle dans la bonne
compréhension des résultats de l’enquête. Dans notre enquête sur le point de vente, si les
responsables de l’enseigne estiment (via des études internes, des reportings de vente, etc.)
que 50 % des clients ont l’intention d’acheter dans le nouveau magasin, et que les résultats
de l’enquête sont éloignés de cette prévision, le rédacteur devra justifier cet écart. L’intelli-
gibilité à ce niveau participe de la pédagogie : cet écart peut être dû à une mauvaise com-
préhension de la question ou de l’échelle de mesure, à un biais d’échantillonnage ou à une
erreur dans la prise en compte des non-réponses. Le rédacteur devra répondre aux inter-
rogations du client sur ces écarts et expliquer ses résultats.
(2) Mettre en valeur les résultats
L’objet du rapport d’analyse est d’apporter la réponse attendue par le commanditaire de
l’étude et de constituer une référence. Une fois produit, ce rapport aura une existence pro-
pre, passera de mains en mains auprès de nombreuses parties prenantes. La mise en valeur
des résultats permet de prolonger cette durée de vie et autorise une utilisation globale ou
partielle du rapport par les différents lecteurs. La version de SPSS dont nous nous servons
(V15.0) propose quelques outils d’amélioration de la qualité des tableaux et des graphi-
ques pour mettre en valeur les résultats de l’analyse.
2.1 MAÎTRISER LES TABLEAUX
Les tableaux doivent systématiquement être numérotés, comporter un titre clair men-
tionné dans le texte (par exemple : « le tableau 8.2 illustre les effectifs de la variable
marital »), et ne doit retenir que la partie la plus significative des données. La maîtrise des
tableaux est un exercice délicat, qui suppose de bien maîtriser la manière dont on souhaite
communiquer les résultats, et qui repose sur la distinction vue plus haut entre résultats
principaux et interprétations détaillées. Il existe, en effet, des niveaux de résultats simples
facilement compréhensibles par le lecteur, et d’autres, plus complexes, qui exigent des
compléments et des éclairages. La figure 8.2 illustre un résultat simple (description du sta-
tut marital des répondants de l’enquête sur le point de vente), alors que la figure 8.3 mon-
tre le tableau d’un résultat plus complexe (analyse de corrélation sur une série de variables
de la même enquête).
Dans le cas d’une présentation de résultats complexes, la lecture du tableau suppose un
certain nombre d’éléments facilitant l’interprétation. Les astérisques (**) et la mention en
Livre spss.book Page 181 Vendredi, 25. janvier 2008 12:04 12
182 Analyse de données avec SPSS
bas du tableau apportent un complément important permettant de ne retenir que l’infor-
mation pertinente, à savoir les variables les plus fortement corrélées entre elles (niveau
d’études et intention d’achat par exemple). Il est préférable de présenter ces tableaux com-
plexes en annexe du rapport et de communiquer directement les résultats dans une sec-
tion du rapport : « le niveau d’études, le montant moyen dépensé et les revenus sont
corrélés à l’intention d’achat ».
SPSS SPSS permet de produire un grand nombre de tableaux personnalisés. La maîtrise
s’acquiert en manipulant progressivement l’interface des tableaux dans l’éditeur de résul-
tats, comme nous avons pu le voir tout au long des chapitres. Les tableaux personnalisés de
SPSS s’obtiennent par la procédure suivante : Analyse > Tableau > Tableaux personnali-
sés… comme le montre la figure 8.4.
Il est toutefois utile de connaître certains éléments afin de gagner en efficacité dans ce type
de tâche. Les tableaux produits dans l’éditeur de résultats de SPSS sont des tableaux pivo-
tants qui autorisent une très grande flexibilité en termes de formatage et de présentation des
résultats. On obtient un tableau pivotant dans SPSS en double-cliquant sur le tableau dans
l’éditeur de résultats, opération faisant apparaître un menu supplémentaire (Tableau Pivo-
tant) dans le menu de l’éditeur de résultats (voir figure 8.5).
Attention toutefois, car les possibilités de présentation sont directement liées au type de
variable utilisée (voir à ce sujet le chapitre 2). Le générateur de tableaux se fondera donc
sur l’étiquette de la variable (nominale, ordinale, échelle) que vous avez définie au préala-
ble. Le fait de ne pouvoir générer le tableau désiré est souvent dû à une variable mal étique-
tée.
La première fonction qui peut être utile dans la présentation d’un tableau est la fonction
Empiler de SPSS. L’empilement (tout comme les autres fonctions tableaux que nous allons
voir) s’obtient par le menu Tableaux personnalisés…, et consiste à affecter deux ou plusieurs
variables en ligne ou en colonne. Vous pouvez faire glisser les variables simultanément en
ligne ou en colonne, ou bien l’une après l’autre. Dans l’exemple ci-après, nous avons trans-
formé un tableau, dans lequel la variable Age était en ligne et la variable Sexe en colonne,
en un tableau où les deux variables sont en ligne, comme le montre la figure 8.6.
La fonction Empiler s’avère très utile lors d’enquêtes pour présenter des résultats d’échelles
de mesures. Un concept comme la confiance accordée à la marque, par exemple, est
Figure 8.2
Présentation d’un
résultat simple.
Figure 8.3
Présentation d’un
résultat complexe.
Livre spss.book Page 182 Vendredi, 25. janvier 2008 12:04 12
183Communiquer les résultats
8Chapitre
Figure 8.4
Fonction tableaux
personnalisés.
Figure 8.5
Fonction tableau
pivotant.
Figure 8.6
Présentation de la
fonction Empiler.
Livre spss.book Page 183 Vendredi, 25. janvier 2008 12:04 12
184 Analyse de données avec SPSS
mesuré par une série de variables dont on peut ainsi empiler les résultats pour en obtenir
une vision exhaustive.
Plusieurs possibilités sont également disponibles à partir des tableaux croisés que nous
avons abordés au chapitre 2. Pour rappel, les tableaux croisés s’obtiennent par la procé-
dure suivante : Analyse > Statistiques descriptives > Tableaux croisés… La procédure de
l’Emboîtement consiste à insérer une variable dans la même dimension d’un tableau croisé
afin d’apporter un niveau de résultat supplémentaire. La figure 8.7 montre l’emboîtement de
la variable Sexe dans la variable Catégorie d’âge.
À partir du menu tableaux personnalisés, vous pouvez demander des strates afin d’ajouter
une dimension de profondeur à vos tableaux et créer ainsi des « cubes » tridimensionnels
comme le montre la figure 8.8.
La fonction Tableau permet de contrôler les totaux et sous-totaux, les pourcentages les fré-
quences, afin de choisir la présentation optimale de vos résultats. Il est possible de modifier
à volonté l’aspect d’un tableau en créant, par exemple, un modèle qui reprend l’ensemble
des propriétés définissant l’aspect du tableau. On accède aux modèles de tableaux en dou-
ble-cliquant sur le tableau dans l’éditeur de résultats et en sélectionnant dans le menu
Format > Modèles de tableaux…
Figure 8.7
Présentation de la
fonction
Emboîtement.
Figure 8.8
Présentation de la
fonction Strates.
Livre spss.book Page 184 Vendredi, 25. janvier 2008 12:04 12
185Communiquer les résultats
8Chapitre
2.2 AMÉLIORER LES GRAPHIQUES
Les graphiques jouent eux aussi un rôle crucial dans la présentation des résultats. Ils enri-
chissent le contenu du rapport, à condition d’être présentés à bon escient. Cela implique
le bon choix du modèle de graphique en fonction du test mis en œuvre et un emploi
pertinent : complément d’un tableau ou d’un résultat présenté dans le texte, amélioration
de la lisibilité et de la fluidité du rapport, etc. Les graphiques peuvent être considérable-
ment enrichis grâce à SPSS. Ils sont générés de diverses manières : par le biais des princi-
paux tests statistiques ou par l’utilitaire de diagramme que nous présentons dans cette
section. Nous aborderons trois types de graphiques : les diagrammes en bâtons, les dia-
grammes en secteurs et les diagrammes de dispersion qui sont les plus utilisés.
SPSS On obtient le générateur de diagramme par la procédure suivante : menu
Graphe > Générateur de diagramme… La procédure fait apparaître la boîte de dialogue
de la figure 8.9.
Le générateur de diagramme affiche simultanément une seconde fenêtre (Propriétés de l’élé-
ment) qui vous permet notamment d’afficher dans un menu déroulant des statistiques que
vous pouvez insérer dans le diagramme (des effectifs par exemple). Vous n’êtes donc pas
obligé de passer par un tableau pour créer un graphique de statistiques descriptives pour
une ou plusieurs variables. On démarre l’utilitaire en faisant glisser l’icône représentant le
diagramme envisagé dans le canevas, c’est-à-dire la large zone qui s’affiche au-dessus de
la galerie (l’onglet activé sur la figure 8.9). On fait ensuite glisser les variables vers les
zones de déplacement de l’axe : il existe une variable de type échelle en colonne (Quel
montant moyen dépensez-vous par mois dans ce type de point de vente?), une variable de
type nominal en ligne (Quel est votre statut marital?) et une seconde variable de type nomi-
nal (Possédez-vous une carte de fidélité de l’enseigne?), afin de grouper les répondants
dans ce diagramme en bâton groupé. Nous obtenons le diagramme de la figure 8.10, qui
fait apparaître l’importance de la possession d’une carte de fidélité.
Figure 8.9
Boîte de dialogue
Générateur de
diagramme.
Livre spss.book Page 185 Vendredi, 25. janvier 2008 12:04 12
186 Analyse de données avec SPSS
Vous pouvez modifier à tout moment le diagramme ou choisir un autre type de diagramme
pour représenter les mêmes données. Pour modifier un élément du diagramme, activez l’édi-
teur de diagramme en double-cliquant dessus et utilisez le menu Affichage > Propriétés…
Ce menu vous permettra de modifier le texte du diagramme, la couleur et le motif de rem-
plissage des bâtons, d’ajouter du texte (par exemple un titre ou une annotation), etc.
Il existe de nombreuses autres possibilités de modification. Nous en verrons quelques-unes
en présentant deux autres types de diagrammes : les graphiques en secteur et les graphi-
ques de dispersion. On peut, par exemple, masquer certaines modalités d’un graphique en
secteur. Pour créer un graphique en secteur, faites glisser un graphique dans le générateur
de diagramme (dans SPSS, il se nomme diagramme circulaire/polaire). Nous allons repré-
senter de cette manière les goûts musicaux des répondants en représentant la variable pro-
gradio. Après avoir fait glisser le graphique en secteur dans le générateur de diagramme,
cliquez sur le menu Options qui vous permet d’inclure ou d’exclure des observations. On
peut ainsi exclure du graphique les non-réponses au questionnaire. Pour exclure des moda-
lités sous-représentées, ou que l’on ne souhaite pas faire apparaître, comme « ne se pro-
nonce pas » ou « ne sais pas », qui sont fréquentes dans des enquêtes en marketing, on
utilise l’onglet Modalités. Lorsque le graphique est créé (en secteur par exemple), double-cli-
quez dessus pour activer l’éditeur de diagramme. Sélectionnez le diagramme en secteur
puis dans le menu Édition ouvrez le sous-menu Propriétés comme nous l’avons vu plus haut :
la boîte de dialogue de la figure 8.11 s’affiche. Activez ensuite l’onglet Modalités et suppri-
mez la modalité « indifférents » qui se trouve dans la fenêtre Exclus.
Pour améliorer la lecture du graphique, il est intéressant d’insérer les valeurs des données.
Une fois que vous avez affiché l’éditeur de diagrammes, sélectionnez le diagramme en sec-
teur, puis dans le menu Éléments sélectionnez Afficher les étiquettes de données… Le dia-
gramme en secteur, présenté à la figure 8.12, montre une nette préférence pour les
programmes musicaux de type rock.
Il est possible de transformer les valeurs (en pourcentage par exemple) et de modifier la
position de l’étiquette.
Nous allons illustrer d’autres possibilités par le biais des diagrammes de dispersion. Pour ce
faire, nous changeons de jeu de données. Ouvrez le fichier « ventes_voitures.sav » que
nous avons utilisé au chapitre 4. Sélectionnez le générateur de diagramme en suivant le
chemin : Graphe > Générateur de diagramme, puis cliquez sur l’onglet Galerie et choisis-
sez le diagramme de dispersion regroupée (corrélation/points) (voir figure 8.13).
Figure 8.10
Diagramme en
bâtons juxtaposés.
Livre spss.book Page 186 Vendredi, 25. janvier 2008 12:04 12
187Communiquer les résultats
8Chapitre
Nous allons réaliser un diagramme de dispersion du rendement énergétique par type de
véhicule avec trois variables : la consommation en colonne, le poids total à charge en ligne
et le type de véhicule pour regrouper les observations. Les diagrammes de dispersion ne
fonctionnent qu’avec des variables de type échelle. Nous obtenons le diagramme de la
figure 8.14. qui représente la consommation du véhicule selon le poids total à charge auto-
risé en fonction du type de véhicule (voiture ou utilitaire).
Nous pouvons maintenant afficher une courbe d’ajustement qui permet de faire ressortir la
tendance des données. La procédure est la suivante : Éditeur de diagramme > Élements >
Ajouter une courbe d’ajustement au total… On obtient le graphique de la figure 8.15.
La courbe d’ajustement est une option intéressante car elle permet de décrire la qualité de
la représentation graphique. En effet, l’option fait apparaître le coefficient de
Figure 8.11
Exclusion d’une
modalité de
variable.
Figure 8.12
Diagramme en
secteur avec
valeurs.
: 98
: 63
: 159
: 65
syntex.fm Page 187 Vendredi, 25. janvier 2008 3:10 15
188 Analyse de données avec SPSS
détermination R2 qui représente la proportion de variabilité de la variable dépendante
(axe Y) pouvant être expliquée par la variable indépendante (axe X). Dans notre exemple,
67 % de la variabilité du rendement énergétique peuvent être expliqués par le poids du
véhicule.
Figure 8.13
Génération d’un
diagramme de
dispersion.
Figure 8.14
Diagramme de
dispersion du
rendement
énergétique par
type de véhicule.
Livre spss.book Page 188 Vendredi, 25. janvier 2008 12:04 12
189Communiquer les résultats
8Chapitre
Résumé
La préparation du rapport fait écho au brief de l’étude et reprend les grandes étapes de
l’analyse des données. Son principal objectif consiste à mettre en lumière les réponses pos-
sibles au problème managérial posé. Un rapport de qualité doit être à la fois précis et intel-
ligible, au sens où il doit présenter de façon claire pour toutes les parties prenantes de
l’étude des résultats justes. La mise en valeur des résultats dans le rapport passe par la maî-
trise des tableaux et des graphiques. Nous avons passé en revue dans ce chapitre les utili-
taires de SPSS pour générer des tableaux pivotants et des diagrammes de qualité, mais
l’utilisateur doit s’exercer, expérimenter pour pouvoir en découvrir toutes les facettes.
En guise de conclusion, et pour paraphraser Stefan Sweig : « il ne sert à rien d’éprouver les
plus beaux sentiments si l’on ne parvient pas à les communiquer ».
Figure 8.15
Diagramme de
dispersion avec
courbe
d’ajustement.
Livre spss.book Page 189 Vendredi, 25. janvier 2008 12:04 12
190 Analyse de données avec SPSS
Exercices
EXERCICE 1 ÉTUDE DE L’IMPACT D’UNE CAMPAGNE DE PUBLICITÉ
* Solution 1. Il peut être pertinent de démarrer le rapport par un rappel de la méthodologie
employée (échantillon de 200 lecteurs représentatifs, auto-administration du question-
naire dans un délai de trois semaines après la parution, etc). La rubrique suivante peut par
exemple présenter des résultats globaux de type évolution des annonces, des formats, etc.
Des diagrammes en bâtons ou en lignes enrichiront la présentation à ce niveau. Les résul-
tats principaux peuvent être organisés de la manière suivante :
• mémorisation des annonces par type de format : on peut présenter ici les performan-
ces en termes de mémorisation par type de format par le biais d’un tableau empilé
reprenant les scores par formats en pourcentage;
• opinion des lecteurs sur les annonces : si des questions ouvertes ont été utilisées lors de
l’enquête, on pourra utiliser ici des verbatims (des citations de lecteurs) pour mettre en
lumière certains résultats quantitatifs de la première rubrique;
• influence du produit : un tableau empilé ou un tableau par strates peut être utilisé pour
ce type de résultats, faisant apparaître dans une colonne les effectifs d’annonces, dans
une autre colonne le secteur (banque, automobile, etc.), puis le format, et enfin les taux
de mémorisation;
• Énoncé Afin d’observer l’impact des campagnes de publicité de ses annonceurs, un magazine de
cinéma a mis en place une étude auprès d’un échantillon de 200 lecteurs représentatifs de
la structure sociodémographique du lectorat. Il s’agit d’un questionnaire auto-adminis-
tré, trois semaines après parution, aux seuls lecteurs ayant acheté eux-mêmes le maga-
zine, l’ayant lu ou parcouru. Les répondants sont évalués sur des scores de
reconnaissance (se souvenir avoir vu l’annonce), des notes d’agrément (de 1 à 10) et leur
opinion globale (ce qui a plu ou moins plu). L’enquête permet de collecter des renseigne-
ments généraux sur l’influence du format, des emplacements, du volume publicitaire, et
d’étudier plus précisément la relation entre l’impact de l’annonce et l’agrément du
magazine. Les résultats doivent permettre aux marques de situer leur annonce par rap-
port aux standards établis pour les annonces de même format et de même secteur pro-
duit, aux annonces de la marque déjà parues les années précédentes dans le magazine, et
aux annonces d’un univers de marques concurrentielles également présentes dans le sup-
port.
1. Présentez succinctement les résultats du rapport de l’étude par le biais des éléments
clés que vous souhaitez faire apparaître.
2. Proposez quelques idées pour améliorer la précision et l’intelligibilité du rapport.
3. Si l’on devait présenter une extraction des résultats à un annonceur, comment
devrait-on procéder?
Livre spss.book Page 190 Vendredi, 25. janvier 2008 12:04 12
191Communiquer les résultats
Exercices
8Chapitre
• influence de l’emplacement de l’annonce : plusieurs tableaux ou graphiques peuvent
distinguer les résultats en fonction de la place de l’annonce dans le magazine (4e de cou-
verture, premier ou deuxième cahier, etc.) ou des rubriques du magazine;
• influence du volume publicitaire : le nombre d’annonces (marques et concurrents)
peut être présenté ici afin de resituer les performances dans l’univers concurrentiel.
2. Pour améliorer la précision du rapport, il est important de noter certains éléments
méthodologiques en fonction des résultats présentés : sur combien d’annonces ont été
effectuées les scores de mémorisation, sur quelle période, pour quels produits, quelles
marques en concurrence, etc.? Les questions posées peuvent parfois être reprises, dans le
texte ou en note de bas de page. En termes d’intelligibilité, il est recommandé d’utiliser la
fonctionnalité Modèle de tableau ou de diagramme afin de définir un format de présenta-
tion qui vous convienne. On pourra, dans ces modèles de tableaux, faire apparaître systé-
matiquement les résultats globaux (réponses totales par exemple) dans une couleur et les
résultats les plus importants dans une autre. Lorsqu’on a recours à un tableau empilé, ce
qui est fréquent pour des résultats de type descriptif à une enquête, il peut être intéressant
également de traiter les variables principales avec une typologie et une couleur distinctes
afin de bien identifier les différentes rubriques.
3. Le rapport peut présenter en premier lieu des résultats généraux liés à la performance de
la marque : son taux de mémorisation, la satisfaction exprimée au regard de la qualité de
l’annonce, etc. La présentation de visuels de la campagne de la marque serait judicieuse à
ce niveau du rapport. Toujours dans l’optique de questions ouvertes, des verbatims indi-
queraient l’opinion des lecteurs, ce qui leur a plu, déplu, etc. Pour présenter la relation
entre satisfaction à l’égard de l’annonce et la mémorisation de l’annonce, on pourrait
insérer une carte perceptuelle générée par une analyse factorielle des correspondances,
comme nous l’avons vu dans le chapitre 3. Ce type de représentation est très largement
utilisé dans les rapports d’analyse.
EXERCICE 2 ÉTUDE D’UN LECTORAT
• Énoncé Cet exercice a pour objet de vous familiariser avec les tableaux et les diagrammes. Ouvrez
le fichier « pointdevente.sav ». La maîtrise des tableaux et des diagrammes peut vous
faire gagner un temps précieux lors de la rédaction du rapport.
1. Représentez les réponses à la variable intention qui estime l’intention d’achat dans le
nouveau point de vente au moyen d’un tableau. Effectuez les choix nécessaires pour
présenter le tableau le plus clair possible.
2. Pour faire écho à l’exercice 1 qui traite de l’univers de la presse, représentez sous forme
de diagramme la variable rubrikpress qui fait ressortir les rubriques de presse quoti-
dienne le plus souvent lues par les répondants. Vous devez produire un graphique
attractif et précis.
syntex.fm Page 191 Vendredi, 25. janvier 2008 12:28 12
192 Analyse de données avec SPSS
* Solution 1. Pour créer le tableau, suivre la procédure : Analyse > Statistiques descriptives > Effec-
tifs… On obtient le tableau de la figure 8.16.
L’aspect du tableau n’est pas satisfaisant en l’état. Nous allons le modifier en passant par
un modèle de tableau préexistant. Suivons la procédure indiquée dans la partie théorique
du chapitre : double-cliquez sur le tableau dans l’éditeur de résultats, puis le menu
Format > Modèles de tableaux… Nous sélectionnons le modèle « Avant-garde » afin de
distinguer certaines rubriques du tableau qui apparaîtront en grisé. Certaines rubriques
du tableau créé (pourcentage valide et pourcentage cumulé) ne sont pas directement utiles
pour lire les résultats. Nous allons donc les éliminer en sélectionnant les colonnes à élimi-
ner et en les coupant par un click droit. Enfin, lorsque votre tableau est conforme au for-
mat souhaité, vous pouvez le « copier-coller » dans votre rapport. Nous constatons le
résultat à la figure 8.17.
2. Pour obtenir directement le diagramme, allez dans le menu Graphes > Boîtes de dialo-
gues héritées… puis sélectionnez le diagramme de votre choix. La variable rubrikpress étant
une variable nominale à 5 modalités, un graphique en secteurs est approprié. Sélectionnez
Analyse par catégories dans la boîte de dialogue qui s’affiche (nous allons représenter les
effectifs par modalité de la variable), puis Définir. Dans la deuxième boîte de dialogue (Dia-
gramme en secteurs : Groupes d’observations), faites glisser la variable dans la rubrique
Définir les secteurs par puis validez.Vous avez créé le graphique présenté à la figure 8.18.
Pour en améliorer l’aspect, double-cliquez sur le graphique pour ouvrir l’éditeur de dia-
gramme, puis sélectionnez le diagramme en secteur pour l’activer. Dans le menu
Édition > Propriétés… vous pouvez retravailler, par exemple, la taille du diagramme, sa
profondeur et son angle, et le représenter en 3-D pour le rendre plus attractif. D’autres
changements peuvent être opérés, comme nous l’avons vu, par menu Éléments pour affi-
cher les étiquettes de données ou encore éclater un secteur (le plus fréquemment cité par
exemple) afin de mettre en valeur les résultats. Le diagramme modifié prend l’aspect de la
figure 8.19, qui est l’illustration d’une combinaison parmi d’autres. Nous vous encoura-
geons à prolonger l’exercice sur plusieurs types de graphiques, pour bien maîtriser les
tableaux et diagrammes dans SPSS : à vous de jouer maintenant!
Figure 8.16
Effectifs de la
variable intention.
Figure 8.17
Tableau modifié.
syntex.fm Page 192 Vendredi, 25. janvier 2008 12:28 12
193Communiquer les résultats
Exercices
8Chapitre
Figure 8.18
Graphique en
secteur simple.
Figure 8.19
Graphique en
secteur modifié.
Quelle rubrique de presse quotidienne
lisez-vous le plus souvent ?
Edito
Economie
Info locale
Annonces
Loisirs/santé
Quelle rubrique de presse quotidienne
lisez-vous le plus souvent ?
Edito
Economie
Info locale
Annonces
Loisirs/santé
52
96
57
118
56
syntex.fm Page 193 Vendredi, 25. janvier 2008 3:21 15
Livre spss.book Page 194 Vendredi, 25. janvier 2008 12:04 12
195
Bibliographie
générale
Churchill G. A. Jr, Marketing Research, 3e édition, The Dryden Press, Harcourt Brace
College Publishers, 1998.
Churchill G. A., « A paradigm for developing better measures of marketing constructs »,
Journal of Marketing, 16, p. 64-73, 1979.
De Vellis R. F., Scale developement: theory and application, vol. 26, Sage, Thousand Oaks,
2003.
Dussaix et al., L’analyse conjointe, la statistique et le produit idéal, Ceresta,1992.
Evrard Y., Pras B., Roux E., Market. Études et recherches en marketing, Nathan, Paris, 2003.
Gerbing D. W., Anderson J. C., « An updated paradigm for scale development incorpora-
ting unidimensionality and its assessment », Journal of Marketing Research, 25, p. 186-
192, 1988.
Giannelloni J. C., Vernette E., Les Études de marché, Broché, Paris, 2001.
Goupy J., Introduction aux plans d’expérience, Dunod, Paris, 2006.
Green P. E., Srinivasan V., « Conjoint analysis in marketing: new developments with
implications for research and practice », Journal of Marketing, 54, 4, p. 3-19, 1990.
Hair J. F. Jr., Bush R., Ortinau D., Marketing Research, 3e édition, Éd. McGraw-Hill-Irwin,
New York, 2006.
Hair J. F. Jr., Black W. C., Babin B. J., Anderson R. E., Tatham R. L., Multivariate Data
Analysis, 5e édition, Éd. Pearson – Prentice Hall, New Jersey, 2006.
Kozinets R.V., « The field behind the screen: Using netnography for marketing research in
online communities», Journal of Marketing, Research, 39, 1, p. 61-72, 2002.
Lilien G. L., Rangaswamy A., De Bruyn A., Principles of Marketing Engineering, ISBM,
State College, PA, 2007.
Liquet J. C., Cas d’analyse conjointe, Broché, Lavoisier, 2001.
Liquet J. C., Benavent C., L’Analyse conjointe et ses applications en marketing, IAE Lille,
2000.
Louviere J. J., Analyzing Decision Making: Metric Conjoint Analysis, Sage, New York,1988.
Malhotra N., Decaudin J. M., Bouguerra A., Études marketing avec SPSS, Pearson Education,
Paris, 2007.
Livre spss.book Page 195 Vendredi, 25. janvier 2008 12:04 12
196 Analyse de données avec SPSS
Nunnally J. C, Bernstein I. R, Psychometric theory, McGraw-Hill, 3e édition, 1994.
Tenenhaus M., Méthodes statistiques en gestion, Dunod, Paris, 2006.
Tenenhaus M., Statistiques : méthodes pour décrire, expliquer, prévoir, 2e édition, Dunod,
Paris, 2006.
Tenenhaus M., Méthodes statistiques en gestion, Dunod, Paris, 2006.
Thiétard R. A., Méthodes de recherche en management, Dunod, Paris, 1999.
Tufféry S., Data Mining et statistique décisionnelle, Éd. Technip, Paris, 2007.
Vernette E., Techniques d’étude de marché, Vuibert, Paris, 2000.
Livre spss.book Page 196 Vendredi, 25. janvier 2008 12:04 12
197Index
A
Abaques 11
Access panels 8
on-line 8
Accord, échelle de mesure 15
Ad hoc, étendue 4
Agrégation
chaîne 91
des données 51
méthode 85
Ajustement
courge 187
test 42
Alpha
de Cronbach 53
seuil d’acceptabilité 53
Analyse
bivariée 20, 36
bivariée, variable dépendante 36
bivariée, variable indépendante 36
conjointe, étapes 158
de fiabilité 65
de variance 108
factorielle 54, 56
factorielle, méthode 61
multivariée 20
multivariée de la variance 115
rapport d’ 178
typologique 81, 90
univariée 20
ANCOVA 116
ANOVA à un facteur 108
Aplatissement 32
coefficient d’ (Kurtosis) 32
Arbre
de décision 90
hiérarchique 87
Association prédictive, coefficient 39
Asymétrie 32
B
Baromètre 4
Barycentres 85
Biais de l’expérimentation 17, 121
effet de l’instrument 121
effet de test 121
histoire 121
maturation 121
mortalité 121
Boîtes à moustaches 31
Bonferroni, test de 109
Boule de neige, échantillonnage 11
Brief de l’étude 178
C
Carré latin 123
Catégorisation 80
Centiles 32
Centres
de groupes 91
mobiles 88
Chaîne des agrégations 91
Classification 80, 85
ascendante 84
descendante 84
hiérarchique 84
hiérarchique ascendante 85
hiérarchique descendante 86
non hiérarchique 84, 88
Clustering 80
Coefficient
d’aplatissement (Kurtosis) 32
d’association prédictive 39
Index
Livre spss.book Page 197 Vendredi, 25. janvier 2008 12:04 12
198 Analyse de données avec SPSS
de contingence 39
de corrélation multiple 136
de détermination 137
de Pearson 134
de symétrie (Skewness) 32
de variation 32
phi 39
standardisé 137
structurels 60
Collecte de données 3
Communalités 60
Comparaisons multiples 109
Composantes 60
principales 61
Compréhension, prétest 18
Concomitance 137
Conditions d’application de la régression 136
Confiance
intervalle 12
seuil 40
Construits 16
multidimensionnels 59
Contamination, effet 18
Contingence, coefficient 39
Corrélation 137
de Pearson, mesure 84
linéaire 134
matrice 57
multiple, coefficient 136
Corrélations anti-image, matrice 57
Courbe d’ajustement 187
Covariable 116
Covariance, matrice 57
Cramer, V de 39
Cronbach, Alpha de 53
D
Data mining 7
Data warehouses 3
DDL (degrés de liberté) 38
Décrire les données 20
Degrés de liberté (DDL) 38
Démarche d’étude 2
Dendogramme 86, 87, 91
Descriptive, méthode 20
Détermination, coefficient 137
Diagramme
de dispersion 187
en bâtons 31
en secteurs 31
générateur de 185
Différentiel sémantique, échelle de mesure 15
Dispersion 31, 32
diagramme 187
Distance 83
de Minkowski, mesure 84
de Tchebycheff, mesure 84
du diamètre, méthode 85
euclidienne 83
mesure 83
moyenne, méthode 85
Distribution 31
normale 33
Données
collecter 3
écrire 20
expliquer 20
non structurées 8
normalité 109
primaires 8, 9
saisir 130
secondaires 3, 7, 8
secondaires externes 7
secondaires internes 7
structurées 8
textuelles 89
Duncan, test de 109
E
Écart type 32
Échantillonnage
boule de neige 11
de convenance 11
méthode 10
stratifié 10
Échantillons 9
aléatoires 10
appariés 35, 41
indépendants 35, 41
non probablilistes 10
probabilistes 10
taille 11
uniques 41
Échelle 17
d’intention 16
d’Osgood 15
de Likert 16
de Stapel 16
neutralité 18
Échelle de mesure 16, 17
accord 15
différentiel sémantique 15
intensité 15
intention 15
Livre spssIX.fm Page 198 Vendredi, 25. janvier 2008 3:16 15
199Index
Likert 15
métrique 15
nominale 15
ordinale 15
Stapel 15
traduction 17
Éditeur de diagramme 186
Effectifs 30
Effets
d’interaction 112
de contamination 18
de halo 18
de lassitude 18
principaux 112
Égalité des moyennes, hypothèse 108
Eigenvalue 57
Emboîtement 184
Empiler 182
Entretien 3
individuel 5
Épuration des données 59
Equamax 58
Erreur 11
aléatoire 18, 19
de type 1 40
de type 2 40
indépendance des termes 136
marge d’ 12
systématique 18, 19
termes d’ 18
types 40
Étapes de l’analyse conjointe 158
Étendue 32
Étude
ad hoc 4
brief de l’ 178
d’audience 12
de cas unique 121
démarche 2
descriptive 6
explicative 6
exploratoire 18
omnibus 4
prédictive 6
projet 178
qualitative 5
quantitative 5, 6
Euclidienne, mesure de distance 83
Expérimentation 120
Explicative, méthode 21
Expliquer les données 20
F
Facettes 16
Facteurs 54
d’inflation de la variance 142
Factorielle, analyse 54, 56
Factorisation 63
Fiabilité 19, 53
analyse 65
Formes alternatives, technique 53
Fractiles 32
Fréquences 30
G
Générateur de diagramme 185
Graphiques 31, 181
Gréco-latin 123
Groupe statique 121
H
Halo, effet 18
Hasard, tirage au 10
Hiérarchique, méthode 84
Histogrammes 31
Homogénéité 109
Homoscédasticité 136
Hypothèse
alternative 40
d’égalité des moyennes 108
nulle 40
statistique 40
I
Indépendance des termes d’erreur 136
Indice
de Rogers et Tanimoto, mesure de 84
de Sokal et Michener, mesure de 84
de Sokal et Sneath, mesure de 84
Inférence, principe 39
Inflation de la variance, facteur 142
Intensité, échelle de mesure 15
Intention
échelle 16
échelle de mesure 15
Interaction 112, 122
effet 112
Intervalle 32
de confiance 12
Items 16
Itinéraires, méthode 11
Livre spssIX.fm Page 199 Vendredi, 25. janvier 2008 3:31 15
200 Analyse de données avec SPSS
K
Kaiser-Guttman, règle de 57
Kaiser-Meyer-Olkin (KMO) 57
Kolmogorov-Smirov, test de 42
Kurtosis (coefficient d’applatissement) 32
L
Lambda 39
Lassitude, effet 18
Liberté, degrés de (DDL) 38
Likert, échelle de mesure 15, 16
Linéarité 22, 136
Loi normale 33
M
MANCOVA 116
MANOVA 115
Marché-test 5
Marge d’erreur 12
Marketing
de masse 80
individualisé 80
segmenté 80
Matrice
de corrélation 57
de covariance 57
des corrélations anti-image 57
McNemar 43
Measure of Sampling Adequacy (MSA) 57
Médiane 31
Mesures
appariées 41
de la dispersion 32
de proximité 83
indépendantes 41
outils 17
Mesures de distance 83
corrélation de Pearson 84
distance de Minkowski 84
distance de Tchebycheff 84
distance euclidienne 83
indice de Rogers et Tanimoto 84
indice de Sokal et Michener 84
indice de Sokal et Sneath 84
Méthode
d’agrégation 85
d’échantillonnage 10
de l’analyse factorielle 61
de sélection des variables de régression 142
de Ward 86
des barycentres 85
des centres mobiles 88
des itinéraires 11
des nuées dynamiques 88
des quotas 10
des scénarios 121, 160
des vignettes 160
descriptive 20
distance du diamètre 85
distance moyenne 85
du plan d’expérience 120
explicative 21
hiérarchique 84
non hiérarchique 84
non probabiliste 10
probabiliste 9
saut minimum 85
Métrique, échelle de mesure 15
Minkowski, mesure de distance 84
Mode 31
Modèle
additif 156
compensatoire 156
de décomposition 156
de la vraie valeur 18
statistique 121
Moyenne 31
Multicolinéarité 142
Multivariée
de la variance, analyse 115
analyse 20
N
Netnographie 5, 6
Neutralité d’une échelle 18
Nominale, échelle de mesure 15
Non hiérarchique, méthode 84
Non probabiliste, méthode 10
Normalité 136
des données 109
Nuage de points 81
Nuées dynamiques 88
méthode 88
O
Oblimin direct 58
Observation 9
Ordinale, échelle de mesure 15
Orthogonalité 124
Osgood, échelles de mesure 15
Outils de mesure 17
Outliers 31
Livre spss.book Page 200 Vendredi, 25. janvier 2008 12:04 12
201Index
P
Panels 4, 8
d’audience 9
de distributeurs 9
Pearson, coefficient 134
phi, coefficient 39
Plan
complet 160
factoriel 122
factoriel complet 123
factoriel fractionné 123
fractionné 160
Plan d’expérience, méthode 120
Points clés du rapport 180
Population 9
Précision
des résultats 11
statistique d’un test 12
Prétest de compréhension 18
Prétest/post-test et groupe de contrôle 121
Principaux, effets 112
Principe d’inférence 39
Probabiliste, méthode 9
Projet d’étude 178
Proximité, mesure de 83
Puissance du test 40
Q
Quartiles 32
Quartimax 58
Questionnaire 3, 16
Quotas, méthode 10
R
R2 137
Rapport
d’analyse 178
d’étude, structure 179
points clés 180
Règle
de Kaiser-Guttman 57
des valeurs propres 57
Régression
conditions d’application 136
linéaire 136
linéaire multiple 141
linéaire simple 136
multiple 141
Résultats, précision 11
Rétro-traduction 18
Réunions de consommateurs 3
Risque d’artefact 82
Rotation 62
des facteurs 58
oblique 58
orthogonale 58
S
Saisir les données 130
Saut minimum, méthode 85
Scénarios, méthode 121, 160
Scree Test 57
Segmentation 80
Sélection des variables de régression, méthode 142
Seuil
d’acceptabilité de l’alpha 53
de confiance 40
de signification 40
Signe 43
Signification, seuil 40
Skewness, coefficient de symétrie 32
Sondage, taux 11
unités de 9
Split half 53
Standardisation 84
coefficient 137
Stapel, échelle 15, 16
Statistique d’un test, précision 12
Structure d’un rapport d’étude 179
Structurel, coefficient 60
Symétrie 32
coefficient (Skewness) 32
d’une échelle 18
T
t de Student 42
Tableaux 181
croisés 36
personnalisés 182
pivotants 182
Taille de l’échantillon 11
Taux de sondage 11
Taxinomie 80
Tchebycheff, mesure de distance 84
Techniques
des formes alternatives 53
qualitatives 4
quantitatives 4, 6
Tendance centrale 31
Termes d’erreur 18
Test
/retest 53
d’ajustement 42
Livre spssIX.fm Page 201 Vendredi, 25. janvier 2008 3:37 15
202 Analyse de données avec SPSS
d’hypothèses 35, 41
d’inférence 41
de Bonferroni 109
de comparaison d’échantillons appariés 42
de comparaison d’échantillons indépendants 42
de Duncan 109
de Kolmogorov-Smirov 42
de l’éboulis 57
de la médiane 43
de Levene 109
de McNemar 44
de Scheffé 109
de Sphéricité de Bartlett 57
de Tukey 109
de Wilcoxon 43
du coude 57
du khi-deux 37
du signe 43
non paramétrique 35, 41, 42, 109
paramétriques 35, 41
post hoc 109
précision statistique 12
puissance 40
statistiques 39
t 42
t pour échantillon unique 13
U de Mann-Whitney 43
Z 42
Tirage au hasard 10
Traduction d’échelles de mesure 17
Tri
à plat 31
croisés 36, 37
Type
d’analyse de variance 108
d’erreurs 40
Typologie 80
analyse 81, 90
U
U de Mann-Whitney, test de 43
Unités de sondage 9
Univariée, analyse 20
V-W
V de Cramer 39
Valeurs
extrêmes 31
propres, règle des 57
Validité 19, 90
convergente 52
de contenu 52
discriminante 52
faciale 18, 52
nomologique 52
prédictive 52
Variable 30
de segmentation 81
dépendante 14
dépendante, analyse bivariée 36
explicative 14
expliquée 14
indépendante 14
indépendante, analyse bivariée 36
médiatrice 14
modératrice 14
qualitative 14, 30
quantitative 15, 31
Variance 32
analyse de 108
coefficient 32
facteur d’inflation 142
intragroupe 109
Varimax 58
Vignettes 121
méthode 160
Vraie valeur 19
Ward, méthode 86
Livre spssIX.fm Page 202 Vendredi, 25. janvier 2008 3:37 15
Synthèse
de cours
exercices
corrigés
&
Direction de collection :
Roland Gillet, professeur
à l’université Paris 1
Panthéon-Sorbonne
Dans la même collection :
• Analyse financière et évaluation
d’entreprise, S. Parienté
• Performance de portefeuille,
P. Grandin et al.
• Création de valeur et capital-
investissement, M. Cherif et
S. Dubreuille
• Contrôle de gestion, Y. de Rongé et
K. Cerrada
• Économétrie, É. Dor
• Finance, A. Farber et al.
• Marketing, une approche
quantitative, A. Steyer et al.
• Mathématiques appliquées à la
gestion, A. Szafarz et al.
• Probabilités, statistique et processus
stochastiques, P. Roger
• Stratégie, A. Desreumaux et al.
• Les enquêtes par questionnaire avec
Sphinx, S. Ganassali
Manu Carricano est enseignant-
chercheur à l’INSEEC Paris où
il est responsable des majeures
Marketing. Il enseigne le marketing
et les études de marchés en licence
et master.
Fanny Poujol est maître de
conférences à l’IAE de Valenciennes
et chercheur associé à l’INSEEC.
Elle enseigne le marketing et la
méthodologie.
Sciences de gestion
La collection Synthex propose aux gestionnaires et aux
économistes de découvrir ou de réviser une discipline et
de se familiariser avec ses outils au travers d’exercices
résolus.
Chaque ouvrage présente une synthèse pédagogique et rigoureuse des techniques
et fondements théoriques, qu’une sélection d’exercices aux corrigés détaillés permet
d’assimiler progressivement. Le lecteur, étudiant ou professionnel, est ainsi conduit
au cœur de la discipline considérée, et, via la résolution de nombreux problèmes,
acquiert une compréhension rapide et un raisonnement solide.
Ce livre a pour objectif d’amener à découvrir tout le potentiel de
l’analyse des données à travers de nombreux exemples et exercices
d’application, situés principalement dans le champ du marketing.
Progressif et pédagogique, il s’articule autour des étapes clés d’une
analyse de données : la définition de la problématique, la descrip-
tion des données, la validation des instruments de mesure. La suite
du livre met l’accent sur le choix d’une méthode d’analyse, qu’elle
soit descriptive (tris croisés, analyse factorielle) ou plus technique
(ANOVA, régression, analyse conjointe). Le dernier chapitre traite
de la rédaction du rapport, élément essentiel de la communication
des résultats.
Le livre inclut de nombreux exemples illustratifs et applications. La
plupart de ces dernières font appel à SPSS afin que le lecteur se fami-
liarise avec ce logiciel. Il pourra ainsi appliquer ses connaissances
théoriques et mettre en pratique une démarche d’analyse.
Ce livre s’adresse aux étudiants de premier et de second cycle (IUT,
BTS, universités et écoles de commerce). Rappel méthodologique sur
la réalisation d’une analyse de données et outil concret d’utilisation
de SPSS, il sera également utile aux chargés d’études en activité.
Analyse de données
avec SPSS®
Pearson Education FrancePearson Education France
47 bis, rue des Vinaigriers 75010 Paris47 bis, rue des Vinaigriers 75010 Paris
Tél. : 01 72 74 90 00Tél. : 01 72 74 90 00
Fax : 01 42 05 22 17Fax : 01 42 05 22 17
www.pearson.frwww.pearson.fr
ISBN : 978-2-7440-4075-7

Analyse de données avec spss,

  • 1.
    Sciences de gestion ManuCARRICANO Fanny POUJOL Synthèse de cours exercices corrigés & Toutes les étapes clés d’une analyse de données Une pédagogie active avec le logiciel SPSS Les fichiers des exercices disponibles à l'adresse www.pearson.fr 1011001001100010 00110011010101110 011100110010101011 0011001010110011 001010100110011 collection Synthex Analyse de données avec SPSS ®
  • 2.
    Sciences de gestion & Analyse dedonnées avec SPSS ® Manu Carricano INSEEC Paris Fanny Poujol IAE Valenciennes Directeur de collection : Roland Gillet Université Paris I Panthéon-Sorbonne Avec la contribution de Laurent Bertrandias pour la relecture de fond Institution d’Administration des Entreprises – Université Toulouse 1 collection Synthex Synthèse de cours exercices corrigés prelim.fm Page I Vendredi, 25. janvier 2008 3:04 15
  • 3.
    Livre spss.book PageII Vendredi, 25. janvier 2008 12:04 12
  • 4.
    ISSN : 1768-7616 Tousdroits réservés Mise en page : edito.biz Aucune représentation ou reproduction, même partielle, autre que celles prévues à l’article L. 122-5 2˚ et 3˚ a) du code de la propriété intellectuelle ne peut être faite sans l’autorisation expresse de Pearson Education France ou, le cas échéant, sans le respect des modalités prévues à l’article L. 122-10 dudit code. Livre spss.book Page III Vendredi, 25. janvier 2008 12:04 12 Copyright© 2009 Pearson Education France ISBN : 978-2-7440-4075-7
  • 5.
    Livre spss.book PageIV Vendredi, 25. janvier 2008 12:04 12
  • 6.
    Sommaire VSommaire Préface ......................................................................... VII Introduction.................................................................. IX Les auteurs.................................................................... XI Chapitre 1 • Analyser pour décider .................................................. 1 Chapitre 2 • Décrire les données ...................................................... 29 Chapitre 3 • Simplifier les données .................................................. 51 Chapitre 4 • Segmenter ................................................................... 79 Chapitre 5 • L’analyse de variance .................................................. 107 Chapitre 6 • La régression linéaire ................................................... 133 Chapitre 7 • L’analyse conjointe ...................................................... 155 Chapitre 8 • Communiquer les résultats ........................................... 177 Bibliographie générale.................................................. 195 Index ............................................................................ 197 Livre spssTDM.fm Page V Vendredi, 25. janvier 2008 3:06 15
  • 7.
    Livre spss.book PageVI Vendredi, 25. janvier 2008 12:04 12
  • 8.
    VII Préface Il existe aujourd’huide nombreux livres consacrés aux études de marché et à l’analyse marketing, ce que les Anglo-Saxons nomment marketing research. L’ouvrage de Fanny Poujol et Manu Carricano, Analyse de données avec SPSS, se distingue clairement de ceux existant sur le marché par son parti pris résolument opérationnel. L’instrumentation de gestion est souvent négligée dans la littérature francophone consacrée au management. Tendance bien cartésienne à la conceptualisation ? Bien des manuels, peut-être en contra- diction avec la définition même de ce genre d’écrit, consacrent la portion congrue aux outils et à leur application pratique. Analyse de données avec SPSS prend le contre-pied d’une telle tendance. Peut-être est-ce en raison de la jeunesse et de la singularité des auteurs : une docteur en gestion, aujourd’hui maître de conférences à l’université de Valenciennes, et un professeur assistant dans une grande école, tous deux chercheurs à l’Inseec et encore très proches des difficultés d’apprentissage de la recherche quantitative en marketing ? En tout état de cause, les huit chapitres de leur ouvrage présentent avec rigueur les problè- mes opérationnels de la recherche quantitative en marketing et leur résolution pratique, en prenant patiemment le lecteur par la main grâce à des exemples et des exercices et en le guidant dans l’utilisation du logiciel SPSS. Le titre des chapitres résume ce parcours initia- tique dans la recherche quantitative en marketing : analyser pour décider, décrire les don- nées, simplifier les données, segmenter, l’analyse de variance, la régression linéaire, l’analyse conjointe, communiquer les résultats. Dans ce parcours en huit étapes, c’est réso- lument l’application et la mise en œuvre pratique qui sont privilégiées aux dépens des considérations théoriques résumées clairement en tête de chapitre. Outre l’aspect opérationnel, les auteurs ont également eu comme objectif de privilégier la dimension synthétique de leurs démonstrations. Il n’était pas question pour eux de faire une « somme » de plus sur le sujet, les bibliothèques étant déjà fournies en livres de ce type. Certes, d’autres méthodes mériteraient de figurer dans l’ouvrage, mais on ne peut reprocher aux auteurs d’avoir privilégié les techniques les plus couramment utilisées. Nul doute que ce livre original connaîtra le succès qu’il mérite auprès des nombreux cher- cheurs en marketing, professionnels et universitaires. Il sera alors temps pour les auteurs d’offrir un second tome dans la même veine. C’est tout ce que nous leur souhaitons, pour eux-mêmes et pour leurs futurs lecteurs. Pierre-Louis Dubois, Professeur Université Panthéon-Assas (Paris II) ESCP-EAP Président du Comité scientifique de l’Inseec Livre spss.book Page VII Vendredi, 25. janvier 2008 12:04 12
  • 9.
    Livre spss.book PageVIII Vendredi, 25. janvier 2008 12:04 12
  • 10.
    IX Introduction Approche adoptée La plupartdes décisions de l’entreprise reposent sur des données collectées sur le marché, les clients, les concurrents. Mais le plus souvent, ces analyses sont simplistes, limitées, voire biaisées : d’une part, parce qu’elles se limitent à des analyses descriptives (tableaux croisés, analyses factorielles…) et non pas explicatives des phénomènes observés; d’autre part, parce qu’elles ne s’assurent pas toujours des conditions de validité et de fiabilité des résultats. Dans le même temps, l’exercice du marketing s’est considérablement transformé ces dernières années : le volume de données disponible est plus important, et les outils d’analyse plus sophistiqués. Ces solutions analytiques, telles les suites de logiciels dévelop- pées par SPSS, visent à tirer parti de cette profusion de données afin d’aider les dirigeants à prendre des décisions fondées, optimales. Comme le signale Sunil Garga, président d’IRI Analytic Insight Group : « Les approches analytiques en marketing ont amené à plus de changement durant les 24 derniers mois que lors de ces 24 dernières années. » La diffusion de ces nouvelles approches dans l’entreprise passe par la mise sur le marché de jeunes diplômés éclairés et sensibilisés à une démarche analytique dépassant l’intuition et fondée sur des modèles afin de prendre des décisions optimales. L’idée force qui nous a guidés tout au long de la rédaction de cet ouvrage est de démontrer la valeur ajoutée de l’analyse de données dans l’optimisation de décisions courantes au sein de l’entreprise. Le marketing, notre domaine de spécialisation, nous a semblé tout indiqué pour mettre en œuvre une telle approche fonctionnelle. Loin d’un inventaire de techniques statistiques, nous avons souhaité définir une série de questions simples faisant le lien entre les outils d’analyse de données et les décisions marketing, parmi lesquelles : • Comment transposer un problème managérial en modèle d’analyse? • Comment améliorer la validité et la fiabilité d’un questionnaire? • Quelle approche mobiliser pour décrire les résultats d’une enquête? • Comment synthétiser les données collectées? • Comment segmenter un marché? • Comment expliquer l’influence d’une décision sur un marché? • Comment modéliser un comportement d’achat? Livre spss.book Page IX Vendredi, 25. janvier 2008 12:04 12
  • 11.
    X Analyse dedonnées avec SPSS • Comment expliquer les préférences des consommateurs? • Comment communiquer les résultats? Cet ouvrage s’adressant principalement à des étudiants – et s’inspirant fortement des remarques de nos propres étudiants –, nous avons également cherché à présenter les infor- mations de manière simple, passant rapidement le relais à une mise en application des concepts statistiques par le biais d’une manipulation du logiciel SPSS. Apprendre en fai- sant permettra au lecteur d’acquérir des compétences en analyse de données de manière progressive, et sur l’ensemble de la démarche. Cette forme d’apprentissage par l’expé- rience, de pédagogie active, s’étant révélée payante pour nous, nous espérons qu’elle le sera également pour d’autres collègues enseignants et les étudiants. Afin de faciliter l’utili- sation de ce livre dans le cadre d’un cours (en licence ou master), l’intégralité des fichiers de données est disponible sur le site de Pearson Education France. Structure du livre Le domaine de l’analyse de données étant vaste et complexe, nous avons souhaité organi- ser ce livre en deux grandes parties distinctes. Une première partie (chapitres 1 à 4) pré- sente les méthodes descriptives en analyse de données (analyses univariées et bivariées, tris croisés, analyses factorielles), la plupart des enquêtes en marketing se limitant aux tests présentés dans cette partie. La seconde partie de l’ouvrage (chapitres 5 à 7) présente un panorama de techniques plus avancées (analyse de variance, régressions, analyse con- jointe) afin de guider l’analyste dans ces procédures plus sophistiquées. Enfin, le dernier chapitre traite de la rédaction du rapport, la valeur ajoutée d’une démarche analytique passant aussi par la capacité à communiquer les résultats de manière précise et intelligible. Remerciements Nous voudrions remercier vivement ceux qui nous ont aidés à réaliser cet ouvrage, en par- ticulier, Roland Gillet, professeur à l'université Paris 1 Panthéon-Sorbonne et directeur de la collection, pour ses remarques et sa confiance, et Pierre-Louis Dubois, professeur à l'université Paris 2 Panthéon-Assas et à l'ESCP-EAP, pour ses encouragements constants et son aide précieuse. Nos remerciements s’adressent aussi à Laurent Bertrandias (maître de conférences à l’IAE – université Toulouse 1), René Darmon (professeur émérite à l’ESSEC), Laurent Florès (CEO crmmetrix et professeur associé à l’INSEEC), Jean-Fran- çois Trinquecoste (professeur à l’IAE Bordeaux), Hervé Fenneteau (professeur à l’univer- sité Montpellier I), Jean-Philippe Grouthier (administrateur à l’Insee). Merci aussi à Christophe Lenne et à toute l’équipe de Pearson Education France pour leur travail éditorial constructif et enrichissant. Enfin, nos plus vifs remerciements vont à nos proches, pour les longs instants volés, le temps étant le plus précieux des cadeaux. Comme le dit Paul Claudel : « Le temps, tout le consume, et l’amour seul l’emploie. » intro.fm Page X Vendredi, 25. janvier 2008 4:53 16
  • 12.
    XI Les auteurs Manu Carricanoest enseignant-chercheur à l’Inseec Paris où il est responsable du dépar- tement marketing. Il y enseigne le marketing et les études de marchés en licence et master. Il intervient également à l’IAE de Bordeaux dans le master marketing en formation conti- nue. Ses recherches portent sur la convergence des méthodes quantitatives et qualitatives sur Internet ainsi que sur l’optimisation des stratégies de prix. Ses travaux ont fait l’objet de publications et ont été présentés dans des conférences académiques internationales. Fanny Poujol est titulaire d’un MBA de l’université de Birmingham ainsi que d’un docto- rat de l’université Montpellier II. Elle est maître de conférences à l’IAE de Valenciennes, et chercheur associé au laboratoire de recherche Inseec. À l’IAE, elle enseigne la méthodolo- gie, le marketing des services, le commerce international et le management des forces de ventes en licence et master. Elle intervient aussi en master marketing et vente à l’UPMC (Université Pierre-et-Marie-Curie). Ses recherches portent sur la gestion des forces de vente. Ses travaux ont été présentés dans des congrès internationaux (IAE, AFM, EMAC, ANZMAC) et publiés dans des revues académiques (Décisions Marketing, Journal of Busi- ness and Industrial Marketing). Livre spss.book Page XI Vendredi, 25. janvier 2008 12:04 12
  • 13.
    Livre spss.book PageXII Vendredi, 25. janvier 2008 12:04 12
  • 14.
    1 1Analyser pour décider Une bonnedécision consiste à choisir la plus optimale des solutions parmi une série d’alternatives. Le marketing – et en particulier sa dimension études – s’est longtemps cantonné à un rôle purement descriptif. Mais les bonnes décisions n’arri- vent pas par hasard : elles doivent être fondées sur des infor- mations fiables et valides. Tour à tour, les outils d’études de marchés et les techniques d’analyse se sont considérablement enrichis. L’avènement d’Internet, la sophistication et l’exhaus- tivité des données de panel, la montée en puissance des bases de données clients et du data mining ont repoussé les limites des études de marchés traditionnelles, favorisant l’émergence d’une information marketing de grande qualité et d’analyses explicatives, voire prédictives, des comportements. Ce chapitre présente les grandes familles d’études de marchés et pose les bases de l’analyse de données en marketing en abordant les concepts de données, de variables et de mesure. 1. Études et recherche en marketing...............................2 2. Des données aux variables...........7 3. Mesurer à l’aide d’un questionnaire.....................16 Exercices 1. Quand Pampers collecte des données..............................23 2. L’audience de la super star.........24 3. L’enquête « point de vente ».......25 Chapitre Livre spss.book Page 1 Vendredi, 25. janvier 2008 12:04 12
  • 15.
    2 Analyse dedonnées avec SPSS (1) Études et recherche en marketing Les études et recherche marketing ont pour but d’aider le responsable marketing à résou- dre un problème spécifique, à contrôler ses performances, à planifier les décisions (Evrard, Pras et Roux, 2003). Leur objectif est de lier l’entreprise à son environnement en déve- loppant des instruments de mesure, en collectant et en analysant des données, et en communiquant les résultats et leur interprétation. Telle est la définition du processus de recherche en marketing qui nous guidera tout au long des huit chapitres de cet ouvrage. 1.1 LA DÉMARCHE D’ÉTUDE À partir de la définition précédente, nous pouvons résumer la démarche d’étude à cinq étapes principales, reprises à la figure 1.1 ci-après. La première étape de la démarche d’étude est d’identifier le problème managérial : le besoin d’étude est donc déterminé par l’existence d’un problème à résoudre. Plusieurs types de problèmes et plusieurs types de résolutions peuvent être envisagés, comme le montre le tableau 1.1. Figure 1.1 Les cinq étapes d’une démarche d’étude. Tableau 1.1 : Du problème managérial à la technique d’étude Problème managérial Objectifs d’étude Techniques d’étude Existe-t-il un mar- ché potentiel pour un nouveau produit? – Tester les réactions des consommateurs à l’idée – Tester la composition du produit – Estimer le taux d’essai et de réachat – Test de concept – Test de formule – Marché-test simulé – Marché-témoin – Connaître les concurrents – Analyse de la concurrence – Panels Définition du problème Analyse de la situation Collecte des données Analyse et interprétation Résolution du problème Anticipation du problème Livre spss.book Page 2 Vendredi, 25. janvier 2008 12:04 12
  • 16.
    3Analyser pour décider 1Chapitre Source: adapté de Vernette, 2000. La formulation correcte d’un problème permet de faire le lien entre un besoin de décision et la mise en œuvre d’une démarche de recherche, de collecte, d’analyse et d’interprétation d’informations. La fonction « étude » doit donc être envisagée autour de ce paradigme informationnel. Son rôle consiste à transformer des informations brutes en données utiles dans la recherche de nouvelles opportunités, à mettre en place des systèmes d’écoute du marché et de veille concurrentielle, et à prescrire les comportements à adopter sur les mar- chés. Au confluent des flux d’informations de l’entreprise, elle acquiert aujourd’hui une dimension stratégique croissante. Si la collecte et l’analyse de données sont au cœur du métier d’analyste en marketing, ces derniers font de plus en plus appel à des données secondaires et à des données stockées dans des entrepôts de données (data warehouses). Cette tendance est accentuée par le recours à Internet qui, en combinant habilement sites de marque et techniques de marke- ting direct, s’avère être une source inépuisable d’informations sur les marchés, les consommateurs, les concurrents. L’existence de cette profusion de données fait évoluer les besoins d’étude dans l’entreprise et modifie par suite le recours aux différentes techniques. Auparavant, la conduite d’une étude de marché était principalement entendue comme la nécessité de procéder à une collecte de données terrain, souvent par le biais du questionnaire, de l’entretien ou de réunions de consommateurs. Dorénavant, l’accès aisé à des données secondaires, à la dissémination inter- fonctionnelle d’une intelligence marketing dans l’organisation modifie quelque peu la donne. Cette vaste quantité d’informations disponibles rend nécessaire, pour le chargé d’étude comme pour le chef de produit, une compétence accrue en analyse de données. Elle per- mettra d’éviter les erreurs d’interprétation et de maîtriser la qualité d’études souvent réa- lisées par des instituts. Un besoin croissant d’opérationnalité se fait sentir en la matière. Cette opérationnalité passe tout d’abord par le développement de mesures pertinentes et valides supportant des construits psychologiques (décisions d’achat, notoriété, intérêt pour la marque, le produit, etc.), afin de bien mesurer ce qui se rapporte au problème managérial. Elle passe ensuite par la mise en œuvre d’analyses qui permettent d’expliquer et de prédire des comportements, afin de bien comprendre le problème managérial pour le résoudre et agir. – Connaître les attentes des consommateurs – Identifier les bénéfices recherchés par les consommateurs – Étude de segmentation – Détecter les forces et faiblesses de la marque – Étude du capital marque – Analyse des images de marque des concurrents – Déterminer un prix de vente – Test de prix psychologiques – Analyse conjointe Tableau 1.1 : Du problème managérial à la technique d’étude (suite) Problème managérial Objectifs d’étude Techniques d’étude Livre spss.book Page 3 Vendredi, 25. janvier 2008 12:04 12
  • 17.
    4 Analyse dedonnées avec SPSS 1.2 LES TECHNIQUES D’ÉTUDES Les techniques d’études sont regroupées en deux catégories principales, selon leurs objec- tifs et leurs limites. Les études quantitatives dominent largement le marché des études, même si, dernièrement, les départements marketing ont manifesté un intérêt croissant pour les études qualitatives. Le tableau 1.2 montre la répartition des différentes techniques en fonction des méthodes de collecte les plus fréquemment utilisées en marketing. Source : adapté de SEMO, 2008 (Syntec Études Marketing et Opinion). Parmi les techniques les plus largement utilisées, on peut retenir : • l’étude ad hoc : étude quantitative ou qualitative réalisée pour le compte d’un seul client; • l’étude omnibus : étude quantitative réalisée à date régulière. Le questionnaire regroupe l’ensemble des questions de différents souscripteurs; • le baromètre : étude réalisée à date fixe comme l’omnibus, mais avec le même ques- tionnaire d’une étude à l’autre, pour le compte d’un ou de plusieurs clients; • le panel : investigation approfondie réalisée périodiquement pour plusieurs clients. Les interviewés sont identiques d’une vague à l’autre. Il s’appuie sur des échantillons importants de 2 000 à 10 000 individus; Tableau 1.2 : Répartition des différentes techniques d’étude Techniques 2005 2006 Quantitatives Études quantitatives via Internet 13 % 20 % Études par téléphone 29 % 30 % Tests en salle 11 % 10 % Études en face-à-face 42 % 37 % Études postales 5 % 4 % Qualitatives Réunions de groupe 57 % 55 % Entretiens individuels 22 % 22 % Études qualitatives via Internet 5 % 17 % Autres techniques qualitatives 16 % 5 % Livre spss.book Page 4 Vendredi, 25. janvier 2008 12:04 12
  • 18.
    5Analyser pour décider 1Chapitre •le marché-test : étude quantitative visant à prévoir les ventes et parts de marché d’un nouveau produit; on parle également de marché-test pour des observations de type expérimental en magasin; • l’entretien individuel : étude qualitative dont l’objectif est de recueillir le discours indi- viduel. On distingue l’entretien non directif (libre propos), semi-directif (intervention et thèmes), directif (guide d’entretien strict, questions ouvertes), associatif ou projectif (analogie, associations de mots, compléments de phrases, jeux de rôle, etc.); • la réunion de groupe : étude qualitative libre et non structurée d’un groupe de 8 à 12 participants, conduite par un animateur. La discussion libre repose sur les phénomènes de psychologie collective des groupes restreints, fondée notamment sur les travaux de Kurt Lewin. Le tableau 1.3 représente les objectifs et les limites des approches qualitatives et quantitatives. Source : adapté de Vernette, 2000. Les études qualitatives sont utilisées dans une dimension principalement exploratoire, afin de comprendre en profondeur des comportements de consommateurs par exemple. Si elles ne permettent pas de généraliser les résultats qu’elles produisent, elles n’en sont pas moins utiles pour dépasser les mesures d’attitudes des questionnaires. Elles permettent d’accéder à une étude approfondie des processus liés aux comportements de consomma- tion, grâce notamment aux entretiens et aux réunions de consommateurs, et d’accéder plus profondément à l’explication de ces comportements, en levant le voile sur des fac- teurs inconscients (le non-verbal, le « non-dit »), en d’autres termes le monde interne des consommateurs et notamment leur rapport aux marques. Les études qualitatives se distinguent également par la place qu’elles occupent dans la démarche de recherche. Souvent considérées comme un prélude à l’étude quantitative ou limitées à la confirmation des résultats d’une enquête par questionnaire, elles se substi- tuent de plus en plus aux approches traditionnelles, grâce notamment à l’utilisation d’Internet et de ses potentialités multimédias, et à la nécessité croissante pour le marketing d’être connecté au terrain. Garnier, par exemple, a lancé, il y a peu, une vaste opération de type ethnographique baptisée Consumer Connect, dont l’objectif était avant tout d’immer- ger les chefs de produit parmi les consommateurs et d’observer leur utilisation du produit in situ. L’avènement d’Internet a contribué à repopulariser cette technique auprès des ins- tituts d’étude : on peut citer l’émergence de la netnographie (voir ci-après) ou encore le Home Use Blog (HUB), développé conjointement par Danone et la société Repères. Tableau 1.3 : Objectifs et limites des approches qualitative et quantitative Approche Objectifs Limites Qualitative Répertorier Explorer Générer Comprendre Généralisation des résultats Quantitative Dénombrer Hiérarchiser Pondérer Résumer Biais déclaratifs Mémorisation des répondants Livre spss.book Page 5 Vendredi, 25. janvier 2008 12:04 12
  • 19.
    6 Analyse dedonnées avec SPSS EXEMPLE La netnographie On constate, depuis quelques années, un intérêt grandissant pour l’information collectée à partir de l’observation de communautés virtuelles, nouvelles formes de communautés dont Internet a permis l’émergence. Ainsi, de nombreuses firmes ont réalisé des études sur la base d’informations issues de forums de discussion et n’ont pas tardé à saisir les opportuni- tés offertes par ces nouveaux types d’interactions sociales. Kozinets a développé récemment une approche nouvelle – l’ethnographie sur Internet ou netnographie – qu’il définit comme « une nouvelle méthode de recherche qualitative qui adapte la méthode de l’ethnographie à l’étude des cultures et des communautés qui émergent grâce aux communications informatisées » (Kozinets, 2002, p. 62). En tant que technique de recherche en marketing, la netnographie utilise l’information publique disponible sur les forums en ligne afin d’iden- tifier et de comprendre les besoins et les influences qui pèsent sur les décisions d’achat de groupes de consommateurs présents sur Internet. Pour Laurent Florès, CEO de la société d’étude crmmetrix, spécialiste de l’écoute client, le canal Internet permet aux marques de participer à de véritables conversations et de s’appuyer sur un puissant levier du marketing : le bouche à oreille. Il est désormais possible de quantifier le volume de ces conversations, d’analyser leur contenu et le profil des intervenants, avec un avantage impor- tant sur les techniques traditionnelles, puisque cette approche n’altère pas le contexte étudié par l’intervention d’un analyste mais collecte plutôt une information en langage naturel. Les techniques quantitatives, auxquelles cet ouvrage est essentiellement consacré, consti- tuent la part dominante des études marketing. Leur objectif est avant tout de mesurer, de quantifier et de permettre de généraliser les résultats à partir de l’échantillon de la popula- tion concernée. Ce type d’étude repose généralement sur un grand nombre d’observations et sur des informations structurées (valeurs numériques, échelles ou valeurs nominales) par opposition aux informations non structurées (discours, texte libre/questions ouvertes, etc.). Plus précisément, trois types d’études quantitatives peuvent être distin- gués, en fonction du contexte de découverte de l’information : décrire, expliquer, prédire. Les études descriptives sont fondées sur des mesures dont le but est de collecter des don- nées brutes afin de créer des structures décrivant les caractéristiques d’une population cible ou d’un marché. Elles peuvent être utiles, entre autres, pour faire la photographie d’un marché, de la satisfaction des consommateurs, de la notoriété d’une marque. La dimension descriptive est l’objectif premier traditionnellement assigné aux études marke- ting. Cette étape importante a pour objet de mesurer la force d’association entre deux variables, par exemple, et permet de poser un cadre d’analyse nécessaire aux études expli- catives et prédictives. Les études explicatives ont pour objet de transformer des données brutes en structures expliquant des relations de causalité entre deux ou plusieurs variables. L’approche explica- tive est utile lorsque l’étude a pour objectif de comprendre les causes directes d’un phéno- mène. Ce type d’étude peut permettre, par exemple, de modéliser l’impact de la publicité sur les ventes. L’approche explicative est particulièrement utile dans un contexte d’aide à la décision, où le but assigné à l’étude n’est plus simplement de décrire mais aussi de com- prendre, de la manière la plus fiable et la plus valide, les déterminants affectant la perfor- mance des décisions marketing. Les études prédictives, quant à elles, ont pour objet de transformer les données brutes collectées sur les caractéristiques comportementales des consommateurs ou des entrepri- ses/marchés pour créer des modèles prédictifs à des fins d’optimisation. Ces approches, Livre spss.book Page 6 Vendredi, 25. janvier 2008 12:04 12
  • 20.
    7Analyser pour décider 1Chapitre surtoututilisées dans des contextes de gestion de la relation client, nécessitent des obser- vations en très grand nombre et des outils sophistiqués (voir focus 1.1). Pour notre part, dans les chapitres suivants, nous nous concentrerons principalement sur les deux pre- miers types d’étude. * Focus 1.1 • Le data mining Le data mining, ou fouille de données, est l’ensemble des méthodes et techniques destinées à l’exploration et l’analyse de bases de données informatiques (souvent de grande taille), de façon automatique ou semi-automatique, en vue de détecter des règles, des associations, des tendances inconnues ou cachées, des structures particulières restituant l’essentiel de l’informa- tion utile tout en réduisant la quantité de données. En bref, le data mining est l’art d’extraire des informations, voire des connaissances à partir de données. Le data mining est soit descrip- tif, soit prédictif : les techniques descriptives en data mining visent à mettre en évidence des informations présentes mais cachées par le volume des données (c’est le cas des classifications automatiques d’individus et des recherches d’associations de produits); les techniques prédic- tives visent à extrapoler de nouvelles informations à partir des informations présentes, ces nou- velles informations pouvant prendre la forme de classements ou scorings (sélection de clients selon certains critères), ou de prédictions comme l’appétence pour un produit (probabilité d’achat futur) ou le risque d’attrition (probabilité de départ à la concurrence). Source : adapté de Tufféry, 2005. (2) Des données aux variables La plupart des entreprises sont aujourd’hui noyées sous l’information mais elles ont soif de connaissance. C’est la capacité de l’analyste à mettre en œuvre une démarche analyti- que qui permet de créer, de gérer et de diffuser cette connaissance dans l’organisation. Ce processus repose sur trois concepts que nous allons maintenant définir : les données, l’échantillon et les variables. 2.1 TYPES DE DONNÉES Les types de données en marketing sont en général identifiés en fonction de leur source. Ainsi, on distingue les données secondaires et les données primaires (voir figure 1.2). Les données secondaires sont des données qui ont été collectées préalablement à l’étude, pour répondre à d’autres problèmes, ce qui peut fortement en limiter la pertinence et la précision (Malhotra et al., 2007). Elles sont cependant d’un accès facile et leur coût est relativement faible. Souvent perçues comme des données à faible valeur ajoutée en marke- ting (limitées à une définition de problème, voire à quelques tests pour mettre en valeur les résultats principaux), elles occupent désormais une place de plus en plus importante dans les études. Les sources d’information de cette nature sont aujourd’hui abondantes et doivent systématiquement être prises en considération avant toute collecte de données primaires. On distingue les données secondaires internes, issues de l’entreprise (repor- tings, intranet, données comptables, informations émanant des salariés…) et les données secondaires externes, issues de l’environnement de l’entreprise : Livre spss.book Page 7 Vendredi, 25. janvier 2008 12:04 12
  • 21.
    8 Analyse dedonnées avec SPSS • en premier lieu Internet qui donne accès à des données structurées (fichiers logs, cookies, etc.) et surtout à des données non structurées (blogs, forums, interactions sociales, etc.) que l’on commence aujourd’hui à analyser, à traiter (netnographie, ana- lyse lexicométrique, text mining, etc.); • les données gouvernementales : données de recensement,données macroéconomiques,etc.; • les données de panels (consommateurs, distributeurs, audience); • les études de marchés publiées de nature commerciale; • les interactions avec les consommateurs ou points de contacts : lettres de réclamations, call-centers, e-mails reçus, etc. * Focus 1.2 • Les panels Les panels ont considérablement évolué ces dernières années : gains de restitution de l’infor- mation, amélioration de la couverture des circuits de distribution (données de panels et don- nées issues du scanning en sortie de caisse), offre enrichie (information accessible en ligne, analyses spécifiques des variables du mix et de leur performance). On distingue, en France, plusieurs types de panels largement plébiscités (42 % du marché des études) : les panels de consommation, les access panels (ou panels de consommateurs), les access panels on-line, les panels de distributeurs (ou panels de détaillants) et les panels d’audience. • Panels de consommation : recueil d’informations sur leurs achats auprès d’un échan- tillon de ménages. Ce type de panel permet de répondre aux questions : « Qui consomme quoi? » et « En quelle quantité? » (taux de pénétration, quantités achetées, etc.) et de mesu- rer l’évolution de la consommation dans le temps. • Access panels : recueil d’informations auprès d’individus ou de foyers représentatifs de la population nationale, qui ont accepté de participer à des enquêtes ponctuelles. Ils sont interrogés sur leurs pratiques, leurs opinions, leurs goûts et leurs préférences, pour des étu- des ad hoc (tests de produits, de concepts, études d’usages et d’attitudes, tracking, etc.). • Access panels on-line : recueil d’informations auprès d’internautes panélisés qui ont accepté de participer à des enquêtes ponctuelles. Le recrutement se fait le plus souvent via un site de recrutement sur Internet. Ils sont interrogés sur leurs pratiques, leurs opinions, leurs goûts, leurs préférences. Figure 1.2 Les sources de données. Données secondaires Données primaires Entreprise Hors-entreprise Observer Interroger Documents internes, intranet, rapports, salariés, données comptables, etc. Internet, gouvernement, panels, études commerciales, publications, interactions consommateurs, etc. Expérimentation, ethnographie, approches personnelles, etc. Entretiens en profondeur, focus groupes, questionnaires (on-line, face-à-face, téléphone, courrier), etc. Livre spss.book Page 8 Vendredi, 25. janvier 2008 12:04 12
  • 22.
    9Analyser pour décider 1Chapitre •Panels de distributeurs : recueil d’informations auprès d’un échantillon de points de vente afin de connaître les volumes, les prix de vente, les parts de marché de différentes marques d’un segment, d’évaluer la présence de la marque dans les différents canaux de distribution (distribution numérique, distribution valeur), de suivre les évolutions de la distri- bution, l’offre disponible dans les points de vente (linéaires accordés aux différentes mar- ques, ruptures, promotions), de mesurer l’impact sur les ventes d’une modification de l’offre (promotion, lancement, etc.). Infoscan Census (panel d’Information Resources Inc., IRI) est le premier du genre à abandonner la méthode de l’échantillon au profit d’une remontée exhaustive des magasins. • Panels d’audience : échantillon représentatif de foyers dont on mesure l’écoute des dif- férentes chaînes de télévision. Il n’existe qu’un seul panel depuis l’arrêt du panel Sofres- Nielsen : Mediamat, de Médiamétrie, panel de 3 100 foyers, soit 8 000 individus de 4 ans et plus équipés d’un audimètre. Les données primaires sont des données qui ont été collectées dans le but de résoudre le problème managérial propre à l’étude. Il s’agit de données brutes, qui doivent être prépa- rées, analysées puis interprétées (Hair et al., 2006). Dans ce cas, les cinq étapes de la démarche d’étude doivent être respectées. Ce chapitre étant consacré à l’étape de la col- lecte des données, les chapitres suivants aborderont l’analyse et l’interprétation des résul- tats pour une série de tests pouvant être mis en œuvre dans une démarche d’étude ou de recherche marketing. 2.2 L’ÉCHANTILLON Afin de bien illustrer les étapes d’un plan de sondage, un petit détour historique peut s’avérer intéressant. Tout commence aux États-Unis, lorsque Franklin D. Roosevelt se représente contre Alf Landon aux élections de 1936. Derrière les candidats, deux hommes s’affrontent pour pronostiquer le résultat de ces élections. D’une part Codely, rédacteur en chef du Lite- rary Digest, utilise la technique du vote de paille (straw vote) : quelques jours avant les élec- tions, il fait paraître des bulletins de vote dans son journal et demande à ses lecteurs de mentionner leur choix. Il reçoit 2,4 millions de réponses et donne Landon gagnant. D’autre part, Gallup, créateur de l’institut éponyme, n’interroge que 4 000 personnes et joue Roose- velt gagnant. La victoire de ce dernier marque la naissance des instituts de sondage. Gallup est le père de l’échantillon représentatif, le premier à avoir eu l’idée de reconstituer une population en miniature. Deux ans après, les sondages sont importés en France par Jean Stoetzel, philosophe et sociologue, créateur en 1938 de l’Institut français d’opinion publique (IFOP). Cette jeune pratique est construite autour de deux étapes principales : la définition de la population à étudier et la sélection de l’échantillon. La population à étudier doit être définie avec le plus grand soin (par exemple les clients d’une enseigne de distribution). Cette définition inclut celle des unités de sondage (l’indi- vidu détenant l’information) qui sont l’objet de l’observation. Dans de nombreux cas, en marketing, on ne se préoccupe pas de l’ensemble de la population mais plutôt des consommateurs de tel ou tel produit, ou catégorie de produits, qui constituent la cible des actions envisagées. Vient ensuite l’étape du choix de l’échantillon et de sa taille. Deux méthodes principales sont utilisées, dont l’objectif est de sélectionner un échantillon assurant la meilleure préci- sion possible des résultats au moindre coût (pour une description détaillée, voir Evrard et al., 2003). La méthode probabiliste, dans laquelle chaque individu de la population Livre spss.book Page 9 Vendredi, 25. janvier 2008 12:04 12
  • 23.
    10 Analyse dedonnées avec SPSS concernée a une probabilité connue d’appartenir à l’échantillon, permet d’obtenir des échantillons représentatifs. Généralement utilisée sur de grands échantillons, elle s’avère très coûteuse (l’Insee, par exemple, la pratique en France). Les méthodes non probabilis- tes (ou méthodes empiriques) permettent de constituer un échantillon résultant d’un choix raisonné qui vise à le faire ressembler à la population dont il est issu. Parmi ces méthodes, les instituts de sondages français recourent volontiers à la méthode dite des quotas, qui, bien que scientifiquement moins précise, moins fiable que la méthode aléa- toire, présente l’énorme avantage de pouvoir s’appliquer à des échantillons plus réduits, de coûter moins cher et d’être mise en œuvre beaucoup plus rapidement. Ainsi, un sondage au téléphone selon la méthode des quotas peut être réalisé en moins de 48 h. La figure 1.3 détaille les méthodes d’échantillonnage qui seront définies dans la section suivante. • Tirage au hasard : l’échantillon aléatoire consiste à tirer au hasard un individu de la population avec une probabilité connue et différente de zéro d’appartenir à l’échan- tillon. La connaissance de cette probabilité d’appartenance de l’individu à l’échantillon permet de calculer la marge d’erreur sur les résultats obtenus (voir focus 1.3). Ce type d’échantillonnage permet de protéger les utilisateurs des résultats contre une sélection biaisée de l’échantillon (même si les risques de biais dus au questionnaire et aux non- réponses subsistent). On parlera de tirage aléatoire simple si les individus qui compo- sent la population ne font l’objet d’aucun regroupement avant tirage. • Échantillonnage stratifié : dans le cas où les variables étudiées sont fortement disper- sées, c’est-à-dire dans ceux où des classes seraient sous- ou surreprésentées en raison du tirage au hasard, il peut s’avérer utile d’utiliser des variables dites de stratification, qui permettent de réaliser une répartition de la population en classes appelées « strates ». La stratification sera d’autant plus efficace pour améliorer la précision que les strates seront homogènes par rapport aux variables étudiées. Dans le cas d’une étude sur des points de vente, cette variable pourra être le fait d’être client ou non. • Méthode des quotas : cette méthode, la plus utilisée en France, reprend les principes de qualification de l’échantillonnage stratifié. Elle est moins coûteuse que les méthodes aléa- toires où l’enquêteur, en cas d’absence de la population, doit revenir/rappeler jusqu’à 3 ou Figure 1.3 Les méthodes d’échantillonnage. Échantillons probabilistes Échantillons non probabilistes Tirage au hasard Échantillonnage stratifié Méthode des quotas Méthode des itinéraires Échantillonnage de convenance Échantillonnage « boule de neige » Livre spss.book Page 10 Vendredi, 25. janvier 2008 12:04 12
  • 24.
    11Analyser pour décider 1Chapitre 4fois à l’adresse/au numéro qui lui a été indiqué. Cette méthode présente l’avantage de la simplicité : on choisit quelques caractéristiques dont on connaît la distribution statistique dans la population étudiée (par exemple, sexe, âge, catégorie socioprofessionnelle [CSP] du chef de famille), puis on donne à chaque enquêteur un plan de travail qui lui impose le respect de certaines proportions au sein des interviewés. Cette méthode, par opposition aux deux méthodes précédentes, donne des estimations biaisées car les différentes catégo- ries de population présentent des probabilitiés différentes et inconnues d’être touchées par un enquêteur. D’autre part, la méthode des quotas ne permet théoriquement pas de calculer les marges d’erreur associées aux résultats trouvés, comme une méthode aléatoire permet de le faire. • Méthode des itinéraires (ou random route) : dans une commune, par exemple, on impose à l’enquêteur un point de départ et un itinéraire à suivre, avec tirage systéma- tique des logements dans lesquels il doit effectuer des interviews (par exemple, interro- ger les foyers toutes les trois portes dans un immeuble). • Échantillonnage de convenance : il est conçu par l’enquêteur pour des raisons de pra- ticité. Il fait généralement appel à des personnes interceptées dans la rue, à la sortie des caisses en magasin, etc. C’est la moins coûteuse et la plus rapide de toutes les techniques d’échantillonnage mais elle présente de fortes limites : biais de sélection, non-représen- tativité. Il n’est donc théoriquement;pas significatif de généraliser les résultats. • Échantillonnage « boule de neige » : on choisit un premier groupe de répondants, au hasard généralement, puis on leur demande d’indiquer d’autres répondants potentiels appartenant à la population ciblée. Cette méthode peut être utile pour des enquêtes sur les leaders d’opinion par exemple. La détermination de la taille de l’échantillon est une étape cruciale en analyse de données. Un échantillon trop petit peut induire une perte d’informations importante ou empêcher la réalisation de nombreux tests soumis à des contraintes en termes de nombre d’observa- tions. À l’inverse, un échantillon trop important constitue une perte de temps et de budget dommageable pour la réussite de l’étude. Il est important de noter que la précision de l’information recueillie dépend principalement de la taille de l’échantillon et non du taux de sondage (défini par le rapport n/N, où n est la taille de l’échantillon et N celle de la population). Dans la pratique, les chargés d’études utilisent des abaques (feuilles de calcul) donnant la taille de l’échantillon en fonction du degré de précision des résultats que l’on veut obtenir. Certains professionnels des études considèrent qu’il n’y a pas de raison valable de travailler avec des échantillons de plus de 1 000 à 1 500 répondants. En effet, s’il est admis que la précision des résultats est influencée par la taille de l’échantillon, cette influence s’avère négligeable au-dessus de 1 500 observations. Pour trouver la taille adéquate de l’échantillon N, une règle empirique facile à appliquer – même si elle est contestable d’un point de vue purement statistique – consiste à partir de l’erreur, exprimée en pourcentage, que l’on est prêt à tolérer : N = 1/erreur2. Par exemple, si l’on accepte une erreur de +/–5 % au niveau de la précision des résultats, on obtient une taille d’échantillon de 1/0,052, soit 400 répondants. Les éléments liés à la précision de la mesure sont centraux en analyse de données. Nous détaillons la méthode de calcul de l’intervalle de confiance dans le focus 1.3. Les éléments de discussion dépendant du principe de test statistique seront abordés dans le chapitre 2. Livre spss.book Page 11 Vendredi, 25. janvier 2008 12:04 12
  • 25.
    12 Analyse dedonnées avec SPSS * Focus 1.3 • L’intervalle de confiance La précision statistique d’un test (proportion ou moyenne) s’exprime en calculant l’intervalle de confiance, qui indique la marge d’erreur lorsqu’on généralise une estimation obtenue sur un échantillon à l’ensemble de la population représentée. La longueur de l’intervalle diminue lors- que la taille de l’échantillon augmente. On retient la formule suivante pour calculer l’intervalle de confiance d’une proportion : où : p = pourcentage observé dans l’échantillon; q = 1 – p; z = valeur dérivée de la loi normale centrée réduite, égale à 1,96 si α = 0,05 (degré de confiance); π = pourcentage réel dans la population mère; n = taille de l’échantillon. L’intervalle de confiance d’une moyenne m sur n individus avec un écart type se calcule de la manière suivante : Prenons l’exemple suivant : un sondeur réalise une étude d’audience par téléphone pour connaître les caractéristiques sociodémographiques et les comportements – notamment en ter- mes de dépenses en SMS – des téléspectateurs de la Super Star, émission de télé-réalité diffu- sée en prime time sur le câble et le satellite. Il sélectionne 1 000 numéros de téléphone par tirage aléatoire simple dans la base de données des abonnés de la chaîne (qui en compte 120 000 sur le câble et 2 100 000 sur le satellite). On pose l’hypothèse que les 1 000 person- nes répondent effectivement aux enquêteurs. On constate que l’émission absorbe 36,8 % de l’audience des personnes interrogées de moins de 35 ans, et que le montant moyen dépensé par cette cible en SMS et appels téléphoniques est de 6,2 €, avec un écart type de 2,2 €. Le montant moyen dépensé par ces abonnés est de : Soit : 6,06 6,33 L’audience moyenne des abonnés de moins de 35 ans est de : Soit : 33,6 % 39,7 % Le sondage réalisé permet donc d’estimer cette proportion avec une précision absolue de 3,2 % (au degré de confiance 0,95). p z pq n p z pq n − ≤ ≤ +π m z n m z n − ≤ ≤ + σ π σ 6 2 1 96 2 2 1000 6 2 1 96 2 2 1000 , , , , , , − ≤ ≤ +π ≤ ≤π 0 368 1 96 0 368 0 632 1000 0 368 1 96 0 368 0 632 1000 , , ( , * , ) , , ( , * , ) − ≤ ≤ +π ≤ ≤π Livre spss.book Page 12 Vendredi, 25. janvier 2008 12:04 12
  • 26.
    13Analyser pour décider 1Chapitre SPSSSPSS permet également d’estimer l’intervalle de confiance d’une mesure. L’exemple retenu ici servira de fil rouge tout au long de cet ouvrage. Une enseigne de grands magasins sou- haite ouvrir un nouveau point de vente, mais elle ne le fera que si le potentiel de marché est suffisant. Une enquête a donc été réalisée sur 400 répondants, en face-à-face. Parmi les questions posées, les enquêteurs ont relevé l’intérêt des répondants pour l’ouverture du nou- veau point de vente, ainsi que le montant qu’ils seraient prêts à dépenser. Il est possible d’identifier l’intervalle de confiance d’une moyenne avec SPSS en utilisant la procédure du test t pour échantillon unique. Ouvrez le fichier exemple « pointdevente.sav » disponible comme tous les fichiers d’exerci- ces sur le site de l’ouvrage 1. Allez dans le menu Analyse > Comparer les moyennes > Test T pour échantillon unique… Une boîte de dialogue s’affiche (voir figure 1.4). Faites glisser dans la boîte de dialogue la variable à tester montant qui correspond à la question suivante : « Quel montant moyen dépensez-vous par mois dans ce type de point de vente ? » L’analyse donne les résultats présentés à la figure 1.5. Le premier résultat donne le nombre de répondants, la moyenne, l’écart type et l’erreur stan- dard. Le second résultat donne l’intervalle de confiance pour un degré de confiance de 95 % qui se situe entre 144,55 € et 162,46 € (voir figure 1.6). Les éléments d’interprétation liés à la théorie des tests statistiques seront approfondis au chapitre 2. 1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr. Figure 1.4 Test t pour échantillon unique sous SPSS. Figure 1.5 Statistique sur échantillon unique. Figure 1.6 Test sur échantillon unique. Livre spss.book Page 13 Vendredi, 25. janvier 2008 12:04 12
  • 27.
    14 Analyse dedonnées avec SPSS Notons également qu’un des modules de SPSS (SamplePower) permet d’optimiser la combi- naison entre la puissance du test, l’intervalle de confiance et la taille de l’échantillon. L’approche est fondée sur des tests de moyenne et de différences de moyennes, des tests de proportions et de différences de proportions, des analyses de variance, entre autres. 2.3 LA NOTION DE VARIABLE Le principe de modélisation, sous-jacent à l’analyse des données, impose de définir la notion de variable. La modélisation est entendue ici comme la réalisation d’une représen- tation simplifiée d’un phénomène, la variable étant l’expression du caractère observé dans la population. La formulation la plus simple d’un modèle vise à définir une relation de cause à effet entre deux natures de variables : les variables indépendantes (ou variables explicatives) et les variables dépendantes (ou expliquées). Dans ce modèle simple, la varia- ble indépendante représente la cause, dont l’effet se mesure sur la variable dépendante (voir figure 1.7). Ce modèle permet, par exemple, de représenter le lien entre la fréquence d’achat et la fidélité au point de vente. D’autres variables peuvent intervenir dans cette relation directe entre la (ou les) varia- ble(s) indépendante(s) et la (ou les) variable(s) dépendante(s) [Thiétart et al. 1999, p. 339]. Dans le premier cas, l’effet de la variable indépendante X sur la variable dépendante Y se mesure par l’intermédiaire d’une troisième variable dite « médiatrice ». L’association ou la causalité observée entre X et Y résulte du fait que X influence Z qui à son tour influence Y. Cette variable Z – le montant dépensé par exemple – peut intervenir dans la relation entre la fréquence d’achat et la fidélité au magasin. Dans le second cas, la présence de la variable modératrice modifie l’intensité (c’est-à-dire l’amplifie ou la dimi- nue) et/ou le signe de la relation entre la variable indépendante et la variable dépendante. On pourra mesurer l’effet de cette variable modératrice par exemple en décomposant la population en sous-populations (classes d’âge, segments de clients, etc.) et en testant la relation dans les sous-groupes pour y vérifier le type d’effet (voir figure 1.8). Les tests statistiques mis en œuvre pour mesurer ces relations seront sélectionnés en fonc- tion de l’objectif de l’enquête (voir section 3 : Mesurer à l’aide d’un questionnaire) et en fonction des variables collectées. Les variables sont de deux types : • qualitatives : leurs modalités, c’est-à-dire la manière dont les observations sont regrou- pées, ne peuvent être calculées; Figure 1.7 Relation causale simple. Figure 1.8 Effets médiateur et modérateur. Livre spss.book Page 14 Vendredi, 25. janvier 2008 12:04 12
  • 28.
    15Analyser pour décider 1Chapitre •quantitatives : leurs modalités sont mesurables et les tests envisageables sont nom- breux. Le marketing et plus largement les sciences sociales s’intéressent également à la mesure de phénomènes mentaux, telles les opinions, les attitudes ou encore les préférences, au tra- vers d’indicateurs : les échelles de mesure. Ces dernières ont pour objet de fournir au répondant un support d’expression de ces phénomènes complexes à observer, le plus sou- vent sous la forme d’échelles de notation : • L’échelle nominale a pour principe d’utiliser les nombres comme des étiquettes afin de classer chacune des modalités. Les échelles nominales peuvent être utilisées pour iden- tifier des classes d’individus. Par exemple, on peut utiliser la nomenclature des catégo- ries socioprofessionnelles (CSP) ou encore identifier des marques lors d’une étude de notoriété assistée, identifier des attributs de produits. Dans l’échelle nominale, chacune des modalités de la variable est équivalente aux autres. Exemple : Êtes-vous? 1. Un homme 2. Une femme • L’échelle ordinale est une échelle de classement comme l’échelle nominale, dans laquelle les nombres attribués à chaque modalité ont une relation d’ordre avec un continuum sous-jacent. On peut, par exemple, utiliser une échelle ordinale pour classer des préférences de marques. L’échelle ordinale permet en effet de déterminer les rela- tions d’ordre en calculant les fractiles, les déciles et les médianes à partir de ces données (voir chapitre 2). Exemple : Notez de 1 à 5 la qualité gustative du produit X (1 étant la note la plus faible, 5 la note la plus élevée) : • L’échelle métrique possède les propriétés des échelles nominale et ordinale, mais elle permet également de comparer les distances entre les objets, les modalités étant sépa- rées par des espaces équidistants. L’exemple le plus courant est celui du thermomètre, la différence entre 0 ˚C et 1 ˚C étant la même qu’entre 1 ˚C et 2 ˚C, etc. L’échelle métrique est la plus couramment utilisée en marketing, même si pour ces mesures d’attitudes les intervalles ne sont pas toujours équidistants. Appartiennent à cette catégorie, l’échelle de différentiel sémantique d’Osgood ou l’échelle de Stapel, qui ont pour but de conduire à l’élaboration de profils de répondants, l’échelle d’intensité de Likert ou échelle d’accord, les échelles d’intention. Exemples : Échelle d’Osgood Avez-vous trouvé que le goût du produit X était? 1 2 3 4 5 Mauvais 1 2 3 4 5 Bon Livre spss.book Page 15 Vendredi, 25. janvier 2008 12:04 12
  • 29.
    16 Analyse dedonnées avec SPSS Échelle de Stapel Choisissez un nombre positif si vous pensez que le mot décrit bien le produit X, un nombre négatif si vous pensez que le mot ne décrit pas bien le produit X, en notant de +5 à –5 : Échelle de Likert Échelle d’intention Si la marque M lançait ce type de produit : SPSS Dans SPSS, ces trois types de variables (nominale, ordinale et métrique) doivent être définis dans la partie Affichage des variables de l’éditeur de données (lorsque le fichier a été ouvert), dans la colonne Mesure. (3) Mesurer à l’aide d’un questionnaire La construction d’un questionnaire amène à s’interroger sur la mesure des concepts. Com- ment mesurer, par exemple, la qualité du service? Même en cas d’études se fondant sur une seule question pour mesurer un concept, il est recommandé d’avoir recours à des échelles de mesure. L’objectif d’une échelle est d’éviter d’avoir à représenter un phénomène abstrait – un construit – par le biais d’une seule et unique variable, en privilégiant l’utilisa- tion d’indicateurs qui permettent de représenter les différentes facettes de ce construit.Ainsi, un chargé d’étude qui chercherait à mesurer la satisfaction vis-à-vis d’une marque pourrait poser une question unique : « Êtes-vous satisfait? » et fonder son analyse sur cette seule réponse. De manière évidente, le fait de développer une mesure de la satisfaction à partir d’un ensemble d’items (de libellés) dont on sait (par des études préalables ou par le biais de la théorie) qu’ils mesurent correctement la satisfaction, permet de collecter des réponses mieux orientées et d’estimer la fiabilité de la mesure effectuée, non plus à partir d’une réponse mais plutôt à partir d’une forme de réponse « moyenne » à une série de questions associées. On mesurera donc la satisfaction en interrogeant des clients sur la satisfaction glo- bale, la propension à recommander le produit et la probabilité de réachat par exemple. Bon …. Utile …. Pratique …. etc. (Pas du tout d’accord) 1 2 3 4 5 (Tout à fait d’accord) Je n’achèterai certainement pas ce produit 1 2 3 4 5 J’achèterai certainement ce produit Livre spss.book Page 16 Vendredi, 25. janvier 2008 12:04 12
  • 30.
    17Analyser pour décider 1Chapitre Ainsi,il est généralement recommandé d’utiliser plusieurs items pour mesurer un concept et donc de commencer par chercher s’il existe un outil de mesure du concept que l’on sou- haite évaluer. S’il n’existe pas d’échelle (parce que le concept est nouveau ou qu’il s’appli- que à un domaine particulier), il faut en créer une. 3.1 LE DÉVELOPPEMENT DES OUTILS DE MESURE Churchill, qui est souvent pris comme référence dans la construction d’échelles de mesure, précise que, pour remplir son véritable rôle, « le questionnaire doit susciter et maintenir l’intérêt du répondant » (Churchill, 1998, p. 343). Pour ce faire, le chargé d’étude doit se poser un certain nombre de questions afin de limiter divers biais. Ces ques- tions sont présentées à la figure 1.9. La forme du questionnaire et son mode d’administration ne sont pas neutres. L’introduc- tion du questionnaire doit présenter les objectifs de l’étude et préciser le caractère confi- dentiel de l’enquête. Une phrase d’accroche peut rassurer le répondant et l’inciter à répondre de manière authentique. Le choix du contenu des questions est une étape fondamentale. Il est recommandé de définir le cadre conceptuel dans lequel se situent l’étude et les concepts de base, à l’aide d’une revue de la littérature. L’étude des articles académiques et des ouvrages déjà parus sur le sujet per- met d’approfondir la définition du concept étudié. Cette étape permet aussi de trouver des instruments de mesure préexistants qui peuvent être réutilisés, traduits ou encore adaptés. On utilise la plupart du temps des échelles de mesure préexistantes. Afin de valider dans un contexte français ces instruments de mesure (souvent anglo-saxons), un certain nombre d’étapes doivent être respectées (voir focus 1.4). * Focus 1.4 • La traduction d’échelles de mesure Il existe différentes méthodes pour traduire un questionnaire : • la méthode traditionnelle : le chercheur effectue seul la traduction ou avec l’aide de traduc- teurs professionnels. Cette méthode est peu recommandée si le chercheur n’est pas parfaite- ment bilingue ou si les traducteurs sont extérieurs au domaine de la recherche; • la méthode du comité : le chercheur réunit un ensemble de chercheurs qui maîtrisent parfai- tement la langue et qui sont spécialistes de son domaine de recherche. Tous les items sont traduits. Le problème de cette méthode est qu’il est difficile de réunir un tel comité d’experts; Figure 1.9 Les étapes du développement du questionnaire. 1. Le type de questionnaire et son mode d’administration 2. Le contenu des questions individuelles 3. La forme de réponse à chaque question 4. La formulation de chaque question 5. La séquence des questions 6. Les caractéristiques physiques du questionnaire 7. Le prétest du questionnaire Livre spss.book Page 17 Vendredi, 25. janvier 2008 12:04 12
  • 31.
    18 Analyse dedonnées avec SPSS • la rétro-traduction : des chercheurs bilingues sont sollicités pour traduire le questionnaire. Les traductions sont ensuite remises à des chercheurs dont la langue d’origine est celle du questionnaire, afin qu’ils le traduisent. Cette dernière version est ensuite comparée avec la version originale pour repérer les éventuelles différences. Lorsque le chargé d’étude ne trouve pas d’échelle et souhaite développer son propre outil de mesure, il est préconisé de réaliser une étude exploratoire (entretiens, méthode des incidents critiques…). Par exemple, une recherche sur la satisfaction au travail des com- merciaux fait ressortir plusieurs composantes : les relations avec les pairs, avec la hiérar- chie, avec les clients, etc. Une étude qualitative a ainsi été réalisée auprès d’un échantillon de 30 vendeurs, auxquels on demandait ce qui les satisfaisait dans leur travail. À partir de la définition retenue, on dresse ensuite une liste d’items à partir de la littérature (items préexistants empruntés à d’autres échelles ou adaptés) ou à partir d’une étude de terrain exploratoire (extraction de verbatims 1). Le pool d’items est ensuite soumis à un ou deux panels d’experts (chercheurs ou praticiens du domaine) qui éliminent les énoncés ne leur paraissant pas adéquats à la mesure du concept. Il s’agit ici d’évaluer ce que l’on appelle la « validité faciale du concept » (voir chapitre 3). Nous avons présenté au point 2.3 les différentes formes possibles d’échelles. Dans un souci de neutralité et de symétrie, il faut veiller à ce que l’équilibre des réponses positives vs négatives autour du point médian placé au centre soit respecté. Le choix du nombre d’alternatives de réponse se fait par arbitrage : l’attention des répondants faiblit aussi avec le nombre de questions et de modalités de réponses. En ce qui concerne la formulation et la séquence des questions, il est généralement recom- mandé d’alterner l’ordre des questions et le sens des interrogations, afin de limiter les effets de lassitude, de halo ou de contamination. L’effet de halo se manifeste lorsqu’une suite de questions est posée dans le même sens : la personne interrogée peut alors avoir tendance à répondre toujours de la même manière alors que l’effet de contamination concerne l’influence directe d’une question sur les questions suivantes. Enfin, il est très important de tester le questionnaire avant de l’administrer, d’une part, pour vérifier que toutes les questions sont bien comprises et qu’elles n’engendrent pas de blocage et, d’autre part, afin de tester le temps nécessaire pour y répondre. Une ving- taine de répondants peuvent s’avérer nécessaires pour effectuer ce type de prétest de compréhension. 3.2 LE CONCEPT DE MESURE L’acte de mesurer est l’opération par laquelle on fait correspondre à une donnée collectée une grandeur considérée comme capable de représenter le phénomène décrit par la don- née. Cette opération est affectée par un certain nombre d’éléments qui éloignent la mesure idéale de la mesure obtenue. Le modèle de la vraie valeur (Evrard et al., 1997, p. 287) consiste à décomposer le résultat d’une mesure en ses différents éléments : la vraie valeur (censée représenter la mesure parfaite) et les termes d’erreur (erreur aléatoire et erreur systématique), comme le montre l’équation suivante : 1. L’extraction de verbatims fait partie des stratégies d’analyse d’un corpus textuel (type retranscriptions d’entretiens). Les verbatims permettent de nourrir l’analyse de citations des personnes interrogées. Livre spss.book Page 18 Vendredi, 25. janvier 2008 12:04 12
  • 32.
    19Analyser pour décider 1Chapitre M(mesure obtenue) = V (vraie valeur) + Es (erreur systématique) + Ea (erreur aléatoire) La vraie valeur est la mesure « idéale », c’est-à-dire celle qui correspondrait parfaitement au phénomène étudié. Elle est le plus souvent impossible à atteindre. L’erreur systéma- tique (ou biais) provient du fait que l’instrument de mesure peut présenter un écart systé- matique avec le phénomène étudié (par exemple, un biais lié au manque de clarté de l’échelle, à une surcharge du questionnaire, etc.). L’erreur aléatoire provient du fait que le phénomène mesuré par l’instrument peut être affecté par des aléas tels que la fatigue du répondant, l’humeur, etc. Ces termes d’erreur ajoutent du « bruit » aux variables observées; la mesure obtenue contient donc à la fois la « vraie valeur » de la mesure et le « bruit ». Lorsque l’on mesurera des corrélations ou des moyennes, par exemple, l’effet mesuré sera partiellement masqué par l’erreur de mesure, ce qui entraîne un affaiblisse- ment de l’intensité des corrélations mesurées ou une moindre précision de la moyenne calculée. L’analyste doit donc s’interroger sur la qualité de l’instrument de mesure qu’il construit et met en œuvre. La validation d’un questionnaire, par exemple, consistera donc à tester les instruments de mesure utilisés (Hair et al., 1998, p. 117-118). Ces outils de mesure doivent répondre à deux critères principaux : la fiabilité et la validité. La fiabilité renvoie à la cohérence entre les indicateurs censés mesurer le même concept, alors que la validité dési- gne la capacité d’un instrument de mesure à appréhender un phénomène. • La validité : les instruments de mesure choisis doivent permettre d’appréhender le mieux possible le phénomène à mesurer. Il s’agit de réduire l’ensemble des termes d’erreur afin d’être en mesure de répondre à la question suivante : « Mesure-t-on bien ce que l’on cherche à mesurer? ». • La fiabilité : après s’être assuré de la validité des instruments de mesure, l’analyste peut envisager la fiabilité des mesures, en d’autres termes le fait que si l’on mesure un phéno- mène plusieurs fois avec le même instrument, on doit obtenir le même résultat. Il s’agit de s’assurer de la cohérence interne de l’instrument. Ce problème est concerné par l’erreur aléatoire. De plus, après avoir diminué les erreurs de mesure par l’amélioration de chacune des variables, l’analyste doit chercher à développer des mesures multiples, autrement dit des représentations de construits cohérentes, à travers ce que l’on nomme des échelles, soit l’association de plusieurs variables dans la mesure composite d’un phénomène (voir chapitre 3). 3.3 STRATÉGIES D’ANALYSE L’analyse des données n’est pas une fin en soi; elle a pour objectif d’aider à prendre une déci- sion sur la base d’une information fiable et valide. Une stratégie d’analyse doit donc être définie afin de procéder à la modélisation d’un ou de plusieurs phénomènes. Cette stratégie repose sur la mise en lumière progressive des résultats et la complémentarité des techniques utilisées, dues à la nature des données et aux propriétés des tests envisagés. Les hypothèses qui sous-tendent les différents tests doivent être vérifiées : certaines techniques seront utiles pour étudier les différences entre variables, d’autres pour mettre en évidence leur dépen- dance, d’autres encore visent à classer les individus, etc. Toutes ces hypothèses seront abor- dées lorsque nous détaillerons l’ensemble de ces tests dans les chapitres suivants. Livre spss.book Page 19 Vendredi, 25. janvier 2008 12:04 12
  • 33.
    20 Analyse dedonnées avec SPSS D’une manière générale, il est possible de représenter l’ensemble de ces techniques d’ana- lyse en trois phases successives (voir figure 1.10). L’analyse univariée consiste à examiner la distribution des modalités de réponse pour une variable : dans le cas d’une variable nominale, par exemple, il s’agit d’un tri à plat, c’est-à- dire le dénombrement des observations correspondant à chaque modalité de la variable. L’analyse bivariée consiste à étudier les relations entre deux variables. Dans le cas de variables nominales, il s’agira d’un tableau croisé dénombrant les nombres d’observations correspondant à chaque combinaison possible des deux variables, ou plus généralement de mesures d’association quantifiant la relation (par exemple coefficient de corrélation pour des variables métriques). L’analyse multivariée permet de dépasser les techniques précédentes en ce sens qu’elle laisse de côté la parcellisation de l’information induite par ces techniques. En effet, si le nombre de variables est élevé, il est difficile de prendre en compte l’ensemble des combinaisons possibles. L’analyse multivariée permet donc le trai- tement simultané de plusieurs variables. L’ambition du chargé d’étude quant au traitement statistique peut se situer à deux niveaux : • décrire les données : il s’agira par exemple de décrire une variable (moyenne, tris), de rechercher des différences entre les modalités d’une ou de plusieurs variables (test sta- tistique) ou encore de synthétiser et de visualiser un ensemble d’informations (analyse factorielle, typologie par exemple); • expliquer les données : chaque méthode a ses exigences spécifiques en matière de pro- priété des variables (voir tableau 1.4). Figure 1.10 Les stratégies d’analyse. Source : adapté de Evrard et al., 2003. Tableau 1.4 : Panorama des méthodes envisageables Méthodes descriptives Variables Nominale Ordinale Métrique Variable Analyse factorielle des correspondances Analyse factorielle Individu Typologie 1 Univariée Tris à plat/description de l’échantillon/recodage 2 Bivariée Tris croisés/mesures d’association 3 Multivariée Descriptive : par groupes de variables Explicative : entre groupes Livre spss.book Page 20 Vendredi, 25. janvier 2008 12:04 12
  • 34.
    21Analyser pour décider 1Chapitre Méthodesexplicatives D’une manière générale, on peut classer les méthodes selon trois dimensions : • descriptif/explicatif : c’est la dimension principale en ce qui nous concerne, et celle qui structure les chapitres suivants. Les méthodes descriptives ont pour but de représenter les données ou les observations (fréquences et tris croisés : chapitre 2; analyses factorielles : chapitre 3; typologie : chapitre 4), tandis que les méthodes explicatives ont pour objet la modélisation, autrement dit la liaison entre deux phénomènes (analyse de variance : chapitre 5; régressions : chapitre 6; analyse conjointe : chapitre 7). Plus précisément – et c’est la raison pour laquelle nous faisons le lien ici avec ce qui a été évoqué lorsque nous avons précisé la notion de variable –, les méthodes explicatives traitent des relations entre deux sous-ensembles de variables : les variables à expliquer, dont on cherche à déterminer les variations; les variables explicatives, qui contribuent à cette explication. • types de variables traitées : cette dimension doit être prise en compte très en amont, lors de la création de l’instrument de mesure. En effet, le recueil de données impose automatiquement une contrainte quant aux traitements envisageables, lesquels doivent donc être anticipés. Le tableau 1.4 reprend bien les méthodes envisageables suivant les types de variables traitées. Il est important de garder à l’esprit que ces méthodes d’ana- lyse de données ont été essentiellement développées dans des disciplines où les données sont majoritairement métriques. Le marketing reposant sur des variables principale- ment non métriques, il a été nécessaire d’adapter les méthodes d’analyse en introdui- sant des variables nominales dans des méthodes utilisant habituellement des variables métriques (régression avec variables binaires) ou en créant des méthodes utilisant ces variables qualitatives comme, par exemple, l’analyse des correspondances très popu- laire en marketing; • nombre de variables traitées : les méthodes descriptives ne sont limitées en termes de variables à traiter que par les capacités des logiciels utilisés. Les outils récents comme Variables indépendantes Une variable dépendante Nominale Ordinale Métrique Nominale Logit Régression logistique Analyse discriminante Ordinale Analyse conjointe Logit ordonné Métrique Analyse de variance Plusieurs variables dépendantes Nominale Ordinale Métrique Nominale Modèles log-linéaires Métrique Équations structurel- les Livre spss.book Page 21 Vendredi, 25. janvier 2008 12:04 12
  • 35.
    22 Analyse dedonnées avec SPSS SPSS ou SAS permettent de traiter de très larges volumes de données, et un nombre très élevé de variables. La plupart des méthodes explicatives ne peuvent traiter qu’une seule variable dépendante (ou à expliquer). Seules l’analyse canonique, l’analyse discrimi- nante multiple et les analyses multivariées de la variance (MANOVA) et de la cova- riance (MANCOVA) permettent de traiter plusieurs variables dépendantes. Ces dernières seront abordées dans le chapitre 5. Nous pouvons compléter notre tour d’horizon de la mise en œuvre des principales méthodes d’analyse de données envisageables en marketing par quelques critères complémentaires : • l’accent sur les individus ou les variables (la typologie est plus fréquemment utilisée pour classer des individus alors que l’analyse factorielle est associée aux variables); • la linéarité (la régression par exemple implique des hypothèses de linéarité des rela- tions entre les variables étudiées, alors que la segmentation ou la typologie peuvent s’affranchir de ces hypothèses); • l’aspect paramétrique ou non paramétrique (on suppose dans de nombreux tests que les variables suivent des lois de distribution théoriques dépendant d’un nombre fini de paramètres – loi normale ou multinormale par exemple; le chargé d’étude devra donc s’assurer que ces hypothèses implicites ont été satisfaites avant de réaliser les tests). Résumé L’analyse de données en marketing doit être au service de la prise de décision. Ce qui implique de respecter une démarche rigoureuse faisant le lien entre le problème qui se pose au décideur et la méthode à mettre en œuvre. Cette démarche de recherche, de col- lecte, d’analyse et d’interprétation de l’information définit un marketing plus analytique, orienté vers une logique d’optimisation (Lilien et al., 2007). Aujourd’hui, le chargé d’étu- des dispose d’un vaste éventail de méthodes, Internet ayant fait évoluer la place tradition- nellement dévolue aux approches quantitative et qualitative – approches qui semblent désormais converger grâce, notamment, à l’importance nouvelle accordée aux données secondaires. Une fois les données collectées, l’analyste doit prendre en compte les éléments liés à la précision de la mesure qu’il souhaite développer, afin de construire un instrument fiable et valide. Il mettra ensuite en place une stratégie d’analyse reposant sur la mise en lumière progressive des résultats et la complémentarité des techniques utilisées, dues à la nature des données et aux propriétés des tests envisagés. Pour aller plus loin Sur les études de marché : Giannelloni J. C., Vernette E., Les Études de marché, Broché, Paris, 2001. Sur la démarche de recherche en marketing : Evrard Y., Pras B., Roux E., Market. Études et recherche en marketing, Nathan, Paris, 2003. Malhotra N., Decaudin J. M., Bouguerra A., Études marketing avec SPSS, 5e éd., Pearson Education, Paris, 2007. Livre spss.book Page 22 Vendredi, 25. janvier 2008 12:04 12
  • 36.
    23Analyser pour décider 1Chapitre Exercices EXERCICE1 QUAND PAMPERS COLLECTE DES DONNÉES * Solution 1. Le principal intérêt de la démarche de Pampers est de mettre le consommateur au cen- tre du processus de collecte de données. La méthode utilisée est à l’évidence qualitative. Elle permet d’étudier en profondeur les processus de consommation en interrogeant les parents, plus particulièrement les mères, et en observant les interactions mère-enfant. De plus, en simulant les attitudes et les comportements des bébés, elle permet surtout d’immerger les salariés du groupe dans la peau de jeunes enfants à différents stades de leur évolution. Nous sommes ici dans une démarche orientée marché, où la dissémination de l’information sur les consommateurs vers l’ensemble de l’organisation tient une place importante. Deux méthodes sont donc principalement utilisées : une expérimentation à Scwallbach, où les chercheurs peuvent observer et tester les comportements des bébés; l’ethnographie en France, où les marketeurs font des séjours d’immersion dans des familles. Des outils quantitatifs d’enquête classiques prennent ensuite le relais à partir des données collectées dans les maternités. 2. Deux dimensions doivent être prises en considération. Les données issues des appro- ches qualitatives font l’objet d’analyses de plusieurs ordres : des analyses de contenu par exemple, afin de faire émerger des thèmes, des discours, mais également un traitement des • Énoncé À Scwallbach, près de Francfort en Allemagne, plus de 1500 mères de famille fréquentent chaque semaine le centre d’innovation de Procter & Gamble. Elles viennent prendre des couches pour les tester et remplissent, en échange, des questionnaires. Dans l’espace de jeu à disposition, des chercheurs étudient les attitudes et comportements de bébés venus s’y amuser une partie de leur journée. Plus loin, des pièces au sol très mou – pour simu- ler la marche d’un tout petit –, et aux meubles géants, mettent les salariés du groupe dans la peau de jeunes enfants à différents stades de leur évolution. En France, les salariés en charge du marketing peuvent faire des « séjours d’immersion » dans des familles avec bébés, se levant la nuit avec les parents. Cette approche visant à scruter les usages et leur évolution s’inscrit dans une nouvelle démarche qui commence avec la traditionnelle boîte remise à la maternité. Des mailings prennent ensuite le relais. Les parents d’un pre- mier enfant sont en général avides d’informations : un site internet de la marque Pam- pers met en avant conseils et données, des jeux en ligne – très appréciés – pour se mettre dans la peau d’un bébé, nourrissant débats, échanges, autant d’informations étudiées de près par les spécialistes de la marque. 1. Quel est le principal intérêt de la démarche de Pampers? Quelle est la méthode utili- sée, et quels en sont les principaux avantages? 2. Comment, à votre avis, les équipes de Pampers valorisent-elles les données collectées? Selon vous, à quels outils d’analyse ont-elles recours? 3. Quel type de méthode, complémentaire, pourraient-elles mettre en place? Argumentez. Livre spss.book Page 23 Vendredi, 25. janvier 2008 12:04 12
  • 37.
    24 Analyse dedonnées avec SPSS données issues de l’expérimentation où il s’agit d’observer l’impact sur certaines variables d’une variable dont on contrôle les effets. Pour traiter des données d’expérimentation, on pourra utiliser l’analyse de variance (voir chapitre 4) ou l’analyse conjointe (voir chapitre 7), par exemple, en fonction des contraintes liées à la nature des variables. 3. Les données issues de la campagne de marketing direct et provenant du site de marque sont d’une grande richesse et peuvent nourrir de nombreuses analyses. On peut étudier les retours de la campagne de marketing direct en mettant en relation les profils sociodémo- graphiques des parents ayant reçu la boîte d’échantillons avec la probabilité d’achat. En ce qui concerne le site internet, les fichiers logs, ou fichiers regroupant l’ensemble des événe- ments survenus sur un serveur, peuvent servir de base à des analyses poussées, comme le fait Amazon.com pour customiser sa page d’accueil en fonction des profils de navigation des internautes. EXERCICE 2 L’AUDIENCE DE LA SUPER STAR * Solution 1. Si l’on avait interrogé 5 000 abonnés de la chaîne, on aurait calculé l’intervalle de confiance de la manière suivante : p = 0,368 q = 1 – p = 0,632 Soit : 35,4 % 38,1 % Le sondage réalisé permet donc d’estimer cette proportion avec une précision absolue de 2,99 % (au degré de confiance 0,95). En augmentant la taille de l’échantillon, on diminue l’amplitude de l’intervalle de confiance. • Énoncé Reprenons l’exemple de la mesure d’audience utilisée pour illustrer l’intervalle de confiance. Un sondeur réalise une étude d’audience par téléphone pour connaître les caractéristiques sociodémographiques et les comportements des téléspectateurs de la Super Star, émission de télé-réalité diffusée en prime time sur le câble et le satellite. Il sélectionne 1 000 numéros de téléphone par tirage aléatoire simple dans la base de données des abonnés de la chaîne (qui en compte 120 000 sur le câble et 2 100 000 sur le satellite). On pose l’hypothèse que les 1 000 personnes répondent effectivement aux enquêteurs. On constate que l’émission absorbe 36,8 % de l’audience des personnes interrogées de moins de 35 ans, et que le montant moyen dépensé par cette cible en SMS et appels téléphoniques est de 6,2 €, avec un écart type de 2,2 €. 1. Quel aurait été l’intervalle de confiance si l’étude d’audience avait porté sur 5 000 abonnés de la chaîne? 2. Un annonceur souhaite investir en devenant sponsor de l’émission à condition qu’elle réalise 40 % d’audience sur les moins de 35 ans. Lui recommanderiez-vous l’investis- sement publicitaire? Livre spss.book Page 24 Vendredi, 25. janvier 2008 12:04 12
  • 38.
    25Analyser pour décider Exercices 1Chapitre 2.Dans le cadre de la première étude d’audience, l’intervalle de confiance se situait entre 33,8 % et 39,7 % (au degré de confiance 0,95). La borne supérieure restant en deçà de la mesure plancher souhaitée par l’annonceur, il n’est donc pas souhaitable de réaliser l’inves- tissement publicitaire. Il peut être intéressant de refaire le calcul pour un degré de confiance plus faible, à 0,90 (z = 1,64), à titre d’illustration. On obtient alors les résultats suivants : Soit : 34,3 % 39,3 % EXERCICE 3 L’ENQUÊTE « POINT DE VENTE » • Énoncé Reprenons l’exemple sur les points de vente que nous avons utilisé dans la section 2.2 (pointdevente.sav). Si l’on résume l’ensemble des questions de l’enquête dans le tableau suivant, on obtient : • Fréquentez-vous ce point de vente au moins toutes les deux semaines? • Quel montant moyen dépensez-vous par mois dans ce type de point de vente? • Seriez-vous prêt à faire vos achats dans ce (nouveau) point de vente? • À combien estimez-vous le prix moyen d’une paire de chaussures dans ce point de vente? • Vous décririez-vous comme un auditeur régulier de radio? • Quel type de programme de radio écoutez-vous le plus souvent? • Regardez-vous régulièrement le journal télévisé? • Quel journal TV regardez-vous le plus fréquemment? • Lisez-vous la presse quotidienne? • Quelle rubrique de presse quotidienne lisez-vous le plus souvent? • Êtes-vous abonné à un titre de presse magazine? • La décoration de la boutique est importante à mes yeux. • Je préfère un point de vente situé à moins de 30 minutes de chez moi. • Je préfère être conseillé(e) par des vendeurs(ses). • J’aime que les collections soient originales. • J’aime qu’il y ait de nombreuses références dans les collections. • J’aime qu’il y ait des marques connues dans les collections. • Je préfère une décoration sobre. • Je préfère une décoration sophistiquée. • Je préfère une musique d’ambiance classique. • Je préfère une musique d’ambiance rock. • Quelle est votre année de naissance? • Quel est votre niveau d’étude? Livre spss.book Page 25 Vendredi, 25. janvier 2008 12:04 12
  • 39.
    26 Analyse dedonnées avec SPSS * Solution 1. Vous pouvez reprendre le tableau en y incluant le type de variable. • Quel est votre statut marital? • En incluant les enfants de moins de 18 ans, quelle est la taille de votre foyer? • Quels sont approximativement les revenus de votre foyer? • Quel est votre sexe? • Possédez-vous une carte de fidélité de l’enseigne? 1. Décrivez le type d’échelle associé à chacune des questions du tableau. 2. Donnez trois exemples de tests que vous pourriez mettre en œuvre à partir de ces variables. Fréquentez-vous ce point de vente au moins toutes les deux semaines? Nominale Quel montant moyen dépensez-vous par mois dans ce type de point de vente? Numérique Seriez-vous prêt à faire vos achats dans ce (nouveau) point de vente? Échelle métrique À combien estimez-vous le prix moyen d’une paire de chaussures dans ce point de vente? Numérique Vous décririez-vous comme un auditeur régulier de radio? Nominale Quel type de programme de radio écoutez-vous le plus souvent? Nominale (échelle) Regardez-vous régulièrement le journal télévisé? Nominale Quel journal TV regardez-vous le plus fréquemment? Nominale (échelle) Lisez-vous la presse quotidienne? Nominale Quelle rubrique de presse quotidienne lisez-vous le plus souvent? Nominale (échelle) Êtes-vous abonné à un titre de presse magazine? Nominale La décoration de la boutique est importante à mes yeux. Échelle métrique Je préfère un point de vente à moins de 30 minutes de chez moi. Échelle métrique Je préfère être conseillé(e) par des vendeurs(euses). Échelle métrique J’aime que les collections soient originales. Échelle métrique J’aime qu’il y ait de nombreuses références dans les collections. Échelle métrique J’aime qu’il y ait des marques connues dans les collections. Échelle métrique Je préfère une décoration sobre. Échelle métrique Livre spss.book Page 26 Vendredi, 25. janvier 2008 12:04 12
  • 40.
    27Analyser pour décider Exercices 1Chapitre 2.De nombreux tests sont envisageables : a. un tri croisé entre le montant moyen dépensé dans le point de vente et le niveau d’études par exemple, afin de mettre en évidence un impact de la CSP sur les achats; b. une analyse typologique afin de classer les individus de l’enquête en fonction de leur profil de réponse; c. une analyse de variance multiple (MANOVA) dont l’objet serait d’expliquer le mon- tant moyen dépensé par une série de variables explicatives comme, par exemple, le niveau d’études, le statut marital, etc. Je préfère une décoration sophistiquée. Échelle métrique Je préfère une musique d’ambiance classique. Échelle métrique Je préfère une musique d’ambiance rock. Échelle métrique Quelle est votre année de naissance? Numérique Quel est votre niveau d’étude? Nominale (échelle) Quel est votre statut marital? Nominale (échelle) En incluant les enfants de moins de 18 ans, quelle est la taille de votre foyer? Numérique Quels sont approximativement les revenus de votre foyer? Nominale (échelle) Quel est votre sexe? Nominale Possédez-vous une carte de fidélité de l’enseigne? Nominale Livre spss.book Page 27 Vendredi, 25. janvier 2008 12:04 12
  • 41.
    Livre spss.book Page28 Vendredi, 25. janvier 2008 12:04 12
  • 42.
    29 2Décrire les données La descriptiondes données est une étape importante de la démarche d’analyse. La plupart des enquêtes se limitent à cette étape, qui donne un premier niveau de lecture des résul- tats ou l’identification de certaines relations entre des varia- bles de l’étude. Cette étape peut servir de fondement, d’une part, à des analyses plus poussées, dont l’objectif est de sim- plifier les données (analyses factorielles par exemple), de les classer (typologies), d’autre part, à des méthodes plus sophis- tiquées, de nature explicative (régressions, analyses de variance, analyse conjointe, etc.). Ce chapitre a pour objectif de présenter les principales méthodes de description des don- nées afin de produire une première analyse de ces données collectées lors d’une enquête. Après avoir abordé la nature des variables, nous étudierons les tris croisés et les principaux tests statistiques associés, ainsi que les tests d’hypothèses paramétriques et non paramétriques. 1. Description d’une variable..........30 2. Analyses bivariées.....................36 3. Théorie des tests statistiques........39 Exercices 1. Les tests ....................................45 2. Applications SPSS : l’enquête « point de vente » .......46 Chapitre Livre spss.book Page 29 Vendredi, 25. janvier 2008 12:04 12
  • 43.
    30 Analyse dedonnées avec SPSS (1) Description d’une variable On appelle « variable » l’ensemble des valeurs observées sur les différents individus pour une caractéristique donnée (Tenenhaus, 1996). Une variable est qualitative dès lors qu’elle a pour valeur des modalités; elle peut être nominale (lorsque l’ensemble des modalités ne possède pas de structure particulière) ou ordinale (lorsque l’ensemble des modalités est ordonné). Une variable est considérée comme quantitative ou métrique lorsque ses moda- lités peuvent être mesurées (par exemple l’âge, la valeur d’une action, etc.). 1.1 DÉCRIRE UNE VARIABLE QUALITATIVE La description d’une variable qualitative consiste à présenter les effectifs, c’est-à-dire le nombre d’individus de l’échantillon pour chaque modalité de la variable, et les fréquen- ces, c’est-à-dire le nombre de réponses associées aux modalités de la variable étudiée. En effet, dans de nombreux cas, le chargé d’étude cherche à répondre à une série de questions ne concernant qu’une seule et même variable. SPSS Il existe plusieurs possibilités dans SPSS pour décrire les données collectées. On peut par exemple, dans un premier temps, générer un rapport sur les observations pour s’assurer qu’elles ne comportent pas d’erreurs de saisie, de valeurs aberrantes (Analyse > Rapport > Récapitulatif des observations…) ou plus simplement pour prendre connaissance des variables dans un tableau synthétique, ce qui s’avère souvent utile en début d’analyse (Outils > variables…). La procédure Fréquence permet d’obtenir les affichages statistiques et graphiques qui ser- vent à décrire des variables quantitatives et qualitatives. Pour obtenir un tableau d’effectifs et de fréquences pour une ou plusieurs variables dans SPSS, ouvrez le fichier de données « pointdevente.sav », sélectionnez dans le menu Analyse > Statistiques descriptives > Effec- tifs…, puis procédez à la description de la variable de type nominal marital correspondant à la question : « Quel est votre statut marital? ». La boîte de dialogue de la figure 2.1 apparaît. Figure 2.1 Boîte de dialogue de la procédure Fréquence. Figure 2.2 Description de la variable marital. Livre spss.book Page 30 Vendredi, 25. janvier 2008 12:04 12
  • 44.
    31Décrire les données 2Chapitre Lafigure 2.2 correspond à un tri à plat de la variable qualitative marital ; en d’autres ter- mes, il reprend les effectifs et les fréquences (présentés ici en pourcentage) pour une varia- ble. L’intérêt du tri à plat est de fournir une description rapide de la variable étudiée. Le tableau montre immédiatement que 65,8 % des individus de l’échantillon interrogé sont en couple et que 23,3 % sont célibataires. Ces résultats peuvent également être visualisés sous forme de graphiques (diagrammes en bâtons, en secteurs), dans lesquels les surfaces associées aux différentes modalités sont pro- portionnelles à leur fréquence, exprimée en valeur ou en pourcentage, comme le montre la figure 2.3. 1.2 DÉCRIRE UNE VARIABLE QUANTITATIVE Plusieurs critères permettent de décrire une variable quantitative : • les mesures de la tendance centrale : moyenne, médiane, mode; • les mesures de la dispersion : étendue, variance, écart type, coefficient de variation; • les mesures de la distribution : asymétrie, aplatissement; • les représentations graphiques : histogrammes ou boîtes à moustaches, par exemple. Mesures de la tendance centrale Les mesures de la tendance centrale ont pour objet de résumer la série d’observations par une valeur considérée comme représentative. La plus fréquemment employée est la moyenne, ou somme des valeurs de toutes les observations divisée par l’effectif; celle que l’on utilise le plus souvent est la moyenne arithmétique. La moyenne révèle la tendance centrale en ce sens que les réponses se trouvent réparties de part et d’autre de la moyenne. Si certaines valeurs sont très éloignées les unes des autres, elles peuvent avoir une influence importante sur la moyenne. Dans ce cas, il vaut mieux utiliser la médiane, qui n’est pas sensible aux valeurs aberrantes ou extrêmes (outliers). La médiane représente la valeur au- dessus et au-dessous de laquelle se situent la moitié des observations, c’est-à-dire le 50e centile (voir focus 2.1 ci-après). Le mode représente la valeur présentant la plus grande fréquence d’occurrence. Si plusieurs valeurs à la fois présentent la plus grande fréquence d’occurrence, chacune d’entre elles est un mode. Figure 2.3 Diagramme en secteurs des effectifs de la variable marital. Mo = Me = X Livre spss.book Page 31 Vendredi, 25. janvier 2008 12:04 12
  • 45.
    32 Analyse dedonnées avec SPSS * Focus 2.1 • Les fractiles Les fractiles sont les valeurs d’une variable quantitative qui divisent les données triées en classes par centième. Les quartiles (25e, 50e et 75e centiles) divisent les observations en quatre classes de taille égale. On les définit dans SPSS à partir de la boîte de dialogue Effectifs > Statistiques (voir figure 1.1), en sélectionnant Partition en n classes égales (n définissant le niveau de par- tition souhaité). Vous pouvez également spécifier des centiles particuliers (par exemple le 95e centile), autrement dit les valeurs au-dessus de 95 % des observations. Mesures de la dispersion Les mesures de la dispersion reposent sur les indicateurs suivants : l’étendue, la variance, l’écart type et le coefficient de variation. L’étendue (ou intervalle) est la différence entre la plus grande et la plus petite des valeurs observées. La variance est la mesure de la disper- sion autour de la moyenne, égale à la somme des carrés des écarts par rapport à la moyenne, divisée par le nombre d’observations moins un. Lorsque les données se concen- trent autour de la moyenne, la variance est faible. Si les données sont dispersées autour de la moyenne, la variance est élevée. Il s’agit d’une mesure plus fine de la dispersion, au sens où toutes les données sont prises en compte. En revanche, elle est sensible aux valeurs extrêmes. L’écart type est la mesure de la dispersion autour de la moyenne, exprimée dans la même unité que la variable. L’écart type est la racine carrée de la variance. On l’écrit de la manière suivante : Le coefficient de variation est le rapport de l’écart type à la moyenne ( ), exprimé en pourcentage. Son objet est de mesurer le degré de variation de la moyenne d’un échan- tillon à l’autre, lorsque ceux-ci sont issus de la même distribution. Mesures de la distribution On mesure la symétrie et la forme de la distribution par l’asymétrie et l’aplatissement. Ces statistiques sont présentées avec leur erreur standard. Le coefficient de symétrie (skewness) mesure l’asymétrie d’une distribution. Une distri- bution normale est symétrique (voir figure 2.4), c’est-à-dire que les valeurs sont les mêmes de part et d’autre du centre de la distribution, et possède une valeur de skewness de 0. Une distribution avec un skewness positif significatif est une distribution asymétri- que à droite (la distribution prend la forme d’une longue queue à droite) et une distribu- tion avec un skewness négatif significatif est une distribution asymétrique à gauche (la distribution prend la forme d’une longue queue à gauche). Cette asymétrie s’explique par le fait que les écarts sont plus importants dans une direction que dans l’autre. Le coefficient d’aplatissement (kurtosis) permet de mesurer le relief ou la platitude d’une courbe issue d’une distribution de fréquences. En d’autres termes, le coefficient d’aplatis- sement permet de mesurer le degré de concentration des observations dans les queues de la courbe. Le coefficient de kurtosis est de 0 pour une distribution normale (gaussienne). s Xi X n i n = − − = ∑( )† 1 1 Livre spss.book Page 32 Vendredi, 25. janvier 2008 12:04 12
  • 46.
    33Décrire les données 2Chapitre Unkurtosis négatif indique donc que les queues comptent un plus grand nombre d’obser- vations que dans une distribution gaussienne. Les coefficients de kurtosis et de skewness peuvent être utilisés pour s’assurer que les variables suivent une distribution normale, condition nécessaire pour de nombreux tests statistiques. On estime que le coefficient de symétrie ou skewness doit être inférieur à 1 et le coefficient d’aplatissement ou kurtosis doit être inférieur à 1,5 pour considérer que la variable suit bien une loi normale. SPSS Reprenons notre exemple avec SPSS (pointsdevente.sav) : rappelez la boîte de dialogue de la procédure précédente (Effectifs) en cliquant sur l’icône dans la barre d’outils. Procé- dez aux mêmes opérations mais cette fois pour la variable montant. Dans la boîte de dialo- gue Effectifs que vous venez de rappeler, cliquez sur l’onglet Statistiques et cochez les statistiques de mesure de la tendance centrale, de dispersion et de distribution, puis sélec- tionnez un graphique (un histogramme avec courbe gaussienne par exemple) pour repré- senter la distribution. Les figures 2.5 et 2.6 reprennent les statistiques descriptives de la variable montant. Figure 2.4 Représentation d’une distribution normale. Figure 2.5 Description de la variable montant. Mo = Me = X Livre spss.book Page 33 Vendredi, 25. janvier 2008 12:04 12
  • 47.
    34 Analyse dedonnées avec SPSS Le montant moyen dépensé dans le point de vente est de 153,51 €, avec un écart type de 91,15 €. Pour 59 répondants, le montant est nul, c’est-à-dire qu’il s’agit de non-clients du magasin. En termes de dispersion, la variance est élevée (8 307,9) en raison de valeurs extrêmes importantes, ce qui est confirmé par l’écart type. On constate que l’asymétrie pour la variable montant est légèrement négative (–0,67). Représentations graphiques En ce qui concerne les représentations graphiques, les fréquences peuvent être représentées par des histogrammes et des graphiques en secteurs, comme nous l’avons vu précédem- ment. Pour visualiser la répartition des fréquences, les diagrammes en bâtons sont souvent pertinents. La réalisation des graphiques dans SPSS s’effectue soit à partir des boîtes de dialogue des différents tests (dans notre cas, le menu Effectifs), soit directement dans le menu Graphes. Parmi les options qui vous sont proposées, sélectionnez Boîtes de dialogues héritées dans le menu Graphes, puis de nouveau la variables montant. Sélectionnez le graphique Boîte à moustaches, puis, dans Données du diagramme, l’option Analyse par variable (voir figure 2.7). Figure 2.6 Représentationd’un graphique de la variable montant. Figure 2.7 Création d’une boîte à moustaches. Livre spss.book Page 34 Vendredi, 25. janvier 2008 12:04 12
  • 48.
    35Décrire les données 2Chapitre Laboîte à moustaches est une représentation graphique intéressante car elle permet de récapituler une variable numérique en représentant la médiane, les quartiles et les valeurs extrêmes. Cliquez sur Définir : on vous propose d’étiqueter les observations en utilisant une variable de type numérique ou une variable textuelle afin d’identifier les valeurs extrêmes. Si vous ne choisissez rien, les numéros d’observation serviront à étiqueter ces valeurs. Nous obtenons le graphique représenté à la figure 2.8. L’intérêt de cette représentation est qu’elle permet de visualiser de manière compacte la dis- persion des données. La figure 2.8 montre des valeurs extrêmes qui apparaissent isolées du graphique. On peut donc observer que le montant dépensé varie entre 444 € (observation n˚ 43) et 0 € (moustache inférieure), avec une médiane qui partage la boîte centrale et qui est de 172 €. Il est possible d’aller plus loin dans la description des variables en sélectionnant les obser- vations sur lesquelles on souhaite faire porter l’analyse. On peut notamment chercher à savoir si les hommes dépensent en moyenne plus ou moins que l’ensemble de la population. Pour ce faire, il faudra filtrer les observations en fonction du sexe des répondants. Dans le menu Données, appelez la boîte de dialogue Sélectionner les observations puis, dans la partie Sélectionner, cliquez sur Selon une condition logique. Pour ne sélectionner que les hommes, vous devez faire glisser la variable sexe en précisant la condition : « sexe = 1 » (1 étant l’étiquette retenue pour les hommes). Vous obtenez la boîte de dialogue de la figure 2.9. Figure 2.8 Représentation de la variable montant sous forme de boîte à moustaches. Figure 2.9 Boîte de dialogue Sélectionner des observations. Livre spss.book Page 35 Vendredi, 25. janvier 2008 12:04 12
  • 49.
    36 Analyse dedonnées avec SPSS Dans la fenêtre de résultats, on obtient un montant moyen dépensé par les hommes de 155,89 €, avec un écart type de 95,31 €, montants légèrement supérieurs à la dépense moyenne de l’échantillon. On remarque également que les hommes représentent un peu plus de la moitié des répondants (204 observations). (2) Analyses bivariées L’examen de variables uniques permet une première lecture intéressante des résultats mais elle ne présente pas de véritable intérêt en termes d’analyse. Les descriptions faites sur les variables soulèvent toute une série de questions sur leurs relations, qui devront être mises en lumière en les rapprochant deux à deux dans des analyses bivariées. Les tris croisés, par exemple, permettent d’examiner les relations entre deux ou plusieurs variables. Ces relations peuvent être symétriques – l’analyse cherche à mesurer la liaison entre les deux variables et à en tester la signification –, ou dissymétriques – l’analyse cherche à expliquer les variations d’une variable dépendante par les variations d’une variable indépendante (Evrard et al., 2003). Ce dernier cas constituant le plus souvent une occurrence particulière des méthodes multivariées explicatives (corrélations,ANOVA, etc.), il sera traité dans les chapitres suivants. 2.1 TRIS CROISÉS Les tableaux croisés à deux ou plusieurs modalités sont en général complétés par des mesures d’association qui permettent de démontrer la signification statistique d’une asso- ciation observée entre les variables. Ces tests seront développés dans la section suivante. Les tris croisés ont pour objet de rassembler dans un tableau unique les distributions de fré- quences de deux ou plusieurs variables. Ce premier outil d’analyse des relations entre deux variables, ou relations bivariées, permet de répondre à des questions qui se posent dès l’ori- gine de l’étude (par exemple : « Les hommes dépensent-ils plus que les femmes sur le point de vente? »; « Le sexe et les revenus ont-ils une influence sur le montant moyen dépensé? ») ou de mettre en lumière des relations dont on soupçonne l’existence à l’issue des traitements réalisés variable par variable. Le principe du tableau croisé est de proposer une ventilation des fréquences de réponse par variable et par modalité (voir figure 2.10). SPSS Il existe deux approches pour générer un tableau croisé dans SPSS. Vous pouvez créer un tableau croisé depuis le menu Analyse > Statistiques descriptives > Tableaux croisés… ou bien depuis le menu Analyse > Tableaux > Tableaux personnalisés… Nous utiliserons ici la seconde possibilité. Pour ventiler les montants moyens dépensés en fonction du sexe – nous avons déjà obtenu les données variable par variable –, faites glisser la variable montant de la liste des variables vers la zone Lignes du tableau. L’unité d’analyse proposée par défaut est la moyenne, la variable étant métrique. Puis faites glisser la variable sexe de la liste vers la zone Colonnes du tableau. Figure 2.10 Tri croisé du montant moyen dépensé en fonction du sexe. Livre spss.book Page 36 Vendredi, 25. janvier 2008 12:04 12
  • 50.
    37Décrire les données 2Chapitre Poursuivonsl’exploration en introduisant une troisième variable : les revenus. L’introduction d’une troisième variable est pertinente si elle permet d’affiner l’association entre les deux variables. Rappelez la boîte de dialogue Tableaux personnalisés et faites glisser la variable revenus de la liste vers la zone Colonnes du tableau. Le tableau obtenu est relativement dif- ficile à lire, car trop large. Double-cliquez sur le tableau obtenu dans votre feuille de résul- tats SPSS pour ouvrir un tableau pivotant. Le tableau pivotant vous permet d’inverser lignes et colonnes. On obtient la figure 2.11 ci-après. On constate que les montants moyens dépensés augmentent a priori en fonction des reve- nus, relation qui apparaît relativement moins évidente en fonction du sexe. Les tris croisés ne nous permettent pas de déduire quoi que ce soit quant au type de relation existant entre les variables. Avant de conclure à une éventuelle relation entre le montant moyen dépensé et les revenus ou le sexe, le chargé d’étude doit donc mesurer la force d’associa- tion entre ces variables. S’il souhaite étudier l’influence d’une variable sur une autre, il devra mettre en œuvre le test approprié (voir la section 3 du chapitre). 2.2 TESTS D’ASSOCIATION DE DEUX VARIABLES Les tris croisés présentent la distribution des fréquences de réponse pour deux ou plu- sieurs variables mises en relation mais ils ne permettent pas de démontrer l’existence de cette association du point de vue statistique. Pour mesurer véritablement la relation entre les variables, il est nécessaire de mettre en place des tests de signification statistique de l’association. Nous aborderons de manière plus précise la théorie des tests statistiques dans la section 3 de ce chapitre. Test du khi-deux Le test le plus couramment utilisé est celui du khi-deux (χχχχ2), car il consiste à tester la signification statistique d’une association de deux variables qualitatives (nominales ou ordinales). Plus précisément, il a pour objet de tester l’indépendance des variables dans un tableau croisé en comparant la distribution observée (Oij) sur l’échantillon à une distribu- tion théorique (Tij) qui correspond à l’hypothèse que l’on veut tester. Le χ2 observé sur l’échantillon se calcule de la manière suivante : χ2 = Figure 2.11 Tri croisé du montant moyen dépensé en fonction du sexe et des revenus. Livre spss.book Page 37 Vendredi, 25. janvier 2008 12:04 12
  • 51.
    38 Analyse dedonnées avec SPSS La loi du khi-deux suit une distribution asymétrique dont la forme dépend du nombre de degrés de liberté (DDL). Le nombre de degrés de liberté varie en fonction du nombre de modalités des variables comparées et se calcule de la manière suivante : n – 1 × p – 1 (avec n : modalités de la 1re variable et p : modalités de la 2e variable). On rejettera l’hypothèse nulle (pas d’association entre les variables) si le χ2 calculé est supérieur à la valeur de réfé- rence du χ2 se trouvant dans la table de khi-deux pour n degrés de liberté (lignes) et pour un α (niveau de précision donné en colonnes). Pour interpréter la valeur du χ2, il est pré- férable de se référer au seuil de signification statistique (> 0,05 par exemple) plutôt qu’à la valeur du χ2 qui varie selon le nombre de degrés de liberté. Le test du khi-deux s’obtient par la procédure des tableaux croisés vue plus haut (Analyse > Statistiques descriptives > Tableaux croisés…) et peut être sélectionné dans le menu Statistiques, comme l’indique la figure 2.12. Si l’on cherche à établir le profil des clients les plus fidèles en croisant le statut marital et la possession d’une carte de fidélité, par exemple, le test du khi-deux permettra de définir si ces deux variables sont indépendantes. Il est important de noter que ce test est assez sensi- ble à la taille de l’échantillon et que chaque case du tableau doit comporter au moins cinq observations (voir figures 2.12 et 2.13). Nous avons créé un tableau croisé dans SPSS selon la procédure présentée plus haut et sélectionné le test du khi-deux dans le menu Statistiques de la boîte de dialogue Tableaux croisés. Conformément à ce que nous pouvions penser a priori, la valeur du χ2 est à la fois élevée et supérieure à la valeur critique correspondant au seuil de signification statistique de 0,05 (nous obtenons 0,035). Ce résultat nous permet de rejeter Ho (« il n’existe pas de lien entre les variables ») et de conclure qu’il existe bien une relation entre le statut marital et la possession d’une carte de fidélité dans la population observée. Figure 2.12 Boîte de dialogue du tableau croisé et test du khi-deux. Figure 2.13 Tableau croisé des variables marital/ carte. Livre spss.book Page 38 Vendredi, 25. janvier 2008 12:04 12
  • 52.
    39Décrire les données 2Chapitre Autrestests Dans le cas particulier des tableaux carrés ou 2 × 2 (2 lignes et 2 colonnes), qui comparent deux variables à deux modalités, il est recommandé d’appliquer une correction au χ2, ou d’utiliser le coefficient phi (φ). Celui-ci correspond à la racine carrée du χ2 divisé par la taille de l’échantillon, soit : φ = √(χ2/n) Le coefficient de contingence (C) peut être appliqué pour des mesures d’association sans contrainte de taille de tableau. L’indicateur oscille entre une borne inférieure de 0 lorsqu’il n’y a aucune association (lorsque χ2 = 0) et une borne supérieure inférieure à 1. Cette valeur maximale du coefficient dépend de la taille du tableau (nombre de lignes × nombre de colonnes), raison pour laquelle il ne doit être employé que pour comparer des tableaux de même taille. On le calcule de la manière suivante : C = √(χ2/χ2+n) Le V de Cramer est un coefficient normé, c’est-à-dire qu’il peut atteindre 1, quelle que soit la taille du tableau. Il s’agit d’une version modifiée du coefficient phi (φ). Il est noté : V = Le coefficient d’association prédictive (lambda) permet de mesurer le pourcentage d’amélioration de la valeur d’une variable nominale dépendante en fonction de la valeur de la variable nominale indépendante, celle-ci étant utilisée comme pivot. Le lambda est un coefficient dissymétrique, c’est-à-dire que le résultat varie selon la variable qui sert de pivot (ainsi dans la régression, par exemple). (3) Théorie des tests statistiques Les tests statistiques reposent sur le principe d’inférence, c’est-à-dire le fait de procéder à des généralisations sur les comportements d’une population. Ils sont fondés sur des mesu- res effectuées sur des variables ou sur des facteurs à partir d’observations réalisées sur un échantillon de cette population. L’objectif de la statistique dans la logique inférentielle est donc de tester des hypothèses formulées essentiellement sur la base d’une théorie préexis- tante ou de résultats antérieurs. Figure 2.14 Test du khi-deux des variables marital/carte. Livre spss.book Page 39 Vendredi, 25. janvier 2008 12:04 12
  • 53.
    40 Analyse dedonnées avec SPSS 3.1 L’HYPOTHÈSE STATISTIQUE Une hypothèse statistique est un énoncé quantitatif concernant les caractéristiques d’une population ou, plus précisément, une affirmation portant sur une ou plusieurs variables. Elle se présente traditionnellement sous la double forme d’une première hypothèse, appe- lée hypothèse nulle, et d’une seconde hypothèse, appelée hypothèse alternative. Son objectif est de réfuter l’hypothèse nulle, laquelle concerne le plus souvent un statu quo ou une absence de différence, au profit de l’hypothèse alternative. Exemple : on peut poser l’hypothèse nulle Ho qu’il n’existe pas de différence de ventes entre les points de vente situés en centre-ville et ceux de la périphérie urbaine, et l’hypothèse alternative H1 qu’elles sont différentes en centre-ville et en périphérie urbaine. Les tests statistiques étant conçus pour la réfutation d’hypothèses et non pour leur confir- mation, l’hypothèse alternative est celle qui sera acceptée si l’hypothèse nulle est rejetée. Accepter une hypothèse revient donc à dire que l’hypothèse est non rejetée plutôt qu’acceptée, c’est-à-dire que les données recueillies au cours d’une expérience particulière sont compatibles avec l’hypothèse alternative proposée. L’objectif de l’analyse de données est donc de prendre une décision : en l’occurrence, reje- ter ou non l’hypothèse nulle Ho. Les tests étant fondés sur des informations incomplètes issues d’observations portant sur un échantillon de la population, il est nécessaire de défi- nir le seuil de signification du test, seuil formulé en pourcentage de chances de rejeter l’hypothèse nulle alors qu’en réalité celle-ci était vraie. Le seuil de signification est habi- tuellement noté α et exprimé en pourcentage. Le choix du seuil est lié au niveau de risque accepté (1 % ou 5 % étant les valeurs usuelles). Son complément (1 – α ), appelé seuil de confiance, correspond au pourcentage de cas où on acceptera l’hypothèse nulle à juste titre. On appelle erreur de type I le fait de rejeter, à la suite des résultats d’un test statisti- que, une hypothèse qui serait en réalité vraie (condamner un innocent) et erreur de type II l’erreur liée au fait d’accepter une hypothèse qui serait en réalité fausse (innocenter un coupable). La probabilité de commettre ce type d’erreur est notée β ; on appelle puis- sance du test son complément (1 – β), lequel correspond à la probabilité de rejeter une hypothèse qui serait réellement fausse (voir tableau 2.1). Bien que l’α établisse le niveau de signification du test, c’est la puissance du test (1 – β) qui donne une estimation de la probabilité de trouver des différences significatives – si elles existent – dans les données. Pourquoi, dès lors, ne pas prendre en compte l’α et le β en tant que niveaux de confiance? La raison évoquée est que l’erreur de type I et l’erreur de Tableau 2.1 : Types d’erreurs dans un test statistique Situation dans la population Ho vraie Ho fausse Décision Ho acceptée Décision correcte (seuil de confiance = 1 – α) Erreur de type II (ββββ) Ho rejetée Erreur de type I (seuil de signification = αααα) Décision correcte (puissance du test = 1 – ββββ) Livre spss.book Page 40 Vendredi, 25. janvier 2008 12:04 12
  • 54.
    41Décrire les données 2Chapitre typeII sont inverses : plus l’erreur de type I devient restrictive (proche de 0) et plus la pro- babilité d’une erreur de type II augmente; de même, réduire l’erreur de type I réduit la puissance du test. L’analyste doit donc trouver le juste équilibre entre le degré de confiance (α) et la puissance du test qui en résulte. La seule manière de faire baisser simultanément α et β est d’augmenter la taille de l’échantillon étudié. 3.2 LES TESTS D’HYPOTHÈSES Les tests d’hypothèses, ou tests d’inférence, ont pour objectif de mesurer l’effet d’une variable indépendante sur une variable dépendante, en fonction du nombre d’échan- tillons et en fonction de la nature des variables étudiées. On nomme tests paramétriques les approches reposant sur des données métriques (et par suite sur des paramètres connus tels que la moyenne ou l’écart type, par exemple), et tests non paramétriques les appro- ches reposant sur des données non métriques (et qui, par suite, peuvent s’affranchir de conditions de distribution particulières). Les tests non paramétriques étant peu sensibles à la taille de l’échantillon et aux données aberrantes, ils sont utilisés en marketing où les échantillons peuvent parfois être de petite taille (moins de 30 individus). Le nombre d’échantillons joue également un rôle important dans le choix du test approprié. En effet, deux situations doivent être distinguées : lorsque l’on étudie deux populations distinctes sur une même variable, on parle de mesures indépendantes (comparer les clients et les non-clients); et lorsque les mêmes individus sont mesurés sur une même variable dans deux situations distinctes, on parle de mesures appariées (comparer les niveaux de prix à deux périodes distinctes). Ces éléments affectent de manière importante les statistiques de tests (voir figure 2.15). Figure 2.15 Tests paramétriques et tests non paramétriques (Malhotra et al., 2007). Tests non paramétriques Tests d’hypothèses Tests paramétriques Échantillon unique Deux échantillons ou plus Échantillon unique Deux échantillons ou plus - Test t - Test z - Khi-deux - Kolmogorov - Smirnov - Séquenes - Binomial - Test t à deux classes - Test z - Extension du test t - Khi-deux - Mann - Whitney - Médiane - Kolmogorov - Smirnov - Signe - Wilcoxon - McNemar - Khi-deux Échantillons indépendants Échantillons appariés Échantillons indépendants Échantillons appariés Livre spss.book Page 41 Vendredi, 25. janvier 2008 12:04 12
  • 55.
    42 Analyse dedonnées avec SPSS 3.3 TESTS PARAMÉTRIQUES Les deux principaux tests paramétriques sont le test t et le test Z, qui ont pour objet de tes- ter des différences de moyenne. Ces tests sont souvent mis en œuvre en marketing, car ils permettent, par exemple, de comparer la moyenne d’une variable dépendante métrique en fonction des modalités d’une variable nominale. On formule alors une hypothèse nulle qui sera vérifiée par le test t ou le test Z. Pour plus de simplicité, ces deux tests sont présen- tés ici pour des échantillons uniques. Test t Le test t est directement lié à la statistique t de Student, qui suppose que la variable adopte une distribution normale, que la moyenne soit connue et que la variance, lorsqu’elle est inconnue, soit estimée sur l’échantillon. On le calcule de la manière suivante : Dans SPSS, ce test paramétrique peut être estimé avec la procédure suivante : menu Analyse > Comparer les moyennes > Test T pour échantillon unique…, procédure que nous avons utilisée au chapitre 1 pour estimer l’intervalle de confiance. Pour comparer les moyennes de deux échantillons indépendants (comparaison des clients et des non-clients par exemple), on utilisera une analyse de variance (ANOVA) à 1 facteur (voir chapitre 4). Pour comparer les moyennes de deux échantillons appariés (comparaison de relevés de prix à deux périodes distinctes par exemple), on suivra une extension du test t pour échantillons appariés qui est disponible dans la même boîte de dialogue. Test Z Le test Z peut être mis en place lorsque la variance de l’échantillon est connue. La valeur de Z s’obtient par la formule suivante : Z = où : est l’écart type de la population Ce test peut également être étendu pour tester des proportions. 3.4 TESTS NON PARAMÉTRIQUES Les tests non paramétriques sont souvent mis en œuvre dans la pratique en marketing : ils s’appliquent aux variables qualitatives et s’avèrent relativement performants sur de petits échantillons, même s’ils sont moins puissants que les tests paramétriques. Voici les princi- paux tests paramétriques présentés ici : un test d’ajustement (le test de Kolmogorov- Smirov), des tests de comparaison d’échantillons indépendants (le test U de Mann- Whitney et le test de la médiane), ainsi que des tests de comparaison d’échantillons appariés (le test de Wilcoxon, le test du signe et le test de McNemar). • Test de Kolmogorov-Smirov (K-S) t = : moyenne de l’échantillon Où : : moyenne de la variable : variance de l’échantillon X sX −( )µ / Livre spss.book Page 42 Vendredi, 25. janvier 2008 12:04 12
  • 56.
    43Décrire les données 2Chapitre Letest de Kolmogorov-Smirov est un test dit d’ajustement, car il permet d’établir si une population donnée suit une distribution particulière (normale, uniforme ou poisson par exemple), condition exigée par de nombreux tests. Le K-S est calculé à partir de la plus grande différence (en valeur absolue) entre les fonctions de distribution théorique et observée cumulées : K = Max |Ai-Oi| Le K-S pour un échantillon s’obtient dans SPSS à partir du menu Analyse > Tests non paramétriques > K-S à 1 échantillon… • Test U de Mann-Whitney Le test de Mann-Whitney permet de vérifier que deux échantillons (ou groupes) pro- viennent bien de la même population. On peut l’utiliser, par exemple, pour comparer les réponses dans un département par rapport aux réponses nationales. La statistique du test U réunit les deux échantillons et ordonne les observations par ordre croissant de taille. Le test calcule le nombre de fois où un résultat du groupe 1 précède un résul- tat du groupe 2, ainsi que le nombre de fois où un résultat du groupe 2 précède un résultat du groupe 1. U est d’autant plus petit que les groupes sont différents. Pour calculer le U de Mann-Whitney dans SPSS, il faut d’abord définir la variable qui servira à scinder les données en deux échantillons : Analyse > Test non paramétrique > 2 échantillons indépendants…, puis sélectionner une variable de regroupement (Facteur) et cliquer sur Définir les niveaux. Pour définir les groupes, vous devez indiquer les valeurs pour le groupe 1 et celles pour le groupe 2. Sélectionnez ensuite le test U de Mann-Whitney dans la boîte de dialogue. • Test de la médiane Ce test, moins puissant que le U de Mann-Whitney, permet de déterminer si deux groupes sont issus de populations ayant la même médiane, en estimant la position de chaque observation par rapport à la médiane globale des deux échantillons. Pour calculer le test de la médiane dans SPSS, vous devez suivre la procédure suivante : Analyse > Test non paramétrique > K échantillons indépendants…, puis sélection- ner le test de la médiane dans le menu du type de test envisagé. • Test de Wilcoxon Le test de Wilcoxon est utilisé dans le cas de la comparaison de deux échantillons appa- riés, c’est-à-dire lorsque l’on souhaite, par exemple, comparer deux types de réponses : avant/après l’exposition à un message publicitaire, attitude par rapport à une marque A et une marque B, etc. La statistique z du test de Wilcoxon s’obtient en calculant la diffé- rence entre les scores des deux observations par paires d’observations, puis en calculant le rang de toutes les différences, et enfin la somme des rangs positifs et des rangs néga- tifs. On rejette l’hypothèse nulle (absence de différence entre les deux groupes) s’il y a une différence entre la somme des rangs positifs et la somme des rangs négatifs. Le sens de la statistique indique le sens de la différence de la paire examinée. Dans SPSS, ouvrez le menu Analyse > Test non paramétrique > 2 échantillons liés…, puis sélectionnez le test que vous souhaitez mettre en œuvre (Wilcoxon, Signe, McNe- mar), comme le montre la figure 2.16. • Test du signe Le test du signe est relativement proche du test de Wicoxon, mais il est plus limité et par suite moins puissant. Il ne s’attache en effet qu’à une comparaison des signes des diffé- rences, sans procéder à un classement comme le fait le test de Wilcoxon. Livre spss.book Page 43 Vendredi, 25. janvier 2008 12:04 12
  • 57.
    44 Analyse dedonnées avec SPSS • Test de McNemar Le test de McNemar peut également être mis en œuvre dans le cas d’échantillons appa- riés, pour comparer les valeurs de deux variables dichotomiques (à deux dimensions). Résumé Première étape de l’analyse à proprement parler, la description des données permet de représenter les valeurs observées sur les différents individus de l’échantillon. L’analyse univariée, qui examine une seule variable à la fois, repose sur la description (fréquences, tendance centrale, dispersion, distribution) et la visualisation graphique des variables, ainsi que sur l’inférence, c’est-à-dire la comparaison à des valeurs déterminées. L’analyse bivariée permet d’aller plus loin par l’étude des relations entre deux variables, grâce aux tris croisés et aux principaux tests d’analyse bivariée : tests d’association (khi-deux) et tests de comparaison (test t, test K-S, test U de Mann-Whitney, etc.). Pour aller encore plus loin dans l’analyse, le chargé d’étude devra mettre en place des analyses multivariées, lesquelles seront abordées dans les chapitres suivants. Pour aller plus loin Evrard Y., Pras B., Roux E., Market. Études et recherche en marketing, Nathan, Paris, 2003. Hair J. F., Anderson R. E., Tatham R. L., Black W. C., Multivariate Data Analysis, Prentice Hall International, New Jersey, 2007. Malhotra N., Decaudin J. M., Bouguerra A., Études marketing avec SPSS, 5e éd., Pearson Education, Paris, 2007. Tenenhaus M., Méthodes statistiques en gestion, Dunod, Paris, 2006. Figure 2.16 Boîte de dialogue des tests de comparaison de deux échantillons appariés. Livre spss.book Page 44 Vendredi, 25. janvier 2008 12:04 12
  • 58.
    45Décrire les données Exercices 2Chapitre Exercices EXERCICE1 LES TESTS • Énoncé Répondez aux questions suivantes. 1. Quel(s) test(s) recommanderiez-vous à un chargé d’étude souhaitant comparer l’intention d’achat d’un produit avant et après son exposition dans un film publicitaire? 2. Une compagnie de téléphonie mobile cherche à déterminer les principaux facteurs explicatifs de l’attrition, c’est-à-dire de la résiliation de l’abonnement en faveur d’un concurrent. En complément des données dont l’entreprise disposait dans sa base de données, une étude par téléphone a été commandée auprès d’un institut pour inter- roger les clients et les anciens clients. Interprétez les résultats mentionnés dans le tableau suivant. ……Item Clients Anciens clients Signification Âge moyen 47,6 ans 22,1 ans ,000 Durée de l’abonnement 7,1 ans 1,3 ans ,000 Possession d’un abonnement fixe 87 % 85 % ,372 Possession d’un abonnement Internet 72 % 79 % ,540 Possession d’un deuxième téléphone portable 13 % 23 % ,025 Degré de satisfaction* exprimé : – qualité globale du service 5,5 4,9 ,459 – couverture du réseau 6,1 5,8 ,248 – qualité des communications 5,5 2,3 ,031 – qualité du centre d’appel 6,3 5,9 ,462 – options de l’abonnement 5,7 3,2 ,001 – nombre de SMS dans l’abonnement 5,8 5,2 ,659 – prix de l’abonnement 6,1 4,0 ,001 – coût total mensuel de l’abonnement 5,2 4,8 ,001 * Mesuré sur une échelle de Likert en 7 points. 3. Quel test pourriez-vous mettre en place pour en apprendre davantage sur les deux derniers items du tableau ci-dessus : « prix de l’abonnement » et « coût total mensuel de l’abonnement »? Livre spss.book Page 45 Vendredi, 25. janvier 2008 12:04 12
  • 59.
    46 Analyse dedonnées avec SPSS * Solution 1. Dans ce cas de figure, le chargé d’étude doit comparer la moyenne des réponses de deux échantillons à deux périodes distinctes, en d’autres termes avant et après l’exposition du produit dans un message publicitaire. Il s’agit donc d’une mesure sur échantillons appa- riés. Il pourra, par exemple, mettre en œuvre une extension du test t. 2. Les résultats de l’enquête comportent 7 résultats significatifs à un degré de confiance de 95 %. On peut donc conclure que les abonnés ayant préféré la concurrence sont en général plus jeunes et que leur abonnement était plus récent que celui des abonnés interrogés. En outre, ils sont plus nombreux à posséder un second téléphone portable et sont relative- ment moins satisfaits de la qualité des communications, des options de leur abonnement ainsi que du prix et du coût global mensuel de l’abonnement que les abonnés interrogés. 3. On peut réaliser un tri croisé des deux variables qualitatives et procéder à un test de khi- deux pour savoir si les deux variables sont liées. Comme nous n’avons aucune information sur le nombre d’observations, nous ne sommes pas certains de pouvoir respecter la condi- tion de 5 observations par case du tableau. En outre, il est possible de procéder à un test sur échantillons appariés pour comparer les réponses aux deux questions : un test de Wicoxon serait alors approprié. EXERCICE 2 APPLICATIONS SPSS : L’ENQUÊTE « POINT DE VENTE » 2 • Énoncé Reprenons l’enquête sur le point de vente abordée dans la partie théorique de ce chapi- tre. Notre chargé d’étude cherche à en savoir davantage sur les données dont il dispose. Afin de progresser dans la maîtrise de l’outil SPSS, ouvrez le fichier « pointdevente.sav » disponible sur le site de l’ouvrage, et accompagnez le chargé d’étude dans sa réflexion en répondant aux questions suivantes. 1. Nous souhaitons en savoir un peu plus sur les répondants à l’enquête. Vous devez par conséquent poursuivre la description des variables de l’enquête que nous avons amor- cée. Que pouvez-vous dire à propos des variables suivantes : a. progradio? b. édition TV? c. rubrikpress? 2. Quel est le profil type du client de ce point de vente? Que pouvez-vous en conclure sur le type de magasin dont il s’agit? 3. L’enseigne mise sur ses clients les plus fidèles. L’équipe du magasin considère en effet que les clients ayant la plus forte intention d’effectuer leurs achats dans le magasin sont également ceux qui sont susceptibles de dépenser le plus. L’équipe a-t-elle raison de penser de la sorte? Combien ces clients sont-ils susceptibles de dépenser pour un tee-shirt? Les prix moyens affichés dans le magasin étant de 9 €, qu’en concluez-vous? 4. L’enquête s’intéresse également aux goûts des clients potentiels. Nous avons lancé des pistes en ce qui concerne les prix, mais pouvez-vous aider l’équipe marketing du magasin à choisir la bonne musique d’ambiance : plutôt rock ou plutôt classique? Livre spss.book Page 46 Vendredi, 25. janvier 2008 12:04 12
  • 60.
    47Décrire les données Exercices 2Chapitre *Solution 1. Ces trois variables sont des variables qualitatives (nominales) et nous souhaitons les décrire. Il faut donc appeler la boîte de dialogue Effectifs dans le menu Analyse, puis le sous-menu Statistiques descriptives… Nous ne représenterons ici que la variable progra- dio, qui correspond à la question : « Quel type de programme radio écoutez-vous le plus souvent? » et qui peut être décrite de la manière suivante (voir figure 2.17). Nous avons choisi de représenter la variable progradio d’une façon relativement simple, en ne demandant que les effectifs, les pourcentages ainsi que le mode. Le mode représentant la valeur la plus fréquemment obtenue pour chaque modalité, le résultat est confirmé dans le tableau ci-dessus où la radio rock est la plus fréquemment écoutée (39,8 % des réponses). On peut également représenter la variable par un diagramme bâtons (voir figure 2.18). 2. Pour établir le profil type du client de ce point de vente, il est nécessaire de décrire un certain nombre de variables de catégorisation, tels l’âge, le sexe (nous avons déjà décrit cette variable dans la partie théorique du chapitre), les revenus, le niveau d’études, etc. Dans le jeu de données, seule l’année de naissance est disponible. Il faut donc transformer cette variable afin de définir l’âge des répondants. Dans le menu Transformer, ouvrez la boîte de dialogue Calculer la variable. Pour calculer l’âge des répondants, il suffit de reti- rer l’âge de chaque répondant à l’année actuelle (2008) comme le montre la figure 2.19. Figure 2.17 Effectifs de la variable progradio. Figure 2.18 Diagramme bâtons de la variable progradio. Livre spss.book Page 47 Vendredi, 25. janvier 2008 12:04 12
  • 61.
    48 Analyse dedonnées avec SPSS Nous appelons AGE la nouvelle variable créée. On peut maintenant calculer l’âge moyen des répondants (voir figure 2.20). Décrivons maintenant les revenus ainsi que le niveau d’études des répondants (voir figures 2.21 et 2.22). Pour conclure rapidement, on peut dire que l’âge moyen du répondant est de 39,33 ans, qu’il s’agit de ménages aisés (seuls 29 % des foyers gagnent moins de 50 000 € annuels), ayant fait des études supérieures (plus de 80 % ont au moins une licence).Si l’on complète en incorpo- rant les éléments vus dans la partie cours, on peut également dire qu’il s’agit aussi bien d’hommes que de femmes, et que le montant moyen mensuel dépensé dans le magasin est relativement élevé (pour en savoir plus, il faudrait mettre en place une analyse typologique). Il pourrait s’agir d’une enseigne de prêt-à-porter moyen de gamme, même si les données dont nous disposons sont relativement limitées pour ce genre de conclusion. 3. Pour apporter une réponse à l’équipe marketing du magasin, il faut d’abord sélection- ner les répondants qui nous intéressent. Allez dans le menu Données > Sélectionner des observations… Sélectionnez les observations de la variable intention (« Seriez-vous prêt à faire vos achats dans ce point de vente? ») selon la condition logique : intention = 5 Figure 2.19 Boîte de dialogue Calculer une variable. Figure 2.20 Âge des répondants. Figure 2.21 Revenus des répondants. Livre spss.book Page 48 Vendredi, 25. janvier 2008 12:04 12
  • 62.
    49Décrire les données Exercices 2Chapitre (5étant le score de la plus haute intention d’achat). Une fois que vous avez cliqué sur OK, les autres observations sont barrées dans l’éditeur de données. Nous cherchons donc à cal- culer la moyenne des dépenses du groupe des répondants ayant la plus forte intention d’achat, en essayant d’établir s’ils sont prêts à payer plus que la moyenne des clients du magasin (on suppose ici que le prix moyen est le prix affiché). Il s’agit d’un test t sur échantillon unique où la valeur comparée sera le prix affiché (p = 9). Les résultats appa- raissent dans les tableaux de la figure 2.23. Les clients ayant la plus forte intention d’achat dépensent en moyenne plus de 18 € pour un tee-shirt, soit plus du double du prix affiché. Ces résultats sont significatifs (p < 0.05), ce qui signifie que la différence moyenne constatée (+9,13 € ) est statistiquement diffé- rente du prix moyen affiché. Une piste pour élargir la fourchette des prix pratiqués? 4. On peut comparer les réponses à deux questions mesurées de la même manière par le biais d’un test t pour échantillons appariés, ou bien en mettant en place un test de Wil- coxon si l’on préfère un test non paramétrique. Attention! Vous devez sélectionner de nouveau l’ensemble des répondants. Les tableaux de la figure 2.24 présentent les statisti- ques et les résultats du test t. Figure 2.22 Desription du niveau d’études des répondants. Figure 2.23 Comparaison de moyenne de la variable prix. Livre spss.book Page 49 Vendredi, 25. janvier 2008 12:04 12
  • 63.
    50Décrire les données Exercices 2Chapitre Lepremier tableau reprend les moyennes de réponses ainsi que les statistiques associées. On constate que la préférence va à la musique rock. Le second tableau permet de rejeter l’hypothèse nulle relative à l’égalité des deux mesures. Il existe donc une préférence signi- ficative pour une musique d’ambiance de type rock. On peut également obtenir ces résultats en utilisant le test de Wilcoxon comme l’indiquent les résultats reportés sur la figure 2.25. Le test de Wilcoxon confirme le résultat précédent. Le sens de la statistique confirme éga- lement le sens de la différence examinée, en faveur du second élément de la paire : la musi- que rock. Figure 2.24 Statistiques et test t sur échantillons appariés. Figure 2.25 Rangs et test de Wilcoxon sur échantillons appariés. Livre spss.book Page 50 Vendredi, 25. janvier 2008 12:04 12
  • 64.
    51 3Simplifier les données La simplificationou l’agrégation des données est fondamen- tale, elle sert à identifier les différentes dimensions d’un con- cept. L’analyse factorielle est utilisée pour décrire les données en un nombre agrégé de facteurs. Elle traduit une matrice de nombres difficile à lire par une série de tableaux plus simples, représentés sous forme de graphiques. Les principes de validation d’une échelle de mesure : les notions de validité et de fiabilité sont tout d’abord exposés. Ensuite, nous présentons l’analyse factorielle et ses applications. 1. Principes de validation d’une échelle de mesure.............52 2. L’analyse factorielle ...................54 Exercices 1. Analyse d’une AFC....................68 2. Analyse de la validité et de la fiabilité .........................70 3. Générer une carte perceptuelle par l’AFC..................................72 Chapitre syntex.fm Page 51 Vendredi, 25. janvier 2008 4:55 16
  • 65.
    52 Analyse dedonnées avec SPSS (1) Principes de validation d’une échelle de mesure Nous avons vu dans le chapitre 1 que les concepts étaient mesurés avec plusieurs questions ou items. Par exemple, pour estimer l’attitude du client à l’égard d’un produit, le chargé d’étude pose des questions qui permettent de bien saisir les différentes facettes de ce concept (part affective, cognitive, etc..). Ensuite, il faut vérifier que ces différentes ques- tions ou items mesurent bien ce que l’on cherche à mesurer, afin d’obtenir au final des résultats plus proches de la réalité. Dans l’article intitulé « Un paradigme pour développer de meilleures mesures des cons- truits marketing », Churchill (1979) propose une procédure pour renforcer la validité et la fiabilité des mesures. Après avoir sélectionné des échelles (jeu d’items pour mesurer un concept), il s’agit, dans un premier temps, de les soumettre à l’analyse factorielle explora- toire puis au test de la fiabilité 1. 1.1 LA VALIDITÉ D’UNE ÉCHELLE DE MESURE La validité d’une échelle de mesure désigne sa capacité à appréhender un phénomène (Hair et al., 2006). Les tests de validité ont pour objectif de vérifier si les différents items d’un instrument sont une bonne représentation du phénomène étudié : mesure-t-on ce que l’on cherche à mesurer? (Evrard et al., 2003). La validité prend plusieurs formes; il existe donc plusieurs techniques pour la vérifier : • la validité faciale ou de contenu : il s’agit de savoir si la mesure capture les différents aspects du phénomène étudié. Elle est fondée sur le jugement du chercheur et de ses pairs. Par exemple, lors du test du questionnaire, des experts du domaine peuvent émettre un avis sur la capacité des items à recouvrir tous les aspects d’un concept; • la validité de trait ou de construit : est-ce que les différents indicateurs offrent une bonne représentation du phénomène étudié ? Il faut vérifier si les indicateurs censés mesurer le même phénomène sont corrélés (validité convergente) et s'ils se distinguent des indicateurs censés mesurer des phénomènes différents (validité discriminante) (Evrard et al., 2003) : – la validité convergente est établie lorsque les mesures d’un même construit sont corrélées; – la validité discriminante est destinée à s’assurer que les indicateurs de mesure d’un construit sont faiblement corrélés aux indicateurs de mesure d’autres construits, conceptuellement distincts du premier. L’analyse factorielle exploratoire (AFE) per- met de tester ces deux validités; • la validité nomologique ou prédictive résulte de la conformité des relations entre les mesures d’un concept et celles d’autres concepts avec les prédictions de la théorie (Evrard et al., 2003). Cette étape de validation intervient au cours de la phase confirmatoire. 1. Puis, dans une phase de validation, les échelles modifiées après suppressions d’énoncés subissent une deuxième fois ces procédures, on parle d’analyse confirmatoire. Cette seconde étape vise à connaître les qualités psychométriques des instruments de mesure. Livre spss.book Page 52 Vendredi, 25. janvier 2008 12:04 12
  • 66.
    53Simplifier les données 3Chapitre 1.2LA FIABILITÉ D’UNE ÉCHELLE DE MESURE La fiabilité correspond au degré avec lequel les instruments utilisés mesurent de façon constante le construit étudié (Evrard et al., 2003). Par conséquent, une échelle est fidèle si l’on retrouve plusieurs fois les mêmes résultats sur les mêmes sujets. Trois méthodes per- mettent de tester la fiabilité d’une mesure : • la méthode du « test/retest » : le questionnaire est administré deux fois à la même population et les résultats obtenus sont comparés. Cette technique est particulièrement appropriée pour la mise au point d’instrument de mesure; • la méthode du « Split half », ou des deux moitiés : le questionnaire est administré au même moment à des échantillons différents (l’échantillon est scindé en deux) et les résultats sont comparés. Il existe cependant un risque de sélection; les deux échan- tillons sont-ils appariés? se ressemblent-ils? • la technique des formes alternatives : il s’agit d’introduire dans le questionnaire plusieurs questions sur le même phénomène mais formulées différemment. Le questionnaire est administré aux mêmes individus.Le coefficient alpha de Cronbach est calculé pour vérifier si les énoncés partagent des notions communes, et s’ils sont en cohérence entre eux. * Focus 3.1 • Estimer la fiabilité avec le coefficient alpha de Cronbach L’alpha de Cronbach est un coefficient de fiabilité qui mesure la cohérence interne d’une échelle construite à partir d’un ensemble d’items. La pratique consiste à réduire un grand nombre d’items initiaux dans un processus itératif de conservation/élimination des items en fonction de la valeur du coefficient alpha, qui varie entre 0 et 1. Plus la valeur de l’alpha est proche de 1, plus la cohérence interne de l’échelle (sa fiabilité) est forte. On élimine donc les items qui dimi- nuent le score, et on conserve ceux qui contribuent à augmenter l’alpha. L’examen de l’alpha de Cronbach évite au chargé d’étude de tomber dans un travers fréquent qui consiste à reprendre un questionnaire existant sans se préoccuper de ses problèmes de mesure. Le seuil d’acceptabilité de l’alpha varie selon l’objectif de la recherche. Pour une étude exploratoire, un coefficient plus faible est acceptable (0,7) alors que dans le cadre d’une recherche fondamentale, il doit être plus élevé (> 0,8) (Nunnally et Bernstein, 1994). Lorsqu’une échelle est utilisée pour comparer des groupes, un alpha de 0,8 est satisfaisant, et il est inutile d’essayer d’obtenir un niveau supérieur. De Vellis (2003) propose une typo- logie (voir tableau 3.1). Tableau 3.1 : Les valeurs de l’alpha de Cronbach < 0,6 Insuffisant entre 0,6 et 0,65 Faible entre 0,65 et 0,7 Minimum acceptable entre 0,7 et 0,8 Bon entre 0,8 et 0,9 Très bon > 0,9 Considérer la réduction du nombre d’items Livre spss.book Page 53 Vendredi, 25. janvier 2008 12:04 12
  • 67.
    54 Analyse dedonnées avec SPSS Il existe une relation entre le nombre d’items et la valeur de l’alpha : un nombre restreint d’items (de deux à trois) donne un alpha généralement plus faible (0,6) qu’une mesure de quatre énoncés (0,7). Au-delà de 0,9, l’alpha risque, en revanche, de traduire davantage une redondance inter-items, appauvrissant ainsi le domaine conceptuel étudié (Peterson, 1995). Il est, par conséquent, recommandé de ne pas dépasser le seuil de 0,9. Le logiciel SPSS fournit les niveaux du coefficient d’alpha de l’échelle lorsque chaque item est supprimé. Les items dont la suppression améliore sensiblement le coefficient ne sont généralement pas retenus si la validité de contenu ne s’en trouve pas amoindrie. * Focus 3.2 • Le traitement des items inversés La conception d’un questionnaire demande des précautions (plusieurs items, non-réponse pos- sible, clarté de la question, ordre des questions, etc.) car la formulation des questions peut influencer la mesure d’un concept. L’inversion d’item est souvent employée pour s’assurer de la validité et de la fiabilité de la mesure (par exemple, la satisfaction à l’égard d’un service est mesurée par un item : « je suis pleinement satisfait par ce service » et un autre, inversé, « ce service ne me satisfait pas pleinement »). Nous cherchons à évaluer dans quelle mesure les items utilisés sont de bons indicateurs des concepts qu’ils sont censés mesurer. Pour cela, il est généralement conseillé de réaliser une analyse factorielle exploratoire pour vérifier que les items se « regroupent » bien de la manière prévue, et de calculer ensuite le coefficient alpha de Cronbach qui évalue la fiabilité de chaque échelle (Churchill, 1979). (2) L’analyse factorielle L’analyse factorielle est une méthode exploratoire d’analyse des tableaux de contingence développée essentiellement par J.-P. Benzecri durant la période 1970-1990. Elle désigne un ensemble de méthodes statistiques multivariées dont le principal objectif est de définir la structure des corrélations entre un grand nombre de variables (par exemple, les réponses à un questionnaire) en déterminant un ensemble de dimensions communes appelés facteurs. 2.1 LES UTILISATIONS DE L’ANALYSE FACTORIELLE L’analyse factorielle sert à identifier les dimensions de la structure et à déterminer dans quelle mesure chaque variable peut expliquer chaque dimension. Les deux objectifs de l’analyse factorielle sont : • Résumer les données. L’analyse factorielle fait ressortir les dimensions sous-jacentes qui, une fois interprétées, décrivent les données de manière synthétique. • Réduire les données. Elle calcule des scores pour chaque dimension et les substitue aux variables originelles. Alors que dans les autres méthodes (régressions, analyse de variance, etc.) les variables sont considérées comme des variables soit dépendantes, soit indépendantes, dans l’analyse factorielle, toutes les variables sont considérées chacune par rapport aux autres. Les fac- teurs sont formés pour maximiser l’explication de l’ensemble des variables et non pour prédire des variables dépendantes. Dès lors, l’analyse factorielle est appropriée dans une optique exploratoire (analyse factorielle exploratoire ou AFE). Livre spss.book Page 54 Vendredi, 25. janvier 2008 12:04 12
  • 68.
    55Simplifier les données 3Chapitre EXEMPLELes critères importants dans l’évaluation d’un club de sport Dans une enquête sur les attentes des clients vis-à-vis de leur salle de sport, on interroge les individus sur une vingtaine de critères. L’analyse factorielle sert à regrouper les attentes en trois ou quatre points plus simples. Elle agrège les variables en facteurs ou combinaisons de variables. L’objectif est de rendre l’information plus synthétique et facile à lire sur une carte factorielle (voir tableaux 3.2 et 3.3). À titre d’exemple, le confort, les aspects défoulement, dynamisme et santé représentent peut- être en fait la même chose : être en forme. La solution de l’analyse factorielle est trouvée par essai/erreur et le jugement s’établit en fonction des concepts (voir figure 3.1). Sur l’axe horizontal de la figure, à gauche les atten- Tableau 3.2 : Exemple d’application de l’analyse factorielle Rencontre Muscles Esthétisme Défoulement Santé Dynamisme Priseencharge Confort Économie Lieuagréable 1 4 1 4 2 4 1 1 2 1 2 2 1 2 4 5 4 1 1 1 1 1 3 2 4 2 4 3 1 1 2 4 2 4 3 4 2 4 3 3 3 2 1 2 5 1 4 3 4 4 4 4 3 2 3 6 Tableau 3.3 : Exemple d’application de l’analyse factorielle (suite) Facteur 1 Forme Facteur 2 Contact Facteur 3 1 2 3 4 5 6 Livre spss.book Page 55 Vendredi, 25. janvier 2008 12:04 12
  • 69.
    56 Analyse dedonnées avec SPSS tes des clients portent sur la forme physique ; à droite, sur le confort de la salle. Sur l’axe vertical s’opposent le côté sociable du club de sport et le besoin de s’y défouler. Au total, la variance restituée par ces deux axes (les deux premiers facteurs) est de 50,43. L’analyse factorielle exploratoire permet d’identifier des groupes d’items qui covarient les uns avec les autres et semblent représenter des variables latentes pertinentes. Autrement dit, l’AFE consiste à explorer la relation entre des variables mesurées, afin de déterminer si ces relations peuvent être résumées par un nombre moins important de construits latents. L’AFE permet de vérifier le nombre de dimensions ou, plus souvent, l’unidimensionalité d’un concept. En effet, un concept peut comporter une ou plusieurs facettes. Par exemple, l’implication comporte une composante affective, une composante calculée et une com- posante normative. Lorsque l’on fait appel à des échelles de mesure déjà utilisées, l’AFE permet de vérifier si l’on retrouve, pour l’échantillon étudié, la même structure factorielle. Elle fera alors ressortir autant de facteurs que le construit a de dimensions (un seul facteur si le construit est unidimensionnel). Dans le cadre du développement de nouveaux instru- ments, l’AFE permet de constater si les items correspondent effectivement aux concepts présentés aux répondants. 2.2 LES CONDITIONS ET OPTIONS DE L’ANALYSE FACTORIELLE En fonction des caractéristiques de l’échantillon et des données collectées, plusieurs options sont possibles pour la réalisation d’une AFE (analyse factorielle exploratoire). Nous verrons, dans un premier temps, la taille de l’échantillon requise avant de présenter les différentes options et tests permettant de valider les résultats d’une AFE. La taille de l’échantillon nécessaire La taille de l’échantillon dépend du nombre d’items soumis à l’AFE. Il faut un minimum de cinq observations par item (un ratio de 10 pour 1 est préférable). Le nombre total d’observa- tions doit être d’au moins 50 et il est souhaitable d’interroger au moins 100 individus. Figure 3.1 Représentation graphique de l’analyse factorielle. Livre spss.book Page 56 Vendredi, 25. janvier 2008 12:04 12
  • 70.
    57Simplifier les données 3Chapitre Laméthode d’extraction utilisée La méthode d’extraction la plus employée est l’analyse en composantes principales (ACP). L’ACP a pour objet de résumer l’ensemble des données quantitatives d’un tableau individus/ variables. En effet, l’ACP synthétise les données en construisant un petit nombre de variables nouvelles, les composantes principales. Les éléments critiques de la grille peuvent alors être captés rapidement, à l’aide de représentations graphiques établies à partir des ACP. Le choix de la matrice des données Il est possible de travailler sur la matrice de corrélation ou sur la matrice de covariance. Pour simplifier, ce choix s’effectue ainsi : • matrice de corrélation : lorsque les variables sont mesurées avec des échelles différentes; • matrice de covariance : lorsque l’on applique l’analyse factorielle à plusieurs groupes avec des variances différentes pour chaque variable. L’adéquation des données Avant de réaliser l’analyse, il est important de s’assurer que les données sont factorisables. Elles doivent former un ensemble cohérent pour pouvoir y chercher des dimensions com- munes qui aient un sens et qui ne soient pas des artefacts statistiques (Evrard et al., 2003). La matrice des données doit comporter suffisamment de corrélations pour justifier la réa- lisation d’une AFE. Plusieurs indicateurs peuvent être utilisés : • La matrice des corrélations anti-image représente la valeur négative des corrélations partielles. Des corrélations anti-image importantes indiquent que la matrice des don- nées n’est peut-être pas adaptée à l’AFE. • Le test de Sphéricité de Bartlett examine la matrice des corrélations dans son intégra- lité et fournit la probabilité de l’hypothèse nulle selon laquelle toutes les corrélations sont de zéro. • La « Measure of Sampling Adequacy » (MSA) ou Kaiser-Meyer-Olkin (KMO) indique dans quelle proportion les variables retenues forment un ensemble cohérent et mesu- rent de manière adéquate un concept. Elle teste si les corrélations partielles entre les variables sont faibles. Des valeurs de KMO comprises entre 0,3 et 0,7 représentent des solutions factorielles acceptables. Ce test, d’abord réalisé pour chaque variable, doit ensuite être repris avec l’ensemble des variables (Hair et al., 2006). L’extraction des facteurs Il n’existe pas de base quantitative exacte pour déterminer le nombre de facteurs à extraire. Les critères sont souvent choisis sur la part de variance de chaque item qu’un facteur per- met d’expliquer : • l’« eigenvalue », ou règle des valeurs propres > 1 ou règle de Kaiser-Guttman : une valeur propre représente la quantité d’informations capturée par un facteur. Un facteur qui aurait une valeur propre inférieure à 1 représenterait moins d’informations qu’un simple item. • le « Scree Test », ou test du coude ou de l’éboulis : ce test se fonde également sur les valeurs propres des facteurs mais dans une perspective relative et non absolue. Étant Livre spss.book Page 57 Vendredi, 25. janvier 2008 12:04 12
  • 71.
    58 Analyse dedonnées avec SPSS donné que chaque facteur est extrait d’une matrice qui est le résidu de l’extraction pré- cédente, la quantité d’informations contenue dans les facteurs successifs décroît. Lors- que, entre deux facteurs, la décroissance en termes d’informations devient faible ou nulle, on peut estimer que le dernier facteur ne contient pas suffisamment d’informa- tions pour être retenu. • le critère du pourcentage de variance : il s’agit d’une approche par laquelle on observe les pourcentages cumulés de la variance extraite par les facteurs successifs. L’objectif est de s’assurer qu’un facteur explique une quantité significative de variance. Il est souvent conseillé d’arrêter l’extraction lorsque 60 % de la variance expliquée est extraite (Hair et al., 2006). La rotation des facteurs Afin de pouvoir interpréter les facteurs, il est généralement nécessaire de réaliser une rota- tion. Celle-ci permet d’identifier des groupes de variables fortement liés les uns aux autres. La rotation fait en sorte que chaque item ne soit fortement lié qu’à un seul facteur. Cette opération est réalisée par une redistribution de la variance des premiers facteurs extraits aux facteurs successifs, afin d’aboutir à une structure factorielle plus simple (Hair et al., 2006). Lorsque les axes sont maintenus à 90 degrés, on parle de rotation orthogonale; lorsque les axes ne sont pas contraints à être indépendants, on parle de rotation oblique. Il existe plusieurs méthodes de rotation : • Varimax : rotation orthogonale qui minimise le nombre de variables ayant de fortes corrélations sur chaque facteur. Simplifie l’interprétation des facteurs. • Oblimin direct : rotation oblique, c’est-à-dire dans laquelle les axes se positionnent en fonction des items et ne sont donc pas orthogonaux. • Quartimax : méthode qui minimise le nombre de facteurs requis pour expliquer cha- que variable. Simplifie l’interprétation des variables observées. • Equamax : méthode de rotation qui minimise à la fois le nombre de variables qui pèsent fortement sur un facteur et le nombre de facteurs requis pour expliquer une variable (combinaison des méthodes Varimax et Quartimax). * Focus 3.3 • L’analyse factorielle exploratoire : rotation orthogonale ou oblique? Les critères de choix entre la rotation orthogonale (Varimax) et la rotation oblique sont les suivants : La rotation orthogonale maintient les axes de l’espace factoriel en angle droit. Ce type de rota- tion permet de minimiser le nombre d’items ayant des contributions élevées sur un axe et donc de simplifier les facteurs. Elle permet d’obtenir une structure factorielle plus claire. Si la corrélation entre facteurs est faible, inférieure à 0,15 (De Vellis, 2003) ou à 0,3 (Nunnally et Bernstein, 1994), la rotation orthogonale sera préférée pour sa simplicité. Toutefois, si l’on a des raisons de penser que des items ou facteurs sont corrélés, il est logique de réaliser une rotation oblique. On peut également comparer la solution avec rotation oblique et rotation orthogonale. S’il est possible d’assigner un item au même facteur dans les deux cas, alors la rotation orthogonale sera choisie pour sa simplicité. Dans la grande majorité des cas, une rotation orthogonale est suffisante pour aboutir à une structure simple. Hair et al. (2006) estiment cependant que la rotation oblique est conseillée si l’on souhaite déterminer des facteurs représentant des concepts qui seront analysés postérieu- rement car la structure factorielle obtenue possède une plus grande stabilité. Livre spss.book Page 58 Vendredi, 25. janvier 2008 12:04 12
  • 72.
    59Simplifier les données 3Chapitre 2.3L’ÉPURATION DES DONNÉES L’AFE pour vérifier le nombre de dimensions d’un concept L’analyse factorielle est utilisée pour vérifier la validité de trait ou de construit. Il s’agit de tester et de purifier les échelles d’un questionnaire. L’AFE permet de s’assurer que l’échelle évalue précisément et exclusivement le construit qu’elle est censée mesurer. Lorsque le construit est unidimensionnel, l’AFE fera ressortir un seul facteur, plusieurs pour les construits multidimensionnels. Il est aussi possible de fixer a priori le nombre de facteurs sous SPSS. Nous traitons ici de la question des items et facteurs à retenir ou, au contraire, à suppri- mer, suite à une AFE. En effet, lorsque les facteurs sont extraits, il est nécessaire d’évaluer la validité convergente et discriminante au niveau de l’item ainsi que la fiabilité des échel- les. La validité convergente concerne le fait que les réponses obtenues par différents indi- cateurs du même construit soient fortement corrélées; la validité discriminante est démontrée lorsque la mesure d’un construit déterminé est faiblement corrélée à une mesure d’un autre construit. Ces analyses sont réalisées pour chaque échelle. Les items présumés mesurer un même construit doivent donc être fortement corrélés les uns aux autres (validité convergente) et faiblement corrélés aux items censés mesurer d’autres construits (validité discriminante). Le niveau du coefficient structurel de l’AFE (composante) sert à déterminer si l’item satis- fait au critère de validité convergente. Le tableau 3.4 présente les niveaux de significativité des contributions factorielles des items selon la taille de l’échantillon étudié. Source : adapté de Hair et al., 2006. Tableau 3.4 : Niveau de significativité des coefficients structurels selon la taille de l’échantillon Niveau des coefficients structurels Taille de l’échantillon nécessaire 0,30 350 0,35 250 0,40 200 0,45 150 0,50 120 0,55 100 0,60 85 0,65 70 0,70 60 0,75 50 Livre spss.book Page 59 Vendredi, 25. janvier 2008 12:04 12
  • 73.
    60 Analyse dedonnées avec SPSS L’épuration d’une échelle de mesure se fait en deux temps : D’une part, pour les coefficients structurels ou composantes, un seuil est déterminé en fonction de la taille de l’échantillon. Par exemple, pour un test d’échelle sur un échantillon de 200 individus, un seuil de 0,40 sera retenu. Pour les échelles multidimensionnelles, sont éliminés les items dont les poids factoriels sont supérieurs à 0,30 sur plusieurs facteurs et ceux n’ayant aucune contribution supérieure ou égale à 0,50 sur l’une des composantes principales identifiées. Ces seuils peuvent aussi varier en fonction de la taille de l’échan- tillon (Hair et al., 2006). D’autre part, la formation des facteurs repose sur l’importance des variables initiales sur ces facteurs. Les « communalités » (part de variance expliquée par l’item) doivent dépas- ser 0,5 et si possible 0,7. Le niveau de représentation est considéré comme moyen pour un seuil de 0,40, bon pour un seuil de 0,65 et excellent lorsque la communalité dépasse 0,80 (Evrard et al., 2003). SPSS Dans cet exemple, nous testons l’échelle destinée à mesurer l’ambition professionnelle. Cette échelle unidimensionnelle de 10 items est issue de la littérature. Les réponses aux questions sont collectées grâce à une échelle de Likert à cinq échelons allant de « Pas du tout d’accord » à « Tout à fait d’accord » (voir tableau 3.5). 1. Le r signifie que cet item est inversé. Les 10 items sont, dans un premier temps, soumis à une analyse factorielle exploratoire (méthode de l’ACP), afin de vérifier la structure du construit mesuré. Cette échelle est testée avec un échantillon de 106 individus. Ouvrez le fichier « challenge » 1. Allez dans le menu Analyse > Positionnement > Analyse factorielle. Une boîte de dialogue apparaît (voir figure 3.2). Tableau 3.5 : Exemple de l’échelle destinée à mesurer l’ambition Item 1 - J’aimerais avoir un poste plus important et que les autres m’envient. Item 2 - J’aime bien discuter avec des gens importants. Item 3 - Je veux être une personne importante dans la communauté. Item 4 - J’admire beaucoup les gens qui ont gravi les échelons et sont au sommet. Item 5r1 - Si j’avais suffisamment d’argent, je ne travaillerais plus*. Item 6 - Même si je gagnais beaucoup d’argent au jeu, je continuerais à exercer mon métier. Item 7r - Si je pouvais toucher le chômage, je préférerais ne pas travailler*. Item 8 - J’aime être admiré(e) pour ma réussite. Item 9r - Je n’aime pas être remarqué(e)*. Item 10 - J’aime que des employés me demandent conseil. 1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr. Livre spss.book Page 60 Vendredi, 25. janvier 2008 12:04 12
  • 74.
    61Simplifier les données 3Chapitre Transférezles items destinés à mesurer l’ambition en les sélectionnant chacun à leur tour et en cliquant sur la flèche. Avant de lancer l’AFE, plusieurs commandes sont à effectuer. Afin de vérifier l’adéquation des données, on peut demander l’indice KMO et le test de Bartlett par le bouton Descripti- ves dans la boîte de dialogue précédente. La structure initiale (précochée) donne les com- munalités, les valeurs propres et la part de variance expliquée initiale (voir figure 3.3). Cliquez ensuite sur Poursuivre pour revenir à la boîte de dialogue initiale. Pour sélectionner la méthode de l’analyse factorielle, cliquez sur Extraction et la boîte de dialogue de la figure 3.4 apparaît. Nous pouvons choisir la méthode de l’analyse factorielle (composantes principales; facteurs communs, etc.). Nous sélectionnons Composantes principales. Pour obtenir les facteurs, le logiciel présélectionne les valeurs propres supérieures à 1. Mais il est aussi possible de déterminer le nombre de facteurs. Dans une optique exploratoire, nous laissons libre ce nombre de facteurs. Le choix de la matrice de départ est aussi fixé dans cette boîte de dialogue : la matrice de corrélation est présélectionnée. Nous gardons cette matrice pour l’analyse. On peut demander un graphique des valeurs propres qui sert à éliminer des facteurs avec le test du coude. Cliquez ensuite sur Poursuivre pour revenir à la boîte de dialogue initiale. Figure 3.2 Demanded’analyse factorielle. Figure 3.3 Demande de l’indice KMO et du test de Bartlett. Livre spss.book Page 61 Vendredi, 25. janvier 2008 12:04 12
  • 75.
    62 Analyse dedonnées avec SPSS Pour sélectionner la méthode de rotation, cliquez sur Rotation et la boîte de dialogue de la figure 3.5 apparaît. Cochez la méthode choisie, nous sélectionnons Varimax. Cliquez ensuite sur Poursuivre pour revenir à la boîte de dialogue puis sur OK pour lancer l’AFE. Les résultats de l’analyse apparaissent dans l’onglet résultats (voir figure 3.6). L’indice KMO (0,816) ainsi que le test de Bartlett permettent d’accepter les résultats de cette analyse factorielle. Figure 3.4 Choix de la méthode d’extraction, de la matrice de départ et demande de graphique. Figure 3.5 Choix de la méthode de rotation. Figure 3.6 Interprétation des résultats de l’AFE : KMO, test de Bartlett et communalités. Livre spss.book Page 62 Vendredi, 25. janvier 2008 12:04 12
  • 76.
    63Simplifier les données 3Chapitre Lesrésultats montrent que les deux facteurs qui n’expliquent pas plus de 50 % (48,21) de la variance (voir figure 3.7). Nous éliminons les items dont les communalités sont trop faibles (soit 8r et 9 qui ont des communalités respectives de 0,24 et 0,19). En outre, la matrice des composantes atteste que deux items (5r et 6) ne se trouvent pas sur le même facteur (voir figure 3.8). Or, ce second facteur n’explique, à son tour, qu’une faible part de la variance. Nous éliminons donc ces deux items. À ce stade, il faut refaire une AFE en rappelant la boîte de dialogue ou en allant dans le menu Analyse > Factorisation > Analyse factorielle. La boîte de dialogue de la figure 3.9 apparaît. Il faut alors faire passer les items éliminés (5r, 6, 8r et 9) dans la liste des variables, en les sélectionnant, toujours avec la flèche, mais dans le sens inverse. Les options choisies restent cochées (extraction, demande du KMO, etc.) et il n’est donc pas nécessaire de recommencer cette procédure. Cliquez sur OK. Les résultats de cette deuxième AFE apparaissent, toujours dans l’onglet résultats, à la figure 3.10. La solution est maintenant, comme dans la théorie, unidimensionnelle, mais elle ne parvient toujours pas à expliquer plus de 50 % de la variance. Dès lors, l’item 3r dont la communa- lité est insuffisante (0,38) est supprimé. Nous rappelons donc la boîte de dialogue (voir figure 3.11) et nous faisons passer l’item ambition3r dans la liste des variables. Puis nous cliquons sur OK. Figure 3.7 Interprétation des résultats de l’AFE : pourcentage de variance expliquée, nombre de facteurs. Figure 3.8 Interprétation des résultats de l’AFE : matrice des composantes (coefficients structurels). Livre spss.book Page 63 Vendredi, 25. janvier 2008 12:04 12
  • 77.
    64 Analyse dedonnées avec SPSS Les résultats de cette troisième AFE apparaissent à la suite des autres, dans l’onglet résultats, à la figure 3.12. Figure 3.9 Demanded’analyse factorielle (bis). Figure 3.10 Interprétation des résultats de l’AFE : KMO, test de Bartlett et communalités (bis). Figure 3.11 Demande d’AFE n˚ 3. Livre spss.book Page 64 Vendredi, 25. janvier 2008 12:04 12
  • 78.
    65Simplifier les données 3Chapitre Cettedernière solution unidimensionnelle permet d’expliquer 53,72 % de la variance; les communalités et les composantes de chaque item sont respectivement supérieures à 0,45 et 0,67. La matrice des composantes (voir figure 3.13) indique que tous les items ont un coef- ficient structurel ou > à 0,65. Les items 1, 2, 4, 7 et 10 sont donc conservés pour la suite de l’analyse. À ce stade nous procédons à l’examen de la fiabilité de l’échelle avec le coefficient alpha de Cronbach. Le calcul du coefficient alpha de Cronbach pour vérifier la fiabilité d’une échelle Nous continuons le processus d’épuration des données avec le même exemple d’échelle de mesure de l’ambition du vendeur. Nous avons vu que le coefficient alpha de Cronbach était un indicateur de la cohérence interne d’une échelle de mesure. Allez dans le menu Analyse > Positionnement > Analyse de fiabilité. La boîte de dialogue de la figure 3.14 apparaît. Transférez les items sélectionnés destinés à mesurer l’ambition à l’aide de l’analyse facto- rielle exploratoire en les sélectionnant chacun à leur tour puis en cliquant sur la flèche. Avant de lancer le calcul de l’alpha de Cronbach, cliquez sur le bouton Statistiques, la boîte de dialogue de la figure 3.15 apparaît alors. Nous demandons l’alpha pour chaque item, pour l’échelle et l’échelle sans l’item. Figure 3.12 Interprétation des résultats de l’AFE : KMO, test de Bartlett et communalités n˚ 3. Figure 3.13 Interprétation des résultats de l’AFE : matrice des composantes (coefficients structurels) n˚ 3. Livre spss.book Page 65 Vendredi, 25. janvier 2008 12:04 12
  • 79.
    66 Analyse dedonnées avec SPSS Les résultats apparaissent dans l’onglet résultats, à la figure 3.16. Le coeficient alpha de Cronbach apparaît dans le deuxième tableau. Figure 3.14 Test de la fiabilité de cohérence interne avec le coefficient alpha de Cronbach. Figure 3.15 Choix des statistiques pour le calcul du coefficient alpha de Cronbach. Figure 3.16 Résultats du calcul du coefficient alpha de Cronbach. Livre spss.book Page 66 Vendredi, 25. janvier 2008 12:04 12
  • 80.
    67Simplifier les données 3Chapitre Lepremier tableau présente la moyenne et la variance de l’échelle en cas de suppression de calcul des items (colonnes 1 et 2), la corrélation de chaque item aux autres (colonne 3) et l’alpha de Cronbach en cas de supression d’un item. Cette échelle présente une fiabilité de cohérence interne acceptable (alpha = 0,78). Il n’est pas possible d’améliorer l’alpha en éliminant un ou plusieurs items (cf. colonne droite du tableau alpha en cas de suppression de l’élément). Nous gardons donc les cinq items (1, 2, 4, 7 et 10) pour mesurer l’ambition. Pour aller plus loin Evrard Y., Pras B., et Roux E., Market. Études et recherches en marketing, Nathan, Paris, 2003. Gerbing D. W., Anderson J. C., « An updated paradigm for scale development incorpora- ting unidimensionality and its assessment », Journal of Marketing Research, 25, 1988, p. 186-192. Hair J. F., Anderson R. E., Tatham R. L., Black W. C., Multivariate Data Analysis, 4e éd., Prentice Hall International, New Jersey, 2006. Figure 3.17 Résultat du calcul du coefficient alpha de Cronbach. Livre spss.book Page 67 Vendredi, 25. janvier 2008 12:04 12
  • 81.
    68 Analyse dedonnées avec SPSS Exercices EXERCICE 1 ANALYSE D’UNE AFC • Énoncé Il existe différentes sources de satisfaction au travail, ces valences sont évaluées en posant la question : « Quelle importance accordez-vous à ces aspects de votre travail? » (collecte des réponses à l’aide d’une échelle de Likert en cinq points allant de « Pas du tout » à « Très important »). VAL1 - Une augmentation de votre sentiment réussite VAL2 - Le sentiment que vous utilisez bien vos compétences VAL3 - Votre satisfaction personnelle VAL4 - L’occasion de développer des relations avec les autres employés de l’entre- prise VAL5 - De meilleures relations de travail avec votre manager VAL6 - De meilleures relations avec les autres commerciaux VAL7 - L’implication dans la formation des autres employés VAL8 - Plus d’autonomie de la part de votre manager VAL9 - Davantage de respect de la part de vos collègues VAL10 - Une baisse des réclamations de la part de vos clients VAL11 - La reconnaissance de vos clients sur le fait que vous les avez bien conseillés VAL12 - Plus d’opportunités de développer des contacts clients VAL13 - De meilleures relations avec vos clients VAL14 - Une augmentation de vos revenus VAL15 - Plus d’influence sur les décisions de votre manager VAL16 - Recevoir la reconnaissance de votre hiérarchie VAL17 - Une augmentation de votre prestige personnel VAL18 - La chance d’être muté dans une agence ayant plus de potentiel VAL19 - L’évolution vers un poste de management Nous collectons aussi la valence par rapport à la victoire au challenge : VALVI1 - La victoire à ce challenge VALVI2 - Être parmi les gagnants du challenge en question Suite à une première AFE, seuls les items apparaissant en gras ont été conservés. Question : décrivez les résultats de l’AFC (voir figures 3.18, 3.19, 3.20 et 3.21). Livre spss.book Page 68 Vendredi, 25. janvier 2008 12:04 12
  • 82.
    69Simplifier les données Exercices 3Chapitre Figure3.18 Résultats de l’AFC (1). Figure 3.19 Résultats de l’AFC (2). Figure 3.20 Résultats de l’AFC (3). Livre spss.book Page 69 Vendredi, 25. janvier 2008 12:04 12
  • 83.
    70 Analyse dedonnées avec SPSS * Solution Les résultats de l’AFC sont comparables à ceux qui peuvent être obtenus à l’aide d’une ACP. Le premier facteur représente 32,97 % de la variance, le second compte pour 23,67 %. Sur l’axe horizontal, nous trouvons les relations que le vendeur entretient avec ses clients, ses pairs. Sur l’axe vertical (deuxième composante), nous trouvons la valence pour la vic- toire au challenge. Nous observons que les items 18 et 9, qui portent sur les promotions, sont proches de cet axe. Le challenge serait donc associé aux opportunités de carrière, au respect des pairs. Sur cet axe, nous retrouvons les aspects relationnels du travail, en interne (avec les collègues) ou en externe (avec les clients). EXERCICE 2 ANALYSE DE LA VALIDITÉ ET DE LA FIABILITÉ • Énoncé Il n’existe pas d’échelle dans la littérature pour mesurer l’attitude générale à l’égard des challenges de vente. L’échelle de mesure de cette attitude a été créée grâce à une étude qualitative : 7 items ont été créés puis utilisés dans un questionnaire. Les réponses sont recueillies auprès de 747 commerciaux sur une échelle de Likert à cinq grades. Une analyse factorielle exploratoire (ACP), puis un test de la fiabilité de cette échelle sont réalisés (voir figures 3.22, 3.23 et 3.24). À partir de ces analyses, répondez aux questions suivantes : 1. Cette échelle est-elle multidimensionnelle? 2. Faut-il conserver tous les items de cette échelle? Sinon quel(s) item(s) élimineriez-vous? Comment prenez-vous cette décision? 3. Cette échelle de mesure est-elle fiable? Figure 3.21 Résultats de l’AFC (4). Livre spss.book Page 70 Vendredi, 25. janvier 2008 12:04 12
  • 84.
    71Simplifier les données Exercices 3Chapitre Figure3.22 Résultats de l’AFE (1). Figure 3.23 Résultats de l’AFE (2). Figure 3.24 Résultats de l’AFE (3). syntex.fm Page 71 Vendredi, 25. janvier 2008 3:08 15
  • 85.
    72 Analyse dedonnées avec SPSS * Solution 1. L’analyse en composantes principales atteste de la nature unidimensionnelle de ce con- cept. Cette solution factorielle parvient à expliquer plus de 53 % de la variance totale. Le test KMO, tout à fait satisfaisant (0,88) valide cette solution factorielle. 2. Non, il ne faut pas conserver tous les items. L’examen des communalités des énoncés indique que l’item atig5, dont l’indice de com- munalité (0,23) et le poids factoriel (0,48) sont faibles, affaiblit la validité de cette échelle. Cet item doit par conséquent, être éliminé pour la suite des analyses. 3. Cette échelle est fiable puisque le coefficient alpha de Cronbach dépasse 0,8 (0,84). Toutefois la fiabilité peut être meilleure si l’item atig5 est éliminé (l’alpha monte à 0,85). 2.1 EXERCICE 3 : GÉNÉRER UNE CARTE PERCEPTUELLE PAR L’AFC * Solution 3 1. Pour commander l’analyse factorielle, sélectionnez le menu Analyse > Factorisation > Analyse factorielle et faites passer les variables à factoriser dans la partie Variables avec la flèche (voir figure 3.25). Ensuite, dans l’onglet Descriptives (voir figure 3.26), la case Structure initiale est déjà cochée (elle donne les communautés, valeurs propres et pourcentage de variance expli- qués par chaque dimension). Dans la partie Matrice des corrélations, cochez les cases Coefficients et Reconstituée. • Énoncé Une enquête portant sur les perceptions de différentes marques de voitures a été réalisée auprès de consommateurs. Les individus ont évalué 10 marques d’après 15 critères, notés sur des échelles de Likert de 1 à 9. Les variables perceptuelles sont les suivantes : Notoriété Ergonomie Finition Prestige Qualité Familial Confort Économique Nouveauté Image Qualité-prix Innovation Robustesse Sportif Spacieux Les résultats de l’enquête, c’est-à-dire la moyenne des scores obtenus à chaque variable, sont représentés dans le fichier « Facto.sav ». Sur ces données, une analyse factorielle exploratoire peut permettre d’identifier les perceptions de consommateurs, mais aussi de représenter les marques en fonction de ces perceptions dans ce que l’on nomme une carte perceptuelle, ou mapping perceptuel. 1. Générez l’analyse factorielle sur les données de l’étude. 2. Interprétez l’analyse factorielle. Quelles conclusions tirez-vous de cette analyse? Livre spss.book Page 72 Vendredi, 25. janvier 2008 12:04 12
  • 86.
    73Simplifier les données Exercices 3Chapitre Dansl’onglet Extraction (voir figure 3.27), la case Matrice de corrélation est cochée et la méthode en Composantes principales sélectionnée. Cochez Graphique des valeurs pro- pres et Structure factorielle sans rotation. Sélectionnez un nombre de facteurs égal à 2, afin de générer une carte à deux dimensions. Dans l’onglet Rotation, choisissez Varimax et cliquez sur Carte factorielle comme l’indi- que la figure 3.28. Une fois tous les paramètres définis, cliquez sur OK pour lancer l’analyse factorielle. 2. L’interprétation de l’analyse factorielle s’établit à l’aide des tableaux qui apparaissent dans la partie Résultats : Figure 3.25 Commande de l’analyse factorielle. Figure 3.26 Options d’Analyse factorielle. Figure 3.27 Méthode d’extraction de l’analyse factorielle. Livre spss.book Page 73 Vendredi, 25. janvier 2008 12:04 12
  • 87.
    74 Analyse dedonnées avec SPSS Le tableau de la variance totale expliquée (voir figure 3.29) présente les deux dimensions qui résument l’information. La première dimension permet d’expliquer 46,32 % de la variance du phénomène, c’est-à-dire que les variables qui composent cette première dimension synthétisent 51,63 % du phénomène. La seconde dimension explique 23,95 % de la variance. Les deux dimensions expliquent plus de 70 % de la variance totale. On con- seille en général d’arrêter l’extraction de facteurs lorsque 60 % de variance cumulée a été extraite (Hair et al., 1998). Cette variance cumulée indique que la réduction des variables à deux composantes permet de conserver l’essentiel du phénomène mesuré par les quinze variables perceptuelles initiales. Notre représentation du phénomène est donc de qualité. La qualité de la représentation (voir figure 3.30) permet de vérifier si les variables initiales sont bien prises en compte par les variables extraites. Ici, la qualité de représentation ou communalité de la variable « notoriété » est de 0,989. Ce qui signifie que 98,9 % de la variance de la variable est prise en compte par l’une des deux dimensions extraites. Dans cet exemple, les variables « nouveauté » et « innovation » ne sont pas bien représentées. La matrice des composantes (voir figure 3.31) montre les dimensions extraites (deux dimen- sions) avec les composantes. Chaque colonne correspond à une dimension extraite contenant les coefficients ou composantes qui peuvent s’interpréter comme des coefficients de corrélation. La qualité et le confort sont ainsi reliés à la dimension 1, alors que le rapport qualité-prix ou la dimension économique du modèle sont reliés à la dimension 2. On passe donc en revue les coefficients afin d’identifier les variables reliées à chacune des dimensions. De cette manière, la matrice des composantes permet de nommer les dimensions extraites par l’étude des composantes. La première composante relève de l’image perçue (prestige à gauche de l’axe, et familial à droite de l’axe; voir figure 3.32); la seconde composante relève du rapport qualité-prix perçu. Figure 3.28 Choix de la méthode de rotation de l’analyse factorielle. Figure 3.29 Les résultats de l’analyse factorielle : la variance totale expliquée. Livre spss.book Page 74 Vendredi, 25. janvier 2008 12:04 12
  • 88.
    75Simplifier les données Exercices 3Chapitre Lediagramme des composantes correspond à la représentation graphique de la matrice des composantes (voir figure 3.32). Figure 3.30 Les résultats de l’analyse factorielle : la qualité de représentation. Figure 3.31 Les résultats de l’analyse factorielle : la matrice des composantes. Figure 3.32 Les résultats de l’analyse factorielle : le diagramme des composantes. Livre spss.book Page 75 Vendredi, 25. janvier 2008 12:04 12
  • 89.
    76 Analyse dedonnées avec SPSS La matrice des composantes permet également de calculer les coordonnées pour représen- ter graphiquement les individus par rapport aux dimensions extraites. On peut ainsi com- parer la position de chacune des observations, en d’autres termes, positionner les marques dans l’espace factoriel créé. Afin de retrouver les marques sur chacun de ces axes, vous devez relancer l’analyse factorielle : Analyse > Analyse factorielle puis, dans l’onglet Facteurs, cocher Enregistrer dans des variables et la méthode Régression (voir figure 3.33). Deux nouvelles variables sont alors créées dans l’éditeur de données (voir figure 3.34). Elles donnent les scores factoriels, c’est-à-dire pour chaque individu (chaque marque) sa moyenne sur chacune des deux dimensions. On peut constater par exemple que la Citroën C4 est reliée à la dimension Image. C’est ce que nous allons maintenant voir à l’aide d’un graphique. Pour commander le graphique, sélectionnez le menu Graphes > Boîtes de dialogue héritées > Dispersion/Points, puis cliquez sur Définir (voir figure 3.35). Ensuite faites passer les facteurs créés dans les axes Y et X et, afin d’afficher chaque mar- que, faites glisser la variable « modèle » vers Etiqueter les observations par (voir figure 3.36). Figure 3.33 La commande Analyse factorielle : représentation graphique d’individus. Figure 3.34 La représentation graphique d’individus dans l’analyse factorielle. Figure 3.35 Commande d’une représentation graphique d’individus dans l’analyse factorielle. Livre spss.book Page 76 Vendredi, 25. janvier 2008 12:04 12
  • 90.
    77Simplifier les données Exercices 3Chapitre Vousdevez également cliquer sur l’onglet Options et cocher Afficher le diagramme avec les étiquettes d’observations pour les faire apparaître (voir figure 3.37). Ensuite, cliquez sur OK : le graphique n’est cependant pas très lisible car les axes n’appa- raissent pas. Pour y remédier, double-cliquez sur le graphique pour ouvrir l’éditeur de diagramme (voir chapitre 8), activez le diagramme en cliquant une nouvelle fois dessus et sélectionnez dans le menu Édition la ligne de référence de l’axe X; la position de l’axe 0 est présélectionnée. Dans le menu Propriétés, sélectionnez Afficher la ligne à l’origine, dans l’onglet Echelle (voir figure 3.38). Recommencez cette opération pour l’axe Y. Figure 3.36 Commande d’une représentation graphique d’individus dans l’analyse factorielle (suite). Figure 3.37 Commande d’une représentation graphique d’individus dans l’analyse factorielle (suite). Livre spss.book Page 77 Vendredi, 25. janvier 2008 12:04 12
  • 91.
    78Simplifier les données Exercices 3Chapitre Legraphique suivant (voir figure 3.39) apparaît alors, représentant les modèles de véhicu- les en fonction des perceptions déclarées des consommateurs interrogés. Ce type de repré- sentation peut servir à positionner les offres concurrentes sur le marché. Figure 3.38 Commande d’une représentation graphique d’individus dans l’analyse factorielle (suite). Figure 3.39 Représentation graphique d’individus dans l’analyse factorielle. Livre spss.book Page 78 Vendredi, 25. janvier 2008 12:04 12
  • 92.
    79 4Segmenter De nombreuses enquêtesen marketing ont pour objet de clas- ser des individus en groupes homogènes, afin, par exemple, de procéder à une segmentation du marché. Comme l’analyse factorielle (voir chapitre 3), l’analyse typologique permet de réduire le nombre des observations en les regroupant en des classes (ou types) homogènes et différenciées. (Evrard et al., 2003). Cependant, contrairement à l’analyse factorielle, les résultats peuvent fortement diverger en fonction des choix effectués. Nous verrons, dans ce chapitre, les concepts clés liés à cette méthode, les mesures statistiques associées, ainsi que les principaux éléments de sa mise en œuvre. 1. Fondements...............................80 2. Concepts associés......................83 3. Mise en œuvre ..........................90 Exercices 1. Habitudes alimentaires...............94 2. Achats On-line..........................97 3. Segmenter le marché automobile..............................102 Chapitre Livre spss.book Page 79 Vendredi, 25. janvier 2008 12:04 12
  • 93.
    80 Analyse dedonnées avec SPSS (1) Fondements La réalisation d’une typologie, ou encore d’une taxinomie, a été pendant longtemps le principe fondateur de la science moderne. Il s’agissait alors de décrire le monde afin de le comprendre. En français, les termes pour décrire ce principe de classification des individus – typologie, taxinomie, segmentation, classification, catégorisation –, sont rela- tivement ambigus. En anglais, en revanche, le terme clustering rend compte à la fois du fait de classer, c’est-à-dire de faire émerger des groupes d’individus, mais également du prin- cipe de classification, c’est-à-dire de l’affectation des individus aux différents groupes. L’analyse typologique, terme générique que nous retiendrons dans ce chapitre, est au cœur de la démarche marketing. Elle peut être utilisée pour simplifier la lecture des don- nées en regroupant des observations ayant des caractéristiques communes, ou encore pour faire émerger des groupes d’individus homogènes des données collectées. Cette approche est fréquemment retenue en marketing, où l’une des premières décisions straté- giques consiste à agréger des segments de marché en fonction des attentes des consomma- teurs afin de définir les choix de marchés possibles. Le marketing considère, en effet, que les marchés sur lesquels il opère peuvent être constitués d’attentes plus ou moins homogè- nes, qu’il s’agira de rendre intelligibles. On parle de marketing de masse lorsque les atten- tes sont homogènes, de marketing individualisé lorsque les attentes sont fortement hétérogènes, et de marketing segmenté lorsque les attentes sont groupées (voir figure 4.1). Le rôle du chargé d’étude dans cette perspective est de créer ex nihilo des groupes de consommateurs similaires entre eux mais différents des autres segments. Le principe de la segmentation, c’est-à-dire « le fait de former des groupes de clients homogènes », est directe- ment fondé sur des caractéristiques propres des individus (les consommateurs en l’occur- rence) qui nous indiquent pourquoi les segments diffèrent. Ces critères vont permettre au chargé d’étude d’identifier et de rapprocher les membres d’un segment. Pour qu’ils soient utiles, ces critères de segmentation doivent permettre de générer des segments distincts, en d’autres termes qui ne se recoupent pas. Il n’existe pas de segmentation optimale : la segmentation est un moyen par lequel on pourra, par exemple, identifier les cibles d’une campagne de mailing, orienter une extension de gamme de produits, définir le message publicitaire adapté à un profil de consommateurs, etc. Il existe donc plusieurs résultats possibles lors d’une segmentation, et le chargé d’étude devra réaliser des choix, afin de concilier exigence statistique et besoin d’opérationalité de la décision. Figure 4.1 Les attentes en marketing. Attentes homogènes Attentes groupées Attentes hétérogènes Marketing de masse Marketing segmenté Marketing individualisé Livre spss.book Page 80 Vendredi, 25. janvier 2008 12:04 12
  • 94.
    81Segmenter 4Chapitre Pour regrouper desconsommateurs, on considérera des variables de segmentation : • géographiques : région, type d’habitat, type d’agglomération, etc.; • sociodémographiques : âge, sexe, taille du foyer, revenus, catégorie socioprofession- nelle, niveau d’éducation, etc.; • psychographiques : style de vie, rapport au temps, personnalité, valeurs, etc.; • comportementales : attitudes, préférences, comportement d’achat (Récence, Fré- quence, Montant), etc. Dans un cadre de marketing industriel ou B to B (pour segmenter des entreprises), on pourra utiliser l’activité exercée par l’entreprise (le code NAF de l’Insee par exemple), la taille de l’entreprise (nombre d’employés, chiffre d’affaires), la localisation, la structure (divisions, magasins propres/franchises), etc. EXEMPLE GDF et la segmentation à 360˚ 1 Pour faire face à l’ouverture du marché de l’énergie mise en place en France le 1er juillet 2007, GDF mène depuis quelques années une réflexion approfondie sur ses méthodes de segmentation, afin de mieux connaître ses clients et leurs comportements, et surtout limiter leur départ vers la concurrence. Cette segmentation repose sur une base de données recou- pant les informations issues de données commerciales, marketing (CRM) et d’administration des ventes (niveau de consommation, facturation et paiement). En défragmentant les don- nées clients, GDF a affiné sa vision de la valeur économique de son portefeuille clients. La conséquence est une nouvelle approche de la segmentation clients : quinze segments de clientèle ont été constitués et agrégés en cinq macrosegments : les clients à convaincre, à conforter, à consolider, à observer et à tolérer. Une stratégie différenciée a ensuite été mise en place pour chacun des quinze segments (fidélisation, promotions, etc.). Nous nous intéresserons ici aux principales approches, les plus diffusées dans la pratique et les plus aisées à mettre en œuvre en termes d’analyse de données, que nous regroupe- rons sous le terme d’ «analyse typologique ». L’analyse typologique peut être définie de la façon suivante : « Étant donné un ensemble d’objets (ou d’individus) décrits par un cer- tain nombre de caractéristiques (ou variables), constituer des groupes (ou types) d’objets tels que les objets soient les plus similaires possibles au sein d’un groupe et que les groupes soient aussi dissemblables que possible; la ressemblance ou la dissemblance étant mesurée sur l’ensemble des variables décrivant les objets » (Evrard et al., 2003). Ces regroupements sont effectués en fonction de variables, dont on peut distinguer deux types : des variables comportementales pour classer les individus dans les segments, et des variables d’identifi- cation afin de pouvoir interpréter les groupes ainsi générés. Le choix des variables employées est hautement important. En effet, lorsque l’on procédera à l’analyse typologi- que, les résultats devront montrer une forte homogénéité intragroupe (proximité des mesures au sein d’un groupe), et une forte hétérogénéité intergroupe (distance entre les groupes) comme le montre la figure 4.2. La figure 4.2. représente un nuage de points issu du croisement de deux variables, soit par exemple l’âge (V1) et la fréquence d’achat (V2) d’un produit X. Le centre de gravité du nuage de points est représenté par le point au centre des trois segments. Comme on peut le constater, trois grands groupes émergent lorsque l’on croise ces deux variables. Chaque point représentant la combinaison des deux variables pour une observation, on remarque 1. Adapté de « GDF : Fidéliser et conquérir de nouveau marchés grâce au data mining », Decisio, 43, juin 2007. Livre spss.book Page 81 Vendredi, 25. janvier 2008 12:04 12
  • 95.
    82 Analyse dedonnées avec SPSS que les individus regroupés sont relativement homogènes, proches, et différents – c’est-à- dire distants – des autres membres des deux autres segments en termes d’âge et de fré- quence d’achat. Le chargé d’étude pourra aisément recommander des stratégies pour servir ces trois segments en termes de promotion ou de message publicitaire, par exemple. On peut voir, en effet, que les consommateurs les plus âgés, puis les plus jeunes, achètent le plus fréquemment, alors que les consommateurs des classes d’âge intermédiaires achè- tent le moins fréquemment. Malheureusement, il est extrêmement rare, pour ne pas dire impossible, que de tels segments émergent dans la pratique; l’objectif de la segmentation sera donc de créer des groupes distincts les uns des autres, mais dont les caractéristiques seront proches au sein même des groupes. En d’autres termes, il s’agira de diminuer le plus possible les traits pleins sur le schéma, à l’intérieur des groupes, et d’augmenter au maximum les traits en pointillés afin de bien distinguer les segments les uns des autres. Le chargé d’étude, afin d’éviter les erreurs liées à ce type d’exercice, devra, au-delà d’une maîtrise des principales mesures associées à la typologie, être en mesure de décider du nombre de segments satisfaisant les objectifs de l’enquête, et interpréter correctement le contenu de chacun des segments générés. Le problème que pose l’analyse typologique, que nous avons définie comme une technique d’analyse de données multivariée utilisée pour segmenter des populations, est précisément qu’elle repose sur un classement des individus et non une mesure des variables comme c’est le cas pour les autres tests statistiques. En d’autres termes, il n’existe pas une mais des analyses typologiques. De nombreuses possi- bilités sont donc offertes au chargé d’étude. Cet outil présente une grande flexibilité d’uti- lisation, mais également une importante complexité car le risque d’obtenir des résultats pertinents mais influencés par les procédures de calcul retenues et non par les données est important. C’est ce que l’on nomme le risque d’artefact. Figure 4.2 La segmentation. V1 V2 Barycentre Livre spss.book Page 82 Vendredi, 25. janvier 2008 12:04 12
  • 96.
    83Segmenter 4Chapitre (2) Concepts associés Ilexiste un certain nombre de concepts associés à l’analyse typologique. Deux dimensions principales doivent être abordées : les mesures statistiques de distance entre les individus et le processus de constitution des groupes qui sera sélectionné par l’analyste. 2.1 MESURES DE DISTANCE Le concept de distance est aisément compréhensible si l’on se réfère à la représentation des données sous forme de points dans un espace tel que représenté par la figure 4.2. On peut faire un parallèle ici avec l’analyse factorielle que nous avons étudiée au chapitre 3. Lors d’une analyse factorielle, la matrice des corrélations est employée pour regrouper des variables deux à deux au sein de différents facteurs. La corrélation représente le lien entre deux variables parmi toutes les observations. L’analyse factorielle regroupe donc au sein d’un même facteur toutes les variables ayant de fortes corrélations entre elles. La démar- che est un peu similaire lors d’une analyse typologique. La mesure de distance est calculée pour chaque paire d’objets sur la base de leurs caractéristiques telles que spécifiées par l’analyste. Ainsi, chaque objet peut être comparé par le biais de cette mesure de distance afin de former des groupes homogènes. Les mesures de distance, comme leur nom l’indique, représentent l’éloignement entre deux observations en fonction de leurs caractéristiques, une valeur élevée représentant une faible proximité. Cette distance peut être convertie en mesure de proximité en inver- sant la relation. La principale mesure utilisée est la distance euclidienne, qui consiste à calculer la racine carrée de la somme des carrés des différences entre les valeurs de chaque variable. La figure 4.3 illustre cette mesure.1 Figure 4.3 Illustration de la distance euclidienne 1. 1. Adapté de Hair et al., 2006, p. 575. X Y Observation 2 (X2,Y2) Observation 1 (X1,Y1) Y2-Y1 X2-X1 Distance = (X2-X1)2+(Y2-Y1)2 Livre spss.book Page 83 Vendredi, 25. janvier 2008 12:04 12
  • 97.
    84 Analyse dedonnées avec SPSS On peut voir sur la figure 4.3 que la distance euclidienne mesure la distance (ou la proxi- mité) entre deux observations dont les coordonnées dans l’espace sont données par les valeurs des variables X et Y. Pour l’observation 1, ces coordonnées sont (X1, Y1) et (X2, Y2) pour l’observation 2. La distance euclidienne entre ces deux points est la longueur de l’hypothénuse du triangle rectangle. Il est également possible de prendre le carré de la dis- tance euclidienne en enlevant la racine carrée de la formule ci-dessus. C’est une approche qui facilite le calcul et qui peut être utilisée, par exemple, dans la méthode de Ward (voir ci-après). D’autres mesures de distance peuvent s’avérer appropriées dans le cadre de données métriques : • le coefficient de corrélation de Pearson : c’est une mesure d’association qui permet d’établir si deux variales mesurées sur le même ensemble d’observations varient de façon analogue ou non; • la distance de Tchebycheff : il s’agit de la différence maximale absolue entre les valeurs relatives aux éléments de la classification; • la distance de Minkowski : c’est la racine nième de la somme des différences absolues entre les valeurs relatives aux éléments à la puissance n. Dans le cadre d’une classification avec des données binaires, on privilégiera : • l’indice de Sokal et Michener : il représente le rapport entre les appariements (rappro- chements deux à deux) et le nombre total de valeurs; • l’indice de Rogers et Tanimoto : cet indice attribue un poids deux fois plus important aux non-appariements (non-coïncidences); • l’indice de Sokal et Sneath : un poids plus important est accordé aux appariements qui comptent le double. De nombreuses autres mesures de distance existent; il est fortement conseillé de tester empiriquement ces techniques afin de définir la mesure qui représentera de la manière la plus efficace la structure des données collectées. Un certain nombre de limites doivent cependant être prises en compte. Lors d’analyses typologiques reposant sur des mesures différentes – par exemple des échelles de Likert, des pourcentages, des montants en euros, etc. –, il est nécessaire de standardiser les mesu- res et d’élimer les observations aberrantes. En ce qui concerne la standardisation, l’appro- che la plus courante est la méthode de l’écart type, mais d’autres approches peuvent être testées. L’utilisation de mesures de distance différentes peut conduire à des résultats de classification différents. L’analyse typologique est en ce sens une méthode empirique, où, comme nous l’avons signalé, de nombreuses combinaisons doivent être testées avant de déterminer la configuration optimale. 2.2 CONSTITUTION DES GROUPES Il existe deux types de méthodes de constitution des groupes (classification) : les méthodes dites hiérarchiques et les méthodes non hiérarchiques (voir figure 4.4). Les méthodes de classification hiérarchique consistent à établir une structure arbores- cente ascendante (à partir de chaque individu de groupe différent en constituant des groupes de plus en plus gros) ou descendante (à partir de tous les individus regroupés). Les méthodes de classification non hiérarchique visent à constituer k groupes (k étant Livre spss.book Page 84 Vendredi, 25. janvier 2008 12:04 12
  • 98.
    85Segmenter 4Chapitre spécifié en débutd’analyse) à partir des n individus de départ. Nous présentons dans cette section les méthodes les plus couramment mises en œuvre. Classification hiérarchique ascendante La classification hiérarchique ascendante est un processus relativement simple et répétitif. Les individus/observations sont regroupés en segments aux caractéristiques communes. On peut définir le processus de classification comme suit : • chaque observation représente un groupe, le nombre de groupes est par conséquent égal au nombre d’observations; • les deux groupes aux caractéristiques les plus proches sont agrégés au sein d’un même groupe en fonction de la mesure de distance choisie (euclidienne par exemple) et de la méthode d’agrégation retenue (voir ci-après); • le processus d’agrégation ci-dessus est répété n – 1 fois (n étant le nombre d’observa- tions), c’est-à-dire jusqu’à ce qu’il n’y ait plus qu’un seul groupe. Prenons l’exemple d’une enquête comportant 100 observations : la classification démarre avec 100 groupes d’une observation, ensuite les deux groupes les plus proches sont agré- gés, puis l’on recherche parmi les 99 groupes les deux groupes les plus proches, jusqu’à ce que les deux derniers groupes soient agrégés au sein d’un même et dernier groupe. En ce qui concerne la constitution des groupes, là encore plusieurs approches peuvent être envisagées (Malhotra et al., 2007). On retiendra cinq méthodes (ou algorithmes) d’agré- gation principales : • le saut minimum : cette méthode consiste à prendre la plus petite distance mesurée entre un élément de chaque groupe, puis la plus petite distance suivante, etc.; • la distance du diamètre : la distance entre deux groupes est calculée partir de la dis- tance entre leurs deux points les plus éloignés; • la distance moyenne : cette méthode est relativement proche; la distance entre deux groupes est définie par la moyenne des distances entre toutes les paires d’individus en prenant en compte, pour chaque paire, un membre de chaque groupe. Cette méthode est couramment employée du fait qu’elle utilise l’information de toutes les paires de distances; • la méthode des barycentres : il s’agit, comme la méthode de Ward, d’une méthode fon- dée sur la variance. Ces méthodes ont pour objet en effet de générer des groupes afin de minimiser la variance à l’intérieur de ceux-ci. On mesure la distance entre deux grou- pes en établissant la distance entre leurs barycentres (point construit à partir des moyennes de toutes les variables); Figure 4.4 Choisir une méthode de classification. Classifications Hiérarchique Non hiérarchique Ascendante Descendante Centres mobiles Nuées dynamiques Livre spss.book Page 85 Vendredi, 25. janvier 2008 12:04 12
  • 99.
    86 Analyse dedonnées avec SPSS • la méthode de Ward : on calcule les moyennes pour toutes les variables de chaque groupe, puis, pour chaque individu, le carré de la distance euclidienne au centre de la classe. La figure 4.5 représente ce que l’on nomme un dendogramme, autrement dit la représen- tation graphique des résultats de la classification des individus en groupes. On lit le den- dogramme de gauche à droite pour une classification hiérarchique ascendante, et de droite à gauche pour une classification hiérarchique descendante. Les traits horizontaux de la partie gauche du dendogramme représentent les 8 segments finaux réalisés lors de la classification hiérarchique. La longueur de ces traits horizontaux est également caractéris- tique de la distance qui sépare les groupes. Les lignes verticales représentent l’agrégation, le rapprochement de deux groupes. Sur le graphique présenté, les segments 1 et 2 peuvent être agrégés (ils sont proches à une distance de 1 à peu près) 1, ce qui est également le cas des segments 5 et 6 (à une distance de 1,5 environ). L’agrégation suivante se fait à une dis- tance de 2 et concerne le nouveau segment (composé des segments initiaux 5 et 6) et du segment 7. Nous développons l’interprétation d’un dendogramme plus en détail dans la partie suivante. Classification hiérarchique descendante La classification hiérarchique descendante consiste à considérer l’ensemble des observa- tions rassemblées au sein d’un même segment, puis à les diviser en deux segments, puis en trois, quatre, etc., jusqu’à obtenir un nombre maximum de segments (des groupes ne contenant qu’un seul individu). Figure 4.5 Interprétation des deux grandes méthodes de classification. 1. Les distances ici sont fictives, elles ont pour but d’illustrer l’écart relatif entre les groupes. 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 Descendante Ascendante Livre spss.book Page 86 Vendredi, 25. janvier 2008 12:04 12
  • 100.
    87Segmenter 4Chapitre SPSS La procédureà suivre dans SPSS est la suivante : Menu Analyse > Classement > Classifica- tion hiérarchique… La boîte de dialogue de la figure 4.6 s’affiche. Si vous classez des observations, vous devez sélectionner au moins une variable numéri- que. Si vous classez des variables, sélectionnez au moins trois variables numériques. Il est également possible de sélectionner une variable d’information pour étiqueter les observa- tions (par exemple classer les observations par pays). Le menu graphique vous permet de générer un arbre hiérarchique ou dendogramme (voir ci-après) souvent utile pour l’interpré- tation. En ce qui concerne la méthode (voir figure 4.7), plusieurs possibilités existent : le saut minimum, la distance du diamètre, la distance moyenne, la méthode des barycentres et la méthode de Ward (la plus couramment utilisée). Une fois la méthode retenue, la mesure doit être sélectionnée : l’analyste peut choisir entre la distance euclidienne ou le carré de la distance euclidienne par exemple, mais encore la corrélation de Pearson, la distance de Tchebycheff, la distance de Minkowski, l’indice de Sokal et Michener, l’indice de Rogers et Tanimoto, l’indice de Sokal et Sneath que nous avons abordés dans la section précédente. Il est préférable de tester plusieurs méthodes et plusieurs mesures avant de retenir une solution définitive. En effet, ces approches peuvent produire des résultats différents, plus ou moins lisibles ou utiles pour la décision. L’arbre de décision ou dendogramme peut faciliter la lecture des résultats. Figure 4.6 Boîte de dialogue du menu Classification Hiérarchique. Figure 4.7 Boîte de dialogue du sous-menu Méthode. Livre spss.book Page 87 Vendredi, 25. janvier 2008 12:04 12
  • 101.
    88 Analyse dedonnées avec SPSS 2.3 CLASSIFICATION NON HIÉRARCHIQUE Les méthodes de classification non hiérarchiques visent à constituer k groupes (k étant spécifié en début d’analyse) à partir des n individus de départ. Ces méthodes sont très lar- gement utilisées car elles permettent de traiter des volumes importants tout en optimisant les critères de classification. La particularité de ces méthodes, à la différence des méthodes de classification hiérarchique, est que le choix du nombre de groupes se fait en début de processus. Il s’agit d’un paramètre que l’analyste doit fixer avant de lancer l’algorithme. C’est un élément qui peut poser problème, étant donné que l’on ne connaît jamais ex ante le nombre idéal de groupes existant au sein d’une population étudiée. Dans la pratique, il est préférable de ne pas avoir à traiter un nombre trop élevé de groupes, ce qui rendrait difficile l’interprétation. On recommande donc de faire plusieurs essais avec des nombres de groupes différents afin d’identifier la meilleure solution au regard de critères statisti- ques de validité (la variance intergroupe divisée par la variance totale par exemple). On utilise en général des solutions comprenant entre 5 et 10 groupes. On distingue deux méthodes principales de classification non hiérarchique, qui sont en réalité deux niveaux d’une même approche : la méthode des centres mobiles et la méthode des nuées dynamiques. • la méthode des centres mobiles : méthode décomposant un ensemble d’individus en un nombre n de classes choisies a priori par un processus itératif convergeant de sélec- tion des représentants de chaque classe (un centre par classe), qui peut être initialisé au hasard ou par l’utilisateur de la méthode. Les individus sont donc regroupés autour de ces centres de classe, les groupes étant constitués des individus les plus proches du cen- tre du groupe. Une fois les individus affectés, on remplace les centres par les barycentres (c’est-à-dire le point d’équilibre de tous les points pris en compte) afin de recalculer les classes; • la méthode des nuées dynamiques : il s’agit d’une généralisation de la méthode des centres mobiles, dans laquelle chaque classe est représentée par un noyau de plusieurs éléments et non plus par un seul. Par ailleurs, le barycentre de chaque groupe est recal- culé à chaque nouvel individu et non lors de l’affectation de tous les individus. La convergence est ainsi plus rapide et parfois même possible en une seule itération, ce qui peut être utile sur de gros volumes de données (Tufféry, 2006). La méthode des nuées dynamiques est une méthode fréquemment employée. Elle est par- ticulièrement performante en marketing, où le nombre d’observations (questionnaires collectés par exemple) est fréquemment supérieur à 100. Les classifications hiérarchiques sont en effet lourdes à manipuler au-delà de ce seuil, le nombre d’itérations étant trop important en termes de capacité de calcul. L’approche des nuées dynamiques est intéres- sante également car elle permet d’adopter un raisonnement utile pour l’interprétation. Elle suppose, en effet, qu’il existe pour chaque groupe un individu plus représentatif que les autres de la classe à laquelle il est affecté, celui qui est le plus proche du barycentre. Notons que les variables doivent être quantitatives et/ou que la mesure de distance employée est la distance euclidienne simple. Si vous souhaitez utiliser une autre mesure de distance, il est préférable d’utiliser la méthode de classification hiérarchique. Livre spss.book Page 88 Vendredi, 25. janvier 2008 12:04 12
  • 102.
    89Segmenter 4Chapitre * Focus 4.1• Application aux données textuelles Les méthodes de classification hiérarchiques, mais également les nuées dynamiques, ont été depuis les travaux de Benzécri, puis de Reinert, appliquées au domaine de la lexicométrie (ou statistique textuelle), et plus récemment au Text Mining (extension aux données textuelles du Data Mining classique). Le principe sous-jacent au déploiement de ces méthodes est qu’il est possible de mettre à jour dans un discours ou un texte, une structure, des séquences qui vont permettre une analyse fine de ce type de données complexes à traiter. Plus précisément, la sta- tistique textuelle a pour objet de découper un texte en unités textuelles (des mots par exemple) puis de regrouper les unités qui sont proches de façon à obtenir des classes homogènes de dis- cours, suffisamment distinctes les unes des autres, que Reinert nomme des « mondes lexicaux » et qui correspondent aux différentes facettes d’un corpus textuel. Il est ainsi possible, par exem- ple, d’extraire de grandes classes de mots utilisés par les consommateurs pour parler d’une marque; un premier groupe de mots fait référence à l’image, un deuxième au rapport qualité/ prix, un troisième aux concurrents, etc. De nombreux logiciels permettent de traiter ces don- nées textuelles : Alceste (le logiciel développé par Max Reinert du CNRS), Tropes, Sphinx Lexica, mais également dans une approche de Text Mining : Lexiquest et Clementine de SPSS et Text Miner de SAS. SPSS La procédure à suivre dans SPSS est la suivante : Analyse > Classification > Nuées dynami- ques… La boîte de dialogue de la figure 4.8 apparaît. La première étape consiste à sélectionner les variables qui paraissent les plus pertinentes. On spécifie ensuite le nombre de classes que l’on souhaite obtenir (entre 5 et 10). Une indi- cation du nombre de classes souhaitable peut être fournie par une première analyse de type ACP (analyse en composantes principales), par exemple pour simplifier des données collec- tées (voir le chapitre 3 sur la simplification des données). Le menu Options permet de spéci- fier un certain nombre d’éléments qui seront utiles à l’interprétation : préciser les centres de classe initiaux ou créer un tableau ANOVA afin de déterminer les variables les plus discri- minantes dans la constitution des groupes et éliminer ainsi les centres de classe initiaux (pour l’interprétation de l’ANOVA, voir le chapitre 5). Il est possible également d’exclure les valeurs manquantes. On clique ensuite sur Itérer pour lancer la procédure. Figure 4.8 Boîte de dialogue du menu Nuées dynamiques. Livre spss.book Page 89 Vendredi, 25. janvier 2008 12:04 12
  • 103.
    90 Analyse dedonnées avec SPSS (3) Mise en œuvre L’analyse typologique est une méthode qui suppose de tester empiriquement un grand nombre de combinaisons différentes. La nature des données à segmenter mais également les choix opérés au niveau de la mesure de distance et des méthodes de constitution des groupes rendent extrêmement complexe le choix d’une combinaison optimale. À titre d’exemple, le nombre de regroupements possibles de 1 000 personnes en 6 classes est de l’ordre de 1015! (Evrard et al., 1997) Dès lors, un certain nombre de problèmes pratiques se posent à l’analyste. Les deux premiers sont liés à la mise en œuvre de la démarche : le choix du nombre des groupes et l’interprétation du profil des groupes constitués. Le troi- sième problème est lié à la validité de la classification; d’importantes précautions doivent être prises au cours de cette étape, comme nous le montre l’exemple suivant. EXEMPLE Pour illustrer la mise en œuvre d’une démarche de classification, prenons un exemple con- cret. Une entreprise du secteur informatique, fabriquant et commercialisant des ordinateurs et des baladeurs numériques, souhaite se diversifier en lançant un téléphone portable nou- velle génération. Elle réalise une étude de marché afin de lancer une gamme de produits déclinables en fonction de segments de consommateurs ayant des besoins suffisamment dif- férenciés les uns des autres pour éviter toute cannibalisation. L’enquête a été administrée à 160 consommateurs regroupés en 7 segments différents et qui ont été interrogés sur leurs préférences, notées sur une échelle de 1 à 7, sur un total de 15 attributs : 3.1 CHOISIR LE NOMBRE DE GROUPES Étant donné le nombre d’observations, le chargé d’étude décide de mettre en place une classification hiérarchique afin de constituer les groupes. Les résultats sont représentés dans l’arbre de décision de la figure 4.9. Intérêt nouveauté Utilisation SMS Utilisation voix Utilisation agenda Réception données Émission données Bluetooth Wi-Fi Taille écran Fonction E-mail Fonction Internet Appareil photo Design Prix abonnement Prix achat (hors abon.) Figure 4.9 Représentation graphique des résultats de la première classification. Livre spss.book Page 90 Vendredi, 25. janvier 2008 12:04 12
  • 104.
    91Segmenter 4Chapitre Le dendogramme nousfournit à la fois une visualisation graphique des résultats et le niveau en termes de distance des regroupements effectués. On peut voir, par exemple, que les segments 5 et 7 sont les plus proches, à une distance de 0,17 seulement. On constate ensuite que les deux segments suivants, les segments 1 et 6, ne sont séparés que par une distance de 0,21. Le « saut » suivant est effectué à une distance de 0,32 et regroupe l’agré- gation des segments 5 et 7 avec le segment 2. On entend par « saut » les écarts de distance entre les regroupements effectués. On peut les identifier avec SPSS dans le fichier des résultats, où on les retrouve dans la chaîne des agrégations, tableau qui reprend les dis- tances auxquelles ont été effectués les regroupements (voir exercice 1). On constate dans cet exemple que le saut suivant se situe à une distance de 1,15, qui correspond pratique- ment au triple en termes de distance du précédent regroupement. Il existe donc un écart important entre les trois premiers regroupements et les suivants. Une solution à 4 classes semble donc pertinente (les 7 classes sont obtenues par 6 regroupements successifs; si l’on fusionne les trois premiers regroupements énoncés, on n’obtient plus que 3 regroupe- ments séparant 4 classes différentes). 3.2 INTERPRÉTER LES GROUPES Une lecture de la classification à 4 groupes donnerait les résultats présentés à la figure 4.10. La première étape dans l’interprétation de la classification obtenue consiste à revenir sur les centres de groupes. Plus précisément, on cherche à établir les coordonnées de ces points, que l’on pourrait assimiler à des centres de gravité des classes constituées, en repre- nant les moyennes des scores des variables pour tous les individus appartenant à la classe. Il est important d’obtenir une classification pertinente du nombre de classes à exploiter mais également une lecture aisée de ces groupes d’individus ou de variables (voir tableau 4.1). On décrit les segments obtenus en observant les scores moyens par variable et par groupe et en les comparant au score moyen de l’ensemble des répondants (colonne Total). On constate que le segment 1 est caractérisé par un intérêt fort porté à la nouveauté proposée par l’entreprise, par un bloc de variables (de Ut_Tel à Émission) correspondant aux fonc- tions classiques du téléphone et aux fonctions avancées (E-mail, Internet, Appareil photo). Le segment 2 est plutôt caractérisé par l’emploi des SMS, les éléments liés à la connectivité à distance, une taille d’écran importante. Le segment 3 peut être décrit par une forte émission/réception de données, un intérêt pour les éléments de connectivité à distance ainsi que pour la taille de l’écran, le design du produit; il est relativement peu sensible au prix. Le segment 4 regroupe des individus attirés par la nouveauté, utilisant Figure 4.10 Représentation graphique la classification en 4 groupes. Livre spss.book Page 91 Vendredi, 25. janvier 2008 12:04 12
  • 105.
    92 Analyse dedonnées avec SPSS fortement leur téléphone, appréciant toutes les nouveautés technologiques proposées dans le nouveau produit et insensibles au prix. On peut considérer (on le voit également d’un point de vue graphique) qu’il existe deux segments principaux composés chacun de deux sous-segments. Les segments 1 et 4 regroupent en effet des individus attirés par la nouveauté. Le segment 4 étant moins sensible au prix, on pourrait les comparer à des early adopters ou adoptants précoces, qui sont les premiers à acheter les nouveautés sur le mar- ché. Le segment 4 représente des individus attirés par la nouveauté mais relativement peu informés et relativement désargentés. Ils pourraient constituer une cible intéressante pour une seconde vie du produit, avec abonnement, une fois que l’innovation aura été diffusée auprès d’une première couche de population, plus rentable. Le second groupe, constitué des segments 2 et 3, représente une population qui diffère légèrement de la première. Le segment 3, caractérisé par les variables depuis Émission jusqu’à Écran, est sensible au design et très peu au prix. Il s’agit d’un segment probablement CSP + ou professionnel, à qui l’on peut destiner une version haut de gamme, tant d’un point de vue technique qu’en ce qui concerne les services associés (ils téléchargent et émettent un volume important de données). Le segment 2 est un segment plus mass market a priori, qui pourrait correspon- dre à une population plus jeune (SMS), connectée (Bluetooth, Wi-Fi) et qui souhaite uti- Tableau 4.1 : Centres de groupes Variable Total S 1 S 2 S 3 S 4 Intérêt 3,47 3,71 2,43 2,19 5,11 Ut_SMS 4,21 3,68 5,63 3,19 3,49 Ut_Tel 5,56 5,84 5,43 4,31 5,84 Ut_Agenda 4,01 5,89 2,33 3,06 3,86 Réception 4,45 5,02 3,88 6,12 3,65 Émission 4,50 5,20 3,90 6,25 3,51 Bluetooth 3,99 3,86 5,04 5,31 2,16 Wi-Fi 3,71 3,39 3,73 6,12 3,14 Écran 4,79 4,29 5,55 5,00 4,43 E-mail 4,72 5,96 3,31 2,88 5,59 Internet 4,47 5,66 3,04 1,44 5,97 Ap_Photo 4,01 5,20 5,45 1,94 5,27 Design 4,63 3,95 4,16 5,50 5,95 Px_Abon 28,8 24,6 25,3 45,3 32,6 Px_Achat 332 290 273 488 411 Livre spss.book Page 92 Vendredi, 25. janvier 2008 12:04 12
  • 106.
    93Segmenter 4Chapitre liser les fonctionnalitésmultimédias de l’appareil (Écran, Appareil photo) afin de communiquer. Pour s’assurer de la validité de la classification obtenue, il est recommandé de vérifier en premier lieu la cohérence au sein des différents groupes (effectuer une analyse de variance par exemple). L’analyste peut également réaliser des tests statistiques sur chaque variable (fréquences, etc.) afin de comparer les résultats au sein d’un groupe avec l’ensemble des observations. Ces démarches ne sont utiles que si un certain nombre de combinaisons (méthode, distance, ajout/omission de variables, etc.) ont déjà été testées. Résumé L’analyse typologique est une méthode fréquemment mobilisée en analyse de données. Elle permet non seulement de classer des individus ou des variables, mais également de réduire les données en les regroupant au sein de classes homogènes. Il n’existe pas une mais des méthodes de segmentation. Que l’on opte pour une procédure de classification hiérarchique ou non hiérarchique, l’analyse typologique confère une grande liberté à l’analyste, mais rend également plus complexe le choix de la bonne approche. Elle suppose de tester empiriquement un grand nombre de combinaisons avant de trouver la démarche qui aboutisse à des résultats exploitables (nombre de groupes et interprétation) et valides. Pour aller plus loin Evrard Y., Pras B., Roux E., Market. Études et recherche en marketing, Nathan, Paris, 2003. Hair J. F., Anderson R. E., Tatham R. L., Black W. C., Multivariate Data Analysis, Prentice Hall International, New Jersey, 2007. Malhotra N., Decaudin J. M., Bouguerra A., Études marketing avec SPSS, 5e éd., Pearson Education, Paris, 2007. Tufféry S., Data mining et statistiques décisionnelles, éditions Technip, Paris, 2007. Livre spss.book Page 93 Vendredi, 25. janvier 2008 12:04 12
  • 107.
    94 Analyse dedonnées avec SPSS Exercices EXERCICE 1 HABITUDES ALIMENTAIRES * Solution 1. L’analyse typologique permet de « réduire le nombre d’observations en les regroupant en des classes homogènes et différenciées ». Dans ce cas précis, l’objectif de l’analyse typo- logique pourrait être de faire apparaître des catégories de pays en fonction des habitudes alimentaires. L’utilité pour l’enseigne est multiple : en faisant émerger ces grands types de consommation, elle sera à même d’optimiser sa stratégie de négociation avec les fournis- seurs, sa politique d’achat, structurer son département achat par régions, etc. 2. L’enquête porte sur seulement 25 observations, une classification hiérarchique semble pertinente. Dans ce cas précis, rien ne nous oriente vers une classification hiérarchique ascendante ou descendante. Il est préférable de s’orienter vers les pratiques les plus diffusées : nous pourrions essayer dans un premier temps de réaliser une classification hié- rarchique ascendante. Un premier essai en utilisant la méthode de Ward et le carré de la distance euclidienne (préférable lorsqu’on utilise la méthode de Ward comme nous l’avons vu) pourrait s’avérer fructueux. 3. La procédure est la suivante : Analyse > Classement > Classification hiérarchique… Faites glisser les variables de « viande rouge » à « fruits et légumes » dans la case Varia- ble(s), et sélectionnez « Nom du pays » afin d’étiqueter les observations. Dans le menu Graphique sélectionnez Arbre hiérarchique. En ce qui concerne la méthode, on peut, dans un premier temps, essayer d’utiliser la méthode de Ward combinée à une mesure par le carré de la distance euclidienne. On obtient le dendogramme de la figure 4.11. • Énoncé Une enseigne de grande distribution cherche à réaliser une enquête sur les habitudes ali- mentaires en Europe afin d’adapter sa politique d’achat et de référencement. Les données concernant 25 pays ont été recueillies. Elles portent sur les indices globaux de consom- mation de 9 catégories de produits alimentaires : viande rouge, viande blanche, œuf, lait, poisson, céréales, féculents, oléagineux, fruits et légumes. Les données issues de l’enquête sont disponibles dans le fichier « alimentaire.sav ». 1. Quelle pourrait être l’utilité de l’analyse typologique dans ce cas précis? 2. Quelle méthode de classification recommandez-vous? 3. Réalisez et décrivez l’arbre de classification. 4. Dans le cas de la classification hiérarchique, on peut également interpréter le nombre de groupes par le biais de la chaîne d’agrégation, qui reprend dans un tableau les dis- tances auxquelles les groupes sont agrégés. L’interprétation de cette chaîne consiste à repérer des « sauts » de distance dans la constitution des groupes. Commentez le tableau de la chaîne d’agrégation obtenu. 5. Combien de groupes faut-il garder? 6. Êtes-vous satisfait des résultats de l’analyse? Livre spss.book Page 94 Vendredi, 25. janvier 2008 12:04 12
  • 108.
    95Segmenter Exercices 4Chapitre On peut observersur l’arbre de décision que deux grands blocs de pays se détachent assez nettement. La première classe est constituée des pays allant du Danemark au Liechtens- tein, la seconde de la Bulgarie à l’Albanie. Ces deux blocs sont repris dans le tableau 4.2. La classification semble assez cohérente. Le premier groupe correspond a priori à des pays plus développés, ou faisant partie du premier cercle de l’Union européenne d’un point de vue historique. Le second groupe, à l’exception de l’Italie, fait partie de pays ayant adhéré plus tardivement à l’UE ou hors UE. On peut supposer que, même si les écarts de dévelop- pement ont été rattrapés pour certains d’entre eux (Espagne, Grèce, etc.), les difficultés Figure 4.11 Représentation graphique des résultats de la première classification. Tableau 4.2 : Les deux premiers groupes de pays Groupe 1 Groupe 2 Danemark Suède Norvège Islande France Belgique Royaume-Uni Suisse Irlande Pays-Bas Allemagne Liechtenstein Bulgarie Yougoslavie Roumanie Espagne Portugal Ukraine Pologne République tchèque Hongrie Grèce Italie Russie Albanie Livre spss.book Page 95 Vendredi, 25. janvier 2008 12:04 12
  • 109.
    96 Analyse dedonnées avec SPSS passées se notent dans les comportements alimentaires. Les données dont nous disposons ne nous permettent pas encore de véritable interprétation. 4. En ce qui concerne la chaîne d’agrégation, on obtient les résultats de la figure 4.12. Nous recherchons des « sauts » de distance dans la chaîne d’agrégation. Le premier saut apparaît nettement et confirme la description en deux classes principales : la distance dou- ble entre les étapes 23 et 24 (de 2 632,676 et 5 243,414). Le deuxième saut (22-23) est caractérisé par un écart de 900 environ, le troisième saut (21-22) par un écart de 500 envi- ron, et enfin le quatrième saut (20-21) par un écart de 200 seulement. Les troisième et quatrième sauts étant caractérisés par des écarts trop faibles si on les compare aux deux précédents, une solution à trois classes semble se profiler. Cette solution nous amènera à distinguer deux sous-groupes au sein du deuxième groupe de pays : un groupe constitué de la Bulgarie, de la Yougoslavie et de la Roumanie, d’un côté (ce qui a du sens d’un point de vue purement géographique) et le reste des pays, de l’autre. 5. Au vu des résultats précédents, et des objectifs que pourrait potentiellement mettre en œuvre l’enseigne de distribution, il semble qu’une solution à deux groupes soit préférable. En effet, le troisième groupe que nous avons fait apparaître n’étant constitué que de trois pays, la portée managériale de cette distinction est faible (mettre en place une cellule ou adapter la stratégie pour ces trois pays). Il faudrait croiser l’analyse avec d’autres variables, de type risque pays par exemple, qui sont fournies par les grands organismes internatio- naux (FMI, Banque mondiale, OMC, Eurostat, etc.) pour savoir s’il s’agit de pays à exclure des décisions stratégiques dans cette région. 6. Ces commentaires sont effectués sur les résultats d’une seule analyse. Ils ne donnent pas entière satisfaction et il est souhaitable de tester d’autres approches avant de donner un résultat définitif. À vous de tester d’autres procédures pour mieux déterminer les groupes. Figure 4.12 Chaîne d’agrégation de la typologie pays. Livre spss.book Page 96 Vendredi, 25. janvier 2008 12:04 12
  • 110.
    97Segmenter Exercices 4Chapitre EXERCICE 2 ACHATSON-LINE * Solution 1. Le nombre élevé d’observations nous oriente assez naturellement vers une méthode de classification non hiérarchique. Ces méthodes, rappelons-le, visent à constituer k groupes (nombre spécifié dès le départ) à partir des n individus (1 400 dans cet exemple). Le choix d’une méthode non hiérarchique s’explique par le recours à un nombre moins élevé d’ité- rations que dans le cas d’une classification hiérarchique, ce qui « allège » l’algorithme en termes de capacité de calcul (si vous lancez SPSS avec une classification hiérarchique sur ces données vous risquez d’attendre très longtemps vos résultats!). Enfin, les méthodes non hiérarchiques que nous avons abordées (centre mobiles et nuées dynamiques) sont intéressantes en termes d’interprétation car elles supposent qu’il existe un centre de classe, c’est-à-dire un individu plus représentatif de son groupe d’appartenance. Il semble donc judicieux de mettre en œuvre une analyse par la méthode des nuées dynamiques (K- means). 2. Pour lancer la méthode des nuées dynamiques reprenez la démarche vue dans la partie cours : Analyse > Classement > Nuées dynamiques… La procédure affiche la boîte de dialogue de la figure 4.13. • Énoncé Une enquête portant sur un nombre élevé de répondants (1 400 questionnaires exploita- bles) vient d’être réalisée. L’objet de cette enquête, commanditée par une chaîne de magasins spécialisée dans l’électroménager est de mieux comprendre le comportement multicanal du consommateur, c’est-à-dire si son comportement on-line diffère de son comportement off-line (en magasin traditionnel). Une première approche en termes d’analyse des résultats est de faire émerger des types de répondants. Une extraction des résultats de cette enquête est disponible dans le fichier « on-line.sav » disponible sur le site : http://www.pearsoneducation.fr. 1. Quelle démarche peut-on mettre en œuvre? Argumentez. 2. Décrivez puis interprétez les segments obtenus. Figure 4.13 Boîte de dialogue de la méthode des nuées dynamiques. Livre spss.book Page 97 Vendredi, 25. janvier 2008 12:04 12
  • 111.
    98 Analyse dedonnées avec SPSS La première étape consiste à choisir les variables les plus adaptées à l’analyse. Vous pouvez vous aider des étiquettes des variables (dans l’éditeur de données cliquez sur l’onglet « affichage des variables »). Nous n’avons pas vraiment d’indication, en dehors des questions posées (pas d’analyse factorielle par exemple sur la structure des données). Nous pouvons inclure, dans un premier temps, l’ensemble des variables (à l’exception du numéro de ques- tionnaire, sans objet). Faites glisser les variables dans la cellule « variable(s) ». Choisissez ensuite le nombre de classes que vous souhaitez obtenir : une AFC peut être utile ici pour vous orienter.Vous pouvez la réaliser en vous reportant au chapitre 3. Nous allons procéder de manière plus empirique. Tout d’abord, nous choisissons un nombre légèrement plus élevé de classes que celui attendu a priori (ou suggéré par l’AFC/ ACP). Les données que nous utilisons sont pour la plupart des échelles en 5 points, sauf la variable dichotomique sur la récence de la visite d’un site d’e-commerce qui pourrait être une variable relativement discriminante (de même que le sexe). Proposons dans un pre- mier temps une classification en 4 classes et observons les résultats. Étant donné que nous allons classer un nombre élevé de variables, il faut augmenter le menu Itérer à 30 itérations maximum (nous pourrons augmenter/diminuer le nombre d’itérations si les résultats nous indiquent que ce nombre s’avère insuffisant/trop élevé). Il est possible, dans ce menu, de sauvegarder les classes en tant que nouvelles variables; cette opération est utile en fin d’analyse pour vérifier la validité des résultats. Dans les Options, choisissez d’ajouter un tableau ANOVA (analyse de variance) qui sert à déterminer quelles sont les variables les plus discriminantes dans la constitution des groupes. Lancez la procédure. Nous obtenons les résultats présentés à la figure 4.14. Dans la plupart des cas on peut laisser le menu itérer par défaut (à 10 itérations maxi- mum). Les classes convergent dans notre cas avant la 23e itération, c’est-à-dire que la valeur ,000 est atteinte dans chacune des quatre classes. On observe ensuite le nombre d’observations dans chaque classe. Il faut veiller à ce que celles-ci ne soient pas trop déséquilibrées. Une bonne pratique consiste à ne garder que les classes qui représentent 10 % ou plus des observations. Dans notre cas, on obtient la répartition de la figure 4.15. Figure 4.14 Historique des itérations. Livre spss.book Page 98 Vendredi, 25. janvier 2008 12:04 12
  • 112.
    99Segmenter Exercices 4Chapitre La répartition semblehomogène. Si les résultats avaient été déséquilibrés à ce niveau, il aurait fallu éliminer une classe. Étudions maintenant les variables les plus discriminantes en décrivant les résultats du tableau ANOVA (voir figure 4.16). Le test de significativité F est utilisé dans l’interprétation de l’analyse de variance (voir chapitre 4). Ici, le F ne doit être utilisé que dans un but descriptif car il s’agit de maximiser les différences entre les observations des différentes classes. On recherche seulement les valeurs significatives de F les plus élevées. Deux constats peuvent être faits à la lecture du tableau : les variables les plus discriminantes pour la constitution des classes sont : 1) les visites avant achat (F = 2 853,781); 2) la fréquence d’achat sur Internet (F = 1 733,540); 3) le sentiment de sécurité lors de l’achat en ligne (F = 1 495,489). Le second constat pro- vient des variables qui peuvent être éliminées de l’analyse : il s’agit des variables vendeur (« je n’aime pas me faire conseiller par un vendeur »), on-line (« j’aime acheter on-line ») et multicanal (« je fais mes recherches on-line mais j’achète en magasin traditionnel ») qui ne sont pas significatives (respectivement à 0,682/0,251/0,159). On peut relancer l’analyse en éliminant ces trois variables : nous obtenons alors une convergence en 20 itérations et les résultats présentés aux figures 4.17, 4.18 et 4.19. On interprète les 4 classes en fonction des centres de classe finaux. On s’aperçoit assez rapidement qu’il s’agit d’hommes principalement et que les segments sont divisés en deux catégories principales : les pour et les contre (pour l’interprétation, on reprend la signifi- cation des valeurs en fonction des étiquettes de variables : 1 = absolument pas d’accord, etc.). On peut lancer une segmentation à deux classes pour faire apparaître plus clairement cette dichotomie. Les figures 4.20, 4.21, 4.22 et 4.23 présentent les résultats. Figure 4.15 Nombre d’observations dans chaque classe. Figure 4.16 Tableau ANOVA. Livre spss.book Page 99 Vendredi, 25. janvier 2008 12:04 12
  • 113.
    100 Analyse dedonnées avec SPSS Figure 4.17 Résultats deuxième analyse par les nuées dynamiques (1). Figure 4.18 Résultats deuxième analyse par les nuées dynamiques (2). Figure 4.19 Résultats deuxième analyse par les nuées dynamiques (3). Livre spss.book Page 100 Vendredi, 25. janvier 2008 12:04 12
  • 114.
    101Segmenter Exercices 4Chapitre Figure 4.20 Résultats finaux(1). Figure 4.21 Résultats finaux (2). Figure 4.22 Résultats finaux (3). Figure 4.23 Résultats finaux (4). Livre spss.book Page 101 Vendredi, 25. janvier 2008 12:04 12
  • 115.
    102 Analyse dedonnées avec SPSS On note tout d’abord que le calcul a été plus rapide (6 itérations seulement) et que les deux classes sont relativement homogènes (644 et 756 individus respectivement). Le pre- mier groupe correspond à des habitués de l’achat en ligne, qui ont visité récemment un site d’e-commerce, qui achètent régulièrement sur Internet, et qui ont visité de nombreu- ses fois le site avant de faire leur achat, que ce soit sur le site ou en point de vente tradition- nel. Le second segment correspond à des consommateurs qui sont plus réfractaires au commerce en ligne et qui ont visité peu de fois le site avant de faire leur achat. Dans les deux classes il s’agit principalement d’hommes. Nous n’avons pas d’information sur le canal utilisé pour réaliser l’achat : site ou magasin traditionnel. Une piste intéressante à suggérer à votre responsable : mettre en œuvre une analyse plus avancée pour expliquer l’achat on- ou off-line par l’ensemble des variables que nous venons d’étudier. EXERCICE 3 SEGMENTER LE MARCHÉ AUTOMOBILE1 * Solution 1. Nous allons procéder à une classification hiérarchique ascendante. Comme nous l’avons signalé, cette méthode est peu performante sur de gros volumes de données. Le tableau de données contenant 157 modèles concurrents, il est souhaitable de sélectionner les obser- vations pour en retenir un nombre moins élevé. Nous pouvons centrer notre analyse sur les modèles les plus performants sur le marché par le biais de la procédure « sélectionner les observations » (que nous avons abordée au chapitre 2). Dans le menu Données choisissez le sous-menu Sélectionner les observations… Nous nous intéressons aux modèles ayant vendu plus de 100 000 unités sur le marché améri- cain. Sélectionnez les observations selon une condition logique : Si « (type = 0) & (ventes > 100) » comme indiqué sur la figure 4.24. Pour lancer la classification hiérarchique ascendante, suivez les procédures que nous avons vues plus haut : Analyse > Classement > Classification hiérarchique… Nous allons fonder notre analyse sur un certain nombre de variables de classification per- tinentes dans le cas d’une segmentation de produits. Sélectionnez les variables allant de Prix en millier ($) jusqu’à Consommation en les faisant glisser dans la cellule « Variable(s) ». Nous allons utiliser une variable afin d’ordonner les résultats : faites glisser la variable Modèle dans la cellule « Etiqueter les observations par ». Dans le menu graphi- • Énoncé L’exemple 1 que nous allons étudier reprend des informations sur les caractéristiques de différents modèles concurrents sur le marché US, ainsi que leur performance en termes de prix et de vente. L’objet de l’application est de réaliser une typologie des principales marques en présence sur ce marché. Ouvrez le fichier « ventes_voitures.sav » disponible sur le site : http://www.pearsoneducation.fr. 1. Peut-on, sur ces données, mettre en œuvre une classification hiérarchique ascendante? Décrivez les étapes nécessaires à sa mise en œuvre. 2. Décrivez et interprétez les segments obtenus. 1. Il s’agit ici d’une version légèrement modifiée d’un fichier disponible dans les fichiers exemples de SPSS (car_sales.sav). De nombreux fichiers de ce type peuvent être utilisés pour manipuler et expérimenter les différents tests disponibles sur SPSS. Livre spss.book Page 102 Vendredi, 25. janvier 2008 12:04 12
  • 116.
    103Segmenter Exercices 4Chapitre que, cochez lacase « Arbre hiérarchique » et sélectionnez la case « Aucun » dans le sous- menu Stalactites afin de produire le dendogramme que nous analyserons dans la section suivante. Poursuivez et cliquez sur « Méthode » afin d’afficher la boîte de dialogue des mesures de distance de la classification. Nous allons procéder par une agrégation suivant le saut minimum, c’est-à-dire en déterminant la plus petite distance mesurée entre un élé- ment de chaque groupe, puis la plus petite distance suivante, et ainsi de suite. Les données étant mesurées sur des échelles différentes (dollars, litres, etc.) nous allons les standardiser par l’emploi de l’écart type, comme indiqué sur la figure 4.25. Cliquez sur Poursuivre et lancez la classification. La classification hiérarchique ascendante nous a permis d’obtenir 10 segments de véhicu- les, comme le montre le dendogramme à la figure 4.26. Figure 4.24 Boîte de dialogue Sélectionner les données selon une condition logique. Figure 4.25 Boîte de dialogue Choix de la méthode d’agrégation et de la mesure de distance. Figure 4.26 Dendogramme des résultats de la classification hiérarchique. Livre spss.book Page 103 Vendredi, 25. janvier 2008 12:04 12
  • 117.
    104 Analyse dedonnées avec SPSS 2. Lorsqu’on cherche à définir le nombre de groupes idéal sur la base d’un dendogramme, on souhaite identifier de manière empirique des « sauts » de distance entre les différents regroupements effectués. En lisant le dendogramme de la droite vers la gauche, on cons- tate qu’il y a un saut important entre 25 et 20 qui sépare le marché automobile en deux segments principaux, comme le montrent les traits en pointillés sur la figure 4.27. Rappelons la règle de lecture du dendogramme énoncée plus haut : les axes verticaux représentent les regroupements de segments, les axes horizontaux les distances entre les segments. Il s’agira donc de ne conserver que les segments les plus distants et d’agréger les segments les plus proches (ayant la plus petite distance). On peut constater, si l’on pour- suit la lecture des résultats graphiques, qu’il existe un autre saut, entre 10 et 15, qui sug- gère 6 segments différents si l’on compte le nombre de lignes horizontales entre ces deux mesures. On peut encore lire les résultats différemment : on constate qu’il existe un écart visuel entre les 5 premiers axes verticaux (les 5 premiers regroupements suggérant donc 6 segments) et les axes verticaux suivants situés sur la partie gauche du graphique. En effet, le 5e axe se situe à une distance de 14 à peu près, tandis que le suivant se situe à une distance de 8. Une telle solution à 6 segments n’apporte pas suffisamment de clarté à notre lecture du marché automobile. Il peut être intéressant alors d’essayer une autre méthode d’agréga- tion qui pourrait s’avérer plus pertinente. Rappelez la boîte de dialogue et choisissez la méthode d’agrégation suivant la distance du diamètre, calculée à partir de la distance entre les deux points les plus éloignés des groupes comparés deux à deux. On obtient l’arbre de classification présenté à la figure 4.28. Figure 4.27 Lecture du premier segment sur le dendogramme. Figure 4.28 Lecture du second dendogramme. Livre spss.book Page 104 Vendredi, 25. janvier 2008 12:04 12
  • 118.
    105Segmenter Exercices 4Chapitre On voit apparaîtreles résultats plus clairement. Deux segments différents peuvent être identifiés : les modèles du haut (de Accord à Corolla) représentent les véhicules les plus petits, les modèles du bas (de Malibu à Mustang) représentent les modèles les plus grands. On peut remarquer également que deux sous-segments se distinguent au sein des plus petits véhicules : la Focus, la Civic et la Corolla sont des véhicules moins chers que les trois modèles du haut. En ce qui concerne la chaîne des agrégations de notre second cas, on obtient le tableau de la figure 4.29. Dans ce tableau, le coefficient d’agrégation réalise un saut important (plus du double) entre les étapes 9 et 10 : la solution à deux groupes est bien appropriée. Figure 4.29 Chaîne des agrégations. Livre spss.book Page 105 Vendredi, 25. janvier 2008 12:04 12
  • 119.
    Livre spss.book Page106 Vendredi, 25. janvier 2008 12:04 12
  • 120.
    107 5L’analyse de variance L’analyse devariance désigne une famille de méthodes desti- nées à examiner et à interpréter les différences de moyennes observées entre plusieurs groupes pour une même variable (ANOVA pour ANalysis Of VAriance) ou pour plusieurs variables (MANOVA pour Multivariate ANalysis Of VAriance). Ces méthodes sont souvent utilisées pour analyser des données issues d’une expérimentation où des caractéristi- ques d’un objet sont manipulées afin d’optimiser l’objet au moindre coût. Nous verrons dans un premier temps les techniques d’analyse de variance et de covariance avant de découvrir un terrain d’application privilégié de l’ANOVA : la méthode du plan d’expérience. 1. Les différentes analyses de variance.............................108 2. La méthode du plan d’expérience ...........................120 Exercices 1. Questions de recherche et type d’analyse de variance...127 2. Étude du point de vente............128 3. Quel régime est le plus efficace ?......................130 Chapitre Livre spss.book Page 107 Vendredi, 25. janvier 2008 12:04 12
  • 121.
    108 Analyse dedonnées avec SPSS (1) Les différentes analyses de variance Différents types d’analyses de variance existent. La figure 5.1 présente le type d’analyse selon la nature des variables dépendantes et indépendantes. Nous commençons par détailler les principes de l’analyse univariée de la variance avant de passer à l’analyse mul- tivariée puis à l’analyse de covariance. 1.1 LES PRINCIPES DE L’ANALYSE DE VARIANCE L’analyse de variance entre dans le cadre général du modèle linéaire, où une variable quantitative (ou plusieurs) est expliquée par une variable qualitative (ou plusieurs). L’objectif essentiel est de comparer les moyennes empiriques de la variable quantitative observées pour les variables qualitatives (facteurs) ou quantitatives découpées en classes (niveaux). À titre d’exemple, on étudiera la satisfaction du client à l’égard d’un produit selon les différentes caractéristiques de ce produit (parfum, texture, etc.). Il s’agit de savoir si un facteur, ou une combinaison de facteurs (interaction), a un effet sur la variable quantitative expliquée. Par exemple, il s’agira de déterminer les caractéristiques optimales d’un paquet de céréales pour un petit déjeuner destiné aux enfants. Des indica- teurs statistiques permettent de tester la significativité de cette combinaison linéaire. 1.2 L’ANALYSE UNIVARIÉE DE LA VARIANCE : ANOVA À UN FACTEUR L’analyse de variance sert à tester l’hypothèse d’égalité des moyennes. Cette technique est une extension du test t pour deux échantillons indépendants. Elle permet de traiter les dif- férences de moyennes d’une variable dépendante quantitative Y lorsque la variable indé- pendante a plus de deux modalités. Ce type d’ANOVA permet de savoir si au moins une des moyennes diffère des autres. Ainsi, le salaire (variable quantitative) peut-il être expli- qué par le diplôme (variable qualitative). Figure 5.1 Type d’analyse de variance selon la nature des variables. Une seule variable dépendante quantitative Plusieurs variables dépendantes quantitatives qualitative(s)test t mixtes qualitatives mixtes MANOVAANCOVAANOVA MANCOVA une seule variable indépendante qualitative plusieurs variables indépendantes plusieurs variables indépendantes Source : adapté de Malhotra (2007). Livre spss.book Page 108 Vendredi, 25. janvier 2008 12:04 12
  • 122.
    109L’analyse de variance 5Chapitre L’hypothèsenulle est vérifiée par le test F sous SPSS. Afin d’identifier les moyennes qui dif- fèrent, on peut comparer les moyennes avec les contrastes ou avec les tests post hoc. Deux conditions sont nécessaires pour que les conclusions d’une ANOVA soient valides : l’homogénéité de la variance intragroupe et la normalité des données. Le test de Levene (> 0,05) est utilisé pour accepter l’hypothèse d’homogénéité de la variance intragroupe. Il faut, par ailleurs, vérifier la présence éventuelle de mesures aberrantes par le contrôle de la distribution des résidus à l’aide d’un graphique, les erreurs de saisie pouvant générer des hétérogénéités. Si les données ne sont pas appropriées à une ANOVA (hétérogénéité des variances ou don- nées fortement asymétriques), on doit alors utiliser des tests non paramétriques qui ne supposent ni homogénéité de la variance, ni une distribution normale, par exemple le test de Kruskall-Wallis. * Focus 5.1 • Les tests post hoc et de comparaisons multiples Lorsqu’on a déterminé qu’il existe des différences parmi les moyennes, les tests d’intervalle post hoc et de comparaisons multiples par paires déterminent les moyennes qui diffèrent. Ces tests servent à connaître, parmi plusieurs niveaux de modalités, ceux qui sont significativement dif- férents des autres. Ils sont utilisés après que l’analyse de variance a été effectuée, si un facteur est significatif, et ils ne concernent que les facteurs ayant plus de deux niveaux. Les tests post hoc les plus courants sont ceux de Duncan, de Tukey, de Scheffé et de Bonferroni. Le test de Duncan compare des moyennes deux à deux et suit un ordre pas à pas. Il utilise la statistique d’intervalle studentisé. Le test de Bonferroni, fondé sur la statistique t de Student, ajuste le niveau de signification observé en fonction du nombre de comparaisons multiples qui sont effectuées. Pour comparer un grand nombre de paires de moyennes, le test de Tukey est plus efficace que celui de Bonferroni. Le niveau de signification du test de Scheffé permet toutes les combinaisons linéaires possibles des moyennes de groupes à tester. Ce test est donc souvent plus strict que les autres; une plus grande différence de moyenne est nécessaire pour qu’il soit significatif. SPSS Étude du format du challenge avec une ANOVA à un facteur De plus en plus d’entreprises organisent des challenges ayant un format de compétition mixte, c’est-à-dire comptant à la fois des objectifs individuels et des objectifs collectifs. Nous cherchons à connaître l’attitude des vendeurs à l’égard de ce nouveau format de compétition : le préfèrent-ils aux deux autres formats ? Ouvrez le fichier « challenge » 1, allez dans le menu Analyse > Comparer les moyennes > Anova à 1 facteur. La boîte de dialogue apparaît (voir figure 5.2), transférez les variables en les sélectionnant une à une puis en cliquant sur les flèches. La variable dépendante à tester est l’attitude à l’égard du challenge (ATTITUDECHALLENGE) et la variable indépendante est placée dans le champ Facteur. Avant de lancer l’ANOVA à un facteur, nous vérifions l’homogénéité des moyennes. Cliquez sur Option. Dans la boîte de dialogue qui apparaît (voir figure 5.3), cliquez sur Test d’homogénéité. Cliquez sur Poursuivre pour revenir à la boîte de dialogue MLG Univarié puis sur OK. 1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr. Livre spss.book Page 109 Vendredi, 25. janvier 2008 12:04 12
  • 123.
    110 Analyse dedonnées avec SPSS Le test de Levene (voir figure 5.4) est significatif (0,52 > 0,05), l’hypothèse d’homogénéité des échantillons est donc acceptée. Nous pouvons procéder à l’analyse des résultats de l’ANOVA. Plus la valeur de p est petite, plus la preuve est forte contre l’hypothèse nulle. Ici, les moyennes sont très différentes (F = 5,25; p = 0,005). L’hypothèse nulle est rejetée, le for- mat a bien un effet sur l’attitude des commerciaux à l’égard du challenge mais, à ce stade, nous ne savons pas quel est leur type de format préféré. Pour cela, il faut réaliser un test de comparaisons multiples, aussi appelé test post hoc. Figure 5.2 Commande d’une ANOVA à 1 facteur. Figure 5.3 Test d’homogénéité pour ANOVA à 1 facteur. Figure 5.4 Interprétation du test d’homogénéité. Livre spss.book Page 110 Vendredi, 25. janvier 2008 12:04 12
  • 124.
    111L’analyse de variance 5Chapitre Cliquezsur Post Hoc. Dans la boîte de dialogue qui apparaît (voir figure 5.5), cliquez sur le test de votre choix. Nous sélectionnons ici le test de Duncan, souvent employé pour des tests de comparaisons de plusieurs moyennes. Dans notre cas, il s’agira des formats mixte, individuel ou en équipe. Cliquez sur Poursuivre pour revenir à la boîte de dialogue ANOVA à un facteur (voir figure 5.5) puis sur OK. Le test de Duncan montre (voir figure 1.6) que le format de compétition en équipe est supérieur aux autres. L’attitude moyenne à son égard est de 2,97, significativement plus élevée que celle des formats individuel (2,69) ou mixte (2,64). En d’autres termes, les vendeurs préfèrent un format de compétition en équipe plutôt qu’individuel ou mixte (avec des objectifs à la fois individuels et collectifs). Figure 5.5 Demande de test de comparaisons multiples a posteriori pour ANOVA à 1 facteur. Figure 5.6 Résultats ANOVA à 1 facteur. Livre spss.book Page 111 Vendredi, 25. janvier 2008 12:04 12
  • 125.
    112 Analyse dedonnées avec SPSS 1.3 L’ANALYSE DE VARIANCE À X FACTEURS L’ANOVA à plusieurs facteurs consiste à tester l’hypothèse d’égalité des moyennes d’une variable quantitative selon plusieurs variables qualitatives. Par exemple, on pourra tester les variations de salaire selon le diplôme et le sexe de l’employé. Le test de significativité est un test F. Il s’appuie sur la décomposition de la variance qui comprend : les effets princi- paux, les effets d’interaction et un terme résiduel. La notion d’interaction correspond au fait que l’effet d’une variable explicative sur la variable à expliquer n’est pas identique selon le niveau de l’autre variable explicative (Evrard et al., 2003). L’interaction peut être ordinale, l’ordre des effets liés au premier facteur respecte alors celui des niveaux du second facteur. Dans le cas d’une interaction non ordinale, nous avons en revanche une modification dans l’ordre des effets. Une interaction non ordinale peut être non croisée ou croisée. Cette dernière interaction est la plus forte de toutes. L’existence d’une interaction se détecte par l’observation des courbes : leur parallélisme indique une absence d’interaction (l’effet conjoint des facteurs combinés est égal à la somme de leurs effets principaux individuels) alors que leur croisement montre que l’effet relatif des niveaux du premier facteur varie en fonction des niveaux de l’autre. SPSS Étude de l’impact de trois modalités des challenges avec une ANOVA Lors des challenges, les vendeurs changent souvent leur manière de vendre; ils seraient plus agressifs afin de gagner et moins attentifs aux attentes de leurs clients. Nous cherchons à savoir comment ils réagissent, quelle est leur orientation client (OC) selon trois caractéristi- ques des challenges : la fréquence de ceux-ci, le nombre de gagnants et le format de com- pétition du challenge. Ouvrez le fichier exemple « challenge », disponible sur le site de l’ouvrage 1. Allez dans le menu Analyse > Comparer les moyennes > Anova à un facteur. Dans la boîte de dialogue qui apparaît (voir figure 5.7), transférez les variables en les sélectionnant une à une puis en cliquant sur les flèches. La variable dépendante est l’orientation client lors du challenge (OCCHALLENGE) et les variables indépendantes ou explicatives sont placées dans le champ Facteur(s) fixe(s). Ici, les modalités des challenges sont : fréquence, format de compétition, nombre de gagnants (FREQUENCE, NBGAGNANTS, FORMAT). Quelques remarques sur les boutons de cette boîte de dialogue : Modèle. Ce bouton permet de préciser le type de modèle à analyser et le type d’erreur. Par défaut, sont cochées l’option plan complet, où tous les effets sont calculés, et l’erreur de type III, qui permet de tester des modèles équilibrés ou non (un modèle est déséquilibré lors- que les cellules ne contiennent pas le même nombre d’observations). Il faut cliquer sur le bouton Autre, faire passer les variables dans la partie Modèle et choisir les effets (princi- paux, d’interaction, d’ordre 2, etc.) pour en analyser seulement certains. Contrastes. Sert à tester les différences entre les niveaux des facteurs. Diagrammes. Ce bouton permet de comparer avec des graphiques les moyennes de la variable dépendante selon le niveau de chaque facteur. Post Hoc. Permet d’identifier, parmi plusieurs moyennes, celles qui diffèrent (voir focus 5.1). Enregistrer. Permet de sauvegarder les valeurs prédites avec le modèle, les résidus et les autres mesures comme nouvelles variables dans l’éditeur de données. 1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr. Livre spss.book Page 112 Vendredi, 25. janvier 2008 12:04 12
  • 126.
    113L’analyse de variance 5Chapitre Options.Pour obtenir diverses statistiques, par exemple, le test d’homogénéité des varian- ces. Il permet aussi de spécifier le seuil de significativité (fixé par défaut à 0,05) pour l’étude des comparaisons de moyennes et le calcul d’intervalles de confiance. Avant de lancer l’ANOVA, nous devons vérifier l’homogénéité des moyennes. Cliquez sur Option. Dans la boîte de dialogue qui apparaît (voir figure 5.8), cliquez sur Tests d’homogénéité. Cliquez sur Poursuivre pour revenir à la boîte de dialogue MLG Univarié puis sur OK. Le test de Levene (voir figure 5.9) est significatif (0,18 > 0,05), l’hypothèse d’homogénéité des échantillons est donc acceptée. Nous pouvons procéder à l’analyse des résultats de l’ANOVA (voir figure 5.10). Le modèle explique 5 % de l’orientation client du vendeur pendant un challenge. Le nombre de gagnants (F = 6,70; p = 0,01) et l’interaction de fréquence/format (F = 4,34; p = 0 03) ont un impact significatif sur l’orientation client. Figure 5.7 Commande d’une ANOVA à 3 facteurs. Figure 5.8 Tests d’homogénéité pour ANOVA. Livre spss.book Page 113 Vendredi, 25. janvier 2008 12:04 12
  • 127.
    114 Analyse dedonnées avec SPSS Cependant, à ce stade, nous ne savons pas lequel des deux niveaux affecte le moins l’orien- tation client du vendeur. Les facteurs manipulés ayant chacun deux niveaux, il est possible de visualiser directement leurs effets à l’aide de graphiques. Allez dans le menu Analyse > Modèle Linéaire Général > Univarié. Dans la boîte de dialo- gue qui apparaît, cliquez sur le bouton Diagrammes. Faites passer les facteurs significatifs dans Axe horizontal et Courbes distinctes (effets d’interaction) puis cliquez sur Ajouter (voir figure 5.11). Cliquez sur Poursuivre pour revenir à la boîte de dialogue MLG Univarié puis sur OK. Le graphique (voir figure 5.12) atteste que lorsque le nombre de gagnants au challenge est faible, l’orientation client des commerciaux baisse moins que lorsque le challenge fait un nombre moyen de gagnants. Le challenge qui préserve mieux l’orientation client fait donc peu de vainqueurs. Figure 5.9 Interprétation du test d’homogénéité. Figure 5.10 Résultats de l’ANOVA à 3 facteurs. Figure 5.11 Obtention de graphique afin de visualiser les effets des facteurs significatifs. Livre spss.book Page 114 Vendredi, 25. janvier 2008 12:04 12
  • 128.
    115L’analyse de variance 5Chapitre Nousconstatons (voir figure 5.13) que le challenge en équipe avec une fréquence faible (un seul challenge organise à la fois) maximise l’orientation client du vendeur. 1.4 L’ANALYSE MULTIVARIÉE DE LA VARIANCE : MANOVA L’analyse multivariée de la variance est une extension de l’ANOVA pour mesurer les diffé- rences de moyenne de deux variables dépendantes quantitatives (ou plus) en fonction de plusieurs variables qualitatives. Ce que la MANOVA apporte en plus de l’analyse de variance simple concerne la corrélation des variables à expliquer, décomposée en intra et intergroupe. Ces interactions apparaissent lorsque les effets d’un facteur donné sur les variables expliquées dépendent des modalités des autres facteurs. Figure 5.12 Graphique d’un facteur ayant un effet principal significatif. Figure 5.13 Graphique de facteurs dont l’effet d’interaction est significatif. Livre spss.book Page 115 Vendredi, 25. janvier 2008 12:04 12
  • 129.
    116 Analyse dedonnées avec SPSS Un des apports majeurs de l’analyse multivariée de la variance est la mise en évidence, parmi un ensemble de variables quantitatives, de celles dont la valeur est la plus affectée par les variations d’un ensemble de variables quantitatives ou qualitatives. Cela tient compte des intercorrélations entre variables à expliquer; nous pouvons ainsi déceler les variables qui contribuent le plus à la formation de la combinaison linéaire pour les sou- mettre ensuite à une analyse de variance univariée (Evrard et al., 2003). En règle générale, les modalités de la variable indépendante sont présumées fixes (modèle à effet fixe). Plusieurs conditions sont à valider lors de l’utilisation d’une MANOVA (Hair et al., 2006) : • Seuil d’observations par cellule de 20 ou au minimum supérieur au nombre de varia- bles dépendantes. • Indépendance des observations. • Égalité des matrices de variance-covariance entre les groupes. La violation de cette hypothèse, vérifiée par le test de Box, n’a toutefois qu’un impact limité si les groupes sont de taille à peu près identique. Il est généralement recommandé d’avoir un rapport, entre la taille du groupe le plus important et celle du plus grand groupe, inférieur à 1,5. • Multinormalité des distributions des moyennes pour chaque variable dépendante. La MANOVA est cependant robuste en cas de violation de cette hypothèse si la taille des groupes est importante. • Linéarité des variables dépendantes. • La significativité des différences de moyennes s’appuie sur le test F, complété d’autres statistiques : la trace de Hotelling, la plus grande racine de Roy, le lambda de Wilks et le critère de Pillai-Bartlett pour chaque variable explicative. Si le critère de Pillai est le plus robuste à la violation de certaines conditions d’utilisation de la MANOVA, il est conseillé de comparer cette statistique aux autres indicateurs. L’interprétation d’une MANOVA se fait en deux temps. À la première étape, l’examen du critère de Pillai indique la significativité des variables explicatives. À la seconde, il faut déce- ler, parmi les variables expliquées, celles qui sont affectées par la variable indépendante. Les résultats se lisent alors, comme pour une ANOVA, sur les courbes des diagrammes. 1.5 L’ANALYSE DE COVARIANCE : ANCOVA ET MANCOVA L’analyse de covariance (ANCOVA) combine les techniques de l’analyse de variance et de la régression. La MANCOVA est une extension des principes de l’ANCOVA à l’analyse multivariée, c’est-à-dire sur plusieurs variables dépendantes. Ces méthodes sont recommandées pour éliminer des erreurs systématiques hors du contrôle du chercheur et pouvant biaiser les résultats. L’ajout d’une covariable peut éliminer une source potentielle de variance qui aurait appartenu à l’erreur expérimentale si elle avait été ignorée (Nunnally et Bernstein, 1994). Cependant, trop de covariables réduit l’efficience sta- tistique des procédures. Une règle de base est d’avoir un nombre de covariables inférieur à : (0,1 × la taille de l’échantillon) – (nombre de groupes – 1) [Hair et al., 2006]. Afin d’améliorer l’analyse de covariance, il faut essayer de minimiser le nombre de cova- riables tout en s’assurant que les plus importantes ne sont pas éliminées. Une covariable est pertinente si elle est corrélée à la variable dépendante et non corrélée à la (ou aux) Livre spss.book Page 116 Vendredi, 25. janvier 2008 12:04 12
  • 130.
    117L’analyse de variance 5Chapitre variable(s)indépendante(s). Une autre fonction de l’ANCOVA réside aussi dans la prise en compte des différences de réponses dues aux caractéristiques des répondants. L’interprétation d’une ANCOVA et d’une MANCOVA se fait en deux étapes. En premier lieu, il faut considérer l’effet de la (ou des) covariable(s). Ce résultat se lit comme celui d’une régression. Ensuite, il faut interpréter les résultats des facteurs explicatifs (variables qualitatives). SPSS Réalisation d’une ANCOVA Nous cherchons à expliquer l’attitude du vendeur à l’égard du challenge. Pour cela, nous avons réalisé une ANOVA ayant pour facteurs la fréquence, le format et le nombre de gagnants. Pour améliorer la précision de ces résultats, nous ajoutons des variables qui pour- raient expliquer les variations d’attitude des commerciaux. À ce titre, deux nouveaux élé- ments sont pris en compte : l’entreprise, c’est-à-dire l’établissement bancaire où travaille chaque vendeur, dont nous pouvons supposer qu’il influe sur les résultats et, la fonction du vendeur. En effet, l’échantillon étant composé de vendeurs issus d’entreprises et de fonctions différentes, il est possible que ces variables entreprise et fonction soit à l’origine de varia- tions dans les réponses. L’intégration de ces covariables améliore la précision de l’analyse et permet de redresser les biais dus au fait que les répondants ont différentes responsabili- tés. En conséquence, l’entreprise et la fonction du commercial sont ajoutées aux variables explicatives pour toutes les variables expliquées afin de les contrôler. Par ailleurs, deux caractéristiques individuelles des vendeurs sont des variables explicatives importantes du processus de motivation : l’esprit de compétition et l’ambition du vendeur. Nous testerons donc les effets de ces covariables sur l’attitude du vendeur à l’égard du chal- lenge. Ouvrez le fichier exemple « challenge », disponible sur le site de l’ouvrage 1. Allez dans le menu Analyse > Modèle Linéaire Général > Univarié. Dans la boîte de dialo- gue qui apparaît (voir figure 5.14), transférez les variables en les sélectionnant une à une puis en cliquant sur les flèches. La variable dépendante est l’attitude à l’égard du challenge (ATTITUDECHALLENGE). Les variables indépendantes sont placées dans les champs Fac- teur(s) fixe(s) et Covariable(s). Les facteurs fixes sont : les modalités des challenges (FRE- QUENCE, FORMAT, NBGAGNANTS); les covariables sont : l’entreprise, la fonction du vendeur (entreprise, fonction), l’esprit de compétition et l’ambition. 1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr. Figure 5.14 Commande d’une ANCOVA. Livre spss.book Page 117 Vendredi, 25. janvier 2008 12:04 12
  • 131.
    118 Analyse dedonnées avec SPSS Le test de Levene (voir figure 5.15) est significatif (0,22), l’hypothèse d’homogénéité des échantillons est donc acceptée. Nous pouvons procéder à l’analyse des résultats de l’ANCOVA (voir figure 5.16). Les caractéristiques des challenges ainsi que les covariables expliquent 55 % de l’attitude du vendeur à l’égard du challenge (voir figure 5.16). Les résultats de l’ANCOVA montrent que les covariables entreprise et esprit de compétition ont un effet significatif sur l’attitude du vendeur à l’égard du challenge. Comme nous l’avi- ons postulé, l’esprit de compétition du vendeur a un effet significatif, cependant, à ce stade, nous ne savons pas s’il est positif. Pour le découvrir, retournez dans la boîte de dialogue : Analyse > Modèle Linéaire Général > Univarié et cliquez sur Options puis sur Estimations des paramètres (voir figure 5.17). Les résultats apparaissent alors pour l’ensemble des variables et des covaria- bles. Les résultats de cette commande se lisent à la figure 5.18. Le tableau d’estimations des paramètres montre que, conformément à ce qui apparaît à la figure 5.18, l’entreprise et l’esprit de compétition ont un effet significatif sur l’attitude du ven- deur à l’égard du challenge. L’esprit de compétition a un effet positif sur cette attitude (β = 0,77 ; t = 14,19). Comme pour une ANOVA, la lecture des effets des variables qualitatives se fait à l’aide d’un graphique. La figure 5.19 atteste que le format a un impact significatif sur l’attitude du vendeur. Pour commander un diagramme pour ce facteur, allez dans le menu Analyse > Modèle Linéaire Général > Univarié puis cliquez sur le bouton Diagrammes. Figure 5.15 Interprétation du test d’homogénéité. Figure 5.16 Résultats de l’ANCOVA à cinq variables explicatives. Livre spss.book Page 118 Vendredi, 25. janvier 2008 12:04 12
  • 132.
    119L’analyse de variance 5Chapitre Dansla boîte de dialogue Diagrammes de profils, faites passer le format dans Axe horizon- tal puis cliquez sur Ajouter. Le graphique visible figure 5.19 apparaît. Le graphique montre que le format qui maximise l’attitude du vendeur à l’égard du chal- lenge est le format de compétition en équipe. Figure 5.17 Commande des résultats des covariables. Figure 5.18 Interprétation des covariables. Figure 5.19 Interprétation des variables explicatives de l’ANCOVA. Livre spss.book Page 119 Vendredi, 25. janvier 2008 12:04 12
  • 133.
    120 Analyse dedonnées avec SPSS Cet exemple dévoile comment une ANCOVA prend en compte des variables explicatives à la fois qualitatives et quantitatives dans un même traitement. La MANCOVA va plus loin puisqu’elle traite en même temps plusieurs variables explicatives de différentes natures ainsi que plusieurs variables dépendantes quantitatives. Par exemple, elle permet d’étudier les effets des caractéristiques de challenges et de l’esprit de compétition des vendeurs sur leur attitude à l’égard des challenges ainsi que sur leurs comportements à l’égard de la clientèle (orientation client). De fait, il est possible d’étudier le challenge optimal en ter- mes de satisfaction vendeur et de satisfaction client. Concernant les covariables, les résultats de la MANCOVA et ceux de l’ANCOVA se lisent de façon similaire. D’autres statistiques, telles que la trace de Hotelling, la plus grande racine de Roy, le lambda de Wilks et le critère de Pillai-Bartlett, servent à interpréter, pour chaque variable explicative, leurs effets sur les variables dépendantes. La méthode du plan d’expérience, que nous allons explorer, est un terrain d’application privilégié de l’analyse de variance. (2) La méthode du plan d’expérience L’expérimentation fait partie de notre quotidien. Nous cherchons souvent à connaître l’effet de facteurs sur divers résultats. La plupart du temps, cela se fait de manière infor- melle, par exemple, en se posant les questions : Est-ce qu’en partant trente minutes plus tôt au travail, j’aurai plus de chance de trouver une place de parking? Quid de vingt minu- tes ou de dix minutes? La méthode du plan d’expérience a été mise au point dans les années 1920, par Ronald A. Fisher, dans le cadre d’études agronomiques. Son utilisation s’est développée en scien- ces sociales et en marketing depuis une trentaine d’années. Après avoir présenté l’expérimentation, nous aborderons des exemples de plans d’expé- rience permettant d’en comprendre l’utilité. 2.1 LA MÉTHODE EXPÉRIMENTALE EN SCIENCES DE GESTION L’expérimentation est une opération où l’on cherche à vérifier des relations de cause à effet par manipulation de facteurs. Il s’agit de manipuler une variable indépendante (ou plu- sieurs) et d’en mesurer l’effet sur une variable dépendante (ou plusieurs), cela en contrô- lant les variables externes susceptibles d’influer sur les résultats. L’avantage majeur de cette méthode est donc l’isolement de ce qui est dû à la variable déterminante examinée. Son inconvénient principal réside dans la validité externe limitée de l’expérience. En outre, des variables externes, ou biais, peuvent brouiller les mesures des variables dépendantes et affaiblir la validité des résultats. L’expérimentation peut s’appuyer sur la méthode dite des scénarios ou des vignettes qui est ici détaillée. Livre spss.book Page 120 Vendredi, 25. janvier 2008 12:04 12
  • 134.
    121L’analyse de variance 5Chapitre *Focus 5.2 • La méthode des scénarios ou des vignettes La méthode dite des scénarios ou des vignettes est issue des techniques projectives utilisées en psychologie et dont l’objectif est de s’intéresser aux attitudes et aux comportements des acteurs. Le scénario est une brève histoire qui, si elle est soigneusement élaborée, simule de vraies expériences de la vie. Les individus, mis dans une situation hypothétique, doivent répondre « comme si » ils se trouvaient réellement dans ces situations. La mise en situation présente l’avantage de rendre l’expérience plus réaliste et, par là, de mieux impliquer les répondants dans la création de sens. Une description verbale, un texte descriptif écrit, une photo, un dessin ou un prototype peuvent servir à présenter les stimuli. Il faut ici veiller à ce que les scénarios soient crédibles et qu’aucun ne soit manifestement trop attractif ou, au contraire, répulsif. Les stimuli doivent de fait avoir une apparence similaire afin que les préférences des individus soient bien le fruit des attributs testés. Les biais de l’expérimentation Afin de renforcer la validité de l’expérience, il faut connaître les principaux biais expérimentaux : • Histoire. Un événement porteur d’effets se produit entre deux mesures, par exemple, la crise de la vache folle a changé la perception de la qualité de la viande en France. • Maturation. Des changements se produisent chez les individus au fil de l’expérience (fatigue, désintérêt). • Effet de test. La situation d’expérience provoque par elle-même un biais. Par exemple, la réponse à une première question suscite une réflexion qui va modifier les réponses aux questions suivantes. • Effet de l’instrument. L’application de l’instrument de mesure fausse le résultat. • Mortalité. Personnes de l’échantillon initial qui ne veulent plus répondre dans le cas où l’expérimentation s’effectue en plusieurs étapes (étude longitudinale). Typologie des plans d’expérience Voici une typologie simplifiée des plans d’expérience : préexpérimentaux (étude de cas unique, prétest/post-test sur un seul groupe, groupe statique), expérimentaux (prétest/ post-test ou seulement post-test avec groupe de contrôle) et modèles statistiques (bloc aléatoire, carré latin, plan factoriel) [Malhotra et al., 2007]. • Étude de cas unique. Un seul groupe d’individus (ou d’autres entités) est exposé à une variable et on ne prend qu’une seule mesure de la variable dépendante. La sélection des individus est réalisée de manière arbitraire. Le problème est que cette étude ne permet pas d’obtenir le niveau de la variable expliquée s’il n’y avait pas eu d’exposition. • Prétest/post-test et groupe de contrôle. Lorsque l’expérience inclut un prétest, les individus évaluent deux fois la variable dépendante : avant et après le test. L’effet d’expérimentation est alors calculé (mesure post – mesure prétraitement). • Groupe statique. Le plan expérimental comprend deux groupes : un exposé à la varia- ble indépendante et l’autre non (groupe de contrôle). L’effet de l’expérimentation est mesuré (mesure du groupe de contrôle – mesure du groupe expérimental). • Modèles statistiques. Ils permettent de mesurer les effets de plus d’une variable indépen- dante simultanément et de contrôler statistiquement des variables externes précises. On Livre spss.book Page 121 Vendredi, 25. janvier 2008 12:04 12
  • 135.
    122 Analyse dedonnées avec SPSS distingue le bloc aléatoire et le plan factoriel. Le bloc aléatoire regroupe les individus en fonction d’une seule variable externe majeure (par exemple, le type de client) susceptible d’influer sur la variable dépendante. Les répondants de chaque bloc sont affectés aléatoi- rement aux groupes de traitement. Le plan factoriel autorise l’étude de deux variables externes non interactives ou plus et d’une ou plusieurs variables indépendantes. Nous allons aborder maintenant le plan factoriel et ses différentes versions. 2.2 LE PLAN FACTORIEL Le plan factoriel sert à mesurer les effets de plusieurs variables indépendantes ayant plu- sieurs niveaux différents. Il permet l’étude à la fois des effets principaux et des effets d’interaction de ces niveaux. Par exemple, on pourra examiner l’effet du type de carburant et du type de conduite sur la consommation de carburant. La notion d’interaction correspond au fait que l’effet d’une variable explicative sur une variable à expliquer est changeant selon le niveau de l’autre variable explicative. Il y a inte- raction quand l’effet simultané de plusieurs variables diffère de leurs effets séparés cumu- lés. Par exemple, un individu peut préférer sortir au cinéma (plutôt que d’aller au théâtre, au concert ou encore chez des amis) et l’été peut être sa saison favorite pour sortir (plutôt que les trois autres saisons), mais il peut ne pas préférer aller au cinéma l’été. D’un point de vue statistique, un plan factoriel est l’agrégation de variables indépendantes : ensemble de niveaux de chaque variable indépendante et combinaisons de ces niveaux sélectionnés pour l’expérimentation. Le dispositif expérimental doit per- mettre de répondre aux trois questions suivantes : 1. Quels sont les facteurs fondamentaux sélectionnés? 2. Comment les niveaux de ces facteurs varient-ils? 3. Comment ces niveaux doivent-ils être combinés? Par exemple, pour une étude de packaging de céréales pour petit déjeuner, on se demandera : 1. Quels facteurs sélectionne-t-on? La forme du paquet, les codes couleur, le style, le matériau utilisé? Ensuite, si l’on choisit d’étudier la taille du paquet et le style : 2. Combien de niveaux choisit-on d’examiner? Pour la taille du paquet : grand, moyen, petit? Pour le style : sport, santé, régime? 3. Croise-t-on tous ces niveaux ou seulement les combinaisons les plus pertinentes? La sélection des facteurs et des niveaux étudiés revient au chargé d’étude qui estime les variables les mieux à même d’expliquer la variable dépendante. Le choix des combinai- sons à tester détermine ensuite celui du plan factoriel utilisé (complet ou fractionné). Souvent, l’étude d’un grand nombre de facteurs et de niveaux conduit à employer un plan fractionné. Livre spss.book Page 122 Vendredi, 25. janvier 2008 12:04 12
  • 136.
    123L’analyse de variance 5Chapitre 2.3PLAN FACTORIEL COMPLET OU FRACTIONNÉ ? Le plan factoriel complet permet de tester tous les niveaux de chacun des facteurs sur cha- cun des niveaux des autres facteurs. Dans notre exemple de packaging de céréales pour petit déjeuner, si l’on sélectionne trois niveaux de taille du paquet (grand, moyen et petit), deux niveaux de messages (sport et santé), un plan factoriel complet permettra de tester toutes les combinaisons possibles, c’est-à-dire 6 (3 × 2). Les influences de chaque facteur et de ses interactions avec tous les autres facteurs seront étudiées. S’il nécessite davantage d’expériences, ce plan est plus riche que le plan factoriel fractionné. L’avantage du plan factoriel fractionné, constitué d’un sous-ensemble de combinaisons d’un plan complet, réside dans sa capacité à examiner un grand nombre de facteurs dont il serait difficile de tester tous les niveaux. Il permet ainsi de réaliser des économies subs- tantielles d’expériences. Toujours avec notre exemple de packaging, un plan factoriel frac- tionné permettra d’examiner un plus grand nombre de modalités (taille du paquet, message, codes couleurs, style, etc.) et de niveaux (3, 4 niveaux pour chaque facteur exa- miné) tout en ne testant qu’un nombre restreint de paquets différents. Malgré l’intérêt qu’il présente en termes d’économie d’expériences, ce type de plan compte des effets confondus. Ces effets gênent l’interprétation de certains effets princi- paux qui sont mélangés avec des interactions. * Focus 5.3 • Les plans fractionnés en carrés latin et gréco-latin Lorsque le chargé d’étude ne peut pas tester l’ensemble des attributs et de leurs niveaux parce qu’ils sont trop nombreux, il est fréquent d’avoir recours à un plan fractionné. Le carré latin et le gréco-latin (second carré latin sur un premier) sont souvent utilisés car ils permettent de faire des économies importantes d’expériences : 9 au lieu de 27 (3 × 3 × 3) combinaisons pour le carré latin ou 81 (3 × 3 × 3 × 3) pour le carré gréco-latin. Ces plans ou carrés ne croisent pas tous les facteurs. On peut par exemple tester l’influence de la fréquence de challenges de vente, du nombre de gagnants et du format de compétition en créant un niveau supplémentaire pour chacun de ces facteurs. L’inconvénient principal des carrés latin et gréco-latin est donc l’obligation d’avoir, pour cha- que facteur manipulé, le même nombre de niveaux. Autre problème important, ces plans ne permettent d’examiner que l’effet principal de chacun des facteurs et non leurs interactions. Les deux exemples d’application suivants illustrent la réalisation d’une expérimentation avec un plan complet puis avec un plan fractionné. EXEMPLE Étude des caractéristiques de challenges de vente avec un plan factoriel complet À la suite d’entretiens avec des commerciaux, trois caractéristiques des challenges appa- raissent très importantes dans la formation de leur attitude : le format de compétition, la fré- quence des challenges et le nombre de gagnants. Nous cherchons à tester l’effet des trois facteurs ayant chacun deux niveaux (voir figure 5.20). Pour chacun des facteurs, les diffé- rents niveaux examinés seront les suivants : • le format de compétition : individuel (1) ou en équipe (2) ; • la fréquence : faible (1) ou élevée (2); • le nombre de gagnants : faible (1) ou moyen (2). Livre spss.book Page 123 Vendredi, 25. janvier 2008 12:04 12
  • 137.
    124 Analyse dedonnées avec SPSS L’étude de toutes les modalités des challenges et de leurs niveaux requiert l’utilisation d’un plan complet. Le protocole de l’expérimentation est par conséquent constitué de 2 × 2 × 2, soit 8 combinaisons de caractéristiques de challenges. Il faudra donc présenter aux indivi- dus huit challenges de vente différents. Le plan factoriel complet orthogonal permet l’estimation de la moyenne des effets des fac- teurs sans craindre que les résultats subissent une distorsion par l’effet des autres facteurs. Toutes les interactions sont testées. L’orthogonalité est vérifiée en mettant en place ce protocole : (1) on remplace les valeurs 1, 2 dans la matrice plan par les valeurs –1, 1 respectivement; (2) on additionne ensuite les valeurs correspondantes de chacune des colonnes; (3), si la somme est égale à zéro, les colonnes sont orthogonales et les effets représentés par ces colonnes sont alors dits orthogonaux. Par exemple, le scénario no 2 correspond ici à un challenge individuel, peu fréquent et fai- sant un nombre moyen de gagnants. Figure 5.20 Le plan testé. Tableau 5.1 : Plan factoriel complet Scénarios Format Fréquence Nb gagnants Orthogonalité no 1 1 1 1 –3 no 2 1 1 2 –1 no 3 1 2 1 –1 no 4 1 2 2 1 no 5 2 1 1 –1 no 6 2 1 2 1 no 7 2 2 1 1 no 8 2 2 2 3 Σ = 0 - Format - Fréquence - Nombre de gagnants Challenge de vente Attitude du vendeur à l’égard du challenge de vente Livre spss.book Page 124 Vendredi, 25. janvier 2008 12:04 12
  • 138.
    125L’analyse de variance 5Chapitre EXEMPLEÉtude des caractéristiques de challenges de vente avec un plan factoriel fractionné Trois caractéristiques des challenges de vente sont maintenant étudiées avec, pour chacun de ces facteurs ou attributs, non plus deux mais trois niveaux : • le format de compétition : individuel (A), en équipe (B) ou mixte (C) (objectifs individuels et collectifs); • la fréquence : élevée, moyenne ou faible; • le nombre de gagnants : élevé, moyen ou faible. Il faudrait normalement 3 × 3 × 3 = 27 combinaisons. Nous avons vu au focus 5.3 que le carré latin permettait de passer de 27 à seulement 9 combinaisons ou challenges testés. Voici comment se construit ce plan fractionné. Le format de compétition qui est la troisième variable manipulée est soit individuel (A), soit en équipe (B), soit mixte (C). Chacun de ses niveaux doit apparaître dans chaque ligne et chaque colonne. Pour comprendre l’élaboration de ce plan, nous prenons l’exemple du format de compéti- tion. Le format individuel (A) apparaît en colonne 1, ligne 1, en colonne 2, ligne 2 et en colonne 3, ligne 3 ; le format en équipe (B) figure en colonne 1, ligne 3, en colonne 2, ligne 1 et en colonne 3, ligne 2 ; le format mixte (C) figure en colonne 1, ligne 2, en colonne 2, ligne 3 et en colonne 3, ligne 1. Chacun des niveaux de la fréquence et du nombre de gagnants est testé une fois avec tous les autres niveaux des deux autres facteurs. Il en est de même pour tous les niveaux du fac- teur nombre de gagnants. Par exemple, le scénario no 7 correspond ici à un challenge mixte, peu fréquent et faisant un faible nombre de gagnants. Tableau 5.2 : Carré latin Fréquence Nb gagnants Élevé Moyen Faible Élevée A – no 1 B – no 4 C – no 7 ABC Moyenne C – no 2 A – no 5 B – no 8 CAB Faible B – no 3 C – no 6 A – no 9 BCA ACB BAC CBA Livre spss.book Page 125 Vendredi, 25. janvier 2008 12:04 12
  • 139.
    126 Analyse dedonnées avec SPSS Résumé L’analyse de variance et de covariance sert à évaluer les écarts des valeurs moyennes d’une variable dépendante sous l’effet de variables indépendantes contrôlées et, cela, en tenant compte de l’influence de variables indépendantes non contrôlées. L’ANOVA permet d’effectuer un test sur les moyennes de deux populations ou plus. Le test F permet de véri- fier l’hypothèse nulle qui suppose l’égalité des moyennes. L’analyse multivariée de la variance implique l’examen simultané de plusieurs variables indépendantes qualitatives. Elle permet l’évaluation de l’interaction de ces variables. Le test F sert à vérifier la signification de l’effet global, des effets principaux et des interac- tions. Il y a interaction lorsque l’effet d’une variable indépendante sur une variable dépen- dante diffère en fonction des modalités ou niveaux d’une autre variable indépendante. L’analyse de covariable fait référence, en plus de variable(s) indépendante(s) qualita- tive(s), au test de variable(s) indépendante(s) quantitative(s). Cette dernière, appelée covariable, est souvent utilisée pour éliminer la variation externe de la variable dépen- dante. Pour aller plus loin Evrard Y., Pras B., et Roux E., Market. Études et recherches en marketing, Nathan, Paris, 2003. Goupy J., Introduction aux plans d’expérience, Dunod, Paris, 2006. Hair J. F., Anderson R. L., Black W. C., Multivariate Data Analysis, 4e éd., Prentice Hall International, Londres, 2006. Malhotra et al., Études marketing avec SPSS, Pearson Education, Paris, 2007. Livre spss.book Page 126 Vendredi, 25. janvier 2008 12:04 12
  • 140.
    127L’analyse de variance Exercices 5Chapitre Exercices EXERCICE1 QUESTIONS DE RECHERCHE ET TYPE D’ANALYSE DE VARIANCE * Solution 1. ANOVA à un facteur, la couleur du packaging ayant trois niveaux (rouge, vert, bleu). 2. ANOVA à un facteur, la CSP ayant cinq niveaux. 3. ANOVA à deux facteurs, le pays d’origine de la marque et le réseau de distribution, les- quels ayant respectivement quatre niveaux (France, Espagne, Italie, États-Unis) et deux niveaux (très sélectif, non sélectif). 4. MANOVA à trois facteurs et deux variables expliquées. Les trois facteurs sont le prix, la notoriété de la marque et la fréquence des contacts, qui ont respectivement trois niveaux (élevé, moyen et faible), deux (forte ou faible) et deux (forte ou faible). Les deux variables expliquées sont l’attitude vis-à-vis de la marque et l’intention d’achat de la marque par les consommateurs. 5. ANCOVA à trois variables explicatives : deux variables qualitatives (prix et conditionne- ment) et une variable quantitative, covariable (attitude vis-à-vis des marques de lessive). Le prix et le conditionnement ont respectivement deux niveaux (élevé, faible) et trois (familial, standard, mini). 6. ANCOVA à deux variables explicatives : le style de la publicité (qui a trois niveaux, informative, humoristique, sexy) et la covariable attitude vis-à-vis de la marque. 7. MANCOVA à deux variables explicatives (l’âge [qui a 5 niveaux] et la qualité du service perçue [covariable]) et deux variables expliquées (la satisfaction et la fidélisation des clients). • Énoncé Pour chacune des questions de recherche suivantes, trouvez le type d’analyse de variance approprié en spécifiant le nombre de facteurs avec leurs niveaux. 1. L’intention d’achat des consommateurs varie-t-elle en fonction de la couleur du pac- kaging (rouge, vert ou bleu)? 2. La CSP (5 catégories) a-t-elle un effet sur la qualité du service perçu? 3. L’attitude vis-à-vis de la marque d’un produit de luxe varie-t-elle en fonction du pays d’origine de la marque (France, Espagne, Italie, États-Unis) et de son réseau de distri- bution (très sélectif ou non sélectif)? 4. L’interaction entre le prix (élevé, moyen ou faible), la notoriété de la marque (forte ou faible) et la fréquence des contacts (forte ou faible) affecte-t-elle l’attitude vis-à-vis de la marque et l’intention d’achat de cette marque? 5. Le niveau de prix (élevé ou faible), le conditionnement (familial, standard, mini) et l’atti- tude vis-à-vis des marques de lessive affectent-ils l’achat de lessive par les personnes âgées? 6. Le style de la publicité (informative, humoristique, sexy) et l’attitude vis-à-vis de la mar- que ont-ils un impact sur l’intention d’achat d’un produit solaire de cette même marque? 7. L’âge des clients (5 catégories) et la qualité du service perçue affectent-ils la satisfac- tion et la fidélisation des clients dans le secteur bancaire? Livre spss.book Page 127 Vendredi, 25. janvier 2008 12:04 12
  • 141.
    128 Analyse dedonnées avec SPSS EXERCICE 2 ÉTUDE DU POINT DE VENTE1 * Solution 1. Afin de savoir si la décoration du magasin a une influence en fonction du sexe des clients, il faut mener une ANOVA (voir figure 5.21). Allez dans le menu Analyse > Com- parer les moyennes > Anova à 1 facteur. Indiquez la décoration de la boutique comme variable dépendante et le sexe comme variable indépendante puis cliquez sur OK. Pour effectuer un test d’homogénéité (voir figure 5.22), cliquez sur Options, Test d’homogénéité puis sur OK. • Énoncé Vous travaillez sur une enquête destinée à mieux comprendre les comportements d’achat des clients d’un magasin de chaussures. Vous cherchez à identifier ces clients et à connaî- tre leur attitude à l’égard du point de vente. Vous avez collecté 400 réponses et vous vou- lez exploiter ces données (fichier « pointdevente » 1). Le gérant du magasin souhaite savoir : 1. Si la décoration du magasin est plus importante pour les femmes que pour les hommes. 2. Si le montant dépensé par client est influencé par l’écoute régulière de médias (radio et TV). 1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr. Figure 5.21 Commande de l’ANOVA à 1 facteur. Figure 5.22 Interprétation de l’ANOVA à 1 facteur. Livre spss.book Page 128 Vendredi, 25. janvier 2008 12:04 12
  • 142.
    129L’analyse de variance Exercices 5Chapitre Letest de Levene est significatif (0,78 > 0,05), l’hypothèse d’homogénéité des échantillons est donc acceptée. Les résultats de l’ANOVA attestent que le sexe n’a pas d’influence sur l’importance de la décoration (0,78). 2. Afin de savoir si le fait que les clients écoutent régulièrement des médias (radio et TV) a un impact sur le montant qu’ils dépensent, il faut faire une ANOVA. Allez dans le menu Analyse > Modèle Linéaire Général > Univarié. Choisissez comme variable dépendante le montant moyen dépensé par mois, et comme variable indépendante : la fréquence d’écoute radio et TV qui correspond aux questions : « Vous décririez-vous comme un auditeur régulier de radio? » et « Regardez-vous régulièrement le journal télévisé? » Faites ensuite un test d’homogénéité des variances (voir figure 5.24) : cliquez sur Options, Test d’homogénéité puis sur OK. Ici le test de Levene (0,00) ne permet pas d’accepter l’hypothèse d’homogénéité des variances intragroupes. Les résultats de l’ANOVA ne sont donc pas valables et on ne peut pas dire que le fait de regarder régulièrement la TV ou la radio a un effet sur la consomma- tion des clients dans le mois. Figure 5.23 Commande d’une ANOVA. Figure 5.24 Interprétation d’une ANOVA. Livre spss.book Page 129 Vendredi, 25. janvier 2008 12:04 12
  • 143.
    130 Analyse dedonnées avec SPSS EXERCICE 3 QUEL RÉGIME EST LE PLUS EFFICACE ? * Solution Pour saisir les données, allez dans Fichier > Nouveau > Données (voir figure 5.25). Ensuite, dans Affichage des variables, rentrez le Nom des variables et leur Étiquette. Nous avons des données qualitatives (régime) et des données quantitatives (kilos perdus) : la colonne Mesure affiche Nominales et Échelle. Il faut ensuite entrer les données dans la partie Affichage des données (voir figure 5.26). Il faut ensuite commander une ANOVA à un facteur (voir figure 5.27). Allez dans le menu Analyse > Comparer les moyennes > ANOVA à un facteur. Choisissez comme variable dépendante le nombre de kilos perdus et comme variable indépendante le type de régime. Demandez ensuite un test d’homogénéité des variances (voir figure 5.28). Cliquez sur Options, Test d’homogénéité puis sur OK. • Énoncé Un nutritionniste veut tester l’effet de différents régimes sur la perte de poids. Il souhaite évaluer l’effet de trois régimes sur des groupes d’individus. Le tableau suivant donne les résultats de ces régimes en nombre de kilogrammes perdus après un mois pour trois groupes d’individus ayant suivi les régimes. Les groupes sont composés comme suit : Groupe A : individus ayant suivi un régime hyperprotéiné; Groupe B : individus ayant suivi un régime d’association d’aliments; Groupe C : individus ayant suivi un régime hypocalorique. Après avoir saisi ces données, faites une analyse de variance pour vérifier si les moyennes des trois groupes sont différentes. Tableau 5.3 : Expérience sur les régimes Groupe A Groupe B Groupe C 3 1 11 4 1 9 6 5 10 8 6 5 3 1 10 3 2 6 4 1 9 6 5 10 3 Livre spss.book Page 130 Vendredi, 25. janvier 2008 12:04 12
  • 144.
    131L’analyse de variance Exercices 5Chapitre Figure5.25 Expérience sur les régimes : l’enregistrement des données. Figure 5.26 Expérience sur les régimes : l’enregistrement des données (suite). Figure 5.27 Expérience sur les régimes : commande de l’ANOVA. Figure 5.28 Expérience sur les régimes : interprétation des résultats de l’ANOVA. Livre spss.book Page 131 Vendredi, 25. janvier 2008 12:04 12
  • 145.
    132 Analyse dedonnées avec SPSS Le test de Levene est significatif (0,52), l’hypothèse d’homogénéité des échantillons est donc acceptée. Nous pouvons procéder à l’analyse des résultats de l’ANOVA. Le type de régime a un effet significatif sur la perte de poids. Cependant, à ce stade, nous ne connaissons pas le type de régime le plus efficace. Il faut demander un test de différence de moyenne (test post hoc) [voir figure 5.29]. Allez dans le menu Analyse > Comparer les moyennes > ANOVA à un facteur, cliquez sur le bouton Post Hoc puis choisissez un test (ici, le test de Duncan). Les résultats de l’ANOVA montrent que le régime hypocalorique est le plus efficace. En effet, la moyenne des kilos perdus par les personnes qui ont suivi ce régime est significati- vement plus importante que les autres. Figure 5.29 Expérience sur les régimes : interprétation des résultats de l’ANOVA (suite). Livre spss.book Page 132 Vendredi, 25. janvier 2008 12:04 12
  • 146.
    133 6La régression linéaire Il estfréquent d’observer des phénomènes où l’on peut penser qu’il existe une liaison entre deux variables. Par exemple, l’âge d’une voiture et son kilométrage varient généralement dans le même sens. Ce lien n’est cependant pas absolu : com- ment mesurer l’intensité de la relation entre ces deux variables? Le modèle de régression linéaire a pour objectif d’expliquer la variation d’un phénomène mesurable (variable dépendante quantitative) par celle d’un ou de plusieurs autres (variables quantitatives). La régression linéaire simple ou mul- tiple estime les coefficients de l’équation linaire impliquant cette ou ces variables indépendantes, qui évaluent le mieux la valeur de la variable dépendante. Cette méthode est largement utilisée en marketing, par exem- ple pour expliquer les variations des ventes, de préférence de marques, produits ou services. Avant de présenter l’analyse de régression, nous abordons le coefficient de corrélation qui constitue la base conceptuelle de la régression. 1. La corrélation linéaire..............134 2. La régression linéaire...............136 Exercices 1. Étude du point de vente............146 2. Les déterminants de la moyenne des étudiants...........................147 3. Étude du point de vente............152 Chapitre Livre spss.book Page 133 Vendredi, 25. janvier 2008 12:04 12
  • 147.
    134 Analyse dedonnées avec SPSS (1) La corrélation linéaire La corrélation linéaire est une statistique largement utilisée car elle synthétise l’importance de la relation entre deux variables métriques.Le tableau 6.1 montre bien que le coefficient de corrélation est le test statistique pour mesurer le lien entre deux variables quantitatives. Après avoir présenté les principes de la corrélation, nous procédons à une démonstration avec la réalisation d’une corrélation multiple avec le logiciel SPSS. 1.1 LES PRINCIPES DE LA CORRÉLATION LINÉAIRE Le coefficient de corrélation de Pearson est une mesure d’association qui permet d’éta- blir si deux variables mesurées sur le même ensemble d’observations varient de façon ana- logue ou non. La corrélation « r » est égale à la covariance divisée par le produit des écarts types de x et y : r = covXY/Sx Sy Cette corrélation correspond également au coefficient de régression (b) divisé par l’écart type de la variable dépendante : r = b/Sy Une corrélation proche de 1 ou de –1 en valeur absolue signifie que deux variables sont liées entre elles et peuvent s’expliquer mutuellement. Lorsque r est proche de 0, il y a une faible corrélation. Si r est proche de +1, cela veut dire que les deux variables varient dans le même sens. Si r est proche de –1, cela signifie que les deux variables varient en sens inverse l’une de l’autre. 1.2 LA RÉALISATION D’UNE CORRÉLATION LINÉAIRE Avant de réaliser une corrélation linéaire, il faut s’assurer que les variables à tester sont bien quantitatives. En effet, comme nous l’avons vu au tableau 6.1, le coefficient de corré- lation ne fonctionne que pour des variables métriques. Tableau 6.1 : Rappel sur la nature des variables et le type d’analyse Nature des variables Type d’analyse Test statistique Qualitatives Tri croisé Khi-deux Qualitatives et quantitatives ANOVA Test F Quantitatives Régression Coefficient de corrélation Livre spss.book Page 134 Vendredi, 25. janvier 2008 12:04 12
  • 148.
    135La régression linéaire 6Chapitre SPSSÉtude des liens entre diverses caractéristiques des vendeurs et leur attitude à l’égard des challenges Nous cherchons à savoir s’il existe une relation entre des caractéristiques du vendeur telles que l’âge, l’ancienneté dans l’entreprise et dans le poste, l’ambition et l’attitude à l’égard des challen- ges de vente. Nous réalisons donc une corrélation linéaire sur toutes ces variables quantitatives. Ouvrez le fichier « challenge » 1. Allez dans le menu Analyse > Corrélation > Bivariée. La boîte de dialogue de la figure 6.1 apparaît. Gardez le coefficient de Pearson coché. Transférez les variables en les sélectionnant chacune à leur tour et en cliquant sur les flèches. Faites OK. Les résultats apparaissent (voir figure 6.2). Les résultats indiquent le coefficient de corrélation et la signification (Sig.). Si Sig. < 0,05, on peut dire qu’il existe une corrélation entre les deux variables au seuil de 0,05. Le signe ** indique que la corrélation est significative au seuil de 0,01. Dans cet exemple, nous observons que l’esprit de compétition et l’attitude à l’égard des challenges de vente sont fortement liés (0,71; p < 0,01). À ce stade, nous ne pouvons cependant pas dire si c’est l’esprit de compétition qui a un impact sur l’attitude à l’égard du challenge ou bien l’inverse. C’est grâce à la régression linéaire que nous pouvons expliquer le sens de la relation entre ces deux variables. 1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr. Figure 6.1 Commande d’une corrélation. Figure 6.2 Interprétation d’une corrélation. Livre spss.book Page 135 Vendredi, 25. janvier 2008 12:04 12
  • 149.
    136 Analyse dedonnées avec SPSS (2) La régression linéaire La régression linéaire vise à expliquer une variable dépendante par une ou un ensemble de variables indépendantes quantitatives. Lorsque le problème implique une seule variable indépendante, la technique statistique est appelée régression simple. Lorsque le problème implique plusieurs variables indépendantes, il s’agit d’une régression multiple. La régres- sion est utilisée pour l’explication et la prédiction. Les principes et conditions d’application de la régression simple sont exposés avant d’aborder ceux de la régression multiple. Ces deux techniques sont chacune illustrées par des exemples d’applications. 2.1 LA RÉGRESSION LINÉAIRE SIMPLE La régression vise à estimer ou prédire la valeur d’une variable à partir d’une seule autre. Par exemple, on peut expliquer la consommation de SMS par l’âge du consommateur. Dans une régression simple, les valeurs de la variable dépendante (Y) sont estimées à par- tir de la variable indépendante (X) par équation linéaire : Yi = aC+ bXi + e Où Yi est la valeur estimée de Y, b est la pente (coefficient de régression) et a la constante. Les conditions d’application de la régression Le modèle de la régression pose un certain nombre d’hypothèses lors de l’estimation des paramètres et des tests d’hypothèses. Ces conditions d’application de la régression sont : • la linéarité du phénomène mesuré; • la variance constante du terme d’erreur ou homoscédasticité; • l’indépendance des termes d’erreur; • la normalité de la distribution du terme d’erreur. La linéarité est importante car le concept de corrélation est fondé sur une relation linéaire. La linéarité d’une relation bivariée est vérifiée par l’examen des résidus. L’homoscédasticité est vérifiée par l’examen des résidus ou par un simple test statistique. Le logiciel SPSS fournit le test d’homogénéité de Levene, qui mesure l’égalité des variances pour une seule paire de variables. Son utilisation est souvent recommandée. L’indépendance des termes d’erreur est une autre condition de l’analyse de régression multiple. Outre l’examen du graphique des résidus, cette hypothèse peut aussi être validée par le test de Durbin-Watson. La normalité de la distribution du terme d’erreur (voir chapitre 2). L’interprétation des résultats de la régression Les résultats de la régression se lisent grâce aux indices suivants : • R : le coefficient de corrélation multiple est un indice standardisé variant de –1 à +1, indiquant la force de la relation entre l’ensemble des variables indépendantes et la Livre spss.book Page 136 Vendredi, 25. janvier 2008 12:04 12
  • 150.
    137La régression linéaire 6Chapitre variabledépendante. Plus la corrélation est élevée, plus la relation linéaire entre les variables indépendantes et la variable dépendante est élevée. • R2 : la corrélation multiple au carré, appelée coefficient de détermination, est un indice de la part de variance de la variable dépendante expliquée par les variables indé- pendantes qui sont dans l’équation. Il donne ainsi la part de variance de la variable expliquée par la variable indépendante. • Le Bêta : ce coefficient standardisé permet de comparer la contribution de chaque variable puisqu’il s’agit du coefficient de régression ramené sur une échelle standard (entre –1 et +1). • Le test F : sa valeur indique si la variance ou l’ajout de variance expliquée est significa- tive, c’est-à-dire si, quelle que soit la force de la relation entre les variables indépendan- tes et la variable dépendante, cette relation est susceptible d’exister dans la population et n’est pas due simplement au hasard de l’échantillonnage. • Le test t : sa valeur doit être plus grande que 2 (1,96) pour être significative (notée** à p < 0,05). Elle indique si chacun des coefficients des variables présentes dans l’équation est significatif. * Focus 6.1 • Concomitance et corrélation Concomitance et corrélation ne veulent pas dire obligatoirement relation de cause à effet. Il faut d’abord comprendre le lien de causalité entre la variable explicative et la ou les variables expliquées, vérifier expérimentalement la solidité du lien (via les méthodes de régression), et seulement alors s’en servir en explicatif ou en prévisionnel. Le risque sinon est de mettre en évi- dence une relation forte entre deux grandeurs n’ayant aucune relation de cause à effet, mais simplement reliées toutes les deux pour des raisons très différentes à une même troisième. Par exemple, on cite fréquemment l’exemple de la bonne corrélation entre le nombre de meur- tres par an en Grande-Bretagne et la consommation de chocolat; de là à en conclure que la consommation de chocolat rend agressif! (alors que les deux varient en fonction de la popula- tion, et si on neutralise cet effet, il n’y a aucune corrélation, à population fixée, entre la crimi- nalité et la consommation de chocolat!). Ce risque est particulièrement présent lorsque l’on adopte des méthodes de type pas à pas, en introduisant les variables « explicatives » unique- ment en fonction de critères de performance et non pas en analysant sur un plan conceptuel la relation de cause à effet. SPSS Étude de la relation entre l’esprit de compétition et l’attitude envers le challenge Nous cherchons à savoir si l’esprit de compétition du vendeur influence son attitude à l’égard du challenge de vente. Pour obtenir une régression linéaire simple, allez dans le menu Analyse > Régression > Linéaire. La boîte de dialogue de la figure 6.3 apparaît. Transférez les variables en les sélectionnant chacune à leur tour et en cliquant sur les flèches. Mettez la variable à expliquer dans Variable dépendante, la variable explicative dans Variables explicatives. Le premier tableau récapitule les variables explicatives prises en compte dans le modèle. Ici, il n’y a qu’une seule variable puisque nous travaillons sur une régression simple. Le troisième tableau indique si le modèle est significatif ou non. Dans ce cas-ci, le modèle obtenu est significatif (p < 0,05), le lien entre l’esprit de compétition et l’attitude du vendeur à l’égard des challenges de vente est significatif (t = 26,34 > 2) et positif (R2 ou coefficient standardisé de 0,50) [voir le premier tableau de la figure 6.4]. Livre spss.book Page 137 Vendredi, 25. janvier 2008 12:04 12
  • 151.
    138 Analyse dedonnées avec SPSS Figure 6.3 Commande d’une régression simple. Figure 6.4 Interprétation d’une régression simple. Figure 6.5 Interprétation d’une régression simple (suite). Livre spss.book Page 138 Vendredi, 25. janvier 2008 12:04 12
  • 152.
    139La régression linéaire 6Chapitre *Focus 6.2 • De la nécessité d’observer les données au préalable Tout travail de type recherche de corrélation et de modélisation commence par une séance approfondie de statistique descriptive. Avant de faire des calculs de régression, regardons attentivement les données. Il faut en particulier se méfier des points aberrants, susceptibles de « tirer » les coefficients de régression, ou d’un nuage de points organisé en deux paquets orientés suivant deux directions, ou d’autres cas de ce type. Ce travail se fait par l’examen des résidus comme nous allons maintenant le découvrir. 2.2 L’EXAMEN DES RÉSIDUS L’estimation réalisée par l’équation de régression n’atteint habituellement pas l’exactitude complète. D’un point de vue géométrique, les points des données ne se retrouvent pas sur la ligne droite spécifiée par l’équation de régression. Les résidus représentent les différen- ces sur les variables prédites; ils constituent un indicateur de performance de la droite de régression. L’examen de ces résidus sert à estimer l’exactitude des estimations. Il est donc recom- mandé de demander une analyse des résidus avec des graphiques qui fournissent des aper- çus utiles pour s’assurer que les hypothèses fondamentales et la qualité du modèle de régression ont bien été respectées. L’hypothèse de distribution normale du terme d’erreur est vérifiée par l’observation du graphique des résidus. L’hypothèse d’une valeur constante de la variance du terme d’erreur (homoscédasticité) est validée à l’aide du graphique des résidus en fonction des valeurs esti- mées de la variable dépendante. Si la configuration n’est pas aléatoire, la variance du terme d’erreur n’est pas constante. La variation des variances des termes d’erreur doit être com- prise entre –3 et +3. Ce graphique sert aussi à vérifier une autre condition importante : l’absence de corrélation ou indépendance entre les termes d’erreur. L’exemple suivant montre comment demander un examen des résidus avec le logiciel SPSS et comment interpréter les résultats de ce diagnostic. SPSS Pour obtenir l’examen des résidus, retournez à la boîte de dialogue (Analyse > Régression > Linéaire), cliquez sur Statistiques et, dans l’encadré Résidus, cochez Diagnostic des observations (voir figure 6.6). Figure 6.6 Demande d’un tableau des résidus. Livre spss.book Page 139 Vendredi, 25. janvier 2008 12:04 12
  • 153.
    140 Analyse dedonnées avec SPSS Cliquez ensuite sur Poursuivre et, pour avoir un graphique des résidus, cliquez sur le bouton Diagrammes. La boîte de dialogue de la figure 6.7 apparaît. Pour commander un diagramme de résidus standardisés (*ZRESID) contre les valeurs prédi- tes standardisées (ZPRED), il faut transférer avec les flèches *ZRESID dans la case face à Y et *ZPRED dans la case face à X. Cochez Diagramme P-P gaussien afin d’avoir la droite de régression. Cliquez ensuite sur Poursuivre pour revenir à la boîte de dialogue précédente et enfin sur OK. Le tableau Diagnostic des observations montre que les observations 61, 202 et 337 sortent de l’intervalle [–3; +3] avec un score moyen de 4,33 pour l’attitude à l’égard du challenge. Le résidu standardisé est supérieur à 4 pour l’observation 61 et 3 pour les deux dernières. Afin d’éliminer ces observations éloignées de la droite de régression, il faut aller dans le menu Données > Sélectionnez des observations. Cliquez sur le bouton Selon une condition logique (voir figure 6.9). Figure 6.7 Demande d’un diagramme des résidus (suite). Figure 6.8 Diagnostic des observations. Figure 6.9 Diagnostic des résidus. Livre spss.book Page 140 Vendredi, 25. janvier 2008 12:04 12
  • 154.
    141La régression linéaire 6Chapitre Legraphique de répartition des résidus par rapport à une répartition normale montre que la majorité des résidus est alignée. Le nuage de points édité des résidus standardisés en rapport avec les valeurs prédites stan- dardisées ne fait apparaître aucun modèle particulier, ce qui confirme l’hypothèse de valeur constante de la variance du terme d’erreur (homoscédasticité) et d’indépendance des termes d’erreur. D’autres diagrammes, comme l’histogramme des résidus standardisés, sont aussi à exami- ner. Idéalement, la distribution doit être normale. 2.3 LA RÉGRESSION LINÉAIRE MULTIPLE La régression multiple est une extension de la régression simple où la variable dépen- dante est régressée sur un ensemble de variables. Elle sert à analyser la relation entre une variable dépendante qualitative et plusieurs variables indépendantes quantitatives. Cha- que variable indépendante est évaluée par la procédure de régression de façon à maximiser la prédiction de la variable expliquée. Cette technique multivariée est la plus utilisée pour prédire et expliquer. Dans le cas de la prédiction, l’objectif est de maximiser le pouvoir prédictif des variables indépendantes. Il est aussi possible de comparer des variables indépendantes dans leur pouvoir explicatif. Dans le cas de l’explication, la régression sert à déterminer l’importance relative de chaque variable indépendante par sa magnitude et sa direction. Par exemple, le nombre de SMS peut dépendre de l’âge du consommateur, de son revenu et de ses consommations télé- phoniques. La régression cherche la combinaison de poids (b) pour les variables indépendantes (Xi) qui amènerait les valeurs de Y prédites par l’équation aussi près que possible des valeurs de Y mesurées : Yi = a + b1X1 + b2X2 + … + bnXn C’est un indice de la relation entre les valeurs prédites et les valeurs mesurées. Figure 6.10 Nuage de points des résidus standardisés. Livre spss.book Page 141 Vendredi, 25. janvier 2008 12:04 12
  • 155.
    142 Analyse dedonnées avec SPSS Les méthodes de sélection des variables de régression La sélection d’une méthode permet de spécifier la manière dont les variables indépendan- tes sont entrées dans l’analyse. Voici ces différentes méthodes : • entrée (par défaut) : toutes les variables d’un bloc sont introduites en une seule opération; • pas à pas : les variables indépendantes sont ajoutées à l’équation une par une et peuvent être enlevées subséquemment si elles ne contribuent plus significativement à la régression. Le processus s’arrête lorsqu’aucune variable ne peut plus être introduite ou éliminée; • éliminer bloc : toutes les variables dans un bloc sont supprimées en une seule étape; • descendante : toutes les variables sont entrées initialement dans l’équation et sont ensuite éliminées une à une. La variable ayant la plus petite corrélation avec la variable dépendante est d’abord étudiée pour l’élimination. Si elle est éliminée par le modèle, la prochaine variable avec le plus petit coefficient de corrélation est étudiée, jusqu’à ce qu’aucune variable ne satisfasse plus au critère d’élimination; • ascendante : les variables sont introduites séquentiellement une par une. Si la première variable est introduite dans l’équation, la variable explicative ne figurant pas dans l’équation et présentant la plus forte corrélation partielle est considérée ensuite. La pro- cédure s’arrête lorsqu’il ne reste plus de variables satisfaisant le critère d’introduction. La méthode pas à pas est une combinaison des méthodes descendantes et ascendantes, elle est généralement recommandée comme étant la meilleure méthode. Toutes les variables doivent respecter le critère de tolérance pour être entrées dans l’équa- tion, quelle que soit la méthode d’entrée spécifiée. Le niveau de tolérance par défaut est 0,0001. Une variable n’est pas entrée si elle fait passer la tolérance d’une autre variable déjà entrée dans le modèle en dessous du seuil de tolérance. Les conditions de la régression multiple La régression multiple est complexifiée par la présence de multicolinéarité. En effet, la majorité des études mettent en jeu des variables explicatives qui sont corrélées. Une méthode simple pour détecter une trop grande corrélation entre variables indépendantes consiste à demander des tests de colinéarité : tolérance et facteur d’inflation de la variance (VIF). La tolérance est définie comme la part de variabilité de la variable indépendante qui n’est pas expliquée par une ou d’autres variables indépendantes. Une tolérance élevée corres- pond à un faible degré de colinéarité. Le seuil de 0,3 est recommandé. À l’inverse, le seuil du facteur d’inflation de la variance (VIF) doit être faible : < 3. SPSS Étude de la relation entre l’esprit de compétition, l’ambition, la relation avec le manager et l’attitude des vendeurs envers les challenges de vente Nous cherchons à savoir si l’esprit de compétition, l’ambition et la relation du vendeur avec son manager influencent son attitude à l’égard des challenges de vente. Nous souhaitons déterminer, parmi ces variables explicatives, celle qui explique le mieux l’attitude à l’égard du challenge de vente. Pour obtenir une régression linéaire multiple, allez dans le menu Analyse > Régression > Linéaire. La boîte de dialogue de la figure 6.11 apparaît. Livre spss.book Page 142 Vendredi, 25. janvier 2008 12:04 12
  • 156.
    143La régression linéaire 6Chapitre Transférezles variables en les sélectionnant chacune à leur tour et en cliquant sur les flè- ches. La variable à expliquer dans Variable dépendante, les variables explicatives dans Variables explicatives. La méthode de sélection des variables pas à pas est choisie eu égard à notre choix de recherche. Cliquez ensuite sur Statistiques et demandez les Tests de colinéarité. Cliquez ensuite sur Poursuivre et OK (voir figure 6.12). Les résultats de la régression multiple apparaissent dans l’onglet Résultats (voir figures 6.13 et 6.14). Ce premier tableau présente les variables introduites : l’esprit de compétition et la relation avec le manager. Nous remarquons ici que l’ambition n’est pas prise en compte car cette variable ne contribue pas significativement à la régression. Les deux variables prises en compte expliquent 51 % de l’attitude à l’égard du challenge (R2 ajusté). Le tableau ANOVA atteste que les deux modèles sont significatifs (Signification = 0,00). Nous lisons ensuite les résultats du test de colinéarité (voir figure 6.15). Figure 6.11 Commande d’une régression multiple. Figure 6.12 Commande de tests de colinéarité. Livre spss.book Page 143 Vendredi, 25. janvier 2008 12:04 12
  • 157.
    144 Analyse dedonnées avec SPSS Tolérances et facteurs d’inflation de la variance (VIF) sont proches de 1, largement dans les limites recommandées (tolérance > 0,3 et VIF < 3,3). Les variables explicatives sont donc peu corrélées entre elles, ce qui est un indice de qualité du modèle. Comme nous pouvons le voir (voir figure 6.16), la variable ambition a été exclue car elle a de mauvaises statistiques de colinéarité. Figure 6.13 Interprétation des résultats d’une régression multiple. Figure 6.14 Interprétation des résultats d’une régression multiple (suite). Figure 6.15 Interprétation des résultats d’une régression multiple : tests de colinéarité. Livre spss.book Page 144 Vendredi, 25. janvier 2008 12:04 12
  • 158.
    145La régression linéaire 6Chapitre Nouspouvons conclure que le modèle 2 est satisfaisant, car il explique 51 % de l’attitude à l’égard du challenge (R2 ajusté). Il est significatif (voir tableau ANOVA, figure 6.14), les coefficients de la pente de régression sont significatifs et il n’y a pas de problème de coli- néarité (voir tableau coefficients, figure 6.15). L’esprit de compétition et la relation du vendeur avec son manager sont deux déterminants de l’attitude du vendeur à l’égard des challenges de vente. Résumé La corrélation sert à mesurer la force de l’association de deux variables quantitatives. Le coef- ficient de corrélation linéaire mesure la relation linéaire entre les deux variables quantitatives. La régression utilise la présence de cette relation pour prédire les valeurs de la variable dépendante à partir d’une variable indépendante. L’objectif est donc d’estimer ou de pré- dire une variable à partir d’une autre grâce à une équation de régression. La régression simple sert à tester l’effet d’une seule variable indépendante sur une variable dépendante. La force de la relation est mesurée par le coefficient de détermination R2. La régression multiple implique au moins deux variables indépendantes et une variable dépendante. La signification de l’équation de régression globale est testée grâce au test t. Les graphiques des résidus servent à vérifier la pertinence des hypothèses sous-jacentes et l’ajustement du modèle de régression Pour aller plus loin Malhotra N., Decaudin J. M., Bouguerra A., Études marketing avec SPSS, 5e éd., Pearson Education, Paris, 2007. Hair J. F., Anderson R. E., Tatham R. L., Black W. C., Multivariate Data Analysis, Prentice Hall International, New Jersey, 2007. Evrard Y., Pras B., Roux E., Market. Études et recherche en marketing, Nathan, Paris, 2003. Figure 6.16 Interprétation des résultats d’une régression multiple : variables exclues. Livre spss.book Page 145 Vendredi, 25. janvier 2008 12:04 12
  • 159.
    146 Analyse dedonnées avec SPSS Exercices EXERCICE 1 ÉTUDE DU POINT DE VENTE * Solution 1. Les variables les plus reliées au montant moyen dépensé par mois sont le niveau d’étu- des (0,66) et le revenu du foyer (0,83). L’intention d’achat est plus faiblement corrélée au montant moyen dépensé par mois. Le signe ** indique que la corrélation est significative au seuil de 0,01. La taille du foyer n’est pas reliée au montant moyen dépensé par mois. En effet, la corréla- tion de 0,03 n’est pas significative, il n’y a pas de signe ** à l’intersection de « Taille du foyer » et de « Montant moyen dépensé par mois ». 2. Comme pour le montant moyen dépensé par mois, l’intention d’achat est aussi liée au niveau d’études et n’est pas liée à la taille du foyer. Toutefois, à la différence du montant moyen dépensé par mois, l’intention d’achat et le niveau de revenus du foyer ne sont pas fortement corrélés (0,28). • Énoncé Une étude sur la clientèle d’un magasin vise à mieux comprendre les clients et notam- ment les variables liées à l’intention d’achat. Voici les résultats de la corrélation multiple entre le montant moyen dépensé par mois, l’intention d’achat, le niveau d’études, la taille du foyer et le niveau de revenus du foyer (voir figure 6.17). 1. Quelles variables sont le plus reliées au montant moyen dépensé par mois? 2. Ces variables sont-elles différentes de celles qui sont reliées à l’intention d’achat dans le point de vente? Figure 6.17 Interprétation des résultats d’unecorrélation multiple. Livre spss.book Page 146 Vendredi, 25. janvier 2008 12:04 12
  • 160.
    147La régression linéaire Exercices 6Chapitre EXERCICE2 LES DÉTERMINANTS DE LA MOYENNE DES ÉTUDIANTS • Énoncé On a demandé à des étudiants d’une classe d’évaluer la qualité de l’enseignement en uti- lisant une échelle de notation en 5 points (1 = médiocre, 5 = excellent). Nous avons aussi relevé la moyenne et le jour d’absence du trimestre des étudiants de la classe. 1. Enregistrez les données récoltées dans le tableau sous SPSS au tableau 6.2. 2. Ces variables sont-elles corrélées? 3. Effectuez une analyse par régression multiple de la qualité perçue de l’enseignement et de l’absentéisme durant le trimestre sur la moyenne du trimestre. Interprétez les coef- ficients de régression. La régression est-elle significative? Que concluez-vous? Tableau 6.2 : Données récoltées Étudiant Moyenne du trimestre Qualité perçue de l’enseignement Absentéisme en jours par trimestre 1 5 4 10 2 7 4 2 3 15 3 0 4 11 2 0 5 16 3 0 6 12 2 1 7 11 3 0 8 14 4 0 9 10 4 0 10 14 4 0 11 11 3 0 12 9 4 1 13 9 2 2 14 11 4 0 15 10 4 0 16 7 2 1 17 14 4 0 18 15 4 0 19 11 3 0 20 14 4 0 Livre spss.book Page 147 Vendredi, 25. janvier 2008 12:04 12
  • 161.
    148 Analyse dedonnées avec SPSS * Solution 1. Pour rentrer ces données sous SPSS, allez dans Fichier > Nouveau > Données. Ensuite, dans Affichage des variables entrez le Nom des variables et leur Etiquette. Nous avons ici des données quantitatives et donc la Mesure sélectionnée est Echelle (voir figure 6.18). Il faut ensuite entrer les données dans la partie Affichage des données. Chaque ligne cor- respond à la réponse d’un étudiant. Nous avons ainsi un tableau de trois colonnes et 28 lignes pour les 28 étudiants de la classe (voir figure 6.19). 2. Afin de savoir si les variables sont corrélées, il faut demander une corrélation entre les trois variables : qualité de l’enseignement perçue, absentéisme des élèves et moyenne du trimestre. Allez dans Analyse > Corrélation > Bivariée. La boîte de dialogue de la figure 6.20 appa- raît. Faites passer les variables de gauche à droite à l’aide de la flèche, puis cliquez sur OK. Les résultats de la corrélation apparaissent dans le tableau de résultats à la figure 6.21. Le tableau des corrélations obtenu entre la note du trimestre, l’absentéisme en nombre de jours par trimestre et la qualité perçue de l’enseignement montre qu’il existe un lien signi- ficatif entre l’absentéisme et la note moyenne. Le signe – atteste que ces deux variables évoluent de manière inversement proportionnelle. Autrement dit, plus un étudiant est absent moins sa note du trimestre est bonne. Il n’y a pas de corrélation entre la note moyenne du trimestre et la qualité perçue de l’enseignement, comme il n’y a pas de lien entre le taux d’absentéisme des étudiants et la qualité perçue de l’enseignement. Étudiant Moyenne du trimestre Qualité perçue de l’enseignement Absentéisme en jours par trimestre 21 12 3 0 22 11 4 0 23 9 3 0 24 8 2 2 25 11 4 0 26 10 3 0 27 14 4 0 28 12 4 0 Figure 6.18 Rappel de la procédure pour rentrer les données sous SPSS. Livre spss.book Page 148 Vendredi, 25. janvier 2008 12:04 12
  • 162.
    149La régression linéaire Exercices 6Chapitre Figure6.19 Rappel de la procédure pour rentrer les données sous SPSS (suite). Figure 6.20 Demande de corrélation entre la qualité de l’enseignement, l’absentéisme et la moyenne. Figure 6.21 Résultats de la corrélation entre la moyenne, l’absentéisme et la qualité de l’enseignement. Livre spss.book Page 149 Vendredi, 25. janvier 2008 12:04 12
  • 163.
    150 Analyse dedonnées avec SPSS 3. Pour réaliser la régression multiple (pas à pas), allez dans le menu Analyse > Régression > Linéaire. Transférez la variable note moyenne vers Variable dépendante, puis les variables qualité de l’enseignement et absentéisme, chacune à leur tour, vers Variables explicatives en cli- quant sur les flèches. La méthode de sélection des variables par défaut est choisie. Cliquez ensuite sur OK (voir figure 6.22). Avant de lancer la commande de régression, la non-colinéarité entre les variables indépen- dantes doit être vérifiée. Pour ceci, il faut faire des tests de colinéarité. Retournez dans la boîte de dialogue puis cliquez sur Statistiques, Tests de colinéarité. Cliquez ensuite sur Poursuivre et OK (voir figure 6.23). Les résultats de la régression multiple figurent dans la boîte de résultats à la figure 6.24. Figure 6.22 Demande d’une régression multiple (Pas à pas) sur la moyenne du trimestre. Figure 6.23 Demande de tests de colinéarité. Livre spss.book Page 150 Vendredi, 25. janvier 2008 12:04 12
  • 164.
    151La régression linéaire Exercices 6Chapitre Toutesles variables sont conservées pour la régression puisque nous n’avons pas spécifié de méthode de régression particulière ; la méthode par défaut prend toutes les variables explicatives (voir figure 6.25). Les deux variables prises en compte expliquent 37 % de la moyenne du trimestre (R2 ajusté). Le tableau ANOVA atteste que le modèle est significatif (Signification = 0,00). Tolérances et facteurs d’inflation de la variance (VIF) sont égaux à 1, ce qui montre que les variables explicatives sont peu corrélées entre elles et représentent un indice de qualité du modèle. Le test t de la régression de la qualité de l’enseignement sur la note moyenne du trimestre n’est pas significatif (p > 0,0; t < 2), nous pouvons donc conclure que seul l’absentéisme a un effet significatif et négatif sur la moyenne du trimestre (t = – 4,01; p < 0,01). Autre- ment dit, plus les étudiants sont absents, moins leur moyenne est bonne. Figure 6.24 Interprétation des résultats de la régression multiple sur la moyenne du trimestre. Figure 6.25 Interprétation des résultats de la régression multiple sur la moyenne du trimestre (suite). Livre spss.book Page 151 Vendredi, 25. janvier 2008 12:04 12
  • 165.
    152 Analyse dedonnées avec SPSS EXERCICE 3 ÉTUDE DU POINT DE VENTE1 * Solution 1. Une corrélation permet de savoir si la taille du foyer et le montant dépensé dans le magasin sont liés. Voici la commande à effectuer : Analyse > Corrélation > Bivariée. Faites passer les varia- bles foyer et montant vers Variables, puis OK (voir figure 6.26). Les résultats de la corrélation figurent dans la boîte de résultats à la figure 6.27. L’absence de signe ** indique que la corrélation entre la taille du foyer et le montant dépensé dans le magasin n’est pas significative. Il n’y a pas de lien entre ces deux variables. • Énoncé Vous travaillez sur une enquête destinée à mieux comprendre les comportements d’achat de clients d’un magasin de chaussures. Vous cherchez à identifier ces clients et connaître leur attitude à l’égard du point de vente. Vous avez collecté 400 réponses et cherchez à exploiter ces données (fichier « pointdevente » 1). Le gérant du magasin souhaite savoir : 1. s’il existe une relation entre la taille du foyer et le montant dépensé dans le magasin; 2. si le niveau d’études influence l’intention d’achat dans le point de vente. 1. Vous trouverez ce fichier à l’adresse : http://www.pearsoneducation.fr. Figure 6.26 Demande de corrélation entre la taille du foyert et le montant dépensé. Figure 6.27 Interprétation des résultats de la corrélation entre la taille du foyert et le montant dépensé. Livre spss.book Page 152 Vendredi, 25. janvier 2008 12:04 12
  • 166.
    153La régression linéaire Exercices 6Chapitre 2.Pour savoir si le niveau d’études influence l’intention d’achat au point de vente, il faut faire une régression du niveau d’études sur l’intention d’achat. Voici la commande à effectuer : Analyse > Régression > Linéaire. Faites passer l’intention d’achat vers Variable dépendante et le niveau d’études (Question : Quel est votre niveau d’études?) vers Variables explicatives, puis faites OK (voir figure 6.28). Les résultats de la régression apparaissent dans les tableaux de la figure 6.29. Figure 6.28 Demande de régression du niveau d’études sur l’intention d’achat. Figure 6.29 Interprétation des résultats de la régression du niveau d’études sur l’intention d’achat. Livre spss.book Page 153 Vendredi, 25. janvier 2008 12:04 12
  • 167.
    154 Analyse dedonnées avec SPSS Le tableau ANOVA atteste que le modèle est significatif. Le test t de la régression du niveau d’études sur l’intention d’achat est supérieur à 2. Nous pouvons donc conclure que le niveau d’études a un effet significatif et positif sur l’intention d’achat dans le magasin (t = 11,58; p < 0,01). Le niveau d’études explique 25 % de l’intention d’achat (R2 ajusté). Autrement dit, plus les individus ont des diplômes, plus ils sont prêts à effectuer des achats dans le magasin. Livre spss.book Page 154 Vendredi, 25. janvier 2008 12:04 12
  • 168.
    155 7L’analyse conjointe L’analyse conjointe estune forme d’analyse de variance qui permet de mesurer les préférences des individus relatives aux attributs d’un objet. L’objectif est d’identifier les préférences globales et de mesurer l’effet conjoint de caractéristiques. Par exemple, il s’agira de cerner les critères les plus importants dans l’achat d’un ordinateur (puissance, marque, design, etc.). Cette technique permet d’expliquer les préféren- ces pour un objet en fonction de ses caractéristiques, de déduire l’importance de ces différentes caractéristiques et de leurs modalités dans l’évaluation globale portée par les indi- vidus. L’analyse conjointe est surtout utilisée dans le contexte des biens de consommation, où elle sert à améliorer les pro- duits ou les services selon les résultats. Nous verrons dans un premier temps les principes de l’ana- lyse conjointe avant de présenter le déroulement, la réalisa- tion et l’interprétation de cette méthode. 1. Les principes de l’analyse conjointe ..............156 2. La préparation de l’analyse conjointe ..............158 3. L’interprétation de l’analyse......164 Exercices 1. Étude sur la consommation de thé – création de plan d’expérience et de scénario......172 2. Étude sur la consommation de thé Calcul des préférences des consommateurs .................174 Chapitre Livre spss.book Page 155 Vendredi, 25. janvier 2008 12:04 12
  • 169.
    156 Analyse dedonnées avec SPSS (1) Les principes de l’analyse conjointe Les travaux de Green dans les années 1970 marquent le début de la prise en compte de l’analyse conjointe dans la recherche en marketing. La méthode dite de l’« analyse des mesures conjointes », au développement croissant depuis les années 1980, vise à mieux comprendre le comportement des individus et, en particulier, du consommateur. Le sketch de Coluche illustre la problématique de l’analyse conjointe sur la préférence entre être « grand, riche, beau et intelligent » et « petit, pauvre, moche et bête ». Si l’on pré- sente les combinaisons suivantes « grand, riche, moche et bête » ou « petit, pauvre, beau et intelligent », l’individu est alors amené à faire des compromis dans lesquels l’avantage d’une caractéristique compense une autre qu’il doit rejeter. L’analyse conjointe permet de répondre aux questions suivantes : Quelle est l’importance de tel ou tel attribut (prix, dimensions, etc.) du produit pour le consommateur? Quelle est l’importance de certains niveaux d’attributs (niveau de prix, dimensions en cm, etc.) par rapport à d’autres dans l’esprit du consommateur? Cette méthode détermine à la fois l’importance relative de chaque attribut et les niveaux des attributs préférés des répondants. Lorsqu’on dispose d’informations sur les répondants (données démographiques ou autres), l’analyse conjointe permet d’identifier les segments de marché pour lesquels des produits spécifiques seront plus adaptés. Par exemple, une personne appartenant à une CSP+ et un étudiant peuvent avoir des goûts différents auxquels des offres de produits dis- tincts pourront répondre. L’analyse conjointe repose sur la décomposition de la préférence en utilités partielles. Pour déterminer l’utilité totale d’un produit, on suppose que l’individu additionne les utilités partielles des attributs du produit. On parle de modèle additif. Au final, l’individu choisit parmi les produits celui qui lui procure l’utilité totale la plus élevée. L’estimation permet ainsi d’obtenir, pour chaque facteur et ses niveaux, des utilités partielles ainsi que l’impor- tance de chaque attribut. Ce qui compte est donc l’individu tel qu’il réagit dans une situa- tion déterminée. L’analyse conjointe appartient aux modèles de décomposition (voir focus 7.1 sur le modèle compensatoire) où l’importance des caractéristiques est estimée à partir des pré- férences déclarées du consommateur et de ses notations des différents produits sur plu- sieurs caractéristiques. Elle permet d’analyser l’importance des caractéristiques du produit dans la formation des préférences. * Focus 7.1 • Le modèle compensatoire Le modèle d’attitude implicite de l’analyse conjointe est un modèle compensatoire, où l’évalua- tion se fonde sur le principe du compromis, c’est-à-dire qu’un peu moins d’un attribut peut être compensé par un peu plus d’un autre. Par exemple, un individu qui cherche un appartement peut avoir plusieurs critères : le montant du loyer, la superficie, le nombre de pièces, la luminosité, la proximité des transports publics, etc. Si l’un de ces critères n’est pas satisfait (superficie insuffisante), il peut être com- pensé par un montant du loyer plus faible dans un modèle compensatoire (ce n’est pas le cas dans le modèle non compensatoire). Livre spss.book Page 156 Vendredi, 25. janvier 2008 12:04 12
  • 170.
    157L’analyse conjointe 7Chapitre 1.1 LESUTILISATIONS DE L’ANALYSE CONJOINTE EN MARKETING L’analyse conjointe est largement utilisée en marketing pour l’identification d’un nouveau concept, pour divers tests (prix, produits, publicité, distribution, etc.), pour l’analyse concurrentielle ou la segmentation du marché (voir tableau 7.1). Il s’agit, par exemple : • de déterminer l’importance relative d’attributs dans le processus de choix des consommateurs; • d’estimer la part de marché des marques qui diffèrent au niveau des attributs; • de déterminer la composition d’objets les plus appréciés; • de segmenter le marché à partir des similarités de préférences pour des niveaux d’attri- buts. 1.2 LES CONDITIONS D’APPLICATION DE L’ANALYSE CONJOINTE L’analyse des mesures conjointes nécessite que les variables explicatives soient qualitati- ves ou nominales et que les variables à expliquer soient quantitatives. Ces dernières peuvent être évaluées : • à l’aide d’une échelle de mesure; • à l’aide d’un ordre de préférence (classement) entre différentes combinaisons de niveaux de facteurs. Par exemple, dans le cadre d’une étude sur la préférence des clients à l’égard d’une offre de transport aérien, on pourra demander aux individus d’évaluer différentes offres de com- pagnies avec une note de 1 à 9, autrement dit de les classer. Ces offres incluront, par exem- ple, le prix du billet (bas, moyen, élevé), la qualité du service à bord (excellente, moyenne, mauvaise), le nombre d’escales, etc. Il sera ainsi possible d’estimer, parmi ces facteurs et leurs niveaux, celui qui a le plus d’importance pour les clients dans leur choix d’une offre de transport aérien. L’objectif est ensuite d’élaborer une offre optimale pour la clientèle. Tableau 7.1 : Les applications de l’analyse conjointe Pour les biens de consommation courante Nouveaux produits 72 % Prix 61 % Segmentation 48 % Publicité 39 % Distribution 7 % Livre spss.book Page 157 Vendredi, 25. janvier 2008 12:04 12
  • 171.
    158 Analyse dedonnées avec SPSS 1.3 LES ÉTAPES DE L’ANALYSE CONJOINTE La méthodologie de l’analyse conjointe est jalonnée par trois grandes étapes (Green et Sri- nivasan, 1990) : • collecte des données : choix du plan factoriel complet ou fractionné, de la forme des questions et de la méthode de recueil; • définition de l’échelle de mesure de la variable dépendante : choix de la mesure (clas- sement, notation des combinaisons, comparaison de paires de combinaisons); • estimation : étape liée à la nature de la mesure de la variable dépendante (ANOVA si la variable dépendante est quantitative, analyse monotone de la variance si elle est ordi- nale). Ces étapes sont développées au cours de la section suivante. (2) La préparation de l’analyse conjointe L’analyse conjointe demande au préalable la résolution d’un certain nombre de questions. En effet, avant même de collecter les données, le chargé d’étude doit s’interroger sur les attributs qu’il cherche à évaluer et leurs niveaux. Cette première sélection des attributs ou facteurs les plus importants et de leurs niveaux ou modalités déterminera le plan d’expé- rience et le mode de collecte des données. Le schéma de la figure 7.1 présente les différentes phases de la méthode de l’analyse conjointe et met l’accent sur la première étape de la sélection des attributs et des niveaux. Source : adapté de Liquet et Benavent. Figure 7.1 Les étapes de l’analyse conjointe. Livre spss.book Page 158 Vendredi, 25. janvier 2008 12:04 12
  • 172.
    159L’analyse conjointe 7Chapitre 2.1 LASÉLECTION DES ATTRIBUTS OU FACTEURS ET DE LEURS NIVEAUX La sélection des variables et des niveaux à tester est cruciale. Les facteurs choisis doivent correspondre à l’ensemble des critères intervenant dans le choix des individus. Il est donc primordial que tous les attributs soient importants et indépendants, qu’ils décrivent com- plètement le produit et qu’ils soient manipulables. Par exemple, pour identifier le packa- ging de biscuits pour le goûter des enfants, le chargé d’étude sélectionnera le format du paquet, le type d’emballage, le code couleurs, etc., et en termes de niveaux, deux tailles pour le format (moyen, petit), deux pour le type d’emballage (carton, sachet) et trois pour le code couleurs (bleu-rouge; bleu-vert; bleu-jaune). Pour synthétiser, les attributs ou facteurs doivent être : • Exhaustifs. Il ne doit pas manquer de facteurs majeurs dans l’évaluation de l’objet. • Importants. Les facteurs sélectionnés doivent être essentiels dans l’évaluation de l’objet par les individus. • Indépendants. Les facteurs ne doivent pas être corrélés, sinon c’est la redondance qui est mesurée au lieu de la préférence. Si plusieurs attributs sont fortement corrélés, il faut alors essayer de les regrouper en un facteur globalisant. À titre d’exemple, voici quatre attributs employés pour décrire l’ambiance d’un restaurant : le décor (raffiné ou simple), l’agencement (banal ou élaboré), la lumière (tamisée ou non) et le niveau sonore (élevé, moyen, faible). Ces attributs pour- ront être regroupés sous une variable unique, intitulée « ambiance du restaurant » et comptant trois modalités (agréable, neutre ou désagréable). Les autres facteurs pourront être le tarif, l’emplacement du restaurant, la variété des plats, la qualité du service, etc. Les attributs et leurs niveaux doivent être importants et proches du réel des individus qui seront interrogés. Ils doivent aussi être suffisamment contrastés afin que les personnes puissent se prononcer. Enfin, le panier d’attributs doit être manipulable lors d’une simu- lation. Reprenons l’exemple de l’emballage de biscuits : le format, le type d’emballage et le code couleurs sont indépendants. À propos de leur importance, le chercheur doit s’assurer au préalable, par exemple grâce à une étude qualitative, que les attributs clés sont sélec- tionnés. Des entretiens avec des enfants sur leurs préférences concernant l’emballage de biscuits pour le goûter serviront à identifier les facteurs et leurs modalités clés. Il est généralement recommandé d’avoir un nombre de niveaux équilibré, c’est-à-dire équivalent pour chaque attribut. Cela permet d’éviter que les individus accordent plus de poids aux attributs présentant davantage de niveaux que les autres. Un nombre limité de niveaux (2 ou 3) permet, en outre, de présenter aux personnes interrogées des options plus claires. Dans le cas de notre exemple, le facteur code couleurs a trois niveaux, ce qui peut lui attribuer une plus grande importance. Il faut en tenir compte dans l’analyse. * Focus 7.2 • Comment identifier les attributs déterminants? Afin d’optimiser la phase clé de sélection des attributs et de leurs niveaux, une étude explora- toire est souvent nécessaire. Elle vise à repérer quels sont, pour les individus, les attributs les plus importants et leurs niveaux. Elle permet de s’assurer que les facteurs auxquels le chargé d’étude a pensé sont pertinents et qu’il n’a pas oublié de facteurs ou niveaux importants. Nous prenons ici l’exemple d’une étude sur les préférences des consommateurs à l’égard de crèmes glacées. Un questionnaire proposé à 300 ménages a permis d’identifier les attributs Livre spss.book Page 159 Vendredi, 25. janvier 2008 12:04 12
  • 173.
    160 Analyse dedonnées avec SPSS déterminants du processus d’achat de crèmes glacées. Ils ont dû évaluer chacun de ces critères selon le degré d’importance (de « pas du tout » à « très important ») : • le prix; • le parfum; • la marque; • le conditionnement. Une question ouverte (Autre) a permis d’identifier d’autres critères clés, par exemple : • la composition du produit. La sélection du nombre de facteurs a une incidence directe sur le plan d’expérience utilisé. En effet, lorsqu’on cherche à tester un nombre important d’attributs et de niveaux, il est souvent difficile de considérer toutes les configurations possibles (voir focus 7.3, Plan complet et plan fractionné) car c’est trop coûteux en termes d’expérience. * Focus 7.3 • Plan complet et plan fractionné Lorsqu’on utilise un plan complet, chaque profil décrit un objet complet, c’est-à-dire une com- binaison différente de niveaux de facteurs pour tous les facteurs ou tous les attributs. Cette méthode permet donc d’avoir une évaluation de toutes les combinaisons possibles. Cependant, lorsqu’on cherche à évaluer beaucoup d’attributs et de niveaux, le nombre total de profils à évaluer devient trop important pour que les répondants puissent les classer ou les noter de façon cohérente. Il est alors préférable d’utiliser un plan fractionné qui présente une fraction appropriée de toutes les combinaisons possibles de niveaux de facteurs. L’ensemble qui en résulte, appelé « tableau orthogonal », est conçu pour saisir les effets princi- paux de chaque niveau de facteur. 2.2 LA MISE EN ŒUVRE DE LA SIMULATION La construction de scénarios (voir focus sur la méthode des scénarios vue au chapitre 6) détermine la crédibilité de l’expérience. En effet, l’analyse conjointe repose sur des infor- mations collectées auprès d’individus à qui l’on demande de faire des choix, de déclarer leurs préférences entre divers objets présentés avec des stimuli. Les stimuli sont des combi- naisons d’attributs et de leurs niveaux qui sont évalués en fonction de leurs attraits. L’ana- lyse conjointe repose sur la méthode des scénarios. La méthode des scénarios ou des vignettes La méthode dite des scénarios ou des vignettes s’appuie sur l’utilisation de scénarios. Le scénario simule de vraies expériences, comme celle du choix d’un paquet de biscuits pour le goûter. Les individus, mis dans une situation hypothétique, doivent répondre « comme si » ils se trouvaient réellement dans ces situations. En prenant l’exemple du choix du paquet de biscuits, on demandera aux enfants de choisir entre les différents emballages qui pourront être dessinés. Ils choisiront, non pas selon des questions directement posées sur leurs préférences en termes de format (petit ou grand), de code couleurs, etc., mais en fonction de combinaisons de niveaux d’attributs. Livre spss.book Page 160 Vendredi, 25. janvier 2008 12:04 12
  • 174.
    161L’analyse conjointe 7Chapitre La miseen situation possède l’avantage de rendre l’expérience plus réaliste et, par là, de mieux impliquer les répondants dans la création de sens. Le but est aussi de s’éloigner de la rationalisation et d’effectuer son choix comme dans une situation réelle d’achat. Une description verbale, un texte descriptif écrit, une photo, un dessin ou un prototype peuvent servir à présenter les stimuli. Il faut ici veiller à ce que les scénarios soient crédi- bles et qu’aucun ne soit manifestement trop attractif ou, au contraire, répulsif. Les stimuli doivent, de fait, avoir une apparence similaire afin que les préférences des individus soient bien le fruit des attributs testés. Le tableau 7.2 expose les méthodes de présentation des scénarios les plus usitées. Source : Cattin et Wittink, 1982. Exemple de vignettes Voici un exemple de vignettes utilisées pour décrire différentes offres de chambres d’hôtel. Les facteurs manipulés sont : • la localisation de l’hôtel (centre-ville, proche d’une autoroute, excentré); • le type de chambre (luxe, standard, simple); • le prix de la chambre (élevé, économique); • la marque (chaîne d’hôtel connue ou pas). Le tableau 7.3 liste les vignettes qui permettent de décrire les diverses combinaisons pré- sentées aux individus. Tableau 7.2 : Les méthodes de présentation des stimuli les plus utilisées de l’analyse conjointe Description verbale 50 % Texte descriptif 20 % Descriptif visuel 19 % Prototype 7 % Autres 4 % Tableau 7.3 : Vignettes décrivant les offres de chambres d’hôtel Description des concepts Évaluation Classement ou Note 1. Chambre standard de la chaîne d’hôtels connue Y excentré, économique 2. Chambre de luxe de la chaîne d’hôtels connue Y excentré, économique 3. Chambre de luxe de la chaîne d’hôtels connue Y centre-ville, prix élevé Livre spss.book Page 161 Vendredi, 25. janvier 2008 12:04 12
  • 175.
    162 Analyse dedonnées avec SPSS 2.3 LA COLLECTE DES DONNÉES Lors de la phase de collecte des données, le chargé d’étude s’interroge sur le choix de la méthode de comparaison des vignettes ou des scénarios à tester, du mode d’administra- tion et du mode de recueil des données. Nous verrons successivement ces trois points clés. Le choix de la méthode de comparaison des scénarios Trois méthodes sont le plus souvent utilisées pour la collecte des données mais c’est celle du profil complet qui est la plus courante. Avec la méthode du profil complet, chacun des répondants est exposé à toutes les combinaisons de niveaux de facteurs. Elles sont décrites séparément et l’individu doit évaluer chacune d’elles. Si on reprend l’exemple du choix d’une chambre d’hôtel, les individus devraient noter les différentes offres décrites par les vignettes, soit un total de 36. Par conséquent, il est recommandé de sélectionner un nombre de facteurs inférieur à 6 et un nombre de niveaux pour chacun de ces facteurs limité à 3 ou 4. En effet, même si l’uti- lisation de plans fractionnés (voir chapitre 5) permet de réduire les profils que les indivi- dus évaluent, il existe des biais de réponses dus à un effet d’apprentissage. L’ordre de présentation des concepts influence l’appréciation des répondants, il faut donc veiller à présenter les vignettes de façon aléatoire. La méthode de comparaison par paires présente les différentes vignettes ou les différents scénarios deux à deux. Les personnes interrogées estiment les paires de concepts jusqu’à ce qu’ils soient tous évalués. Si on reprend l’exemple de l’emballage de biscuits pour le goû- ter, on demandera aux individus de choisir parmi les propositions (combinaison x de niveaux de facteurs) : un sachet de petit format et un code couleurs bleu-rouge seront comparés à un carton de petit format et un code couleurs bleu-jaune… Cela jusqu’à ce qu’ils aient évalué toutes les combinaisons. Il est aussi possible de faire noter différentes paires à des groupes d’individus différents, ce qui permet de gagner du temps. La méthode du trade off utilise deux facteurs à la fois. On demande aux répondants de classer par ordre de préférence toutes les combinaisons des niveaux des deux facteurs. Cette méthode repose sur une matrice qui croise l’ensemble de combinaisons des niveaux de facteurs deux à deux. Elle a pour inconvénient majeur sa lourdeur lorsque le nombre de facteurs est élevé. 4. Chambre simple de la chaîne d’hôtels connue Y proche d’une autoroute, économique 5. Chambre simple, proche d’une autoroute, économique 6. Chambre de luxe, centre-ville, prix élevé … Tableau 7.3 : Vignettes décrivant les offres de chambres d’hôtel (suite) Description des concepts Évaluation Classement ou Note Livre spss.book Page 162 Vendredi, 25. janvier 2008 12:04 12
  • 176.
    163L’analyse conjointe 7Chapitre L’avantage desméthodes du trade off et de comparaison par paires est que les individus perçoivent clairement les offres et répondent facilement. Leur principal inconvénient est le nombre important d’évaluations nécessaires. La méthode du profil complet en exige moins. Elle est donc intéressante lorsqu’on cherche à tester un nombre important d’attri- buts et de niveaux d’attributs. Pour les deux méthodes,il n’est pas toujours utile de faire évaluer toutes les combinaisons possi- bles même si l’emploi de plans fractionnés (voir focus 7.3) peut parfois pallier ce problème. Le choix du mode d’administration de l’enquête L’information collectée est déduite des évaluations d’objets par les individus interrogés. La taille de l’échantillon, issu de la population cible de l’objet testé, varie entre 100 et 1 000. Elle doit être suffisamment importante pour assurer la fiabilité des résultats. Une fois l’échantillon choisi, le chargé d’étude propose les scénarios ou profils à chaque répondant. Selon le nombre de scénarios à tester, il peut administrer soit la totalité des configurations possibles (plan complet), soit une sélection (plan fractionné). Les données sont ensuite collectées (voir tableau 7.4), le plus souvent via des entretiens de groupe, des réunions, en interrogeant les individus directement ou encore en suivant un protocole. Il est recommandé de travailler avec un expert du domaine (chef de produit, par exemple) pour élaborer des scénarios réalistes et diffuser l’étude. Ces interventions permettent de renforcer la validité de l’étude. Le choix du mode de recueil des données Dans l’analyse conjointe, la variable mesurée est généralement la préférence ou l’intention d’achat. Les individus interrogés fournissent donc un score ou un rang en fonction de leurs goûts et de leurs intentions d’achat. Trois méthodes de recueil des données existent. On peut demander aux individus : • de donner un score à chaque profil, selon leurs préférences (donnée métrique); • d’assigner un rang à chaque profil, de 1 jusqu’au nombre total de profils; • de trierlesprofilsentermesdepréférences par ordre croissant ou décroissant (classement). Les données sont le plus souvent recueillies à partir d’un classement des profils ou à l’aide d’un score sur chaque profil. Certains chercheurs estiment que le classement ou l’attribution d’un rang reflète plus précisé- ment le comportement des individus lors de la prise d’une décision. D’autres, tenants des données d’évaluation, pensent, au contraire, qu’elles sont plus pratiques pour les répondants. Dans les deux cas, étant donné que l’ordre de présentation des stimuli peut affecter l’éva- luation des répondants, il est recommandé de varier l’ordre de présentation des scénarios. Tableau 7.4 : Les conditions d’administration de l’analyse conjointe Interventions d’experts dans l’étude (manager, etc.) 30 % Entretiens de groupe 26 % Questionnements directs d’individus 18 % Autres 26 % Livre spss.book Page 163 Vendredi, 25. janvier 2008 12:04 12
  • 177.
    164 Analyse dedonnées avec SPSS (3) L’interprétation de l’analyse C’est à partir d’une application que nous verrons comment réaliser et interpréter une ana- lyse conjointe. Dans un premier temps, nous voyons la sélection des attributs, l’enregistre- ment des réponses, la création des scénarios et du plan via le logiciel SPSS. Ensuite, nous présentons les résultats de l’analyse conjointe ainsi que les procédures de vérification de sa fiabilité et de validité. 3.1 EXEMPLE DE RÉALISATION ET D’INTERPRÉTATION DE L’ANALYSE CONJOINTE Le choix des attributs et de leurs niveaux Notre étude porte sur le challenge de vente préféré des commerciaux. Il ressort d’entre- tiens avec eux que trois caractéristiques des challenges sont très importantes : le type d’objectif, le format de compétition et le budget (fermé, avec un nombre de gagnants et un budget défini à l’avance, ou ouvert, avec un quota à atteindre et un nombre de gagnants et un budget méconnu au départ). Ces trois caractéristiques indépendantes les unes des autres sont donc sélectionnées (condition essentielle de l’analyse conjointe). Le nombre de niveaux d’attributs est équilibré à deux : l’objectif est soit quantitatif (chiffre d’affaires), soit qualitatif (évaluation de la connaissance des produits), le format est soit individuel (objectif assigné individuellement), soit en équipe (objectif collectif) et le bud- get est soit ouvert (niveau à atteindre précis), soit fermé (classement). Trois caractéristi- ques de base, ayant chacune deux modalités sont sélectionnées (voir tableau 7.5). Le nombre d’attributs et de niveaux étant faible, nous pouvons utiliser la méthode du plan complet. Nous devrions avoir : 2 × 2 × 2 = 8 profils. Nous allons voir maintenant la procédure à suivre sur SPSS pour générer le plan qui ser- vira de base au développement des scénarios de l’analyse conjointe. Tableau 7.5 : Les attributs sélectionnés et leurs niveaux Format de compétition Individuel En équipe Type d’objectif Quantitatif Qualitatif Budget Ouvert Fermé Livre spss.book Page 164 Vendredi, 25. janvier 2008 12:04 12
  • 178.
    165L’analyse conjointe 7Chapitre La créationdu plan orthogonal Pour créer le plan orthogonal, allez dans le menu Données > Plan orthogonal > Générer. Dans la boîte de dialogue qui apparaît (voir figure 7.2), saisissez le nom et l’étiquette de chacun des attributs ou facteurs. Ici, nous commençons par inscrire objectif dans le champ Nom facteur et objectif du challenge dans le champ Etiquette facteur. Cliquez ensuite sur le bouton Ajouter pour insérer les autres facteurs, toujours dans les champs Nom facteur et Etiquette facteur. Nous saisissons format et format du challenge puis, après avoir cliqué sur Ajouter : budget et budget du challenge. Ensuite, il faut définir les niveaux de chacun des facteurs. Pour cela, sélectionnez chaque facteur et cliquez sur le bouton Définir valeurs (voir figure 7.3). Nous choisissons d’attri- buer la valeur 1 au format individuel et la valeur 2 au format en équipe. Cliquez ensuite sur Poursuivre pour revenir à la boîte de dialogue et refaites cette action pour chacun des attributs (la valeur 1 pour les objectifs quantitatifs et la valeur 2 pour les objectifs qualitatifs ; idem pour le budget du challenge, la valeur 1 pour le budget fermé et la valeur 2 pour le budget ouvert) [voir figure 7.4]. Figure 7.2 Création du plan orthogonal. Figure 7.3 Enregistrement des attributs. Livre spss.book Page 165 Vendredi, 25. janvier 2008 12:04 12
  • 179.
    166 Analyse dedonnées avec SPSS Ensuite, vous devez indiquer où placer ce plan orthogonal. Pour cela, cliquez sur le bouton Fichier de la boîte de dialogue visible à la figure 7.5 (choisissez un emplacement où il peut être facilement récupéré et souvenez-vous de son intitulé). Attention ! Le nom du fichier doit être en majuscules sinon SPSS ne génère pas le plan orthogonal. Nous appelons le fichier ORTHO7. La procédure de l’analyse des mesures conjointes sous le logiciel SPSS requiert un mini- programme ou une macrocommande qui indique au logiciel les facteurs étudiés ainsi que leurs niveaux. SPSS crée ainsi le plan factoriel qui donne les combinaisons à tester (ORTHO). Ensuite, le logiciel croise le plan factoriel avec les réponses enregistrées dans le fichier (DATA) comme nous allons le découvrir. Très important pour la suite de l’analyse : cli- quez sur le bouton Coller de la même boîte de dialogue afin d’avoir la syntaxe de la macrocommande (voir figure 7.6). C’est seulement après cette action que vous cliquez sur OK (pour cela, revenez au menu Données > Plan orthogonal > Générer). Le message suivant (voir figure 7.7) doit alors apparaître dans Résultats. Figure 7.4 Enregistrement des niveaux des attributs. Figure 7.5 Sauvegarde du fichier et demande de copie de la syntaxe. Livre spss.book Page 166 Vendredi, 25. janvier 2008 12:04 12
  • 180.
    167L’analyse conjointe 7Chapitre À cestade, le plan généré, qui se trouve à l’emplacement choisi, permet de créer les scéna- rios. Le scénario no 2 présentera aux individus un challenge individuel (format = 1), un objectif quantitatif (format = 2) et un budget fermé (budget = 2). La création des scénarios Afin de rendre l’expérience plus réaliste, nous optons pour une présentation des profils de challenges à travers une simulation destinée à mettre les commerciaux en situation pour effectuer leur arbitrage. Nous créons, avec l’aide de managers, des scénarios de challenges ayant déjà été utilisés au sein de différentes entreprises. Les personnes interrogées en con- naissent le principe, ce qui renforce le réalisme de la simulation. Après une brève introduction sur la situation du vendeur au sein de l’entreprise, on annonce que la direction cherche à connaître le challenge préféré des commerciaux. Il leur est demandé d’en classer huit par ordre décroissant de préférence sur une grille de classement. Voici un exemple du scénario no 8, qui correspond à la dernière ligne du plan sous SPSS (voir figure 7.9). L’administration de la simulation Compte tenu du nombre limité de variables, les données sont collectées selon la méthode des profils complets. Concernant le recueil des données, nous avons choisi un classement des profils par ordre décroissant de préférence. L’ensemble des huit stimuli a été classé (par ordre décroissant de préférence) par un échan- tillon de 86 commerciaux lors d’une réunion de formation. Ces données ont été récupé- rées sur un questionnaire. Figure 7.6 Copie de la syntaxe. Figure 7.7 Annonce de la création du plan orthogonal. Figure 7.8 Affichage du plan orthogonal. Livre spss.book Page 167 Vendredi, 25. janvier 2008 12:04 12
  • 181.
    168 Analyse dedonnées avec SPSS L’enregistrement des réponses Une fois les scénarios classés (ou notés), les réponses doivent être saisies dans une base de données spécifique (selon le nombre de profils testés). Pour cela, allez dans le menu Fichier > Nouveau > Créer. Nous avons un plan orthogonal à huit profils, il faut donc huit colonnes : de V1 à V8. Il est recommandé de créer une première colonne supplémentaire qui servira d’identifiant à chacun des questionnaires : c’est la colonne « id ». Il faut ensuite entrer le rang pour cha- cun des scénarios pour chacun des répondants. Nous obtenons une grille de 9 colonnes et 86 lignes (voir figure 7.10). Sur la première ligne, figure le classement des huit challenges du premier vendeur inter- rogé. Nous observons qu’il a préféré le challenge n˚ 1, puis le 7e. Figure 7.9 Exemple de scénario. Figure 7.10 Enregistrement des données. Scénario 8 Vous gagnez le challenge cette semaine si vous êtes le meilleur vendeur du produit X Scénario 8 Vous gagnez le challenge cette semaine si vous êtes le meilleur vendeur du produit X Livre spss.book Page 168 Vendredi, 25. janvier 2008 12:04 12
  • 182.
    169L’analyse conjointe 7Chapitre Vous devezsauvegarder cette base de données dans le répertoire du document contenant les données du plan orthogonal : Fichier > Enregistrer sous > C : … À ce stade, nous avons le plan orthogonal généré par SPSS et les données recueillies et transcrites dans le fichier précédent. Nous utilisons une macrocommande pour réaliser l’analyse conjointe. La commande de l’analyse conjointe Afin d’exécuter l’analyse conjointe avec SPSS, il faut passer en mode « Syntaxe ». Pour cela, allez dans le menu Fichier > Ouvrir > Syntaxe. Pour écrire la macrocommande, entrez les huit paramètres suivants : • CONJOINT. Indique au logiciel le type d’analyse à réaliser. • PLAN. Indique l’emplacement du document qui contient le design orthogonal. • /DATA. Indique l’emplacement de la base de données. • /SUBJECT. Indique le nom de la colonne qui sert à identifier les questionnaires : id. • /RANK. Indique l’étendue des colonnes où se trouvent les valeurs accordées aux diffé- rents profils. On spécifie ici le nom de la première et de la dernière colonne. • /PLOT et /PRINT. Servent à générer les outputs. • /UTIL. Indique l’emplacement du document contenant l’utilité de chacun des profils pour chacun des questionnaires. Respectez bien les signes utilisés dans l’écriture de la macrocommande. L’oubli d’un seul « », « : » ou du point « . » à la fin de la commande empêche le logiciel de réaliser l’analyse (voir figure 7.11). Sélectionnez ensuite l’ensemble des syntaxes et cliquez sur la flèche noire dans la barre d’outils (voir figure 7.12). Figure 7.11 Macrocommande. Figure 7.12 Exécution de la macrocommande. Livre spss.book Page 169 Vendredi, 25. janvier 2008 12:04 12
  • 183.
    170 Analyse dedonnées avec SPSS L’analyse conjointe est réalisée.Un message apparaît qui indique que la procédure a bien fonc- tionné. Dans le cas contraire, vérifiez l’écriture correcte de la macrocommande de syntaxe. Les résultats de l’analyse conjointe apparaissent dans la boîte Résultats du logiciel SPSS. Nous allons voir comment les interpréter. L’interprétation de l’analyse conjointe Les résultats de l’analyse des mesures conjointes se lisent individuellement, pour chaque observation, puis, à la fin de tous les résultats individuels, pour les résultats globaux. Les utilités des modalités de facteurs sont obtenues par décomposition des scores de pré- férence. Pour valider les utilités ainsi obtenues, il faut comparer l’ordre dérivé des utilités de chaque combinaison de modalités avec l’ordre fourni par les préférences. Cela permet de s’assurer que les estimations des utilités fournies par les mesures conjointes permettent bien de prédire les préférences exprimées par les individus. Le coefficient tau de Kendall ou le rhô de Spearman fournissent une mesure du degré d’association ou de corrélation entre les ordres dérivés des utilités et ceux provenant des préférences. Ils varient entre 0 et 1. Plus le coefficient est proche de 1, plus les ordres associés sont proches. Dans notre exemple (voir figure 7.13), le coefficient de concordance (tau de Kendall) qui teste l’homogénéité des préférences des individus à l’égard des challenges étant de 0,78 (proche de 1), les résultats globaux peuvent donc être acceptés. Les modalités qui ont les utilités moyennes les plus fortes sont respectivement : l’objectif quantitatif, le format en équipe et le budget fermé. La figure 7.14, qui expose les utilités moyennes et l’importance de chaque attribut, met en évidence le poids de l’objectif dans les choix du challenge, devant le format et le budget. Si aucun des trois attributs n’est négligeable, le type d’objectif est deux fois plus important que les deux autres. Le choix des commerciaux se porte en premier lieu sur le type d’objectif du challenge, fac- teur très important pour eux, qui préfèrent les objectifs quantitatifs. Ensuite, apparaît le format de compétition, qu’ils apprécient en équipe. Enfin, le budget du challenge compte moins, les commerciaux inclinant pour un budget fermé avec un classement plutôt que pour un quota à atteindre. Figure 7.13 Résultats de l’analyse des mesures conjointes. Livre spss.book Page 170 Vendredi, 25. janvier 2008 12:04 12
  • 184.
    171L’analyse conjointe 7Chapitre Cette analysedes mesures conjointes permet donc de souligner le type de concours idéal pour les commerciaux interviewés dans cette expérimentation : un challenge quantitatif, organisé en équipe et avec un budget fermé. Résumé Le comportement des individus, et en particulier des consommateurs, vis-à-vis des pro- duits résulte d’opérations complexes qui mettent en jeu perceptions et préférences. Pour réussir la conception d’un objet, il est donc utile d’évaluer ces préférences et de modéliser les jugements des individus. L’analyse conjointe résout ce type de problème. Cette méthode repose sur l’idée que l’importance relative accordée à un attribut par les consommateurs et les utilités qu’ils attachent aux niveaux des attributs peuvent être déter- minées lorsqu’ils évaluent des profils d’objets, construits à partir de ces attributs et de leurs niveaux. Il faut donc commencer par identifier les attributs et les niveaux clés pour construire les stimuli. Les plans fractionnés, générés par SPSS, permettent de réduire le nombre de profils à tester. La variable dépendante est généralement une préférence esti- mée par un score ou un classement. Les résultats mettent en exergue les attributs les plus importants dans l’évaluation d’un objet et les niveaux préférés à l’aide des utilités partielles. Ils permettent ainsi de dégager le produit optimal aux yeux des individus. Pour aller plus loin Dussaix et al., L’Analyse conjointe, la statistique et le produit idéal, Ceresta, 1992. Liquet J.C, Cas d’analyse conjointe, Broché, 2001. Louviere J.J, Analyzing Decision Making: Metric Conjoint Analysis, Sage, New-York, 1998. Figure 7.14 Résultats de l’analyse des mesures conjointes (bis). Livre spss.book Page 171 Vendredi, 25. janvier 2008 12:04 12
  • 185.
    172 Analyse dedonnées avec SPSS Exercices EXERCICE 1 ÉTUDE SUR LA CONSOMMATION DE THÉ – CRÉATION DE PLAN D’EXPÉRIENCE ET DE SCÉNARIO * Solution 1. La création du plan orthogonal Allez dans le menu Données > Plan orthogonal > Générer. Dans la boîte de dialogue qui apparaît (voir figure 7.15), tapez le nom et l’étiquette de chacun des attributs ou facteurs. Inscrivez température dans le champ Nom facteur et Etiquette facteur. Cliquez sur le bouton Ajouter pour ajouter les autres facteurs toujours dans la case Nom facteur et Eti- quette facteur, inscrire : sucre, Ajoutez, force, Ajoutez, citron et Ajoutez. Pour définir les niveaux de chacun des facteurs, sélectionnez chaque facteur et cliquez sur le bouton Définir valeurs. • Énoncé Vous êtes chef de produit chez Lipton, on vous confie le lancement d’un nouveau thé. Dans ce cadre, vous cherchez à connaître les préférences des consommateurs. Après avoir animé une réunion de groupe, vous cherchez à évaluer quatre éléments importants : • la température (chaude, tiède, froide); • le sucre (pas de sucre, un sucre, deux sucres); • la force (fort, moyen, léger); • l’ajout de citron (avec ou sans). 1. Créez le plan orthogonal à l’aide du logiciel SPSS. 2. Créez les stimuli du test de produit. Figure 7.15 La création du plan orthogonal. Livre spss.book Page 172 Vendredi, 25. janvier 2008 12:04 12
  • 186.
    173L’analyse conjointe Exercices 7Chapitre Attribuez desvaleurs à tous les niveaux de chacun des attributs. Pour la température du thé, 1 pour chaud, 2 pour tiède, 3 pour froid (voir figure 7.16). Cliquez ensuite sur le bouton Poursuivre pour revenir à la boîte de dialogue et refaites cette action pour chacun des attributs. Pour le sucre, la valeur 1 pour « pas de sucre », 2 pour « un sucre », 3 pour « 2 sucres ». Pour la force du thé, la valeur 1 pour « fort », 2 pour « moyen », 3 pour « léger ». Enfin pour le citron, la valeur 1 pour « avec citron », 2 pour « sans citron ». Cliquez enfin sur Poursuivre. Lorsque tous les attributs et leurs niveaux sont saisis, indiquez où vous allez placer le plan orthogonal (voir figure 7.17). Cliquez sur Fichier et choisissez un emplacement où le plan peut être récupéré. Ensuite, cliquez sur le bouton Coller de la même boîte de dialogue (voir figure 7.18) afin d’avoir la syntaxe de la macrocommande. Cliquez enfin sur OK (pour cela, revenez au menu Données > Plan orthogonal > Géné- rer). Le message « Un plan est généré correctement avec 9 cartes » doit apparaître dans l’onglet Résultats. Récupérez le plan orthogonal là où vous l’avez enregistré. 2. La création des stimuli pour le test de produit Le plan orthogonal créé est un plan fractionné. En effet, nous aurions dû tester 3 × 3 × 3 × 2 = 54 profils. Or, notre plan nous permet une importante économie d’évalua- tions de 54 – 9 = 45 expériences. Le profil 1 correspond à un thé froid, comptant un sucre, léger avec du citron. Le profil 2 correspond à un thé froid, comptant deux sucres, fort et sans citron. Etc. Figure 7.16 Enregistrement des niveaux d’attributs. Figure 7.17 Copie de la syntaxe. Livre spss.book Page 173 Vendredi, 25. janvier 2008 12:04 12
  • 187.
    174 Analyse dedonnées avec SPSS EXERCICE 2 ÉTUDE SUR LA CONSOMMATION DE THÉ CALCUL DES PRÉFÉRENCES DES CONSOMMATEURS Figure 7.18 Sauvegarde du fichier et demande de copie de la syntaxe. Figure 7.19 Affichage du plan orthogonal. • Énoncé Des données ont été récoltées. 1. Rentrez-les sous SPSS. 2. Commandez l’analyse des mesures conjointes et interprétez les résultats de cette analyse. Thés Individus 1 2 3 4 5 6 7 8 9 1 6 5 9 9 3 4 7 2 1 2 6 9 2 2 5 8 1 7 3 3 1 7 9 9 5 2 8 6 4 4 1 5 4 4 6 2 3 9 8 5 5 2 8 8 3 6 7 9 4 Livre spss.book Page 174 Vendredi, 25. janvier 2008 12:04 12
  • 188.
    175L’analyse conjointe Exercices 7Chapitre * Solution1. L’enregistrement des données collectées Nous avons les résultats du classement de ces neuf profils de thés. Pour saisir les données, créez un nouveau document. Allez dans Fichier > Nouveau > Créer. Puisque nous avons un plan orthogonal à neuf profils, nous devons créer neuf colonnes, de V1 à V9, et une colonne d’identifiant à chacun des questionnaires : colonne « id ». Il faut ensuite entrer le rang pour chacun des profils pour les huit répondants (voir figure 7.20). Sauvegardez la base de données dans le répertoire du document contenant les données du plan orthogonal : Fichier > Enregistrer sous > C: … 2. La commande de l’analyse conjointe Afin d’exécuter l’analyse conjointe avec SPSS, allez dans le menu Fichier > Ouvrir > Syntaxe. Écrivez la commande suivante (attention à l’emplacement de vos fichiers!) [voir figure 7.21]. Sélectionnez ensuite l’ensemble des syntaxes et cliquez sur la flèche noire dans la barre d’outils. Les résultats de l’analyse conjointe apparaissent dans la partie Résultats (voir figures 7.22 et 7.23). Le test d’homogénéité des préférences (tau de Kendall) est de 0,97, ce qui permet d’accep- ter les résultats globaux. Il ressort de l’analyse conjointe que la force, la température et le sucre sont les trois attri- buts les plus importants dans les préférences des consommateurs de thé. Les modalités Thés Individus 1 2 3 4 5 6 7 8 9 6 2 3 4 4 1 8 7 6 9 7 9 2 3 3 7 1 5 8 4 8 6 2 1 1 5 8 9 7 3 Figure 7.20 Enregistrement des données. Livre spss.book Page 175 Vendredi, 25. janvier 2008 12:04 12
  • 189.
    176 Analyse dedonnées avec SPSS ayant les utilités moyennes les plus fortes sont la température (les consommateurs préfè- rent le thé froid), le sucre (un sucre), la force (moyen) et le citron (sans). Figure 7.21 Écriture de la macrocommande. Figure 7.22 Interprétation des résultats de l’analyse conjointe. Figure 7.23 Interprétation des résultats de l’analyse conjointe (bis). Livre spss.book Page 176 Vendredi, 25. janvier 2008 12:04 12
  • 190.
    177 8Communiquer les résultats La communicationdes résultats constitue la dernière étape d’un projet d’étude. Ce chapitre souligne les éléments clés qui font de la communication des résultats une étape incontournable de toute analyse réussie. En effet, communiquer les résultats d’une analyse consiste à proposer au lecteur une interprétation adap- tée à ses connaissances. Au-delà des éléments liés à l’interpré- tation des tests, que nous avons abordés tout au long des chapitres précédents, l’analyste doit être capable de formuler de manière intelligible les résultats de son étude. 1. Rédiger le rapport ...................178 2. Mettre en valeur les résultats.....181 Exerices 1. Étude de l’impact d’une campagne de publicité ...190 2. Étude d’un lectorat...................191 Chapitre Livre spss.book Page 177 Vendredi, 25. janvier 2008 12:04 12
  • 191.
    178 Analyse dedonnées avec SPSS (1) Rédiger le rapport La rédaction d’un rapport d’étude n’est pas directement liée à l’analyse des données. Cependant, même si le projet a été bien mené, un rapport inégal peut compromettre le succès et la valorisation d’une étude. Cette communication des résultats de l’enquête peut faire l’objet d’une ou de plusieurs mises en forme, et se trouve le plus souvent complétée d’une présentation orale que nous n’aborderons pas ici. 1.1 LA STRUCTURE D’UN RAPPORT D’ANALYSE On retrouve, en général, les mêmes éléments structurants dans un rapport, qu’il s’agisse d’un rapport d’étude ou de recherche. Ces éléments peuvent être modifiés à la marge en fonction du destinataire. Nous développerons, dans ce chapitre, la dimension profession- nelle du rapport et ferons donc référence à des illustrations provenant du secteur des étu- des de marchés. Le rapport d’analyse fait écho au brief de l’étude (voir focus 1) et se structure en huit par- ties principales représentées à la figure 8.1. * Focus 1 • Le brief de l’étude Le brief de l’étude (ou projet d’étude) peut servir de base à la rédaction du rapport. Il s’agit du document qui cadre l’interaction entre le client et la société d’étude, et dont la Fédération Syn- tec Études Marketing et Opinions a défini les grandes lignes : « À partir des informations fournies par le client ou à défaut d’informations complètes, en pré- cisant ses hypothèses de travail, la société pourra remettre une proposition : • rappelant les objectifs de l’étude et les types de résultats qui seront fournis; • précisant les modalités techniques : – mode d’échantillonnage; – modalité de recueil des données; – nombre et dispersion des points de sondage; – plan du questionnaire; – analyse et rapport ; • indiquant les délais; • faisant mention du prix et des paramètres permettant de le calculer; • faisant état d’autres dispositions éventuelles. » • Objectifs de l’analyse : cette partie est essentielle car elle résume les éléments clés de l’analyse et reprend les éléments liés à la définition du problème (tels que nous les avi- ons abordés dans le chapitre 1). Le rappel des objectifs permet de communiquer plus précisément sur des aspects qui sont généralement maîtrisés par le chargé d’étude tels que l’approche méthodologique ou les interprétations statistiques. En les faisant appa- raître clairement au destinataire, le rédacteur du rapport peut mettre en avant la résolu- tion progressive de ces objectifs de départ. Dans le cadre de notre enquête fil rouge sur le point de vente, on pourrait formuler notre analyse en la résumant ainsi : « Qui sont les clients du futur point de vente? ». Livre spss.book Page 178 Vendredi, 25. janvier 2008 12:04 12
  • 192.
    179Communiquer les résultats 8Chapitre •Questions à résoudre : il s’agit ici d’établir les questions principales qui permettent d’avancer dans la satisfaction aux objectifs de l’analyse. Dans notre exemple, il s’agis- sait, dans un premier temps, de décrire les clients en fonction des variables d’identifica- tion (âge, sexe, revenus, etc.), de les classer en grands segments homogènes, puis enfin de comprendre leurs comportements (intention d’achat par exemple). • Procédures de collecte des données : cette rubrique reprend les données utilisées pour les besoins de l’étude. Il faut en préciser la source s’il s’agit de données secondaires, ainsi que les caractéristiques principales (nombre d’observations, de variables, etc.). Dans le cas de données primaires, le rédacteur du rapport devra apporter un soin particulier à la description des procédures de collecte. Quelle méthode d’échantillonnage? Quel ins- trument de mesure? Comment les données brutes ont-elles été préparées? Dans notre exemple sur le point de vente, les données sont issues d’un questionnaire administré en face-à-face à 400 répondants, clients de l’enseigne. • Méthodes d’analyse : les méthodes employées et les stratégies d’analyse sont présentées à ce stade. Dans un premier temps, les tests de nature descriptive (tris croisés, compa- raisons de moyenne, etc.), puis les tests liés à la représentation des données (analyse fac- torielle, typologie), et enfin les tests de nature explicative (régressions, analyses de variance, etc.). Dans notre étude, nous avons tout d’abord décrit les clients par le biais des principales variables d’identification, puis mis en place deux analyses des corréla- tions multiples pour établir les variables liées au montant moyen dépensé et à l’inten- tion d’achat des futurs clients du point de vente. • Résultats principaux : cette partie, la plus importante du rapport, peut être constituée de plusieurs sous-parties. Pour plus de clarté, il est recommandé d’organiser ces sous- parties en fonction de thèmes énoncés dès le départ. Dans le cadre d’une étude d’image Figure 8.1 Structure d’un rapport d’étude. Objectifs de l’analyse Questions à résoudre Procédures de collecte des données Méthodes d’analyse Résultats principaux Interprétations détaillées Conclusions Recommandations et limites Livre spss.book Page 179 Vendredi, 25. janvier 2008 12:04 12
  • 193.
    180 Analyse dedonnées avec SPSS de marque par exemple, le premier niveau de résultats consiste à évaluer les scores de notoriété obtenus, puis à les rapprocher des résultats par groupes d’attributs pour iden- tifier les attentes des consommateurs. Les résultats principaux doivent répondre point par point aux objectifs de l’analyse et apporter une solution à la demande du client de l’étude. À la question de départ « Qui sont les clients du futur point de vente? », nous avons répondu en plusieurs séquences : la description des variables clés, la définition des segments de clients, l’identification de déterminants de l’intention d’achat, etc. • Interprétations détaillées : les interprétations détaillées ont pour objet d’apporter un éclairage technique aux résultats et d’éclairer le lecteur du rapport sur la démarche méthodologique. On trouve, dans cette rubrique, l’explication des tests mis en œuvre, les hypothèses à respecter, l’interprétation des indicateurs de significativité des tests, entre autres. Ces éléments techniques doivent être présentés de manière intelligible en fonction du profil du lecteur. En effet, ceux-ci n’ont pas tous la même expertise en ter- mes d’échantillonnage ou de tests statistiques, et le chargé d’étude doit veiller à formu- ler ces éléments de manière à être compris de tous les destinataires du rapport. • Conclusions : cette partie est essentielle au client de l’étude et a pour objet de lui four- nir tous les éléments de synthèse utiles pour la valorisation et l’utilisation de l’étude. Une étude récente sur la situation de la grande distribution en Europe présentait ses conclusions autour de quatre grands défis à relever : les défis de la grande consomma- tion, les défis de la gestion des ressources humaines, les défis de la relation client et les nouveaux chantiers informatiques. • Recommandations et limites : les recommandations accompagnent la présentation des résultats et représentent l’engagement de l’analyste dans la réponse au problème posé par l’entreprise commanditaire. La recommandation n’est pas systématique et suppose une expertise de la part de l’analyste, ou à tout le moins que le problème posé ait été analysé suffisamment en profondeur. En principe, le fait de réaliser l’étude suppose que l’on se soit informé au préalable sur le secteur, que l’on ait été briefé par le client et, en conséquence, que l’on est en mesure de dépasser la simple description et de s’impliquer dans la résolution du problème managérial. Enfin, les limites ayant pesé sur l’étude doi- vent être mentionnées (temps, budget, moyens, etc.). Ce retour sur les conditions de réalisation de l’analyse et sur les précautions que le commanditaire devra prendre lors de l’utilisation des résultats est un élément important qui doit prévenir toute extrapola- tion hasardeuse, sans toutefois minimiser les résultats de l’étude. 1.2 LES POINTS CLÉS DU RAPPORT La qualité d’un rapport d’analyse se juge sur deux dimensions principales : la précision et l’intelligibilité. La précision représente la qualité du rapport en termes de crédibilité des résultats. Le document doit établir de manière précise la pertinence des choix effectués en matière de méthode, d’analyse et de résultats, ce qui présuppose que les données collectées soient de qualité, que les analyses soient valides et fiables, et que les résultats soient correctement interprétés. Ce tryptique (données, analyses, résultats) est au cœur de la démarche d’ana- lyse et doit naturellement être envisagé de manière conjointe, ces trois dimensions établis- sant collectivement la crédibilité de l’étude. Plus exactement, pour que le rapport soit précis, les données doivent l’être aussi; le rédacteur devra prendre des précautions impor- tantes quant à la manipulation des données, la définition, l’exécution et l’interprétation Livre spss.book Page 180 Vendredi, 25. janvier 2008 12:04 12
  • 194.
    181Communiquer les résultats 8Chapitre destests statistiques. Autrement dit, aucune erreur n’est tolérable dans un rapport d’ana- lyse. Erreurs de calcul ou de syntaxe, fautes d’orthographe, maladresses conceptuelles et terminologiques ne sont que quelques exemples de ce manque de précision qui pénalise la crédibilité d’un rapport. La clarté de l’expression, la logique du raisonnement, la rigueur de l’expression et de l’ana- lyse sont les fondements naturels du second critère de qualité d’un rapport : l’intelligibi- lité. Le lecteur du rapport peut éprouver des difficultés de compréhension – et par suite des doutes quant à la qualité du travail effectué – lorsque le raisonnement n’apparaît pas clairement (des hypothèses de travail insuffisamment mises en avant par exemple), ou lorsque la présentation manque de précision (une méthode d’échantillonnage qui reste confuse). Les « croyances » des commanditaires jouent également un rôle dans la bonne compréhension des résultats de l’enquête. Dans notre enquête sur le point de vente, si les responsables de l’enseigne estiment (via des études internes, des reportings de vente, etc.) que 50 % des clients ont l’intention d’acheter dans le nouveau magasin, et que les résultats de l’enquête sont éloignés de cette prévision, le rédacteur devra justifier cet écart. L’intelli- gibilité à ce niveau participe de la pédagogie : cet écart peut être dû à une mauvaise com- préhension de la question ou de l’échelle de mesure, à un biais d’échantillonnage ou à une erreur dans la prise en compte des non-réponses. Le rédacteur devra répondre aux inter- rogations du client sur ces écarts et expliquer ses résultats. (2) Mettre en valeur les résultats L’objet du rapport d’analyse est d’apporter la réponse attendue par le commanditaire de l’étude et de constituer une référence. Une fois produit, ce rapport aura une existence pro- pre, passera de mains en mains auprès de nombreuses parties prenantes. La mise en valeur des résultats permet de prolonger cette durée de vie et autorise une utilisation globale ou partielle du rapport par les différents lecteurs. La version de SPSS dont nous nous servons (V15.0) propose quelques outils d’amélioration de la qualité des tableaux et des graphi- ques pour mettre en valeur les résultats de l’analyse. 2.1 MAÎTRISER LES TABLEAUX Les tableaux doivent systématiquement être numérotés, comporter un titre clair men- tionné dans le texte (par exemple : « le tableau 8.2 illustre les effectifs de la variable marital »), et ne doit retenir que la partie la plus significative des données. La maîtrise des tableaux est un exercice délicat, qui suppose de bien maîtriser la manière dont on souhaite communiquer les résultats, et qui repose sur la distinction vue plus haut entre résultats principaux et interprétations détaillées. Il existe, en effet, des niveaux de résultats simples facilement compréhensibles par le lecteur, et d’autres, plus complexes, qui exigent des compléments et des éclairages. La figure 8.2 illustre un résultat simple (description du sta- tut marital des répondants de l’enquête sur le point de vente), alors que la figure 8.3 mon- tre le tableau d’un résultat plus complexe (analyse de corrélation sur une série de variables de la même enquête). Dans le cas d’une présentation de résultats complexes, la lecture du tableau suppose un certain nombre d’éléments facilitant l’interprétation. Les astérisques (**) et la mention en Livre spss.book Page 181 Vendredi, 25. janvier 2008 12:04 12
  • 195.
    182 Analyse dedonnées avec SPSS bas du tableau apportent un complément important permettant de ne retenir que l’infor- mation pertinente, à savoir les variables les plus fortement corrélées entre elles (niveau d’études et intention d’achat par exemple). Il est préférable de présenter ces tableaux com- plexes en annexe du rapport et de communiquer directement les résultats dans une sec- tion du rapport : « le niveau d’études, le montant moyen dépensé et les revenus sont corrélés à l’intention d’achat ». SPSS SPSS permet de produire un grand nombre de tableaux personnalisés. La maîtrise s’acquiert en manipulant progressivement l’interface des tableaux dans l’éditeur de résul- tats, comme nous avons pu le voir tout au long des chapitres. Les tableaux personnalisés de SPSS s’obtiennent par la procédure suivante : Analyse > Tableau > Tableaux personnali- sés… comme le montre la figure 8.4. Il est toutefois utile de connaître certains éléments afin de gagner en efficacité dans ce type de tâche. Les tableaux produits dans l’éditeur de résultats de SPSS sont des tableaux pivo- tants qui autorisent une très grande flexibilité en termes de formatage et de présentation des résultats. On obtient un tableau pivotant dans SPSS en double-cliquant sur le tableau dans l’éditeur de résultats, opération faisant apparaître un menu supplémentaire (Tableau Pivo- tant) dans le menu de l’éditeur de résultats (voir figure 8.5). Attention toutefois, car les possibilités de présentation sont directement liées au type de variable utilisée (voir à ce sujet le chapitre 2). Le générateur de tableaux se fondera donc sur l’étiquette de la variable (nominale, ordinale, échelle) que vous avez définie au préala- ble. Le fait de ne pouvoir générer le tableau désiré est souvent dû à une variable mal étique- tée. La première fonction qui peut être utile dans la présentation d’un tableau est la fonction Empiler de SPSS. L’empilement (tout comme les autres fonctions tableaux que nous allons voir) s’obtient par le menu Tableaux personnalisés…, et consiste à affecter deux ou plusieurs variables en ligne ou en colonne. Vous pouvez faire glisser les variables simultanément en ligne ou en colonne, ou bien l’une après l’autre. Dans l’exemple ci-après, nous avons trans- formé un tableau, dans lequel la variable Age était en ligne et la variable Sexe en colonne, en un tableau où les deux variables sont en ligne, comme le montre la figure 8.6. La fonction Empiler s’avère très utile lors d’enquêtes pour présenter des résultats d’échelles de mesures. Un concept comme la confiance accordée à la marque, par exemple, est Figure 8.2 Présentation d’un résultat simple. Figure 8.3 Présentation d’un résultat complexe. Livre spss.book Page 182 Vendredi, 25. janvier 2008 12:04 12
  • 196.
    183Communiquer les résultats 8Chapitre Figure8.4 Fonction tableaux personnalisés. Figure 8.5 Fonction tableau pivotant. Figure 8.6 Présentation de la fonction Empiler. Livre spss.book Page 183 Vendredi, 25. janvier 2008 12:04 12
  • 197.
    184 Analyse dedonnées avec SPSS mesuré par une série de variables dont on peut ainsi empiler les résultats pour en obtenir une vision exhaustive. Plusieurs possibilités sont également disponibles à partir des tableaux croisés que nous avons abordés au chapitre 2. Pour rappel, les tableaux croisés s’obtiennent par la procé- dure suivante : Analyse > Statistiques descriptives > Tableaux croisés… La procédure de l’Emboîtement consiste à insérer une variable dans la même dimension d’un tableau croisé afin d’apporter un niveau de résultat supplémentaire. La figure 8.7 montre l’emboîtement de la variable Sexe dans la variable Catégorie d’âge. À partir du menu tableaux personnalisés, vous pouvez demander des strates afin d’ajouter une dimension de profondeur à vos tableaux et créer ainsi des « cubes » tridimensionnels comme le montre la figure 8.8. La fonction Tableau permet de contrôler les totaux et sous-totaux, les pourcentages les fré- quences, afin de choisir la présentation optimale de vos résultats. Il est possible de modifier à volonté l’aspect d’un tableau en créant, par exemple, un modèle qui reprend l’ensemble des propriétés définissant l’aspect du tableau. On accède aux modèles de tableaux en dou- ble-cliquant sur le tableau dans l’éditeur de résultats et en sélectionnant dans le menu Format > Modèles de tableaux… Figure 8.7 Présentation de la fonction Emboîtement. Figure 8.8 Présentation de la fonction Strates. Livre spss.book Page 184 Vendredi, 25. janvier 2008 12:04 12
  • 198.
    185Communiquer les résultats 8Chapitre 2.2AMÉLIORER LES GRAPHIQUES Les graphiques jouent eux aussi un rôle crucial dans la présentation des résultats. Ils enri- chissent le contenu du rapport, à condition d’être présentés à bon escient. Cela implique le bon choix du modèle de graphique en fonction du test mis en œuvre et un emploi pertinent : complément d’un tableau ou d’un résultat présenté dans le texte, amélioration de la lisibilité et de la fluidité du rapport, etc. Les graphiques peuvent être considérable- ment enrichis grâce à SPSS. Ils sont générés de diverses manières : par le biais des princi- paux tests statistiques ou par l’utilitaire de diagramme que nous présentons dans cette section. Nous aborderons trois types de graphiques : les diagrammes en bâtons, les dia- grammes en secteurs et les diagrammes de dispersion qui sont les plus utilisés. SPSS On obtient le générateur de diagramme par la procédure suivante : menu Graphe > Générateur de diagramme… La procédure fait apparaître la boîte de dialogue de la figure 8.9. Le générateur de diagramme affiche simultanément une seconde fenêtre (Propriétés de l’élé- ment) qui vous permet notamment d’afficher dans un menu déroulant des statistiques que vous pouvez insérer dans le diagramme (des effectifs par exemple). Vous n’êtes donc pas obligé de passer par un tableau pour créer un graphique de statistiques descriptives pour une ou plusieurs variables. On démarre l’utilitaire en faisant glisser l’icône représentant le diagramme envisagé dans le canevas, c’est-à-dire la large zone qui s’affiche au-dessus de la galerie (l’onglet activé sur la figure 8.9). On fait ensuite glisser les variables vers les zones de déplacement de l’axe : il existe une variable de type échelle en colonne (Quel montant moyen dépensez-vous par mois dans ce type de point de vente?), une variable de type nominal en ligne (Quel est votre statut marital?) et une seconde variable de type nomi- nal (Possédez-vous une carte de fidélité de l’enseigne?), afin de grouper les répondants dans ce diagramme en bâton groupé. Nous obtenons le diagramme de la figure 8.10, qui fait apparaître l’importance de la possession d’une carte de fidélité. Figure 8.9 Boîte de dialogue Générateur de diagramme. Livre spss.book Page 185 Vendredi, 25. janvier 2008 12:04 12
  • 199.
    186 Analyse dedonnées avec SPSS Vous pouvez modifier à tout moment le diagramme ou choisir un autre type de diagramme pour représenter les mêmes données. Pour modifier un élément du diagramme, activez l’édi- teur de diagramme en double-cliquant dessus et utilisez le menu Affichage > Propriétés… Ce menu vous permettra de modifier le texte du diagramme, la couleur et le motif de rem- plissage des bâtons, d’ajouter du texte (par exemple un titre ou une annotation), etc. Il existe de nombreuses autres possibilités de modification. Nous en verrons quelques-unes en présentant deux autres types de diagrammes : les graphiques en secteur et les graphi- ques de dispersion. On peut, par exemple, masquer certaines modalités d’un graphique en secteur. Pour créer un graphique en secteur, faites glisser un graphique dans le générateur de diagramme (dans SPSS, il se nomme diagramme circulaire/polaire). Nous allons repré- senter de cette manière les goûts musicaux des répondants en représentant la variable pro- gradio. Après avoir fait glisser le graphique en secteur dans le générateur de diagramme, cliquez sur le menu Options qui vous permet d’inclure ou d’exclure des observations. On peut ainsi exclure du graphique les non-réponses au questionnaire. Pour exclure des moda- lités sous-représentées, ou que l’on ne souhaite pas faire apparaître, comme « ne se pro- nonce pas » ou « ne sais pas », qui sont fréquentes dans des enquêtes en marketing, on utilise l’onglet Modalités. Lorsque le graphique est créé (en secteur par exemple), double-cli- quez dessus pour activer l’éditeur de diagramme. Sélectionnez le diagramme en secteur puis dans le menu Édition ouvrez le sous-menu Propriétés comme nous l’avons vu plus haut : la boîte de dialogue de la figure 8.11 s’affiche. Activez ensuite l’onglet Modalités et suppri- mez la modalité « indifférents » qui se trouve dans la fenêtre Exclus. Pour améliorer la lecture du graphique, il est intéressant d’insérer les valeurs des données. Une fois que vous avez affiché l’éditeur de diagrammes, sélectionnez le diagramme en sec- teur, puis dans le menu Éléments sélectionnez Afficher les étiquettes de données… Le dia- gramme en secteur, présenté à la figure 8.12, montre une nette préférence pour les programmes musicaux de type rock. Il est possible de transformer les valeurs (en pourcentage par exemple) et de modifier la position de l’étiquette. Nous allons illustrer d’autres possibilités par le biais des diagrammes de dispersion. Pour ce faire, nous changeons de jeu de données. Ouvrez le fichier « ventes_voitures.sav » que nous avons utilisé au chapitre 4. Sélectionnez le générateur de diagramme en suivant le chemin : Graphe > Générateur de diagramme, puis cliquez sur l’onglet Galerie et choisis- sez le diagramme de dispersion regroupée (corrélation/points) (voir figure 8.13). Figure 8.10 Diagramme en bâtons juxtaposés. Livre spss.book Page 186 Vendredi, 25. janvier 2008 12:04 12
  • 200.
    187Communiquer les résultats 8Chapitre Nousallons réaliser un diagramme de dispersion du rendement énergétique par type de véhicule avec trois variables : la consommation en colonne, le poids total à charge en ligne et le type de véhicule pour regrouper les observations. Les diagrammes de dispersion ne fonctionnent qu’avec des variables de type échelle. Nous obtenons le diagramme de la figure 8.14. qui représente la consommation du véhicule selon le poids total à charge auto- risé en fonction du type de véhicule (voiture ou utilitaire). Nous pouvons maintenant afficher une courbe d’ajustement qui permet de faire ressortir la tendance des données. La procédure est la suivante : Éditeur de diagramme > Élements > Ajouter une courbe d’ajustement au total… On obtient le graphique de la figure 8.15. La courbe d’ajustement est une option intéressante car elle permet de décrire la qualité de la représentation graphique. En effet, l’option fait apparaître le coefficient de Figure 8.11 Exclusion d’une modalité de variable. Figure 8.12 Diagramme en secteur avec valeurs. : 98 : 63 : 159 : 65 syntex.fm Page 187 Vendredi, 25. janvier 2008 3:10 15
  • 201.
    188 Analyse dedonnées avec SPSS détermination R2 qui représente la proportion de variabilité de la variable dépendante (axe Y) pouvant être expliquée par la variable indépendante (axe X). Dans notre exemple, 67 % de la variabilité du rendement énergétique peuvent être expliqués par le poids du véhicule. Figure 8.13 Génération d’un diagramme de dispersion. Figure 8.14 Diagramme de dispersion du rendement énergétique par type de véhicule. Livre spss.book Page 188 Vendredi, 25. janvier 2008 12:04 12
  • 202.
    189Communiquer les résultats 8Chapitre Résumé Lapréparation du rapport fait écho au brief de l’étude et reprend les grandes étapes de l’analyse des données. Son principal objectif consiste à mettre en lumière les réponses pos- sibles au problème managérial posé. Un rapport de qualité doit être à la fois précis et intel- ligible, au sens où il doit présenter de façon claire pour toutes les parties prenantes de l’étude des résultats justes. La mise en valeur des résultats dans le rapport passe par la maî- trise des tableaux et des graphiques. Nous avons passé en revue dans ce chapitre les utili- taires de SPSS pour générer des tableaux pivotants et des diagrammes de qualité, mais l’utilisateur doit s’exercer, expérimenter pour pouvoir en découvrir toutes les facettes. En guise de conclusion, et pour paraphraser Stefan Sweig : « il ne sert à rien d’éprouver les plus beaux sentiments si l’on ne parvient pas à les communiquer ». Figure 8.15 Diagramme de dispersion avec courbe d’ajustement. Livre spss.book Page 189 Vendredi, 25. janvier 2008 12:04 12
  • 203.
    190 Analyse dedonnées avec SPSS Exercices EXERCICE 1 ÉTUDE DE L’IMPACT D’UNE CAMPAGNE DE PUBLICITÉ * Solution 1. Il peut être pertinent de démarrer le rapport par un rappel de la méthodologie employée (échantillon de 200 lecteurs représentatifs, auto-administration du question- naire dans un délai de trois semaines après la parution, etc). La rubrique suivante peut par exemple présenter des résultats globaux de type évolution des annonces, des formats, etc. Des diagrammes en bâtons ou en lignes enrichiront la présentation à ce niveau. Les résul- tats principaux peuvent être organisés de la manière suivante : • mémorisation des annonces par type de format : on peut présenter ici les performan- ces en termes de mémorisation par type de format par le biais d’un tableau empilé reprenant les scores par formats en pourcentage; • opinion des lecteurs sur les annonces : si des questions ouvertes ont été utilisées lors de l’enquête, on pourra utiliser ici des verbatims (des citations de lecteurs) pour mettre en lumière certains résultats quantitatifs de la première rubrique; • influence du produit : un tableau empilé ou un tableau par strates peut être utilisé pour ce type de résultats, faisant apparaître dans une colonne les effectifs d’annonces, dans une autre colonne le secteur (banque, automobile, etc.), puis le format, et enfin les taux de mémorisation; • Énoncé Afin d’observer l’impact des campagnes de publicité de ses annonceurs, un magazine de cinéma a mis en place une étude auprès d’un échantillon de 200 lecteurs représentatifs de la structure sociodémographique du lectorat. Il s’agit d’un questionnaire auto-adminis- tré, trois semaines après parution, aux seuls lecteurs ayant acheté eux-mêmes le maga- zine, l’ayant lu ou parcouru. Les répondants sont évalués sur des scores de reconnaissance (se souvenir avoir vu l’annonce), des notes d’agrément (de 1 à 10) et leur opinion globale (ce qui a plu ou moins plu). L’enquête permet de collecter des renseigne- ments généraux sur l’influence du format, des emplacements, du volume publicitaire, et d’étudier plus précisément la relation entre l’impact de l’annonce et l’agrément du magazine. Les résultats doivent permettre aux marques de situer leur annonce par rap- port aux standards établis pour les annonces de même format et de même secteur pro- duit, aux annonces de la marque déjà parues les années précédentes dans le magazine, et aux annonces d’un univers de marques concurrentielles également présentes dans le sup- port. 1. Présentez succinctement les résultats du rapport de l’étude par le biais des éléments clés que vous souhaitez faire apparaître. 2. Proposez quelques idées pour améliorer la précision et l’intelligibilité du rapport. 3. Si l’on devait présenter une extraction des résultats à un annonceur, comment devrait-on procéder? Livre spss.book Page 190 Vendredi, 25. janvier 2008 12:04 12
  • 204.
    191Communiquer les résultats Exercices 8Chapitre •influence de l’emplacement de l’annonce : plusieurs tableaux ou graphiques peuvent distinguer les résultats en fonction de la place de l’annonce dans le magazine (4e de cou- verture, premier ou deuxième cahier, etc.) ou des rubriques du magazine; • influence du volume publicitaire : le nombre d’annonces (marques et concurrents) peut être présenté ici afin de resituer les performances dans l’univers concurrentiel. 2. Pour améliorer la précision du rapport, il est important de noter certains éléments méthodologiques en fonction des résultats présentés : sur combien d’annonces ont été effectuées les scores de mémorisation, sur quelle période, pour quels produits, quelles marques en concurrence, etc.? Les questions posées peuvent parfois être reprises, dans le texte ou en note de bas de page. En termes d’intelligibilité, il est recommandé d’utiliser la fonctionnalité Modèle de tableau ou de diagramme afin de définir un format de présenta- tion qui vous convienne. On pourra, dans ces modèles de tableaux, faire apparaître systé- matiquement les résultats globaux (réponses totales par exemple) dans une couleur et les résultats les plus importants dans une autre. Lorsqu’on a recours à un tableau empilé, ce qui est fréquent pour des résultats de type descriptif à une enquête, il peut être intéressant également de traiter les variables principales avec une typologie et une couleur distinctes afin de bien identifier les différentes rubriques. 3. Le rapport peut présenter en premier lieu des résultats généraux liés à la performance de la marque : son taux de mémorisation, la satisfaction exprimée au regard de la qualité de l’annonce, etc. La présentation de visuels de la campagne de la marque serait judicieuse à ce niveau du rapport. Toujours dans l’optique de questions ouvertes, des verbatims indi- queraient l’opinion des lecteurs, ce qui leur a plu, déplu, etc. Pour présenter la relation entre satisfaction à l’égard de l’annonce et la mémorisation de l’annonce, on pourrait insérer une carte perceptuelle générée par une analyse factorielle des correspondances, comme nous l’avons vu dans le chapitre 3. Ce type de représentation est très largement utilisé dans les rapports d’analyse. EXERCICE 2 ÉTUDE D’UN LECTORAT • Énoncé Cet exercice a pour objet de vous familiariser avec les tableaux et les diagrammes. Ouvrez le fichier « pointdevente.sav ». La maîtrise des tableaux et des diagrammes peut vous faire gagner un temps précieux lors de la rédaction du rapport. 1. Représentez les réponses à la variable intention qui estime l’intention d’achat dans le nouveau point de vente au moyen d’un tableau. Effectuez les choix nécessaires pour présenter le tableau le plus clair possible. 2. Pour faire écho à l’exercice 1 qui traite de l’univers de la presse, représentez sous forme de diagramme la variable rubrikpress qui fait ressortir les rubriques de presse quoti- dienne le plus souvent lues par les répondants. Vous devez produire un graphique attractif et précis. syntex.fm Page 191 Vendredi, 25. janvier 2008 12:28 12
  • 205.
    192 Analyse dedonnées avec SPSS * Solution 1. Pour créer le tableau, suivre la procédure : Analyse > Statistiques descriptives > Effec- tifs… On obtient le tableau de la figure 8.16. L’aspect du tableau n’est pas satisfaisant en l’état. Nous allons le modifier en passant par un modèle de tableau préexistant. Suivons la procédure indiquée dans la partie théorique du chapitre : double-cliquez sur le tableau dans l’éditeur de résultats, puis le menu Format > Modèles de tableaux… Nous sélectionnons le modèle « Avant-garde » afin de distinguer certaines rubriques du tableau qui apparaîtront en grisé. Certaines rubriques du tableau créé (pourcentage valide et pourcentage cumulé) ne sont pas directement utiles pour lire les résultats. Nous allons donc les éliminer en sélectionnant les colonnes à élimi- ner et en les coupant par un click droit. Enfin, lorsque votre tableau est conforme au for- mat souhaité, vous pouvez le « copier-coller » dans votre rapport. Nous constatons le résultat à la figure 8.17. 2. Pour obtenir directement le diagramme, allez dans le menu Graphes > Boîtes de dialo- gues héritées… puis sélectionnez le diagramme de votre choix. La variable rubrikpress étant une variable nominale à 5 modalités, un graphique en secteurs est approprié. Sélectionnez Analyse par catégories dans la boîte de dialogue qui s’affiche (nous allons représenter les effectifs par modalité de la variable), puis Définir. Dans la deuxième boîte de dialogue (Dia- gramme en secteurs : Groupes d’observations), faites glisser la variable dans la rubrique Définir les secteurs par puis validez.Vous avez créé le graphique présenté à la figure 8.18. Pour en améliorer l’aspect, double-cliquez sur le graphique pour ouvrir l’éditeur de dia- gramme, puis sélectionnez le diagramme en secteur pour l’activer. Dans le menu Édition > Propriétés… vous pouvez retravailler, par exemple, la taille du diagramme, sa profondeur et son angle, et le représenter en 3-D pour le rendre plus attractif. D’autres changements peuvent être opérés, comme nous l’avons vu, par menu Éléments pour affi- cher les étiquettes de données ou encore éclater un secteur (le plus fréquemment cité par exemple) afin de mettre en valeur les résultats. Le diagramme modifié prend l’aspect de la figure 8.19, qui est l’illustration d’une combinaison parmi d’autres. Nous vous encoura- geons à prolonger l’exercice sur plusieurs types de graphiques, pour bien maîtriser les tableaux et diagrammes dans SPSS : à vous de jouer maintenant! Figure 8.16 Effectifs de la variable intention. Figure 8.17 Tableau modifié. syntex.fm Page 192 Vendredi, 25. janvier 2008 12:28 12
  • 206.
    193Communiquer les résultats Exercices 8Chapitre Figure8.18 Graphique en secteur simple. Figure 8.19 Graphique en secteur modifié. Quelle rubrique de presse quotidienne lisez-vous le plus souvent ? Edito Economie Info locale Annonces Loisirs/santé Quelle rubrique de presse quotidienne lisez-vous le plus souvent ? Edito Economie Info locale Annonces Loisirs/santé 52 96 57 118 56 syntex.fm Page 193 Vendredi, 25. janvier 2008 3:21 15
  • 207.
    Livre spss.book Page194 Vendredi, 25. janvier 2008 12:04 12
  • 208.
    195 Bibliographie générale Churchill G. A.Jr, Marketing Research, 3e édition, The Dryden Press, Harcourt Brace College Publishers, 1998. Churchill G. A., « A paradigm for developing better measures of marketing constructs », Journal of Marketing, 16, p. 64-73, 1979. De Vellis R. F., Scale developement: theory and application, vol. 26, Sage, Thousand Oaks, 2003. Dussaix et al., L’analyse conjointe, la statistique et le produit idéal, Ceresta,1992. Evrard Y., Pras B., Roux E., Market. Études et recherches en marketing, Nathan, Paris, 2003. Gerbing D. W., Anderson J. C., « An updated paradigm for scale development incorpora- ting unidimensionality and its assessment », Journal of Marketing Research, 25, p. 186- 192, 1988. Giannelloni J. C., Vernette E., Les Études de marché, Broché, Paris, 2001. Goupy J., Introduction aux plans d’expérience, Dunod, Paris, 2006. Green P. E., Srinivasan V., « Conjoint analysis in marketing: new developments with implications for research and practice », Journal of Marketing, 54, 4, p. 3-19, 1990. Hair J. F. Jr., Bush R., Ortinau D., Marketing Research, 3e édition, Éd. McGraw-Hill-Irwin, New York, 2006. Hair J. F. Jr., Black W. C., Babin B. J., Anderson R. E., Tatham R. L., Multivariate Data Analysis, 5e édition, Éd. Pearson – Prentice Hall, New Jersey, 2006. Kozinets R.V., « The field behind the screen: Using netnography for marketing research in online communities», Journal of Marketing, Research, 39, 1, p. 61-72, 2002. Lilien G. L., Rangaswamy A., De Bruyn A., Principles of Marketing Engineering, ISBM, State College, PA, 2007. Liquet J. C., Cas d’analyse conjointe, Broché, Lavoisier, 2001. Liquet J. C., Benavent C., L’Analyse conjointe et ses applications en marketing, IAE Lille, 2000. Louviere J. J., Analyzing Decision Making: Metric Conjoint Analysis, Sage, New York,1988. Malhotra N., Decaudin J. M., Bouguerra A., Études marketing avec SPSS, Pearson Education, Paris, 2007. Livre spss.book Page 195 Vendredi, 25. janvier 2008 12:04 12
  • 209.
    196 Analyse dedonnées avec SPSS Nunnally J. C, Bernstein I. R, Psychometric theory, McGraw-Hill, 3e édition, 1994. Tenenhaus M., Méthodes statistiques en gestion, Dunod, Paris, 2006. Tenenhaus M., Statistiques : méthodes pour décrire, expliquer, prévoir, 2e édition, Dunod, Paris, 2006. Tenenhaus M., Méthodes statistiques en gestion, Dunod, Paris, 2006. Thiétard R. A., Méthodes de recherche en management, Dunod, Paris, 1999. Tufféry S., Data Mining et statistique décisionnelle, Éd. Technip, Paris, 2007. Vernette E., Techniques d’étude de marché, Vuibert, Paris, 2000. Livre spss.book Page 196 Vendredi, 25. janvier 2008 12:04 12
  • 210.
    197Index A Abaques 11 Access panels8 on-line 8 Accord, échelle de mesure 15 Ad hoc, étendue 4 Agrégation chaîne 91 des données 51 méthode 85 Ajustement courge 187 test 42 Alpha de Cronbach 53 seuil d’acceptabilité 53 Analyse bivariée 20, 36 bivariée, variable dépendante 36 bivariée, variable indépendante 36 conjointe, étapes 158 de fiabilité 65 de variance 108 factorielle 54, 56 factorielle, méthode 61 multivariée 20 multivariée de la variance 115 rapport d’ 178 typologique 81, 90 univariée 20 ANCOVA 116 ANOVA à un facteur 108 Aplatissement 32 coefficient d’ (Kurtosis) 32 Arbre de décision 90 hiérarchique 87 Association prédictive, coefficient 39 Asymétrie 32 B Baromètre 4 Barycentres 85 Biais de l’expérimentation 17, 121 effet de l’instrument 121 effet de test 121 histoire 121 maturation 121 mortalité 121 Boîtes à moustaches 31 Bonferroni, test de 109 Boule de neige, échantillonnage 11 Brief de l’étude 178 C Carré latin 123 Catégorisation 80 Centiles 32 Centres de groupes 91 mobiles 88 Chaîne des agrégations 91 Classification 80, 85 ascendante 84 descendante 84 hiérarchique 84 hiérarchique ascendante 85 hiérarchique descendante 86 non hiérarchique 84, 88 Clustering 80 Coefficient d’aplatissement (Kurtosis) 32 d’association prédictive 39 Index Livre spss.book Page 197 Vendredi, 25. janvier 2008 12:04 12
  • 211.
    198 Analyse dedonnées avec SPSS de contingence 39 de corrélation multiple 136 de détermination 137 de Pearson 134 de symétrie (Skewness) 32 de variation 32 phi 39 standardisé 137 structurels 60 Collecte de données 3 Communalités 60 Comparaisons multiples 109 Composantes 60 principales 61 Compréhension, prétest 18 Concomitance 137 Conditions d’application de la régression 136 Confiance intervalle 12 seuil 40 Construits 16 multidimensionnels 59 Contamination, effet 18 Contingence, coefficient 39 Corrélation 137 de Pearson, mesure 84 linéaire 134 matrice 57 multiple, coefficient 136 Corrélations anti-image, matrice 57 Courbe d’ajustement 187 Covariable 116 Covariance, matrice 57 Cramer, V de 39 Cronbach, Alpha de 53 D Data mining 7 Data warehouses 3 DDL (degrés de liberté) 38 Décrire les données 20 Degrés de liberté (DDL) 38 Démarche d’étude 2 Dendogramme 86, 87, 91 Descriptive, méthode 20 Détermination, coefficient 137 Diagramme de dispersion 187 en bâtons 31 en secteurs 31 générateur de 185 Différentiel sémantique, échelle de mesure 15 Dispersion 31, 32 diagramme 187 Distance 83 de Minkowski, mesure 84 de Tchebycheff, mesure 84 du diamètre, méthode 85 euclidienne 83 mesure 83 moyenne, méthode 85 Distribution 31 normale 33 Données collecter 3 écrire 20 expliquer 20 non structurées 8 normalité 109 primaires 8, 9 saisir 130 secondaires 3, 7, 8 secondaires externes 7 secondaires internes 7 structurées 8 textuelles 89 Duncan, test de 109 E Écart type 32 Échantillonnage boule de neige 11 de convenance 11 méthode 10 stratifié 10 Échantillons 9 aléatoires 10 appariés 35, 41 indépendants 35, 41 non probablilistes 10 probabilistes 10 taille 11 uniques 41 Échelle 17 d’intention 16 d’Osgood 15 de Likert 16 de Stapel 16 neutralité 18 Échelle de mesure 16, 17 accord 15 différentiel sémantique 15 intensité 15 intention 15 Livre spssIX.fm Page 198 Vendredi, 25. janvier 2008 3:16 15
  • 212.
    199Index Likert 15 métrique 15 nominale15 ordinale 15 Stapel 15 traduction 17 Éditeur de diagramme 186 Effectifs 30 Effets d’interaction 112 de contamination 18 de halo 18 de lassitude 18 principaux 112 Égalité des moyennes, hypothèse 108 Eigenvalue 57 Emboîtement 184 Empiler 182 Entretien 3 individuel 5 Épuration des données 59 Equamax 58 Erreur 11 aléatoire 18, 19 de type 1 40 de type 2 40 indépendance des termes 136 marge d’ 12 systématique 18, 19 termes d’ 18 types 40 Étapes de l’analyse conjointe 158 Étendue 32 Étude ad hoc 4 brief de l’ 178 d’audience 12 de cas unique 121 démarche 2 descriptive 6 explicative 6 exploratoire 18 omnibus 4 prédictive 6 projet 178 qualitative 5 quantitative 5, 6 Euclidienne, mesure de distance 83 Expérimentation 120 Explicative, méthode 21 Expliquer les données 20 F Facettes 16 Facteurs 54 d’inflation de la variance 142 Factorielle, analyse 54, 56 Factorisation 63 Fiabilité 19, 53 analyse 65 Formes alternatives, technique 53 Fractiles 32 Fréquences 30 G Générateur de diagramme 185 Graphiques 31, 181 Gréco-latin 123 Groupe statique 121 H Halo, effet 18 Hasard, tirage au 10 Hiérarchique, méthode 84 Histogrammes 31 Homogénéité 109 Homoscédasticité 136 Hypothèse alternative 40 d’égalité des moyennes 108 nulle 40 statistique 40 I Indépendance des termes d’erreur 136 Indice de Rogers et Tanimoto, mesure de 84 de Sokal et Michener, mesure de 84 de Sokal et Sneath, mesure de 84 Inférence, principe 39 Inflation de la variance, facteur 142 Intensité, échelle de mesure 15 Intention échelle 16 échelle de mesure 15 Interaction 112, 122 effet 112 Intervalle 32 de confiance 12 Items 16 Itinéraires, méthode 11 Livre spssIX.fm Page 199 Vendredi, 25. janvier 2008 3:31 15
  • 213.
    200 Analyse dedonnées avec SPSS K Kaiser-Guttman, règle de 57 Kaiser-Meyer-Olkin (KMO) 57 Kolmogorov-Smirov, test de 42 Kurtosis (coefficient d’applatissement) 32 L Lambda 39 Lassitude, effet 18 Liberté, degrés de (DDL) 38 Likert, échelle de mesure 15, 16 Linéarité 22, 136 Loi normale 33 M MANCOVA 116 MANOVA 115 Marché-test 5 Marge d’erreur 12 Marketing de masse 80 individualisé 80 segmenté 80 Matrice de corrélation 57 de covariance 57 des corrélations anti-image 57 McNemar 43 Measure of Sampling Adequacy (MSA) 57 Médiane 31 Mesures appariées 41 de la dispersion 32 de proximité 83 indépendantes 41 outils 17 Mesures de distance 83 corrélation de Pearson 84 distance de Minkowski 84 distance de Tchebycheff 84 distance euclidienne 83 indice de Rogers et Tanimoto 84 indice de Sokal et Michener 84 indice de Sokal et Sneath 84 Méthode d’agrégation 85 d’échantillonnage 10 de l’analyse factorielle 61 de sélection des variables de régression 142 de Ward 86 des barycentres 85 des centres mobiles 88 des itinéraires 11 des nuées dynamiques 88 des quotas 10 des scénarios 121, 160 des vignettes 160 descriptive 20 distance du diamètre 85 distance moyenne 85 du plan d’expérience 120 explicative 21 hiérarchique 84 non hiérarchique 84 non probabiliste 10 probabiliste 9 saut minimum 85 Métrique, échelle de mesure 15 Minkowski, mesure de distance 84 Mode 31 Modèle additif 156 compensatoire 156 de décomposition 156 de la vraie valeur 18 statistique 121 Moyenne 31 Multicolinéarité 142 Multivariée de la variance, analyse 115 analyse 20 N Netnographie 5, 6 Neutralité d’une échelle 18 Nominale, échelle de mesure 15 Non hiérarchique, méthode 84 Non probabiliste, méthode 10 Normalité 136 des données 109 Nuage de points 81 Nuées dynamiques 88 méthode 88 O Oblimin direct 58 Observation 9 Ordinale, échelle de mesure 15 Orthogonalité 124 Osgood, échelles de mesure 15 Outils de mesure 17 Outliers 31 Livre spss.book Page 200 Vendredi, 25. janvier 2008 12:04 12
  • 214.
    201Index P Panels 4, 8 d’audience9 de distributeurs 9 Pearson, coefficient 134 phi, coefficient 39 Plan complet 160 factoriel 122 factoriel complet 123 factoriel fractionné 123 fractionné 160 Plan d’expérience, méthode 120 Points clés du rapport 180 Population 9 Précision des résultats 11 statistique d’un test 12 Prétest de compréhension 18 Prétest/post-test et groupe de contrôle 121 Principaux, effets 112 Principe d’inférence 39 Probabiliste, méthode 9 Projet d’étude 178 Proximité, mesure de 83 Puissance du test 40 Q Quartiles 32 Quartimax 58 Questionnaire 3, 16 Quotas, méthode 10 R R2 137 Rapport d’analyse 178 d’étude, structure 179 points clés 180 Règle de Kaiser-Guttman 57 des valeurs propres 57 Régression conditions d’application 136 linéaire 136 linéaire multiple 141 linéaire simple 136 multiple 141 Résultats, précision 11 Rétro-traduction 18 Réunions de consommateurs 3 Risque d’artefact 82 Rotation 62 des facteurs 58 oblique 58 orthogonale 58 S Saisir les données 130 Saut minimum, méthode 85 Scénarios, méthode 121, 160 Scree Test 57 Segmentation 80 Sélection des variables de régression, méthode 142 Seuil d’acceptabilité de l’alpha 53 de confiance 40 de signification 40 Signe 43 Signification, seuil 40 Skewness, coefficient de symétrie 32 Sondage, taux 11 unités de 9 Split half 53 Standardisation 84 coefficient 137 Stapel, échelle 15, 16 Statistique d’un test, précision 12 Structure d’un rapport d’étude 179 Structurel, coefficient 60 Symétrie 32 coefficient (Skewness) 32 d’une échelle 18 T t de Student 42 Tableaux 181 croisés 36 personnalisés 182 pivotants 182 Taille de l’échantillon 11 Taux de sondage 11 Taxinomie 80 Tchebycheff, mesure de distance 84 Techniques des formes alternatives 53 qualitatives 4 quantitatives 4, 6 Tendance centrale 31 Termes d’erreur 18 Test /retest 53 d’ajustement 42 Livre spssIX.fm Page 201 Vendredi, 25. janvier 2008 3:37 15
  • 215.
    202 Analyse dedonnées avec SPSS d’hypothèses 35, 41 d’inférence 41 de Bonferroni 109 de comparaison d’échantillons appariés 42 de comparaison d’échantillons indépendants 42 de Duncan 109 de Kolmogorov-Smirov 42 de l’éboulis 57 de la médiane 43 de Levene 109 de McNemar 44 de Scheffé 109 de Sphéricité de Bartlett 57 de Tukey 109 de Wilcoxon 43 du coude 57 du khi-deux 37 du signe 43 non paramétrique 35, 41, 42, 109 paramétriques 35, 41 post hoc 109 précision statistique 12 puissance 40 statistiques 39 t 42 t pour échantillon unique 13 U de Mann-Whitney 43 Z 42 Tirage au hasard 10 Traduction d’échelles de mesure 17 Tri à plat 31 croisés 36, 37 Type d’analyse de variance 108 d’erreurs 40 Typologie 80 analyse 81, 90 U U de Mann-Whitney, test de 43 Unités de sondage 9 Univariée, analyse 20 V-W V de Cramer 39 Valeurs extrêmes 31 propres, règle des 57 Validité 19, 90 convergente 52 de contenu 52 discriminante 52 faciale 18, 52 nomologique 52 prédictive 52 Variable 30 de segmentation 81 dépendante 14 dépendante, analyse bivariée 36 explicative 14 expliquée 14 indépendante 14 indépendante, analyse bivariée 36 médiatrice 14 modératrice 14 qualitative 14, 30 quantitative 15, 31 Variance 32 analyse de 108 coefficient 32 facteur d’inflation 142 intragroupe 109 Varimax 58 Vignettes 121 méthode 160 Vraie valeur 19 Ward, méthode 86 Livre spssIX.fm Page 202 Vendredi, 25. janvier 2008 3:37 15
  • 216.
    Synthèse de cours exercices corrigés & Direction decollection : Roland Gillet, professeur à l’université Paris 1 Panthéon-Sorbonne Dans la même collection : • Analyse financière et évaluation d’entreprise, S. Parienté • Performance de portefeuille, P. Grandin et al. • Création de valeur et capital- investissement, M. Cherif et S. Dubreuille • Contrôle de gestion, Y. de Rongé et K. Cerrada • Économétrie, É. Dor • Finance, A. Farber et al. • Marketing, une approche quantitative, A. Steyer et al. • Mathématiques appliquées à la gestion, A. Szafarz et al. • Probabilités, statistique et processus stochastiques, P. Roger • Stratégie, A. Desreumaux et al. • Les enquêtes par questionnaire avec Sphinx, S. Ganassali Manu Carricano est enseignant- chercheur à l’INSEEC Paris où il est responsable des majeures Marketing. Il enseigne le marketing et les études de marchés en licence et master. Fanny Poujol est maître de conférences à l’IAE de Valenciennes et chercheur associé à l’INSEEC. Elle enseigne le marketing et la méthodologie. Sciences de gestion La collection Synthex propose aux gestionnaires et aux économistes de découvrir ou de réviser une discipline et de se familiariser avec ses outils au travers d’exercices résolus. Chaque ouvrage présente une synthèse pédagogique et rigoureuse des techniques et fondements théoriques, qu’une sélection d’exercices aux corrigés détaillés permet d’assimiler progressivement. Le lecteur, étudiant ou professionnel, est ainsi conduit au cœur de la discipline considérée, et, via la résolution de nombreux problèmes, acquiert une compréhension rapide et un raisonnement solide. Ce livre a pour objectif d’amener à découvrir tout le potentiel de l’analyse des données à travers de nombreux exemples et exercices d’application, situés principalement dans le champ du marketing. Progressif et pédagogique, il s’articule autour des étapes clés d’une analyse de données : la définition de la problématique, la descrip- tion des données, la validation des instruments de mesure. La suite du livre met l’accent sur le choix d’une méthode d’analyse, qu’elle soit descriptive (tris croisés, analyse factorielle) ou plus technique (ANOVA, régression, analyse conjointe). Le dernier chapitre traite de la rédaction du rapport, élément essentiel de la communication des résultats. Le livre inclut de nombreux exemples illustratifs et applications. La plupart de ces dernières font appel à SPSS afin que le lecteur se fami- liarise avec ce logiciel. Il pourra ainsi appliquer ses connaissances théoriques et mettre en pratique une démarche d’analyse. Ce livre s’adresse aux étudiants de premier et de second cycle (IUT, BTS, universités et écoles de commerce). Rappel méthodologique sur la réalisation d’une analyse de données et outil concret d’utilisation de SPSS, il sera également utile aux chargés d’études en activité. Analyse de données avec SPSS® Pearson Education FrancePearson Education France 47 bis, rue des Vinaigriers 75010 Paris47 bis, rue des Vinaigriers 75010 Paris Tél. : 01 72 74 90 00Tél. : 01 72 74 90 00 Fax : 01 42 05 22 17Fax : 01 42 05 22 17 www.pearson.frwww.pearson.fr ISBN : 978-2-7440-4075-7