+
TD – Intelligence numérique et
Data Analysis
Manipulation de données et Intelligence
stratégique
+Objectifs de ce cours
➢ Comprendre le monde des données et leur usage
pour des prises de décision stratégique
+Objectifs de ce cours
➢ Comprendre le monde des données et leur usage
pour des prises de décision stratégique
➢ Utiliser un tableur comme introduction aux bases de
données (Google Spreadsheet)
+Objectifs de ce cours
➢ Comprendre le monde des données et leur usage
pour des prises de décision stratégique
➢ Utiliser un tableau comme introduction aux bases de
données (Google Spreadsheet)
➢ Utiliser un outil de data visualisation pour concevoir
des tableaux de bord interactifs d’aide à la décision (
https://public.tableau.com/en-us/s/).
Pour une Introduction :
Installer Tableau : https://www.youtube.com/watch?v=uLj2EJwhPRQ
+Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus
objective de la situation préalable.
+Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus
objective de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
+Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus
objective de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
Pour avoir cette connaissance, il est nécessaire de mettre
en place une démarche rationnelle d’analyse de la
situation sur les bases de données de qualités (Data
Analysis) afin
+Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus
objective de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
Pour avoir cette connaissance, il est nécessaire de mettre
en place une démarche rationnelle d’analyse de la
situation sur les bases de données de qualités (Data
Analysis) afin
➢ de décrire la situation
+Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus
objective de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
Pour avoir cette connaissance, il est nécessaire de mettre
en place une démarche rationnelle d’analyse de la
situation sur les bases de données de qualités (Data
Analysis) afin
➢ de décrire la situation
➢ de comparer la situation à d’autres situations de
référence
+Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus
objective de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
Pour avoir cette connaissance, il est nécessaire de mettre
en place une démarche rationnelle d’analyse de la
situation sur les bases de données de qualités (Data
Analysis) afin
➢ de décrire la situation
➢ de comparer la situation à d’autres situations de
référence
➢ d’expliquer la situation au regard d’une autre situation
+Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus
objective de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
Pour avoir cette connaissance, il est nécessaire de mettre
en place une démarche rationnelle d’analyse de la
situation sur les bases de données de qualités (Data
Analysis) afin
➢ de décrire la situation
➢ de comparer la situation à d’autres situations de
référence
➢ d’expliquer la situation au regard d’une autre situation
➢ de projeter la situation au regard d’une situation futur
+Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus
objective de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
Pour avoir cette connaissance, il est nécessaire de mettre
en place une démarche rationnelle d’analyse de la
situation sur les bases de données de qualités (Data
Analysis) afin
➢ de décrire la situation
➢ de comparer la situation à d’autres situations de
référence
➢ d’expliquer la situation au regard d’une autre situation
➢ de projeter la situation au regard d’une situation futur
Pour mettre en place cette démarche, il faut
Poser un problème(0) > construire le modèle de donnée(1)
> collecter les données(2) > analyser les données(3) >
interpréter les données(4) > répondre au problème(5)
+Importer ses données dans tableau
1. Les fichiers texte
Fichier texte simple (.csv ou .txt) : le simple (une table) et le plus universel
Fichier texte complexe (.Json ou .xml) : plusieurs tables imbriquées dans
une table élémentaire grâce à un codage hiérarchique
2. Les fichiers de logiciel statistiques
Excel
R
JAMOVI/JASP
3. La connection au serveur de base de données
Connecteur spécifique ou Connecteur Base de données
4. Les serveurs web de données
Google Spreadsheet
Serveur web data connecteur par API
5. Les tableau de bord de données
Tableau.com et Poweb BI
+Fondamentaux de la data
science
+Individus, Groupe et Échantillon
Chaque analyse s'appuie sur un ou plusieurs individus (Évaluation,
Observation, Appel) qui peuvent être regroupés en un groupe d'individu
(élève ou "année scolaire") en synthétisant les données grâce à une
fonction mathématique(moyenne, max, dernière, etc).
+Individus, Groupe et Échantillon
Chaque analyse s'appuie sur un ou plusieurs individus (Évaluation,
Observation, Appel) qui peuvent être regroupés en un groupe d'individu
(élève ou "année scolaire") en synthétisant les données grâce à une
fonction mathématique(moyenne, max, dernière, etc).
L'étude est soit quasi exhaustive (plus de 80% de la population) soit
échantillonnée, c.-à-d. basée sur une petite partie de la population. Mais
dans ce cas se pose la question de la représentativité de l'échantillon.
+Individus, Groupe et Échantillon
Chaque analyse s'appuie sur un ou plusieurs individus (Évaluation,
Observation, Appel) qui peuvent être regroupés en un groupe d'individu
(élève ou "année scolaire") en synthétisant les données grâce à une
fonction mathématique(moyenne, max, dernière, etc).
L'étude est soit quasi exhaustive (plus de 80% de la population) soit
échantillonnée, c.-à-d. basée sur une petite partie de la population. Mais
dans ce cas se pose la question de la représentativité de l'échantillon.
Il existe plusieurs méthodes d'échantillonnage qui sont très discutées en
sciences des données :
⮚ Méthodes probabilistes ou aléatoires
⮚ Méthodes des strates ou des grappes
⮚ Méthodes des quotas
⮚ Méthodes « proche en proche » ou boule de neige jusqu’à épuisement
+Individus, Groupe et Échantillon
Chaque analyse s'appuie sur un ou plusieurs individus (Évaluation,
Observation, Appel) qui peuvent être regroupés en un groupe d'individu
(élève ou "année scolaire") en synthétisant les données grâce à une
fonction mathématique(moyenne, max, dernière, etc).
L'étude est soit quasi exhaustive (plus de 80% de la population) soit
échantillonnée, c.-à-d. basée sur une petite partie de la population. Mais
dans ce cas se pose la question de la représentativité de l'échantillon.
Il existe plusieurs méthodes d'échantillonnage qui sont très discutées en
sciences des données :
⮚ Méthodes probabilistes ou aléatoires
⮚ Méthodes des strates ou des grappes
⮚ Méthodes des quotas
⮚ Méthodes « proche en proche » ou boule de neige jusqu’à épuisement
S'il n'est pas possible de s'assurer de la représentativité d'un échantillon, on
dira que la méthode est exploratoire. Les conclusions ne sont donc pas
généralisables à l'ensemble de la population. Sachant qu'un ensemble
concordant d'étude exploratoire fait avancer la science ou à l'inverse
crée de lourdes controverses (Voir Pr. Raoult et le COVID 19).
+Type de données et recodage
La fonction essentielle du data analyse = le recodage, c’est-à-dire à la conversion
des formats de données
■ Données qualitatives ouvertes (raw data) : Tout enregistrement ouvert
plus ou moin contraint par la situation d’observation qui peut être humaine
ou médiatisée. Image, signal ou texte
■ Données qualitatives fermées : Toute variable qualitative est un ensemble
de variables binaires liées entre elles logiquement. Cet ensemble est soit
• à choix exclusif : le choix d'une qualité exclut nécessairement les autres
• à choix multiple : on peut choisir plusieurs qualités d'un même ensemble.
■ Données quantitatives : Toute variable mesurable par une quantité. On
distingue les variables
• discrètes (bien souvent des entiers) : qui sont aussi des variables qualitatives
ordonnées quantitativement avec un nombre de valeurs finies
• continues : qui sont véritablement des nombres avec un nombre de valeurs infinies
(souvent à faible proportion)
• Le Temps est une donnée quantitative particulière
■ Les indices : qui sont des variables produit par des fonctions
mathématiques à partir de données élémentaires.
■ Données binaires : c'est l'échelle primitive en analyse de donnée (0/1)
Pour des besoins pratiques d'analyse, on doit bien souvent recoder des variables
en des variables de nature différente.
+Structure logique des données
Chaque objet étudié est un fait de concepts, objet de
l’esprit construit, que l’on appelle parfois facteur que l’on
appréhende à partir de nombreux indicateurs
Données
Indices
Concept
Problème
Elève en Décrochage
scolaire
Niveau
Moyennes de math
Note DM
Notes DS
Moyenne français
...
Absences
nb abscences
Justifié ?
durée
date
Troubles
entre élèves
Type de trouble
violence
avec l'autorité
+Base de données et tableurs
Une base de données est un ensemble
d'objets étudiés (table) pour qui chaque
individu est unique, décrit par des données
brutes (aucun indice ni champ calculés)
C'est à partir des bases de données que l'on
forme des vues (souvent une table unique)
qui sont des regroupements synthétiques des
données à partir de fonction mathématiques.
Observations
…
Elèves
IDEleve
NomEleve
Adresse
…
Présences
IDAppel
IDEleve
absence
…
Appels
IDAppel
Date
…
Évaluation
IDEvaluation
IDEleve
note
…
Epreuves
IDEpreuves
Matière
Professeur
NomEleve Observations Moyenne Absences IndiceAlert
NomEleve sum(IDObs) sum(note<10) sum(appel=0) Obs+Moy+Aler
t
Base
de
données
Vue
+TP 1 – Préparer et Recoder ses
données dans Tableau
+Importer ses données dans tableau
1. Les fichiers texte
Importer un fichier texte simple (.csv ou .txt) : le simple (une table) et le
plus universel
2. Les fichiers de logiciel statistiques
Importer un fichier Excel
3. Nettoyer les données à l'aide des fonctions
- Trier les données
- Filtrer les données
- Rechercher/Remplacer
- Convertir les formats de données
- Différencier les Valeurs manquantes (NA), null ou 0 ?
+Recoder ses données dans tableau
Recoder avec les fonctions logiques
- Quali vers binaire
La variable binaire sert souvent à répondre à une question précise et élémentaire oui/non. ex dans la variable classe de l’élève
(6ème/5ème/4ème/3ème), sont-ce des classes européennes (oui/non) ?
- quanti vers binaire
Avec la variable nombre d’absence(n), cet élève est-il au-dessus de la moyenne des absences par élève de l’établissement (oui/non)
- quali vers quali
On peut vouloir aussi réduire le nombre de valeurs qualitatives en les fusionnant
- quanti vers quali
La variable quanti peut être simplifiée avec une échelle qualitative plus simple mais aussi (et/ou) plus informative. Nombre
d’observation de comportement (n) devient (“En dessous de la moyenne”, “Au-dessus de la moyenne” “Très au-dessus de la
moyenne”)
- quali vers quanti
Une variable qualitative qui s’appuie sur une échelle implicite peut devenir une variable quantitative discrète. Par exemple Niveau de
diplôme des parents (“Sans”,“Bep/3ème”,“Bac”,“Supérieur”) devient (0, 1, 2, 3).
- Recoder les dates en quali ou quanti
Changer les dates en formats utiles pour l’analyse. Jours de la semaine, moi de l’année, durée en heures etc
+Recodage quanti continue
2.1) Standardisation (Z-score) ou centrée réduite
• Principe :Transformer la variable en la soustrayant à la moyenne et la divisant par l’écart-type
• Avantage : Mesure l’itensité de l’écart à la moyenne sur une échelle sans unité
• Inconvénient : Sensible aux valeurs extrêmes (outliers).
2.2) Normalisation Min–Max
• Principe :Transformer la variable sur une échelle de [0 à 1] Qui signifie sa palce par rapport au maximum
• Avantage : Permet d’uniformiser plusieurs variables dans une matrice de données
• Inconvénient : Extrêmement sensible aux outliers
2.3) Standardisation robuste
• Principe :Transformer la variable en soustrayant la médiane et en divisant par l’intervalle interquartile (IQR)
• Avantage : Moins sensible aux outliers que les autres méthodes.
• Inconvénient : Peut être moins intuitif qu’une standardisation classique.
2.4) Transformations de la distribution (log, Box-Cox,Yeo-Johnson)
• Log-transformation : Pour des variables strictement positives et fortement asymétriques strictement supérieur à 1
(lop_p1) (ex. revenu, chiffres d’affaires), on applique X =ln⁡
(X+c)displaystyle X' = ln(X + c)X =ln(X+c) (avec un
′ ′
constant ccc si X peut être égal à 0).
• Avantage : Réduit la queue de distribution, rend la variable plus « gaussienne».
• Inconvénient : Nécessite des valeurs non nulles ou un décalage.
• Box-Cox (Box & Cox, 1964) :Recherche du paramètre optimisant la normalisationde la variable.
λ
Nécessite souvent un pré-décalage si X contient des valeurs négatives ou nulles.
• Yeo-Johnson : Extension de Box-Cox tolérant les valeurs négatives.
Ces transformations visent à améliorer la symétrie ou la normalité de la distribution pour l’emploi de
méthodes paramétriques (régression linéaire, ANOVA, etc.).
+Recodage quanti discrete
4.1) Discrétisation manuelle
• Principe : Diviser la plage de la variable en classes définies a priori (par ex. classes d’âge : 0–17, 18–29, 30–44, 45–
64, 65+).
• Avantage : Lisibilité facilitée (les données apparaissent en catégories).
• Inconvénient : Découpe subjective, perte d’information si on regroupe des valeurs trop différentes dans la même
classe.
■4.2) Discrétisation automatique par intervalles de même taille
• Principe : Diviser l’étendue de la variable en k pour avoir les intervalles de même amplitude.
• Avantage : Mise en œuvre facile.
• Inconvénient : Insensible à la distribution des données (des classes peuvent être sur- ou sous-représentées).
■4.3) Discrétisation automatique par intervalles de même effectif (quantiles)
• Principe : Choisir des seuils de coupure pour que chaque classe contienne à peu près le même nombre
d’observations (quintiles, déciles, etc.).
• Avantage : Chaque classe a un poids similaire en termes d’effectifs, ce qui peut faciliter certains tests.
• Inconvénient : Les largeurs d’intervalle peuvent varier considérablement; la classe la plus extrême peut être
étendue si la distribution est asymétrique.
■4.4) Discrétisation par méthodes algorithmiques (k-means, Mclust, etc.)
+Le problème des outliers continue
■Recodage pour gérer les outliers (valeurs atypiques)
■3.1)Winsorisation
• Principe :Tronquer les valeurs extrêmes au niveau d’un quantile donné (p. ex. 99 centile).
ᵉ
• Avantage : Conserve le volume de données en évitant d’exclure définitivement les observations.
• Inconvénient : Les valeurs réellement élevées ou très basses sont rabattues vers des seuils
artificiels.
■3.2) Recodage en valeurs manquantes
• Principe : Décider que des valeurs considérées trop extrêmes sont remplacées par NA (not
available).
• Avantage : Permet de distinguer les valeurs « normales» des valeurs extrêmes.
• Inconvénient : Réduit l’échantillon «valide» (listwise deletion possible selon la méthode d’analyse).
■3.3) Exclusion pure et simple des outliers
• Principe : Retirer de l’échantillon les lignes portant des valeurs atypiques.
• Avantage : Simplifie l’analyse si les valeurs extrêmes sont jugées non pertinentes (erreurs de
mesure, par exemple).
• Inconvénient : Risque de biais si les outliers sont en réalité des observations valides révélant un
phénomène pertinent.
+La méthode des rank
Le recodage en rang consiste à :
1. Trier la variable numérique dans l’ordre croissant (ou décroissant).
2. Attribuer à chaque observation la position qu’elle occupe dans ce tri, c’est-à-dire son rang.
Objectif : On transforme ainsi une série de valeurs réelles en une série de rangs entiers.
Avantage :
• La transformation en rang rend l’analyse moins sensible aux valeurs extrêmes (outliers) et aux écarts de distribution.
• Elle permet d’utiliser des méthodes statistiques non paramétriques qui ne requièrent pas d’hypothèse de normalité.
■Inconvénient :
• La transformation fait perdre l’information sur l’écart réel entre les valeurs : la différence entre 10 et 50 est la même que
la différence entre 20 et 25 une fois recodée en rangs (1 contre 4, 2 contre 3, etc.).
• L’interprétation peut être plus limitée : on ne parle plus de niveaux absolus, mais de positions relatives.
2) Gestion des ex aequo (ties)
Lorsque la distribution comporte des valeurs identiques, plusieurs stratégies de recodage sont possibles :
1. Rank simple : Attribuer les rangs dans l’ordre d’apparition, sans correction et crée un ordre arbitraire parmi les ex
aequo.
2. Average rank (rang moyen) : Lorsque plusieurs observations ont la même valeur, leur attribuer la moyenne de leurs
positions de rang. C’est la méthode la plus commune.
3. Rank aléatoire :Tirer au sort l’ordre d’attribution du rang parmi les ex aequo. Moins répandu, rarement appliqué en
pratique sauf cas d’algorithmes spécifiques.
La méthode du rang moyen est généralement la plus recommandée pour les analyses statistiques
standard.
3) Les outliers et la méthode interquartile
Formules des découpages interquartiles et 1,5*IQR
+Recoder les qualis
■Variables qualitatives uniques
• Définition: Une variable qualitative unique est une variable qui ne prend qu’une seule modalité pour chaque individu (ex.
«profession», «genre», «statut marital»).
• Recodage typique:
• Regroupement de modalités pour simplifier l’analyse (par ex. regrouper certaines professions en
catégories socio-professionnelles plus larges).
• Binarisation (ou dichotomisation) pour répondre à des questions du type « est-ce que l’individu
appartient ou non à telle catégorie?» (par ex. «profession libérale» vs. «autres professions»).
■Variables qualitatives multiples
• Définition: Il s’agit de questions où chaque individu peut choisir plusieurs réponses, ou signaler plusieurs modalités
simultanément (ex. «quelles langues parlez-vous?», pour lequel la personne peut sélectionner le français, l’anglais, l’espagnol,
etc.).
• Recodage typique:
• Transformation en plusieurs variables indicatrices (dummy variables), chacune valant 1 si la
modalité est cochée, 0 sinon.
• Recodage en count (par exemple, nombre de langues parlées).
• Recodage par regroupement (créer des profils, p. ex. «parle uniquement une langue», «parle deux
langues», «parle trois langues ou plus »).
Dans les deux cas (unique ou multiple), le critère de choix du recodage dépend de l’objectif analytique :
simplification, regroupement de modalités rares, mise en évidence d’une opposition binaire, etc.
+Recoder les qualis
■Variables qualitatives fermées
• Définition: Il s’agit de questions avec une liste prédéterminée de catégories (par ex. «votre
position politique: gauche, centre, droite»).
• Problématiques de recodage: Le recodage se limite souvent à fusionner ou scinder des catégories
existantes, selon le besoin.
Exemple: regrouper «centre» et «centre droit» en une seule catégorie pour augmenter la lisibilité
statistique.
■Variables qualitatives ouvertes
• Définition: L’individu écrit librement sa réponse (par ex. «Quelle est votre profession?», «Quelle
est votre opinion sur…?»). Les réponses sont donc textuelles, potentiellement très variées.
• Problématiques de recodage:
• Nettoyage et homogénéisation des réponses (p. ex. harmoniser la casse, corriger
l’orthographe).
• Codage manuel (analyse de contenu) ou codage semi-automatisé/automatisé à l’aide de
dictionnaires thématiques ou d’algorithmes de text mining (cf. Cardon, 2018, Qu’est-ce que
l’analyse de données textuelles?).
+Recoder les qualis
Regrouper des catégories pour renforcer des corrélations
• Principe: Plus on regroupe de modalités en grandes classes, plus la corrélation (ou chi-deux,
etc.) peut se renforcer ou devenir plus lisible, car on évite une fragmentation extrême.
• Exemple: Au lieu de traiter 10 catégories de professions, on peut parfois en créer 4 (p. ex.
agriculteurs/artisans–commerçants/cadres-employés non manuels/ouvriers-employés manuels).
La variance est alors plus concentrée, et la relation statistique avec une autre variable (niveau de
diplôme, préférences politiques) peut devenir plus nette.
• Référence: Agresti (2007) souligne que le regroupement des modalités peut améliorer la stabilité
des estimateurs et la compréhension des tableaux de contingence.
■ Binariser une variable
• Objectif: Faire émerger un contraste clair (p. ex. « fume» vs. «ne fume pas»), ou toute autre
dichotomie pour répondre à une question précise (p. ex. « diplômé du supérieur » vs. «non
diplômé du supérieur»).
• Avantage: Simplifie l’analyse, permet d’utiliser des méthodes statistiques adaptées au binaire
(régression logistique, tests de proportions, etc.).
• Inconvénient: Perte d’information potentiellement significative (p. ex. différence entre bac+2 et
doctorat réduite à «diplômé»).
+Recoder les qualis
Structuration d’une variable unique en matrice binaire (dense ou sparse)
■Lorsque vous transformez une variable à plusieurs modalités (surtout si elle est
multiple) en variables indicatrices (ou «dummy variables»), vous obtenez une
matrice binaire où chaque colonne représente une modalité. Dans certains cas,
cette matrice est :
• Dense: La plupart des individus ont la modalité «1» pour de nombreuses
colonnes (cas plus rare).
• Sparse: La plupart des valeurs sont «0», et seules quelques observations ont
la modalité «1» (cas fréquent, par exemple codes de produits, codes de
régions, etc.).
Le choix entre conserver la variable initiale (avec n modalités) ou la découper en
indicatrices dépend du modèle statistique et de la technique d’analyse (p. ex.
regressions linéaires vs. arbres de décision).
+Recoder les qualis
Attention aux variables numériques qui sont en réalité qualitatives
■Il arrive qu’une variable composée de chiffres soit, en réalité, une information catégorielle :
• Exemple 1: Codes-barres de produits: chaque code est unique et ne sert pas de grandeur numérique (la différence 123456 et
123457 n’a pas de sens statistique direct).
• Exemple 2: Numéro INSEE, numéro de sécurité sociale, matricule d’étudiant, numéro de département, etc.
• Pour le numéro de département, on peut malgré tout parfois le regrouper en régions, ou en classes
rurales/urbaines.
Pour d’autres types de codes (p. ex. identifiants uniques), la seule chose à faire est souvent de les transformer
en variables dummies si l’on souhaite coder leur présence/absence dans un ensemble (par ex. identifier si un
produit particulier est cité).
Conclusion:Toujours déterminer si la variable chiffrée (0, 1, 2, etc.) correspond effectivement à une échelle
numérique ou à des catégories. Si c’est une échelle numérique, on peut utiliser des méthodes quantitatives
(moyennes, écarts-types). Sinon, on traite ces chiffres comme des modalités qualitatives (pas de moyenne à
interpréter, mais comptage des occurrences).
+
Recodage de date
Conversion de formats de date
■Les dates peuvent se trouver à
l’origine sous différents formats
• Harmoniser le
• Convertir des dates issues d’un format
texte (string) vers un véritable objet
date.
Ajustement de fuseaux horaires ou
passages d’une base de temps à une
autre
• Normaliser toutes les dates/horaires
dans un fuseau de référence (ex. UTC).
• Conserver l’information sur le fuseau
dans un champ séparé, si besoin de
reconstituer l’heure locale.
Le timestamp ou «nombre de
secondes (ou jours) écoulés depuis
une origine»
On définit un point de départ (souvent 1er
janvier 1970 en informatique.
Calculer un âge, une durée ou un temps écoulé
Soustraire deux dates pour obtenir la durée entre elles.
Par exemple, « 2023-02-14 » moins « 2022-02-14 » = 365
jours (ou 1 an).
Indicateurs temporels (index, rank)
Classer les dates dans l’ordre chronologique et attribuer
un rang (1er événement, 2 , 3 , …) pour fixer une série
ᵉ ᵉ
étapes.
Extraction de la partie composante (année, trimestre,
mois, jour, jour de la semaine)
Découper en segments temporels égaux ou inégaux
selon des dates signiicatives (ex. vacances, périodes
de l’année)
Regrouper en aggrégat temporel supérieur (mois >
trimestre > année.
+Recoder un texte
Un texte est un ensemble de mots (variable qualitatives) dont l’ordre d’apparition compte
Texte > Résumé thématique (Quali unique ouverte ou fermé) >
Texte > Quali multiple ouverte ou fermé >
Texte > Matrice de mots > Réduction dimensionnelle > LDA
Texte > Embedding réduction dimensionnelle du dictionnaire de mot > Recodage supervisé
+Regrouper les données
1. Identifier la variable qualitative hiérarchique de regroupement
2a.Identifier les fonctions de synthèse quantitative
•count() (COUNT)
•sum() (SUM)
•mean() (AVERAGE)
•median() (MEDIAN)
•min() (MIN)
•max() (MAX)
•std() (STDEV ou STDEV.S)
•quantile() (PERCENTILE ou QUARTILE)
2c. Identifier les fonctions qualitative de synthèse
■count() (COUNTA)
Compte le nombre d’observations non vides dans un ensemble d
données.
■nunique() (COUNTUNIQUE)
Calcule le nombre de valeurs distinctes dans une plage.
■mode() (MODE.SNGL)
Identifie la modalité la plus fréquente dans un ensemble de
données.
■unique() (UNIQUE)
Extrait la liste des valeurs uniques présentes dans une plage de
données.
■textjoin() (TEXTJOIN)
Concatène plusieurs valeurs textuelles en une seule chaîne, en
insérant un délimiteur choisi (par exemple, une virgule.
> Concept de variables appariés et non appariés
+TP 2 – Analyse Monovarié et
Bivariée
+Analyser les données
1. Analyse monovariée
- Qualitative (Répartition décroissante)
- Quantitative discrète
- Constante ou linéaire
- Géométrique
- Binomiale et/ou de Poisson
- Quantative continue
- Boite à moustache
- Loi normale
- Loi de Pareto
2. Analyse Bi Variée
- Quali/Quali (dénombrement double)
- Quali/Quanti (Analyse de la covariation)
- Quanti/Quanti (Corrélation)
- Temporel
+
Principes de data visualisation multiples
■Les éléments signifiants
quantitatifs
■Une aire
■Epaisseur du trait
■Couleur dégradée
■Les éléments signifiants
qualitatifs/discrets
■Couleur multiple
■forme
■Les indicateurs globaux
■ Moyenne, total etc
■ Le choix des données
■ Transformation (logistique)
■ Le type de formes
■ Les axes (origine <>0, ordre des
catégories)
■ Les grilles
■ Les fonds
■ Les titres et légendes (situées)
■ Les filtres
Les unités Le fond
+
Grouper, filtrer et set dynamique
Grouper des données (les Tableaux croisés dynamique)
Établir des filtres interactifs
Repérer des ensembles de données
Manuel
Dynamique
Animation
Annotation et infobulles
+Fonctions avancée de
Tableau
+
Gestions des cartes
https://menway.com/nos-offres/?quoi=&page=0&filtres
+
Faire un tableau de bord
+
Faire une présentation
https://menway.com/nos-offres/?quoi=&page=0&filtres

Data Analyse Introduction pour le slicences infocom

  • 1.
    + TD – Intelligencenumérique et Data Analysis Manipulation de données et Intelligence stratégique
  • 2.
    +Objectifs de cecours ➢ Comprendre le monde des données et leur usage pour des prises de décision stratégique
  • 3.
    +Objectifs de cecours ➢ Comprendre le monde des données et leur usage pour des prises de décision stratégique ➢ Utiliser un tableur comme introduction aux bases de données (Google Spreadsheet)
  • 4.
    +Objectifs de cecours ➢ Comprendre le monde des données et leur usage pour des prises de décision stratégique ➢ Utiliser un tableau comme introduction aux bases de données (Google Spreadsheet) ➢ Utiliser un outil de data visualisation pour concevoir des tableaux de bord interactifs d’aide à la décision ( https://public.tableau.com/en-us/s/). Pour une Introduction : Installer Tableau : https://www.youtube.com/watch?v=uLj2EJwhPRQ
  • 5.
    +Data et prisede décision Avant de prendre une décision, ➢ il est important d’avoir une connaissance la plus objective de la situation préalable.
  • 6.
    +Data et prisede décision Avant de prendre une décision, ➢ il est important d’avoir une connaissance la plus objective de la situation préalable. ➢ Il est important d’avoir une connaissance de la situation conséquente à votre décision pour en évaluer l’efficacité.
  • 7.
    +Data et prisede décision Avant de prendre une décision, ➢ il est important d’avoir une connaissance la plus objective de la situation préalable. ➢ Il est important d’avoir une connaissance de la situation conséquente à votre décision pour en évaluer l’efficacité. Pour avoir cette connaissance, il est nécessaire de mettre en place une démarche rationnelle d’analyse de la situation sur les bases de données de qualités (Data Analysis) afin
  • 8.
    +Data et prisede décision Avant de prendre une décision, ➢ il est important d’avoir une connaissance la plus objective de la situation préalable. ➢ Il est important d’avoir une connaissance de la situation conséquente à votre décision pour en évaluer l’efficacité. Pour avoir cette connaissance, il est nécessaire de mettre en place une démarche rationnelle d’analyse de la situation sur les bases de données de qualités (Data Analysis) afin ➢ de décrire la situation
  • 9.
    +Data et prisede décision Avant de prendre une décision, ➢ il est important d’avoir une connaissance la plus objective de la situation préalable. ➢ Il est important d’avoir une connaissance de la situation conséquente à votre décision pour en évaluer l’efficacité. Pour avoir cette connaissance, il est nécessaire de mettre en place une démarche rationnelle d’analyse de la situation sur les bases de données de qualités (Data Analysis) afin ➢ de décrire la situation ➢ de comparer la situation à d’autres situations de référence
  • 10.
    +Data et prisede décision Avant de prendre une décision, ➢ il est important d’avoir une connaissance la plus objective de la situation préalable. ➢ Il est important d’avoir une connaissance de la situation conséquente à votre décision pour en évaluer l’efficacité. Pour avoir cette connaissance, il est nécessaire de mettre en place une démarche rationnelle d’analyse de la situation sur les bases de données de qualités (Data Analysis) afin ➢ de décrire la situation ➢ de comparer la situation à d’autres situations de référence ➢ d’expliquer la situation au regard d’une autre situation
  • 11.
    +Data et prisede décision Avant de prendre une décision, ➢ il est important d’avoir une connaissance la plus objective de la situation préalable. ➢ Il est important d’avoir une connaissance de la situation conséquente à votre décision pour en évaluer l’efficacité. Pour avoir cette connaissance, il est nécessaire de mettre en place une démarche rationnelle d’analyse de la situation sur les bases de données de qualités (Data Analysis) afin ➢ de décrire la situation ➢ de comparer la situation à d’autres situations de référence ➢ d’expliquer la situation au regard d’une autre situation ➢ de projeter la situation au regard d’une situation futur
  • 12.
    +Data et prisede décision Avant de prendre une décision, ➢ il est important d’avoir une connaissance la plus objective de la situation préalable. ➢ Il est important d’avoir une connaissance de la situation conséquente à votre décision pour en évaluer l’efficacité. Pour avoir cette connaissance, il est nécessaire de mettre en place une démarche rationnelle d’analyse de la situation sur les bases de données de qualités (Data Analysis) afin ➢ de décrire la situation ➢ de comparer la situation à d’autres situations de référence ➢ d’expliquer la situation au regard d’une autre situation ➢ de projeter la situation au regard d’une situation futur Pour mettre en place cette démarche, il faut Poser un problème(0) > construire le modèle de donnée(1) > collecter les données(2) > analyser les données(3) > interpréter les données(4) > répondre au problème(5)
  • 13.
    +Importer ses donnéesdans tableau 1. Les fichiers texte Fichier texte simple (.csv ou .txt) : le simple (une table) et le plus universel Fichier texte complexe (.Json ou .xml) : plusieurs tables imbriquées dans une table élémentaire grâce à un codage hiérarchique 2. Les fichiers de logiciel statistiques Excel R JAMOVI/JASP 3. La connection au serveur de base de données Connecteur spécifique ou Connecteur Base de données 4. Les serveurs web de données Google Spreadsheet Serveur web data connecteur par API 5. Les tableau de bord de données Tableau.com et Poweb BI
  • 14.
    +Fondamentaux de ladata science
  • 15.
    +Individus, Groupe etÉchantillon Chaque analyse s'appuie sur un ou plusieurs individus (Évaluation, Observation, Appel) qui peuvent être regroupés en un groupe d'individu (élève ou "année scolaire") en synthétisant les données grâce à une fonction mathématique(moyenne, max, dernière, etc).
  • 16.
    +Individus, Groupe etÉchantillon Chaque analyse s'appuie sur un ou plusieurs individus (Évaluation, Observation, Appel) qui peuvent être regroupés en un groupe d'individu (élève ou "année scolaire") en synthétisant les données grâce à une fonction mathématique(moyenne, max, dernière, etc). L'étude est soit quasi exhaustive (plus de 80% de la population) soit échantillonnée, c.-à-d. basée sur une petite partie de la population. Mais dans ce cas se pose la question de la représentativité de l'échantillon.
  • 17.
    +Individus, Groupe etÉchantillon Chaque analyse s'appuie sur un ou plusieurs individus (Évaluation, Observation, Appel) qui peuvent être regroupés en un groupe d'individu (élève ou "année scolaire") en synthétisant les données grâce à une fonction mathématique(moyenne, max, dernière, etc). L'étude est soit quasi exhaustive (plus de 80% de la population) soit échantillonnée, c.-à-d. basée sur une petite partie de la population. Mais dans ce cas se pose la question de la représentativité de l'échantillon. Il existe plusieurs méthodes d'échantillonnage qui sont très discutées en sciences des données : ⮚ Méthodes probabilistes ou aléatoires ⮚ Méthodes des strates ou des grappes ⮚ Méthodes des quotas ⮚ Méthodes « proche en proche » ou boule de neige jusqu’à épuisement
  • 18.
    +Individus, Groupe etÉchantillon Chaque analyse s'appuie sur un ou plusieurs individus (Évaluation, Observation, Appel) qui peuvent être regroupés en un groupe d'individu (élève ou "année scolaire") en synthétisant les données grâce à une fonction mathématique(moyenne, max, dernière, etc). L'étude est soit quasi exhaustive (plus de 80% de la population) soit échantillonnée, c.-à-d. basée sur une petite partie de la population. Mais dans ce cas se pose la question de la représentativité de l'échantillon. Il existe plusieurs méthodes d'échantillonnage qui sont très discutées en sciences des données : ⮚ Méthodes probabilistes ou aléatoires ⮚ Méthodes des strates ou des grappes ⮚ Méthodes des quotas ⮚ Méthodes « proche en proche » ou boule de neige jusqu’à épuisement S'il n'est pas possible de s'assurer de la représentativité d'un échantillon, on dira que la méthode est exploratoire. Les conclusions ne sont donc pas généralisables à l'ensemble de la population. Sachant qu'un ensemble concordant d'étude exploratoire fait avancer la science ou à l'inverse crée de lourdes controverses (Voir Pr. Raoult et le COVID 19).
  • 19.
    +Type de donnéeset recodage La fonction essentielle du data analyse = le recodage, c’est-à-dire à la conversion des formats de données ■ Données qualitatives ouvertes (raw data) : Tout enregistrement ouvert plus ou moin contraint par la situation d’observation qui peut être humaine ou médiatisée. Image, signal ou texte ■ Données qualitatives fermées : Toute variable qualitative est un ensemble de variables binaires liées entre elles logiquement. Cet ensemble est soit • à choix exclusif : le choix d'une qualité exclut nécessairement les autres • à choix multiple : on peut choisir plusieurs qualités d'un même ensemble. ■ Données quantitatives : Toute variable mesurable par une quantité. On distingue les variables • discrètes (bien souvent des entiers) : qui sont aussi des variables qualitatives ordonnées quantitativement avec un nombre de valeurs finies • continues : qui sont véritablement des nombres avec un nombre de valeurs infinies (souvent à faible proportion) • Le Temps est une donnée quantitative particulière ■ Les indices : qui sont des variables produit par des fonctions mathématiques à partir de données élémentaires. ■ Données binaires : c'est l'échelle primitive en analyse de donnée (0/1) Pour des besoins pratiques d'analyse, on doit bien souvent recoder des variables en des variables de nature différente.
  • 20.
    +Structure logique desdonnées Chaque objet étudié est un fait de concepts, objet de l’esprit construit, que l’on appelle parfois facteur que l’on appréhende à partir de nombreux indicateurs Données Indices Concept Problème Elève en Décrochage scolaire Niveau Moyennes de math Note DM Notes DS Moyenne français ... Absences nb abscences Justifié ? durée date Troubles entre élèves Type de trouble violence avec l'autorité
  • 21.
    +Base de donnéeset tableurs Une base de données est un ensemble d'objets étudiés (table) pour qui chaque individu est unique, décrit par des données brutes (aucun indice ni champ calculés) C'est à partir des bases de données que l'on forme des vues (souvent une table unique) qui sont des regroupements synthétiques des données à partir de fonction mathématiques. Observations … Elèves IDEleve NomEleve Adresse … Présences IDAppel IDEleve absence … Appels IDAppel Date … Évaluation IDEvaluation IDEleve note … Epreuves IDEpreuves Matière Professeur NomEleve Observations Moyenne Absences IndiceAlert NomEleve sum(IDObs) sum(note<10) sum(appel=0) Obs+Moy+Aler t Base de données Vue
  • 22.
    +TP 1 –Préparer et Recoder ses données dans Tableau
  • 23.
    +Importer ses donnéesdans tableau 1. Les fichiers texte Importer un fichier texte simple (.csv ou .txt) : le simple (une table) et le plus universel 2. Les fichiers de logiciel statistiques Importer un fichier Excel 3. Nettoyer les données à l'aide des fonctions - Trier les données - Filtrer les données - Rechercher/Remplacer - Convertir les formats de données - Différencier les Valeurs manquantes (NA), null ou 0 ?
  • 24.
    +Recoder ses donnéesdans tableau Recoder avec les fonctions logiques - Quali vers binaire La variable binaire sert souvent à répondre à une question précise et élémentaire oui/non. ex dans la variable classe de l’élève (6ème/5ème/4ème/3ème), sont-ce des classes européennes (oui/non) ? - quanti vers binaire Avec la variable nombre d’absence(n), cet élève est-il au-dessus de la moyenne des absences par élève de l’établissement (oui/non) - quali vers quali On peut vouloir aussi réduire le nombre de valeurs qualitatives en les fusionnant - quanti vers quali La variable quanti peut être simplifiée avec une échelle qualitative plus simple mais aussi (et/ou) plus informative. Nombre d’observation de comportement (n) devient (“En dessous de la moyenne”, “Au-dessus de la moyenne” “Très au-dessus de la moyenne”) - quali vers quanti Une variable qualitative qui s’appuie sur une échelle implicite peut devenir une variable quantitative discrète. Par exemple Niveau de diplôme des parents (“Sans”,“Bep/3ème”,“Bac”,“Supérieur”) devient (0, 1, 2, 3). - Recoder les dates en quali ou quanti Changer les dates en formats utiles pour l’analyse. Jours de la semaine, moi de l’année, durée en heures etc
  • 25.
    +Recodage quanti continue 2.1)Standardisation (Z-score) ou centrée réduite • Principe :Transformer la variable en la soustrayant à la moyenne et la divisant par l’écart-type • Avantage : Mesure l’itensité de l’écart à la moyenne sur une échelle sans unité • Inconvénient : Sensible aux valeurs extrêmes (outliers). 2.2) Normalisation Min–Max • Principe :Transformer la variable sur une échelle de [0 à 1] Qui signifie sa palce par rapport au maximum • Avantage : Permet d’uniformiser plusieurs variables dans une matrice de données • Inconvénient : Extrêmement sensible aux outliers 2.3) Standardisation robuste • Principe :Transformer la variable en soustrayant la médiane et en divisant par l’intervalle interquartile (IQR) • Avantage : Moins sensible aux outliers que les autres méthodes. • Inconvénient : Peut être moins intuitif qu’une standardisation classique. 2.4) Transformations de la distribution (log, Box-Cox,Yeo-Johnson) • Log-transformation : Pour des variables strictement positives et fortement asymétriques strictement supérieur à 1 (lop_p1) (ex. revenu, chiffres d’affaires), on applique X =ln⁡ (X+c)displaystyle X' = ln(X + c)X =ln(X+c) (avec un ′ ′ constant ccc si X peut être égal à 0). • Avantage : Réduit la queue de distribution, rend la variable plus « gaussienne». • Inconvénient : Nécessite des valeurs non nulles ou un décalage. • Box-Cox (Box & Cox, 1964) :Recherche du paramètre optimisant la normalisationde la variable. λ Nécessite souvent un pré-décalage si X contient des valeurs négatives ou nulles. • Yeo-Johnson : Extension de Box-Cox tolérant les valeurs négatives. Ces transformations visent à améliorer la symétrie ou la normalité de la distribution pour l’emploi de méthodes paramétriques (régression linéaire, ANOVA, etc.).
  • 26.
    +Recodage quanti discrete 4.1)Discrétisation manuelle • Principe : Diviser la plage de la variable en classes définies a priori (par ex. classes d’âge : 0–17, 18–29, 30–44, 45– 64, 65+). • Avantage : Lisibilité facilitée (les données apparaissent en catégories). • Inconvénient : Découpe subjective, perte d’information si on regroupe des valeurs trop différentes dans la même classe. ■4.2) Discrétisation automatique par intervalles de même taille • Principe : Diviser l’étendue de la variable en k pour avoir les intervalles de même amplitude. • Avantage : Mise en œuvre facile. • Inconvénient : Insensible à la distribution des données (des classes peuvent être sur- ou sous-représentées). ■4.3) Discrétisation automatique par intervalles de même effectif (quantiles) • Principe : Choisir des seuils de coupure pour que chaque classe contienne à peu près le même nombre d’observations (quintiles, déciles, etc.). • Avantage : Chaque classe a un poids similaire en termes d’effectifs, ce qui peut faciliter certains tests. • Inconvénient : Les largeurs d’intervalle peuvent varier considérablement; la classe la plus extrême peut être étendue si la distribution est asymétrique. ■4.4) Discrétisation par méthodes algorithmiques (k-means, Mclust, etc.)
  • 27.
    +Le problème desoutliers continue ■Recodage pour gérer les outliers (valeurs atypiques) ■3.1)Winsorisation • Principe :Tronquer les valeurs extrêmes au niveau d’un quantile donné (p. ex. 99 centile). ᵉ • Avantage : Conserve le volume de données en évitant d’exclure définitivement les observations. • Inconvénient : Les valeurs réellement élevées ou très basses sont rabattues vers des seuils artificiels. ■3.2) Recodage en valeurs manquantes • Principe : Décider que des valeurs considérées trop extrêmes sont remplacées par NA (not available). • Avantage : Permet de distinguer les valeurs « normales» des valeurs extrêmes. • Inconvénient : Réduit l’échantillon «valide» (listwise deletion possible selon la méthode d’analyse). ■3.3) Exclusion pure et simple des outliers • Principe : Retirer de l’échantillon les lignes portant des valeurs atypiques. • Avantage : Simplifie l’analyse si les valeurs extrêmes sont jugées non pertinentes (erreurs de mesure, par exemple). • Inconvénient : Risque de biais si les outliers sont en réalité des observations valides révélant un phénomène pertinent.
  • 28.
    +La méthode desrank Le recodage en rang consiste à : 1. Trier la variable numérique dans l’ordre croissant (ou décroissant). 2. Attribuer à chaque observation la position qu’elle occupe dans ce tri, c’est-à-dire son rang. Objectif : On transforme ainsi une série de valeurs réelles en une série de rangs entiers. Avantage : • La transformation en rang rend l’analyse moins sensible aux valeurs extrêmes (outliers) et aux écarts de distribution. • Elle permet d’utiliser des méthodes statistiques non paramétriques qui ne requièrent pas d’hypothèse de normalité. ■Inconvénient : • La transformation fait perdre l’information sur l’écart réel entre les valeurs : la différence entre 10 et 50 est la même que la différence entre 20 et 25 une fois recodée en rangs (1 contre 4, 2 contre 3, etc.). • L’interprétation peut être plus limitée : on ne parle plus de niveaux absolus, mais de positions relatives. 2) Gestion des ex aequo (ties) Lorsque la distribution comporte des valeurs identiques, plusieurs stratégies de recodage sont possibles : 1. Rank simple : Attribuer les rangs dans l’ordre d’apparition, sans correction et crée un ordre arbitraire parmi les ex aequo. 2. Average rank (rang moyen) : Lorsque plusieurs observations ont la même valeur, leur attribuer la moyenne de leurs positions de rang. C’est la méthode la plus commune. 3. Rank aléatoire :Tirer au sort l’ordre d’attribution du rang parmi les ex aequo. Moins répandu, rarement appliqué en pratique sauf cas d’algorithmes spécifiques. La méthode du rang moyen est généralement la plus recommandée pour les analyses statistiques standard. 3) Les outliers et la méthode interquartile Formules des découpages interquartiles et 1,5*IQR
  • 29.
    +Recoder les qualis ■Variablesqualitatives uniques • Définition: Une variable qualitative unique est une variable qui ne prend qu’une seule modalité pour chaque individu (ex. «profession», «genre», «statut marital»). • Recodage typique: • Regroupement de modalités pour simplifier l’analyse (par ex. regrouper certaines professions en catégories socio-professionnelles plus larges). • Binarisation (ou dichotomisation) pour répondre à des questions du type « est-ce que l’individu appartient ou non à telle catégorie?» (par ex. «profession libérale» vs. «autres professions»). ■Variables qualitatives multiples • Définition: Il s’agit de questions où chaque individu peut choisir plusieurs réponses, ou signaler plusieurs modalités simultanément (ex. «quelles langues parlez-vous?», pour lequel la personne peut sélectionner le français, l’anglais, l’espagnol, etc.). • Recodage typique: • Transformation en plusieurs variables indicatrices (dummy variables), chacune valant 1 si la modalité est cochée, 0 sinon. • Recodage en count (par exemple, nombre de langues parlées). • Recodage par regroupement (créer des profils, p. ex. «parle uniquement une langue», «parle deux langues», «parle trois langues ou plus »). Dans les deux cas (unique ou multiple), le critère de choix du recodage dépend de l’objectif analytique : simplification, regroupement de modalités rares, mise en évidence d’une opposition binaire, etc.
  • 30.
    +Recoder les qualis ■Variablesqualitatives fermées • Définition: Il s’agit de questions avec une liste prédéterminée de catégories (par ex. «votre position politique: gauche, centre, droite»). • Problématiques de recodage: Le recodage se limite souvent à fusionner ou scinder des catégories existantes, selon le besoin. Exemple: regrouper «centre» et «centre droit» en une seule catégorie pour augmenter la lisibilité statistique. ■Variables qualitatives ouvertes • Définition: L’individu écrit librement sa réponse (par ex. «Quelle est votre profession?», «Quelle est votre opinion sur…?»). Les réponses sont donc textuelles, potentiellement très variées. • Problématiques de recodage: • Nettoyage et homogénéisation des réponses (p. ex. harmoniser la casse, corriger l’orthographe). • Codage manuel (analyse de contenu) ou codage semi-automatisé/automatisé à l’aide de dictionnaires thématiques ou d’algorithmes de text mining (cf. Cardon, 2018, Qu’est-ce que l’analyse de données textuelles?).
  • 31.
    +Recoder les qualis Regrouperdes catégories pour renforcer des corrélations • Principe: Plus on regroupe de modalités en grandes classes, plus la corrélation (ou chi-deux, etc.) peut se renforcer ou devenir plus lisible, car on évite une fragmentation extrême. • Exemple: Au lieu de traiter 10 catégories de professions, on peut parfois en créer 4 (p. ex. agriculteurs/artisans–commerçants/cadres-employés non manuels/ouvriers-employés manuels). La variance est alors plus concentrée, et la relation statistique avec une autre variable (niveau de diplôme, préférences politiques) peut devenir plus nette. • Référence: Agresti (2007) souligne que le regroupement des modalités peut améliorer la stabilité des estimateurs et la compréhension des tableaux de contingence. ■ Binariser une variable • Objectif: Faire émerger un contraste clair (p. ex. « fume» vs. «ne fume pas»), ou toute autre dichotomie pour répondre à une question précise (p. ex. « diplômé du supérieur » vs. «non diplômé du supérieur»). • Avantage: Simplifie l’analyse, permet d’utiliser des méthodes statistiques adaptées au binaire (régression logistique, tests de proportions, etc.). • Inconvénient: Perte d’information potentiellement significative (p. ex. différence entre bac+2 et doctorat réduite à «diplômé»).
  • 32.
    +Recoder les qualis Structurationd’une variable unique en matrice binaire (dense ou sparse) ■Lorsque vous transformez une variable à plusieurs modalités (surtout si elle est multiple) en variables indicatrices (ou «dummy variables»), vous obtenez une matrice binaire où chaque colonne représente une modalité. Dans certains cas, cette matrice est : • Dense: La plupart des individus ont la modalité «1» pour de nombreuses colonnes (cas plus rare). • Sparse: La plupart des valeurs sont «0», et seules quelques observations ont la modalité «1» (cas fréquent, par exemple codes de produits, codes de régions, etc.). Le choix entre conserver la variable initiale (avec n modalités) ou la découper en indicatrices dépend du modèle statistique et de la technique d’analyse (p. ex. regressions linéaires vs. arbres de décision).
  • 33.
    +Recoder les qualis Attentionaux variables numériques qui sont en réalité qualitatives ■Il arrive qu’une variable composée de chiffres soit, en réalité, une information catégorielle : • Exemple 1: Codes-barres de produits: chaque code est unique et ne sert pas de grandeur numérique (la différence 123456 et 123457 n’a pas de sens statistique direct). • Exemple 2: Numéro INSEE, numéro de sécurité sociale, matricule d’étudiant, numéro de département, etc. • Pour le numéro de département, on peut malgré tout parfois le regrouper en régions, ou en classes rurales/urbaines. Pour d’autres types de codes (p. ex. identifiants uniques), la seule chose à faire est souvent de les transformer en variables dummies si l’on souhaite coder leur présence/absence dans un ensemble (par ex. identifier si un produit particulier est cité). Conclusion:Toujours déterminer si la variable chiffrée (0, 1, 2, etc.) correspond effectivement à une échelle numérique ou à des catégories. Si c’est une échelle numérique, on peut utiliser des méthodes quantitatives (moyennes, écarts-types). Sinon, on traite ces chiffres comme des modalités qualitatives (pas de moyenne à interpréter, mais comptage des occurrences).
  • 34.
    + Recodage de date Conversionde formats de date ■Les dates peuvent se trouver à l’origine sous différents formats • Harmoniser le • Convertir des dates issues d’un format texte (string) vers un véritable objet date. Ajustement de fuseaux horaires ou passages d’une base de temps à une autre • Normaliser toutes les dates/horaires dans un fuseau de référence (ex. UTC). • Conserver l’information sur le fuseau dans un champ séparé, si besoin de reconstituer l’heure locale. Le timestamp ou «nombre de secondes (ou jours) écoulés depuis une origine» On définit un point de départ (souvent 1er janvier 1970 en informatique. Calculer un âge, une durée ou un temps écoulé Soustraire deux dates pour obtenir la durée entre elles. Par exemple, « 2023-02-14 » moins « 2022-02-14 » = 365 jours (ou 1 an). Indicateurs temporels (index, rank) Classer les dates dans l’ordre chronologique et attribuer un rang (1er événement, 2 , 3 , …) pour fixer une série ᵉ ᵉ étapes. Extraction de la partie composante (année, trimestre, mois, jour, jour de la semaine) Découper en segments temporels égaux ou inégaux selon des dates signiicatives (ex. vacances, périodes de l’année) Regrouper en aggrégat temporel supérieur (mois > trimestre > année.
  • 35.
    +Recoder un texte Untexte est un ensemble de mots (variable qualitatives) dont l’ordre d’apparition compte Texte > Résumé thématique (Quali unique ouverte ou fermé) > Texte > Quali multiple ouverte ou fermé > Texte > Matrice de mots > Réduction dimensionnelle > LDA Texte > Embedding réduction dimensionnelle du dictionnaire de mot > Recodage supervisé
  • 36.
    +Regrouper les données 1.Identifier la variable qualitative hiérarchique de regroupement 2a.Identifier les fonctions de synthèse quantitative •count() (COUNT) •sum() (SUM) •mean() (AVERAGE) •median() (MEDIAN) •min() (MIN) •max() (MAX) •std() (STDEV ou STDEV.S) •quantile() (PERCENTILE ou QUARTILE) 2c. Identifier les fonctions qualitative de synthèse ■count() (COUNTA) Compte le nombre d’observations non vides dans un ensemble d données. ■nunique() (COUNTUNIQUE) Calcule le nombre de valeurs distinctes dans une plage. ■mode() (MODE.SNGL) Identifie la modalité la plus fréquente dans un ensemble de données. ■unique() (UNIQUE) Extrait la liste des valeurs uniques présentes dans une plage de données. ■textjoin() (TEXTJOIN) Concatène plusieurs valeurs textuelles en une seule chaîne, en insérant un délimiteur choisi (par exemple, une virgule. > Concept de variables appariés et non appariés
  • 37.
    +TP 2 –Analyse Monovarié et Bivariée
  • 38.
    +Analyser les données 1.Analyse monovariée - Qualitative (Répartition décroissante) - Quantitative discrète - Constante ou linéaire - Géométrique - Binomiale et/ou de Poisson - Quantative continue - Boite à moustache - Loi normale - Loi de Pareto 2. Analyse Bi Variée - Quali/Quali (dénombrement double) - Quali/Quanti (Analyse de la covariation) - Quanti/Quanti (Corrélation) - Temporel
  • 39.
    + Principes de datavisualisation multiples ■Les éléments signifiants quantitatifs ■Une aire ■Epaisseur du trait ■Couleur dégradée ■Les éléments signifiants qualitatifs/discrets ■Couleur multiple ■forme ■Les indicateurs globaux ■ Moyenne, total etc ■ Le choix des données ■ Transformation (logistique) ■ Le type de formes ■ Les axes (origine <>0, ordre des catégories) ■ Les grilles ■ Les fonds ■ Les titres et légendes (situées) ■ Les filtres Les unités Le fond
  • 40.
    + Grouper, filtrer etset dynamique Grouper des données (les Tableaux croisés dynamique) Établir des filtres interactifs Repérer des ensembles de données Manuel Dynamique Animation Annotation et infobulles
  • 41.
  • 42.
  • 43.
  • 44.