Ajouter des aspects Dataplex Universal Catalog en fonction des insights issus des profils de données

Cette page explique comment ajouter automatiquement des aspects Dataplex Universal Catalog à vos données une fois que la protection des données sensibles a profilé vos ressources. Cette page fournit également des exemples de requêtes que vous pouvez utiliser pour trouver des données dans votre organisation et vos projets avec des valeurs d'aspect spécifiques.

Cette fonctionnalité est utile si vous souhaitez enrichir vos métadonnées dans Dataplex Universal Catalog avec des insights collectés à partir des profils de données de la protection des données sensibles. Les aspects générés incluent les insights suivants :

  • Niveau de sensibilité calculé pour la table ou l'ensemble de données
  • Niveau de risque lié aux données calculé pour la table ou l'ensemble de données
  • Types d'informations (infoTypes) détectés dans le tableau ou l'ensemble de données

Les insights issus des profils de données Sensitive Data Protection peuvent vous aider à utiliser le catalogue universel Dataplex pour découvrir les données sensibles et à haut risque dans votre organisation. Utilisez ces insights pour prendre des décisions éclairées sur la façon de gérer et de gouverner vos données.

À propos des profils de données

Vous pouvez configurer la protection des données sensibles pour qu'elle génère automatiquement des profils sur les données d'une organisation, d'un dossier ou d'un projet. Les profils de données contiennent des métriques et des métadonnées relatives à vos données, et vous permettent de déterminer l'emplacement des données sensibles et à haut risque. La protection des données sensibles signale ces métriques à différents niveaux de détail.

Vous pouvez envoyer des profils de données à d'autres services Google Cloud , tels que Dataplex Universal Catalog, Pub/Sub, Security Command Center et Google Security Operations, pour enrichir vos workflows de gouvernance des données, d'alertes et de sécurité.

À propos de Dataplex Universal Catalog

Dataplex Universal Catalog fournit un inventaire unifié des ressources Google Cloud .

Dataplex Universal Catalog vous permet d'utiliser des aspects pour ajouter des métadonnées métier et techniques à vos données afin de capturer le contexte et les connaissances sur vos ressources. Vous pouvez ensuite rechercher et découvrir des données dans votre organisation, et activer la gouvernance des données sur vos composants de données. Pour en savoir plus, consultez Aspects.

Ressources compatibles

La protection des données sensibles peut associer automatiquement des aspects aux entrées Dataplex Universal Catalog pour les ressources suivantes :

  • les tables BigQuery
  • Tables Cloud SQL

  • Ensembles de données Vertex AI créés à partir de tables BigQuery

Dataplex Universal Catalog n'ingère pas les buckets Cloud Storage. Cette fonctionnalité n'est donc pas disponible lorsque vous profilez des données Cloud Storage.

Fonctionnement

Voici le workflow général permettant de créer automatiquement des aspects Dataplex Universal Catalog en fonction des profils de données :

  1. Créez ou modifiez une configuration d'analyse pour un type de ressource compatible.

  2. À l'étape Ajouter des actions, assurez-vous que l'action Envoyer au catalogue Dataplex sous forme d'aspects est activée.

    Si vous créez une configuration d'analyse, cette action est activée par défaut.

    Si vous modifiez une configuration d'analyse, activez cette action.

La protection des données sensibles ajoute ou met à jour l'aspect Sensitive Data Protection profile de l'entrée Dataplex Universal Catalog pour chaque ressource compatible que vous profilez. Vous pouvez ensuite rechercher dans le catalogue universel Dataplex toutes les données de votre organisation ou de votre projet avec des valeurs d'aspect spécifiques.

Lorsque vous activez l'action Envoyer au catalogue Dataplex sous forme d'aspects, la protection des données sensibles l'applique uniquement aux profils nouveaux et modifiés. Les profils existants qui ne sont pas mis à jour ne sont pas envoyés à Dataplex Universal Catalog.

Champs de premier niveau

L'aspect résultant pour une table profilée peut comporter les champs de premier niveau suivants :

Nom à afficher Exemple de valeur Description
Sensitivity MODERATE Le niveau de sensibilité calculé de la table
Risk MODERATE Le niveau de risque lié aux données calculé de la table
InfoTypes
  • infoType : CREDIT_CARD_NUMBER
  • infoType : PHONE_NUMBER
  • infoType : US_SOCIAL_SECURITY_NUMBER
Liste de tous les infoTypes trouvés dans le tableau, y compris les infoTypes prédits et les autres infoTypes. Ce champ est inclus si au moins un infoType a été détecté dans le tableau.
Column InfoTypes
  • infoType : CREDIT_CARD_NUMBER
  • infoType : PHONE_NUMBER
Liste de tous les infoTypes prédits trouvés dans toutes les colonnes du tableau. Ce champ est inclus si au moins un infoType prédit a été détecté dans le tableau.
Project Profile Consultez les sections Profil de projet et profil d'organisation sur cette page. Inclus si la ressource a été profilée à l'aide d'une configuration d'analyse au niveau du projet.
Organization Profile Consultez les sections Profil de projet et profil d'organisation sur cette page. Inclus si la ressource a été profilée à l'aide d'une configuration d'analyse au niveau de l'organisation ou du dossier.

Si la ressource a été profilée à la fois au niveau du projet et au niveau de l'organisation ou du dossier, Sensitive Data Protection agrège les valeurs des deux profils. L'aspect fournit une union des infoTypes détectés et utilise les niveaux de sensibilité et de risque liés aux données les plus élevés des deux profils.

Par exemple, supposons que le profil au niveau du projet évalue la sensibilité de la ressource comme MODERATE et que le profil au niveau de l'organisation l'évalue comme LOW. Dans ce cas, la valeur du champ Sensitivity de premier niveau de l'aspect est MODERATE.

Champs de profil de projet et d'organisation

L'aspect Sensitive Data Protection profile obtenu inclut un ou les deux champs de premier niveau suivants, selon le niveau auquel la ressource a été profilée :

Project Profile
Inclus dans l'aspect si la ressource a été profilée à l'aide d'une configuration d'analyse au niveau du projet
Organization Profile
Inclus dans l'aspect si la ressource a été profilée à l'aide d'une configuration d'analyse au niveau de l'organisation ou d'un dossier

Si la ressource a été profilée à la fois au niveau du projet et au niveau de l'organisation ou du dossier, l'aspect obtenu comporte les champs Project Profile et Organization Profile.

Chaque champ Project Profile ou Organization Profile contient des champs Sensitivity et Risk imbriqués avec les valeurs listées dans le profil de données. Si le profil de données comporte des infoTypes prédits et d'autres infoTypes listés, ils sont également disponibles en tant que champs Column InfoTypes et InfoTypes imbriqués. De plus, chaque champ Project Profile ou Organization Profile contient les champs imbriqués suivants :

Profile

Nom complet de la ressource du profil de données. Exemples :

  • Profil au niveau du projet : projects/PROJECT_ID/locations/LOCATION/tableDataProfiles/PROFILE_ID
  • Profil au niveau de l'organisation ou du dossier : organizations/ORGANIZATION_ID/locations/LOCATION/tableDataProfiles/PROFILE_ID
Profile Link

Lien vers le profil dans la console Google Cloud . Exemples :

  • Profil au niveau du projet : https://console.cloud.google.com/security/sensitive-data-protection/projects/PROJECT_ID/locations/LOCATION/tableDataProfiles/PROFILE_ID
  • Profil au niveau de l'organisation ou du dossier : https://console.cloud.google.com/security/sensitive-data-protection/organizations/ORGANIZATION_ID/locations/LOCATION/tableDataProfiles/PROFILE_ID

Activer l'API Dataplex

L'API Dataplex doit être activée dans chaque projet contenant des ressources auxquelles vous souhaitez ajouter des aspects. Cette section décrit comment activer l'API Dataplex dans un seul projet ou dans tous les projets d'une organisation ou d'un dossier.

Activer l'API Dataplex dans un seul projet

  1. Sélectionnez le projet dans lequel vous souhaitez activer l'API Dataplex.

    Accéder au sélecteur de projet

  2. Enable the Dataplex API.

    Enable the API

Activer l'API Dataplex dans tous les projets d'une organisation ou d'un dossier

Cette section fournit un script qui recherche tous les projets d'une organisation ou d'un dossier, et active l'API Dataplex dans chacun de ces projets.

Pour obtenir les autorisations nécessaires pour activer l'API Dataplex dans tous les projets d'une organisation ou d'un dossier, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour activer l'API Dataplex dans tous les projets d'une organisation ou d'un dossier. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour activer l'API Dataplex dans tous les projets d'une organisation ou d'un dossier :

  • Pour rechercher tous les projets d'une organisation ou d'un dossier : cloudasset.assets.searchAllResources sur l'organisation ou le dossier
  • Pour activer l'API Dataplex : serviceusage.services.use sur chaque projet dans lequel vous souhaitez activer l'API Dataplex

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour activer l'API Dataplex dans tous les projets d'une organisation ou d'un dossier, procédez comme suit :

  1. In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

    At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

  2. Exécutez le script suivant :

    #!/bin/bash
    
    RESOURCE_ID="RESOURCE_ID"
    
    gcloud asset search-all-resources \
        --scope="RESOURCE_TYPE/$RESOURCE_ID" \
        --asset-types="cloudresourcemanager.googleapis.com/Project" \
        --format="value(name)" |
        while read project_name; do
          project_id=$(echo "$project_name" | sed 's|.*/||')
          gcloud services enable "dataplex.googleapis.com" --project="$project_id"
        done
    

    Remplacez les éléments suivants :

    • RESOURCE_ID : numéro de l'organisation ou du dossier de la ressource contenant les projets
    • RESOURCE_TYPE : type de ressource contenant les projets (organizations ou folders)
  3. Rôles et autorisations pour afficher les aspects

    Pour obtenir les autorisations nécessaires pour rechercher des aspects associés à vos ressources, demandez à votre administrateur de vous accorder les rôles IAM suivants sur les ressources :

    Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

    Ces rôles prédéfinis contiennent les autorisations requises pour rechercher les aspects associés à vos ressources. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

    Autorisations requises

    Les autorisations suivantes sont requises pour rechercher les aspects associés à vos ressources :

    • Afficher les entrées Dataplex Universal Catalog :
      • dataplex.entries.list
      • dataplex.entries.get
    • Afficher les ensembles de données et les tables BigQuery :
      • bigquery.datasets.get
      • bigquery.tables.get
    • Affichez les ensembles de données Vertex AI : aiplatform.datasets.get

    Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

    Pour en savoir plus sur les autorisations requises pour utiliser Dataplex Universal Catalog, consultez Autorisations IAM de Dataplex Universal Catalog.

    Rechercher l'aspect généré pour un profil de données de table donné

    1. Dans la console Google Cloud , accédez à la page Rechercher de Dataplex Universal Catalog.

      Accéder à la recherche

    2. Sélectionnez votre organisation ou votre projet.

    3. Pour Choisir une plate-forme de recherche, sélectionnez Dataplex Catalog comme mode de recherche.

    4. Dans le champ Rechercher, saisissez ce qui suit :

      name:TABLE_ID
      

      Remplacez TABLE_ID par l'ID de la table qui a été profilée.

    5. Dans la liste qui s'affiche, cliquez sur le nom de la table. Les détails de la table BigQuery s'affichent. Tous les aspects Sensitive Data Protection profile associés sont affichés dans la section Tags et aspects facultatifs.

    Pour savoir comment rechercher des ressources, consultez Rechercher des ressources dans Dataplex Universal Catalog.

    Exemples de requêtes de recherche

    Cette section fournit des exemples de requêtes de recherche que vous pouvez utiliser dans Dataplex Universal Catalog pour trouver des données dans votre organisation ou votre projet avec des valeurs d'aspect spécifiques.

    Vous ne pouvez trouver que les données auxquelles vous avez accès. L'accès aux données est contrôlé par des autorisations IAM. Pour en savoir plus, consultez Rôles et autorisations pour afficher les aspects sur cette page.

    Vous pouvez saisir ces exemples de requêtes dans le champ Rechercher de la page Rechercher de Dataplex Universal Catalog.

    Accéder à la recherche

    Pour savoir comment formuler les requêtes, consultez Syntaxe de recherche pour Dataplex Universal Catalog.

    Trouver toutes les ressources qui présentent l'aspect "Profil de données de protection des données sensibles"

    aspect:sensitive-data-protection-profile
    

    Rechercher toutes les ressources avec un score de sensibilité donné

    aspect:sensitive-data-protection-profile.sensitivity=SENSITIVITY_SCORE
    

    Remplacez SENSITIVITY_SCORE par HIGH, MODERATE, UNKNOWN ou LOW.

    Pour en savoir plus, consultez Niveaux de sensibilité et de risques liés aux données.

    Rechercher toutes les ressources avec un score de risque donné

    aspect:sensitive-data-protection-profile.risk=DATA_RISK_LEVEL
    

    Remplacez DATA_RISK_LEVEL par HIGH, MODERATE, UNKNOWN ou LOW.

    Pour en savoir plus, consultez Niveaux de sensibilité et de risques liés aux données.

    Rechercher toutes les ressources qui ont un profil au niveau du projet

    aspect:sensitive-data-protection-profile.projectProfile
    

    Rechercher toutes les ressources qui ont un profil au niveau de l'organisation

    aspect:sensitive-data-protection-profile.organizationProfile