Поделиться через


Начало работы с обучаемыми классификаторами

Обучаемый классификатор Microsoft Purview — это инструмент, который можно обучить распознавать различные типы содержимого, предоставляя ему примеры для оценки. После обучения его можно использовать для идентификации элементов для применения меток конфиденциальности Office, политик соответствия требованиям связи и политик меток хранения.

Для реализации настраиваемого обучаемого классификатора требуется два шага:

  1. Укажите два набора выборочных данных (выбранных людьми).
    1. Набор, содержащий только элементы, принадлежащие категории.
    2. Набор, содержащий только элементы, которые не относятся к категории.
  2. Проверьте способность классификатора обнаруживать совпадения.

В этой статье объясняется, как создать и протестировать пользовательский классификатор.

Дополнительные сведения о различных типах классификаторов см. в статье Сведения о обучаемых классификаторах.

Важно!

Соответствие требованиям к обмену данными Microsoft Purview поддерживает использование только обучаемых классификаторов, предоставляемых корпорацией Майкрософт. Пользовательские обучаемые классификаторы не поддерживаются.

Предварительные требования

Лицензирование

Сведения о лицензировании см. в разделе

Разрешения

Чтобы использовать классификаторы в следующих сценариях, вам потребуются следующие разрешения:

Сценарий Необходимые разрешения роли
Политика меток хранения Управление записями
Управление хранением
Политика меток конфиденциальности Администратор безопасности
Администратор соответствия требованиям
Администратор данных соответствия требованиям
Политика соответствия требованиям к обмену данными Администратор управления внутренними рисками
Администратор надзорной проверки

Важно!

По умолчанию только пользователь, создающий пользовательский классификатор, может обучать его и просматривать прогнозы, сделанные этим классификатором.

Подготовка для настраиваемого обучаемого классификатора

Перед созданием настраиваемого обучаемого классификатора полезно понять, в чем дело.

Общий рабочий процесс

Дополнительные сведения об общем рабочем процессе создания настраиваемых обучаемых классификаторов см. в разделе Процесс создания настраиваемых обучаемых классификаторов.

Начальный контент

Чтобы обучаемый классификатор смог независимо и точно определить, что элемент принадлежит к определенной категории содержимого, необходимо представить ему множество примеров типа контента, назначаемого в категории. Такая подача примеров в обучаемый классификатор называется засеиванием. Человек должен выбрать начальное содержимое, и это содержимое должно включать два набора данных: один набор содержит только элементы, строго представляющие содержимое, которое классификатор предназначен для обнаружения (положительные примеры), а второй набор содержит элементы, которые явно не принадлежат (отрицательные выборки).

Для обучения классификатора требуется не менее 50 положительных выборок (до 500) и не менее 150 отрицательных выборок (до 1500). Чем больше выборок вы предоставите, тем более точными будут прогнозы, которые делает классификатор. Обучаемый классификатор обрабатывает до 2000 последних примеров (по созданным файлам метки даты и времени).

Совет

Для достижения наилучших результатов ищите в наборе примеров не менее 200 элементов, которые включают не менее 50 положительных примеров и не менее 150 отрицательных примеров.

Как создать обучаемый классификатор

В предварительной версии: Следующий процесс автоматизирует тестирование обучаемых классификаторов и сокращает рабочий процесс создания с 12 дней до двух дней. В некоторых случаях процесс может занять всего несколько часов.

  1. Соберите от 50 до 500 элементов начального содержимого, которые строго представляют данные, которые классификатор должен положительно идентифицировать как в категории. Список поддерживаемых типов файлов см. в статье Расширения имен файлов для обхода по умолчанию и проанализированные типы файлов в SharePoint Server.

  2. Соберите второй набор начального содержимого (от 150 до 1500 элементов), который представляет данные, которые не относятся к категории.

  3. Поместите положительное и отрицательное начальное содержимое в отдельные папки SharePoint. Каждая папка должна быть выделена для хранения только начального содержимого. Запишите URL-адрес сайта, библиотеки и папки для каждого набора.

    Совет

    Если вы создаете новый сайт и папку SharePoint для начальных данных, предоставьте по крайней мере час индексации этого расположения перед созданием обучаемого классификатора, использующего эти начальные данные.

  4. Войдите на портал Microsoft Purview с правами администратора соответствия требованиям или роли администратора безопасности и перейдите к разделуКлассификаторы классификации> данных защиты > от потери данных.

Важно!

Используемая учетная запись должна иметь доступ к папкам начального содержимого в SharePoint.

  1. Выберите вкладку Обучаемые классификаторы .

  2. Выберите Создать обучаемый классификатор.

  3. Добавьте источник положительных примеров: выберите сайт, библиотеку и URL-адрес папки SharePoint для начального содержимого, которое классификатор должен обнаружить, и нажмите кнопку Далее.

  4. Добавьте источник отрицательных примеров: выберите сайт, библиотеку и URL-адрес папки SharePoint для начального содержимого, которое классификатор должен игнорировать, и нажмите кнопку Далее.

  5. Просмотрите параметры и выберите Создать обучаемый классификатор.

  6. В течение 24 часов или менее обучаемый классификатор обрабатывает начальные данные и создает модель прогнозирования. Состояние классификатора во время обработки начальных данных — Выполняется. Когда классификатор завершит обработку начальных данных, состояние изменится на Обучение завершено, и элементы были протестированы.

  7. После завершения обучения и проверки элементов опубликуйте классификатор, выбрав Опубликовать для использования.

После публикации классификатора он будет доступен в виде условия для автоматической маркировки Office с метками конфиденциальности, политики автоматического применения меток хранения на основе условия и в разделе Соответствие требованиям к обмену данными.

Тестирование классификатора

После того как обучаемый классификатор обработает достаточно положительных и отрицательных выборок для создания модели прогнозирования, протестируйте прогнозы, которые он делает. При тестировании классификатора проверяется правильность его прогнозов. После того как классификатор обработает все данные, можно просмотреть результаты, чтобы проверить, является ли каждый прогноз правильным, неправильным или неопределенным. Корпорация Майкрософт использует эти отзывы в агрегированном виде для улучшения модели прогнозирования.

См. также