為文件加上標籤

訓練、進階訓練或評估處理器版本時,必須使用加上標籤的文件資料集。

本頁面說明如何將處理器結構定義中的標籤套用至資料集中的匯入文件。

本頁假設您已建立處理器,且該處理器支援訓練、進階訓練或評估功能。如果處理器支援此功能,您現在會在 Google Cloud 控制台中看到「Train」(訓練) 分頁。這也假設您已建立資料集、匯入文件,並定義處理器結構定義。

生成式 AI 擷取作業的名稱欄位

欄位的命名方式會影響使用生成式 AI 擷取欄位的準確度。建議您在命名欄位時遵循下列最佳做法:

  • 使用與文件中所述相同的語言為欄位命名:舉例來說,如果文件中有一欄位描述為 Employer Address,則請將該欄位命名為 employer_address。請勿使用縮寫,例如 emplr_addr

  • 欄位名稱目前不支援空格:請改用 _ 代替空格。例如:First Name 會命名為 first_name

  • 重複執行名稱以提高準確度:Document AI 有限制,不允許變更欄位名稱。如要測試不同的名稱,請使用重新命名實體名稱工具,將舊實體名稱更新為資料集中的新名稱,然後匯入資料集、在處理器中啟用新實體,並停用或刪除現有欄位。

標籤選項

標示文件的選項如下:

在 Google Cloud 控制台中手動標示

在「Train」分頁中選取文件,即可開啟標註工具。

在標註工具左側的結構定義標籤清單中,選取「新增」符號,即可選取「邊界框」工具,在文件中標出實體並指派給標籤。

在下列螢幕截圖中,文件中的 EMPL_SSN EMPLR_ID_NUMBEREMPLR_NAME_ADDRESSFEDERAL_INCOME_TAX_WHSS_TAX_WHSS_WAGESWAGES_TIPS_OTHER_COMP 欄位已指派標籤。

label-process-1

使用「Bounding box」工具選取核取方塊實體時,請只選取核取方塊本身,不要選取任何相關文字。確認左側顯示的核取方塊實體已選取或取消選取,以符合文件中的內容。

label-process-2

標記父項-子項實體時,請勿標記父項實體。父項實體只是子項實體的容器。只標記子實體。父項實體會自動更新。

標記子實體時,請先標記第一個子實體,然後將相關子實體與該行建立關聯。您會在第一次為這類實體加上標籤時,在第二個子項實體中注意到這點。舉例來說,如果您在應付憑據中標示「說明」,這會與其他實體類似。不過,如果您接下來標記數量,系統會提示您選擇父項。

針對每個新委刊項選取「新上層實體」,重複上述步驟。

資料表最多可支援三層巢狀結構的父項/子項實體。基礎模型支援三個層級的欄位 (祖父、父、子),因此子項實體可以有一個層級的子項。如要進一步瞭解巢狀結構,請參閱「三層巢狀結構」。

快速表格

為表格加上標籤時,如果要一再標註每個資料列,可能會很費時。有個非常方便的工具可以複製資料列實體結構。請注意,這項功能僅適用於水平對齊的資料列。

  1. 首先,請照常為第一列加上標籤。
  2. 接著,將滑鼠游標懸停在代表資料列的父項實體上。選取「新增更多列」。該資料列會成為範本,用於建立更多資料列。

    label-process-3

  3. 選取表格的其餘區域。

    label-process-4

這項工具會推測註解,通常都能正常運作。對於無法處理的任何資料表,請手動加上註解。

在控制台中使用鍵盤快速鍵

如要查看可用的鍵盤快速鍵,請選取標註主控台右上方的 選單。畫面上會顯示鍵盤快速鍵清單,如下表所示。

動作 快速鍵
放大 Alt + = (在 macOS 上為 Option + =)
縮小 Alt + - (在 macOS 上為 Option + -)
縮放至適當大小 Alt + 0 鍵 (在 macOS 為 Option + 0 鍵)
捲動縮放 Alt + 捲動 (在 macOS 上為 Option + 捲動)
平移 捲動
反向平移 Shift + 捲動
拖曳平移 空格鍵 + 滑鼠拖曳
復原 Ctrl + Z 鍵 (在 macOS 上為 Control + Z 鍵)
重做 Ctrl + Shift + Z (在 macOS 上為 Control + Shift + Z)

自動加上標籤

如果可以使用的話,您可以使用現有版本的處理器開始標註。

  1. 您可以在匯入期間啟動自動標籤功能。所有文件都會使用指定的處理器版本加上註解。

    label-process-5

  2. 對於未加上標籤或已自動加上標籤的類別,您可以在匯入後啟動自動加上標籤功能。所有所選文件都會使用指定的處理器版本進行註解。

    label-process-6

如未將自動加上標籤的文件標示為已加上標籤,則無法對該文件進行訓練或進階訓練,也無法在測試集使用該文件。手動查看並修正自動標記的註解,然後選取「標示為已標記」來儲存修正結果。接著,您可以視需要指派文件。

匯入預先加上標籤的文件

您可以匯入 JSON Document 檔案。如果文件中的 entity 與處理器結構定義中的標籤相符,匯入工具就會將 entity 轉換為標籤例項。您可以透過多種方式取得 JSON 文件檔案:

標示文件的最佳做法

如要訓練高品質的處理器,就必須使用一致的標籤。建議您採取下列做法:

  • 建立標註操作說明:操作說明應包含常見和極端案例的範例。以下提供一些訣竅:

    • 說明應註解哪些欄位,以及如何確保標示一致。舉例來說,標示「金額」時,請指定是否要標示貨幣符號。如果標籤不一致,處理器品質就會降低。
    • 標記實體的所有出現位置,即使標籤類型為 REQUIRED_ONCEOPTIONAL_ONCE 也一樣。舉例來說,如果 invoice_id 在文件中出現兩次,請為所有出現的 invoice_id 加上標籤。
    • 一般來說,建議您先使用預設的「Bounding Box」(定界框) 工具標示。如果失敗,請使用文字選取工具。
    • 如果 OCR 無法正確偵測標籤的值,請勿手動修正值。這會導致無法用於訓練。

以下是標示操作說明的範例:

  • 訓練註解者:確保註解者瞭解並遵循規範,且不會出現任何系統性錯誤。其中一種方法是讓不同學員對同一組文件進行註解。訓練員隨後可以檢查每位學員的註解工作品質。您可能需要重複執行這項程序,直到訓練對象達到基準準確度為止。
  • 初步審查:新標註者為某個用途標註的前幾份 (約 10 份) 文件,應在大量文件標註前進行審查,以免需要大量更正錯誤。
  • 標註品質審查:標註工作相當費時,即使是受過訓練的標註人員也可能出錯。建議至少由一位受過訓練的註解者檢查註解。

重新同步處理資料集

重新同步處理可讓資料集的 Cloud Storage 資料夾與 Document AI 的中繼資料內部索引保持一致。如果您不小心變更 Cloud Storage 資料夾,並想要同步處理資料,這個方法就很實用。

如要重新同步處理:

在「Processor Details」分頁中,選取「Storage location」列旁的 ,然後選取「Re-sync Dataset」

label-process-8

使用須知:

  • 如果您從 Cloud Storage 資料夾中刪除文件,重新同步處理會將該文件從資料集中移除。
  • 如果您將文件新增至 Cloud Storage 資料夾,重新同步處理作業就不會將文件新增至資料集。如要新增文件,請匯入文件。
  • 如果您修改 Cloud Storage 資料夾中的文件標籤,重新同步處理會更新資料集中的文件標籤。

遷移資料集

匯入和匯出功能可讓您將資料集中的所有文件從一個處理器移到另一個處理器。如果您在不同的區域或 Google Cloud 專案中使用不同的處理器,或是在測試和實際生產環境,或一般離線使用環境中使用不同的處理器,這項功能就會很實用。

請注意,系統只會匯出文件及其標籤。資料集中繼資料 (例如處理器結構定義、文件指派 (訓練/測試/未指派) 和文件標註狀態 (已標註、未標註、自動標註) 等) 不會匯出。

複製及匯入資料集,然後訓練目標處理器,與訓練來源處理器的做法並不完全相同。這是因為訓練程序一開始會使用隨機值。使用 importProcessorVersion API 呼叫,在專案之間匯入/遷移完全相同的模型。這是將處理器遷移至較高層級環境 (例如從開發環境遷移至測試環境,再遷移至實際工作環境) 的最佳做法 (如果政策允許的話)。

匯出資料集

如要將所有文件匯出為 JSON Document 檔案並儲存至 Cloud Storage 資料夾,請選取「Export Dataset」

請注意以下幾點:

  1. 匯出期間會建立三個子資料夾:TestTrainUnassigned。系統會將文件放入這些子資料夾。

  2. 系統不會匯出文件的標示狀態。如果日後匯入文件,系統不會將這些文件標示為「自動標示」

  3. 如果您的 Cloud Storage 位於其他 Google Cloud 專案中,請務必授予存取權,讓 Document AI 能夠將檔案寫入該位置。具體來說,您必須將 Storage Object Creator 角色授予 Document AI 的核心服務代理 service-{project-id}@gcp-sa-prod-dai-core.iam.gserviceaccount.com。詳情請參閱「服務代理人」。

匯入資料集

程序與匯入文件相同。

選擇性標示使用者指南

選擇性標記功能可協助您找出要標記的文件,並提供相關建議。您可以建立多元的訓練和測試資料集,訓練具代表性的模型。每次執行選擇性標註作業時,系統會從資料集中選取最具多樣性的文件 (最多 30 份)。

取得建議的文件

  1. 建立 CDE 處理器並匯入文件。

    • 訓練集至少須有 100 個 (測試集則須有 25 個)。
    • 匯入足夠的文件並選擇標籤後,系統就會顯示資訊列。

    label-process-9

    label-process-10

  2. 如果 CDE 處理器沒有任何建議的文件,請匯入更多文件,以便在任一分割區中取得足夠的文件進行取樣。

    • 這樣一來,建議類別中的建議文件就會啟用。您應該可以手動要求建議的文件。
    • 頂端有新的篩選器,可篩除建議的文件。

    label-process-11

為建議的文件加上標籤

  1. 前往左側標籤清單面板中的「建議類別」,開始為這些文件加上標籤。

    label-process-12

  2. 如果處理器已完成訓練,請在資訊列中選取「自動標記」。為建議的文件加上標籤。

    label-process-13

  3. 當處理器提供建議文件時,您可以選取列上方的「立即查看」,前往該文件。所有自動加上標籤的文件都應經過審查,確保準確無誤。開始審查。

    label-process-14

標示完所有建議的文件後進行訓練

前往資訊列中的「立即訓練」,建議文件加上標籤後,您應該會看到下列資訊列,建議您進行訓練。

label-process-15

支援的功能和限制

功能 說明 支援
支援舊處理器 可能無法與舊版處理器搭配使用,且無法與先前匯入的資料集搭配運作