訓練與評估
Document AI 可讓您使用自有訓練資料訓練新的處理器版本,並根據自有測試資料評估處理器版本的品質。
如果您想使用自訂處理器,這個方法就非常實用。Document AI 針對您的文件類型提供處理器,但您可以進階訓練自訂版本,以滿足需求。
訓練和評估通常會同步進行,以便反覆運算,最終產生高品質且實用的處理器版本。
Document AI
Document AI 可讓您建構自己的自訂擷取器,從特定類型的文件中擷取實體,例如菜單中的項目,或是履歷表中的姓名和聯絡資訊。
與其他處理器不同,自訂處理器不會隨附任何預先訓練的處理器版本,因此必須從頭訓練版本,才能處理文件。
如要開始使用 Document AI,請參閱「建立自訂處理器」。
進階訓練處理器
您可以進階訓練新版處理器,提高資料準確度、從文件中擷取其他自訂欄位,以及新增語言支援。
升級訓練作業會對 Google 預先訓練的處理器版本套用遷移學習,通常需要的資料量會少於從頭開始訓練。
如要開始,請參閱「對預先訓練的處理器展開進階訓練」。
支援的處理器
並非所有專用處理器都支援升級訓練。以下是支援訓練的處理器。
資料注意事項和建議
資料的品質和數量會決定訓練、再訓練和評估的品質。
取得一組具代表性的實際文件,並提供足夠的高品質標籤,通常是整個流程中最耗時且耗費資源的部分。
文件數量
如果所有文件格式相似 (例如變異程度極低的固定表單),則只需較少文件即可達到準確度。變異程度越高,所需文件就越多。
下圖提供粗略估計,說明自訂文件擷取工具達到特定品質分數所需的檔案數量。
變化較小 | 變化較大 |
---|---|
![]() |
![]() |
資料標籤
請考慮標記文件的選項,並確保有足夠的資源可為資料集中的文件加上註解。
訓練模型
自訂擷取器處理器可根據特定用途和可用的訓練資料,使用不同模型類型。
- 自訂模型:使用加上標籤的訓練資料的模型。
- 以範本為基礎:版面配置固定的文件。
- 以模型為基礎:版面配置變化量適中的文件。
- 生成式 AI 模型:以預先訓練的基礎模型為基礎,只需進行少量額外訓練。
下表說明各模型類型對應的使用案例。
自訂模型 | 生成式 AI | ||
---|---|---|---|
以範本為準 | 以模型為基礎 | ||
版面配置變化 | 無 | 低至中 | 高 |
任意形式文字的數量 (例如合約中的段落) | 低 | 低 | 高 |
所需訓練資料量 | 低 | 高 | 低 |
訓練資料有限時的準確度 | 較高 | 較低 | 較高 |
瞭解如何使用屬性說明微調處理器。
使用其他處理器的時機
在下列情況中,您可能需要考慮 Document AI Document AI Workbench 以外的選項,或調整工作流程。
- Document AI Workbench 不支援特定文字格式的輸入內容 (例如 .txt、.html、.docx、.md 等)。考慮使用 Google Cloud中的其他預先建構或自訂語言處理服務,例如 Cloud Natural Language API。
- 自訂文件擷取器結構定義最多支援 150 個實體標籤。如果您的業務邏輯需要在結構定義中納入超過 150 個實體,建議訓練多個處理器,每個處理器鎖定實體的子集。
如何訓練處理器
假設您已建立支援訓練或進階訓練的處理器,並為資料集加上標籤,即可從頭開始訓練新的處理器版本。您也可以根據現有版本對新的處理器版本進行進階訓練。
訓練處理器版本
網路使用者介面
前往 Google Cloud 控制台的處理器「Train」(訓練) 分頁。
按一下「編輯結構定義」,開啟「管理標籤」頁面。驗證處理器的標籤。
訓練時啟用的標籤會決定新版處理器擷取的實體。如果標籤在結構定義中處於非使用中狀態,即使文件已加上標籤,處理器版本也不會擷取該標籤。
在「Train」(訓練) 分頁中,按一下「View Label Stats」(查看標籤統計資料),然後驗證測試和訓練集。系統會排除自動加上標籤、未加上標籤或未指派的文件,不將其用於訓練和評估。
按一下「訓練新版本」。
「版本名稱」會定義
processorVersion
的name
欄位。按一下「開始訓練」,然後等待系統訓練及評估新版處理器。
您可以在「管理版本」分頁中監控訓練進度:
按一下「評估與測試」分頁,查看新版處理器在測試集上的成效。詳情請參閱「評估處理器版本」。
Python
詳情請參閱 Document AI Python API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
部署及使用處理器版本
您可以部署及管理處理器版本,就像其他處理器版本一樣。詳情請參閱「管理處理器版本」。
部署完成後,您可以傳送處理要求至自訂處理器。
停用或刪除處理器
如果不想再使用處理器,可以停用或刪除。如果停用處理器,可以重新啟用。處理器刪除後就無法復原。
在左側的「Document AI」面板中,按一下「My processors」(我的處理器)。
按一下處理器名稱右側的垂直三點圖示,按一下「停用處理器」或「刪除處理器」。
詳情請參閱「管理處理器版本」。
訓練資料加密
Document AI 訓練資料會儲存在 Cloud Storage 中,並可視需要使用客戶管理的加密金鑰加密。
刪除訓練資料
Document AI 訓練工作完成後,儲存在 Cloud Storage 中的所有訓練資料會在兩天的保留期限過後失效。後續的資料刪除活動會遵循「資料刪除 Google Cloud」一節所述程序。
定價
訓練或進修課程皆不收費。您需要支付主機和預測費用。 詳情請參閱「Document AI 定價」。