本文說明在 Vertex AI 中使用 AutoML、自訂訓練、Vertex AI 上的 Ray 訓練模型,與使用 BigQuery ML 訓練模型的主要差異。
使用 AutoML 建立及訓練模型,僅需投入少量技術資源。您可以使用 AutoML 快速製作模型原型,並在投入開發作業前探索新資料集。舉例來說,您可以藉此瞭解哪些特徵最適合特定資料集。
透過自訂訓練,您可以建立經過最佳化的訓練應用程式,以達成目標成果。您可以完全掌控訓練應用程式功能。也就是說,您可以指定任何目標、使用任何演算法、開發自己的損失函數或指標,或是進行任何其他自訂作業。
透過 Vertex AI 上的 Ray,您可以在 Google Cloud 基礎架構上使用 Ray 的分散式運算架構。Vertex AI 上的 Ray 提供代管環境,可設定運算資源、與 Vertex AI Inference 和 BigQuery 等服務整合,以及彈性的網路選項,方便您開發及執行分散式工作負載。
您可以使用 BigQuery,直接在 BigQuery 中使用 BigQuery 資料訓練模型。您可以使用 SQL 指令快速建立模型,並用來取得批次推論結果。
如要比較各項服務所需的功能和專業知識,請參閱下表。
AutoML | 自訂訓練 | Ray on Vertex AI | BigQuery ML | |
---|---|---|---|---|
需要資料科學專業知識 | 否 | 可以,開發訓練應用程式,以及執行特徵工程等資料準備作業。 | 瞭解機器學習概念和資料科學工作流程,對您很有幫助。 | 否 |
需要程式設計能力 | 否,AutoML 無需程式碼。 | 是,開發訓練應用程式時需要用到。 | 是。 | 是。 |
訓練模型的時間 | 降低。您不需要準備大量資料,也不必自行開發。 | 更高。您需要準備更多資料,並開發訓練應用程式。使用分散式訓練可縮短模型訓練時間。 | 訓練時間取決於程式碼邏輯 (資料準備和訓練) 和資源佈建時間。 | 降低。您不需要建構批次推論或模型訓練所需的基礎架構,因為 BigQuery ML 會運用 BigQuery 計算引擎,因此模型開發速度會加快。這有助於加快訓練、評估和推論速度。 |
機器學習目標的限制 | 可以。您必須指定 AutoML 預先定義的目標。 | 否 | 否 | 是 |
可透過超參數調整手動提升模型效能 | 否。AutoML 會自動調整超參數,但您無法修改使用的值。 | 可以。您可以在每次訓練期間調整模型,進行實驗和比較。 | 可以。由於您提供的是自訂訓練程式碼,因此可以在 Vertex AI 上啟動 Ray 工作前,手動設定或調整超參數的值。 | 可以。使用 `CREATE MODEL` 陳述式訓練 ML 模型時,BigQuery ML 支援超參數微調。 |
可控制訓練環境的各個層面 | 有限。如果是圖片和表格資料集,您可以指定訓練的節點時數,以及是否允許提早停止訓練。 | 可以。您可以指定環境的各個層面,例如 Compute Engine 機器類型、磁碟大小、機器學習架構和節點數量,以及要用於訓練的 Docker 映像檔。 | 可以。您可以大幅控管訓練環境的各個層面。舉例來說,您可以將自己的自訂 Docker 容器映像檔帶到 Vertex AI 上的 Ray 叢集。建立 Ray 叢集時,您可以指定頭部節點和工作站節點的機器類型,包括要使用的加速器 (GPU) 數量和類型等。 | 否 |
資料大小限制 |
可以。AutoML 使用代管資料集,資料大小限制會因資料集類型而異。如需具體做法,請參閱下列主題: |
非受管理資料集則否。受管理資料集與在 BigQuery 中建立及代管的受管理資料集物件具有相同限制,且用於訓練 AutoML 模型。 | 否。不過,BigQuery 讀取作業的回應大小上限為 10 GB。這是 BigQuery API 回應大小的限制,不一定是 Ray on Vertex AI 可透過疊代或平行查詢處理的 BigQuery 資料總量限制。 | 可以。BigQuery ML 會根據每個專案的狀況限定適當的配額。詳情請參閱「配額與限制」。 |
後續步驟
- 選擇入門教學課程,開始使用 Vertex AI Training。
- 進一步瞭解如何訓練 AutoML 模型。
- 瞭解如何使用 Python 建立自訂訓練工作。
- 進一步瞭解 Vertex AI 上的 Ray。