本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon S3 Tables 和資料表儲存貯體
Amazon S3 Tables 提供針對分析工作負載最佳化的 S3 儲存體,其功能旨在持續改善查詢效能,並降低資料表的儲存成本。S3 Tables 是專為儲存表格式資料而打造,例如每日購買交易、串流感應器資料或廣告曝光。表格式資料代表資料欄和資料列中的資料,例如資料庫資料表中的資料。
S3 Tables 中的資料會存放在新的儲存貯體類型中:資料表儲存貯體,其會將資料表儲存為子資源。資料表儲存貯體支援以 Apache Iceberg 格式儲存資料表。您可以使用標準 SQL 陳述式,透過支援 Iceberg 的查詢引擎 (例如 Amazon Athena、Amazon Redshift 和 Apache Spark) 來查詢資料表。
主題
S3 Tables 的功能
- 專為資料表所打造的儲存體
-
S3 資料表儲存貯體是專為資料表設計而成。相較於 S3 一般用途儲存貯體中的自我管理資料表,資料表儲存貯體可提供更高的每秒交易量 (TPS) 和更佳的查詢輸送量。資料表儲存貯體可提供與其他 Amazon S3 儲存貯體類型相同的耐用性、可用性和可擴展性。
- Apache Iceberg 的內建支援
-
資料表儲存貯體中的資料表會以 Apache Iceberg
格式儲存。您可以在支援 Iceberg 的查詢引擎中使用標準 SQL 來查詢這些資料表。Iceberg 具有可最佳化查詢效能的各種功能,包括結構描述演變和分割區演變。 您可以透過 Iceberg 變更資料的組織方式,使其可以隨著時間不斷發展,而無需重寫查詢或重建資料結構。Iceberg 旨在透過其對交易的支援,協助確保資料一致性和可靠性。為了協助您修正問題或執行時間歷程查詢,您可以追蹤資料如何隨時間變更,並復原至歷史版本。
- 自動化資料表最佳化
-
為了針對查詢最佳化資料表,S3 會持續執行自動維護操作,例如壓縮、快照管理和未參考檔案移除。這些操作會將較小的物件壓縮為數量較少但大小較大的檔案,以增加資料表效能。維護操作也會清理未使用的物件,以降低您的儲存成本。此自動化維護可減少手動資料表維護的需求,進而簡化大規模資料湖的操作。您可以針對每個資料表和資料表儲存貯體自訂維護組態。
- 存取管理與安全性
-
您可以使用 AWS Organizations中的 AWS Identity and Access Management (IAM) 和服務控制政策來管理資料表儲存貯體和個別資料表的存取權。S3 Tables 使用與 Amazon S3 不同的服務命名空間:s3tables 命名空間。因此,您可以專門為 S3 Tables 服務及其資源設計政策。您可以設計政策,以授予個別資料表、資料表命名空間內所有資料表或整個資料表儲存貯體的存取權。資料表儲存貯體一律會啟用所有 Amazon S3 封鎖公開存取設定,且無法停用。
- 與 AWS 分析服務整合
-
您可以透過 Amazon S3 S3主控台自動整合 Amazon S3 資料表儲存貯體與 Amazon SageMaker Lakehouse。此整合可讓 AWS 分析服務透過 自動探索和存取您的資料表資料 AWS Glue Data Catalog。整合之後,您可以使用 Amazon Athena、Amazon Redshift、QuickSight 等分析服務來使用資料表。如需整合如何運作的詳細資訊,請參閱 搭配使用 Amazon S3 Tables 與 AWS 分析服務。
相關服務
您可以 AWS 服務 搭配 S3 Tables 使用下列項目,以支援您的特定分析應用程式。
-
Amazon Athena - Athena 是一種互動式查詢服務,可讓您使用標準 SQL 直接在 Amazon S3 中分析資料。您還可以使用 Athena 以互動方式使用 Apache Spark 執行資料分析,而不必規劃、設定或管理資源。當您在 Athena 執行 Apache Spark 應用程式時,可提交 Spark 程式碼進行處理,並直接接收結果。
-
AWS Glue – AWS Glue 是一種無伺服器資料整合服務,可讓您探索、準備、移動和整合來自多個來源的資料。您可以使用 AWS Glue 進行分析、機器學習 (ML) 和應用程式開發。 AWS Glue 也包含用於撰寫、執行任務和實作業務工作流程的額外生產力和資料操作工具。
-
Amazon EMR – Amazon EMR 是受管叢集平台,可簡化在 上執行大數據架構,例如 Apache Hadoop和 Apache Spark, AWS 以處理和分析大量資料。
-
Amazon Redshift - Amazon Redshift 是一種在雲端的 PB 級資料倉儲服務。您可以使用 Amazon Redshift Serverless 來存取和分析資料,而無需佈建資料倉儲的所有組態。系統會自動佈建資源,並有智慧地擴展資料倉儲容量,即使是最嚴苛且無法預測的工作負載,也能為其提供快速的效能。資料倉儲閒置時不會產生費用,因此只需按實際用量支付費用。您可以在 Amazon Redshift 查詢編輯器 v2 或您最愛的商業智慧 (BI) 工具中立即載入資料並開始查詢。
-
QuickSight – QuickSight 是一種商業分析服務,可用來建置視覺化效果、執行臨機操作分析,以及快速從資料中取得商業洞見。QuickSight 使用 QuickSight 超快速、平行、記憶體內、計算引擎 (SPICE),無縫探索 AWS 資料來源並提供快速且回應的查詢效能。
-
AWS Lake Formation – Lake Formation 是一項受管服務,可簡化設定、保護和管理資料湖的程序。Lake Formation 可協助您探索資料來源,然後為資料進行目錄編製、清理和轉換。有了 Lake Formation,您可以在 AWS Glue Data Catalog中管理 Amazon S3 及其中繼資料上資料湖資料的精細存取控制。