armazenamento padrão no Databricks

Esta página explica como funciona o armazenamento default no Databricks e como criar catálogos e objetos de dados que o utilizam.

O que é armazenamento default ?

O armazenamento padrão é uma plataforma de armazenamento de objetos totalmente padronizada que fornece armazenamento pronto para uso em sua account Databricks . Alguns recursos Databricks usam o armazenamento default como alternativa ao armazenamento externo.

O espaço de trabalho sem servidor usa o armazenamento default para armazenamento interno e workspace , bem como para o catálogo default que é criado com o workspace. Em um espaço de trabalho serverless , você pode criar catálogos adicionais no armazenamento default ou em seu próprio armazenamento de objetoscloud.

Tanto no espaço de trabalho clássico quanto no espaço de trabalho serverless , o armazenamento default é usado pelo recurso para armazenar itens como metadados do plano de controle, dados derivados, modelos e outros artefatos. Por exemplo, Clean Rooms, Data Classification, detecção de anomalia, Knowledge Assistant e restauração automática de sessão para Notebook serverless utilizam o armazenamento default de um workspace. Consulte a documentação do recurso individual para obter detalhes sobre o que cada repositório de recursos está no armazenamento default .

nota

Para obter informações sobre como monitorar os custos de armazenamento default em sua account, consulte Monitorar custos de armazenamento default.

Requisitos

A criação de catálogos no armazenamento default só está disponível no espaço de trabalhoserverless.
Por default, os catálogos que usam o armazenamento default só podem ser acessados a partir do workspace onde foram criados. Você pode conceder acesso a outros espaços de trabalho, incluindo o espaço de trabalho clássico, mas eles devem usar compute serverless para acessar os dados no catálogo. Consulte a vinculação workspace-catalog.
Você precisa ter privilégios CREATE CATALOG para criar um catálogo com armazenamento default . Consulte a referência de privilégiosUnity Catalog.
Se o seu cliente estiver usando o driver ODBC Databricks para acessar um catálogo de armazenamento default por trás de um firewall, você deverá configurar o firewall para permitir o acesso aos gateways de armazenamento regionais Databricks . Para obter detalhes sobre o endereço IP e o nome de domínio do armazenamento default , consulte Endereços IP e domínios para Databricks serviço e ativo.

Criar um novo catálogo

Conclua as etapas a seguir para criar um novo catálogo usando o armazenamento default:

Clique em Catálogo na barra lateral. O Catalog Explorer é exibido.
Clique em Criar catálogo . A caixa de diálogo Criar um novo catálogo é exibida.
Forneça um nome de catálogo que seja exclusivo em seu site account.
Selecione a opção para Usar o armazenamento default .
Clique em Criar .

No espaço de trabalho serverless, o senhor também pode usar o seguinte comando SQL para criar um novo catálogo no armazenamento default. Você não precisa especificar um local para o catálogo.

SQL
CREATE CATALOG [ IF NOT EXISTS ] catalog_name
    [ COMMENT comment ]

Trabalhe com o armazenamento default

Todas as interações com o armazenamento default requerem serverless, o Unity Catalog habilitado para compute.

Os recursos com suporte de armazenamento default usam o mesmo modelo de privilégios que outros objetos no Unity Catalog. Você precisa ter privilégios suficientes para criar, view, consultar ou modificar objetos de dados. Consulte a referência de privilégiosUnity Catalog.

Você trabalha com o armazenamento default criando e interagindo com tabelas gerenciadas e volumes gerenciados que têm o armazenamento default como base. Consulte tabelas gerenciadas do Unity Catalog para Delta Lake e Apache Iceberg e O que são volumes do Unity Catalog?.

O senhor pode usar o Catalog Explorer, o Notebook, o editor SQL e painéis para interagir com objetos de dados armazenados no armazenamento default.

Exemplo de tarefa

A seguir, exemplos de tarefas que o senhor pode concluir com o armazenamento default:

Carregar arquivos locais para um volume gerenciado ou criar uma tabela gerenciada. Consulte Trabalhar com arquivos em volumes Unity Catalog e Criar ou modificar uma tabela usando uploadde arquivos.
Consultar dados com o Notebook. Veja o tutorial: Consultar e visualizar dados de um Notebook.
Crie um painel. Consulte Criar um painel.
Consultar dados com SQL e programar SQL consultas. Consulte Escrever consultas e explorar dados no novo editor SQL.
Ingerir dados de um volume externo em uma tabela gerenciadora. Consulte Uso do Auto Loader com o Unity Catalog.
Ingerir dados em uma tabela gerenciar com Fivetran. Consulte Conectar-se ao Fivetran.
Use as ferramentas do site BI para explorar tabelas gerenciais. Consulte Conectar o Tableau e o Databricks e Power BI com o Databricks.
execução serverless Notebook. Consulte compute sem servidor para o Notebook.
execução serverless Job. Veja a execução do seu LakeFlow Jobs with serverless compute for fluxo de trabalho.
execução simples modelo endpoint. Veja modelos implantados usando modelo instalado.
execução pipeline declarativo LakeFlow Spark serverless . Consulte Configurar um pipeline serverless.
Use a otimização preditiva em suas tabelas. Consulte Otimização preditiva para Unity Catalog gerenciar tabelas.

Ciclo de vida do armazenamento de objetos após a exclusão de um objeto

Ao excluir uma tabela gerenciada ou um volume que usa o armazenamento default, os arquivos de dados são retidos para permitir uma janela de recuperação de 7 dias. Após o término da janela de recuperação, os arquivos de dados são permanentemente excluídos (limpos) em até 48 horas. O faturamento do armazenamento continua durante a janela de recuperação e cessa assim que a janela de recuperação termina. Para obter detalhes sobre o ciclo de vida do arquivo de dados, faturamento e opções de recuperação, consulte Ciclo de Vida do Armazenamento de Objetos no Unity Catalog.

Limitações

Aplicam-se as seguintes limitações:

O compute clássico (qualquer compute que não seja serverless) não pode interagir com dados ativos no armazenamento default.
O OpenSharing oferece suporte ao compartilhamento de tabelas com qualquer destinatário — aberto ou Databricks — e os destinatários podem usar o compute clássico para acessar tabelas compartilhadas (Beta). Ative o recurso OpenSharing para Armazenamento Padrão – Acesso Expandido no Console de Account.
- Todos os outros ativos compartilháveis podem ser compartilhados apenas com destinatários Databricks na mesma cloud. Os destinatários devem usar serverless compute.
Tabelas com particionamento ativado não podem ser compartilhadas via OpenSharing.
Clientes externos Iceberg e Delta não podem acessar diretamente os metadados subjacentes, a lista de manifestos e os arquivos de dados das tabelas UC no armazenamento default (o acesso FileIO não é suportado). No entanto, ferramentas BI como Power BI e Tableau podem acessar as tabelas Unity Catalog no armazenamento default usando drivers ODBC e JDBC . Clientes externos também podem acessar volumes Unity Catalog no armazenamento default usando a API de Arquivos.
O armazenamento padrão oferece suporte a acesso externo por meio dos drivers ODBC e JDBC Databricks , incluindo a otimização de desempenho Cloud Fetch do driver ODBC para consultas em conjuntos de dados maiores. No entanto, se você estiver acessando uma tabela de armazenamento default a partir de um workspace com o Private Link de front-end ativado, suas consultas de cliente ODBC maiores que 100 MB falharão, pois a otimização Cloud Fetch para tabelas de armazenamento default não oferece suporte ao Private Link de front-end no momento.
A venda de credenciais não é suportada, como quando sistemas externos se conectam à API REST do Unity ou ao catálogo REST do Iceberg. Consulte a seção de venda de credenciais do Unity Catalog para acesso a sistemas externos.

O que é armazenamento default ?​

Requisitos​

Criar um novo catálogo​

Trabalhe com o armazenamento default​

Exemplo de tarefa​

Ciclo de vida do armazenamento de objetos após a exclusão de um objeto​

Limitações​