armazenamento padrão no Databricks
Esta página explica como funciona o armazenamento default no Databricks e como criar catálogos e objetos de dados que o utilizam.
O que é armazenamento default ?
O armazenamento padrão é uma plataforma de armazenamento de objetos totalmente padronizada que fornece armazenamento pronto para uso em sua account Databricks . Alguns recursos Databricks usam o armazenamento default como alternativa ao armazenamento externo.
O espaço de trabalho sem servidor usa o armazenamento default para armazenamento interno e workspace , bem como para o catálogo default que é criado com o workspace. Em um espaço de trabalho serverless , você pode criar catálogos adicionais no armazenamento default ou em seu próprio armazenamento de objetoscloud.
Tanto no espaço de trabalho clássico quanto no espaço de trabalho serverless , o armazenamento default é usado pelo recurso para armazenar itens como metadados do plano de controle, dados derivados, modelos e outros artefatos. Por exemplo, Clean Rooms, Data Classification, detecção de anomalia, Knowledge Assistant e restauração automática de sessão para Notebook serverless utilizam o armazenamento default de um workspace. Consulte a documentação do recurso individual para obter detalhes sobre o que cada repositório de recursos está no armazenamento default .
Para obter informações sobre como monitorar os custos de armazenamento default em sua account, consulte Monitorar custos de armazenamento default.
Requisitos
- A criação de catálogos no armazenamento default só está disponível no espaço de trabalhoserverless.
- Por default, os catálogos que usam o armazenamento default só podem ser acessados a partir do workspace onde foram criados. Você pode conceder acesso a outros espaços de trabalho, incluindo o espaço de trabalho clássico, mas eles devem usar compute serverless para acessar os dados no catálogo. Consulte a vinculação workspace-catalog.
- Você precisa ter privilégios
CREATE CATALOGpara criar um catálogo com armazenamento default . Consulte a referência de privilégiosUnity Catalog. - Se o seu cliente estiver usando o driver ODBC Databricks para acessar um catálogo de armazenamento default por trás de um firewall, você deverá configurar o firewall para permitir o acesso aos gateways de armazenamento regionais Databricks . Para obter detalhes sobre o endereço IP e o nome de domínio do armazenamento default , consulte Endereços IP e domínios para Databricks serviço e ativo.
Criar um novo catálogo
Conclua as etapas a seguir para criar um novo catálogo usando o armazenamento default:
- Clique em
Catálogo na barra lateral. O Catalog Explorer é exibido.
- Clique em Criar catálogo . A caixa de diálogo Criar um novo catálogo é exibida.
- Forneça um nome de catálogo que seja exclusivo em seu site account.
- Selecione a opção para Usar o armazenamento default .
- Clique em Criar .
No espaço de trabalho serverless, o senhor também pode usar o seguinte comando SQL para criar um novo catálogo no armazenamento default. Você não precisa especificar um local para o catálogo.
CREATE CATALOG [ IF NOT EXISTS ] catalog_name
[ COMMENT comment ]
Trabalhe com o armazenamento default
Todas as interações com o armazenamento default requerem serverless, o Unity Catalog habilitado para compute.
Os recursos com suporte de armazenamento default usam o mesmo modelo de privilégios que outros objetos no Unity Catalog. Você precisa ter privilégios suficientes para criar, view, consultar ou modificar objetos de dados. Consulte a referência de privilégiosUnity Catalog.
Você trabalha com o armazenamento default criando e interagindo com tabelas gerenciadas e volumes gerenciados que têm o armazenamento default como base. Consulte tabelas gerenciadas do Unity Catalog para Delta Lake e Apache Iceberg e O que são volumes do Unity Catalog?.
O senhor pode usar o Catalog Explorer, o Notebook, o editor SQL e painéis para interagir com objetos de dados armazenados no armazenamento default.
Exemplo de tarefa
A seguir, exemplos de tarefas que o senhor pode concluir com o armazenamento default:
- Carregar arquivos locais para um volume gerenciado ou criar uma tabela gerenciada. Consulte Trabalhar com arquivos em volumes Unity Catalog e Criar ou modificar uma tabela usando uploadde arquivos.
- Consultar dados com o Notebook. Veja o tutorial: Consultar e visualizar dados de um Notebook.
- Crie um painel. Consulte Criar um painel.
- Consultar dados com SQL e programar SQL consultas. Consulte Escrever consultas e explorar dados no novo editor SQL.
- Ingerir dados de um volume externo em uma tabela gerenciadora. Consulte Uso do Auto Loader com o Unity Catalog.
- Ingerir dados em uma tabela gerenciar com Fivetran. Consulte Conectar-se ao Fivetran.
- Use as ferramentas do site BI para explorar tabelas gerenciais. Consulte Conectar o Tableau e o Databricks e Power BI com o Databricks.
- execução serverless Notebook. Consulte compute sem servidor para o Notebook.
- execução serverless Job. Veja a execução do seu LakeFlow Jobs with serverless compute for fluxo de trabalho.
- execução simples modelo endpoint. Veja modelos implantados usando modelo instalado.
- execução pipeline declarativo LakeFlow Spark serverless . Consulte Configurar um pipeline serverless.
- Use a otimização preditiva em suas tabelas. Consulte Otimização preditiva para Unity Catalog gerenciar tabelas.
Ciclo de vida do armazenamento de objetos após a exclusão de um objeto
Ao excluir uma tabela gerenciada ou um volume que usa o armazenamento default, os arquivos de dados são retidos para permitir uma janela de recuperação de 7 dias. Após o término da janela de recuperação, os arquivos de dados são permanentemente excluídos (limpos) em até 48 horas. O faturamento do armazenamento continua durante a janela de recuperação e cessa assim que a janela de recuperação termina. Para obter detalhes sobre o ciclo de vida do arquivo de dados, faturamento e opções de recuperação, consulte Ciclo de Vida do Armazenamento de Objetos no Unity Catalog.
Limitações
Aplicam-se as seguintes limitações:
-
O compute clássico (qualquer compute que não seja serverless) não pode interagir com dados ativos no armazenamento default.
-
O OpenSharing oferece suporte ao compartilhamento de tabelas com qualquer destinatário — aberto ou Databricks — e os destinatários podem usar o compute clássico para acessar tabelas compartilhadas (Beta). Ative o recurso OpenSharing para Armazenamento Padrão – Acesso Expandido no Console de Account.
- Todos os outros ativos compartilháveis podem ser compartilhados apenas com destinatários Databricks na mesma cloud. Os destinatários devem usar serverless compute.
-
Tabelas com particionamento ativado não podem ser compartilhadas via OpenSharing.
-
Clientes externos Iceberg e Delta não podem acessar diretamente os metadados subjacentes, a lista de manifestos e os arquivos de dados das tabelas UC no armazenamento default (o acesso FileIO não é suportado). No entanto, ferramentas BI como Power BI e Tableau podem acessar as tabelas Unity Catalog no armazenamento default usando drivers ODBC e JDBC . Clientes externos também podem acessar volumes Unity Catalog no armazenamento default usando a API de Arquivos.
-
O armazenamento padrão oferece suporte a acesso externo por meio dos drivers ODBC e JDBC Databricks , incluindo a otimização de desempenho Cloud Fetch do driver ODBC para consultas em conjuntos de dados maiores. No entanto, se você estiver acessando uma tabela de armazenamento default a partir de um workspace com o Private Link de front-end ativado, suas consultas de cliente ODBC maiores que 100 MB falharão, pois a otimização Cloud Fetch para tabelas de armazenamento default não oferece suporte ao Private Link de front-end no momento.
-
A venda de credenciais não é suportada, como quando sistemas externos se conectam à API REST do Unity ou ao catálogo REST do Iceberg. Consulte a seção de venda de credenciais do Unity Catalog para acesso a sistemas externos.