Conecte-se a Azure data lake Storage e Blob Storage
Este artigo explica como se conectar ao Azure data lake Storage e Blob Storage a partir do Databricks.
- O driver herdado do Blob de armazenamento do Windows Azure (WASB) foi descontinuado. O ABFS tem vários benefícios em relação ao WASB. Consulte a documentação do Azure sobre ABFS. Para obter a documentação sobre como trabalhar com o driver WASB legado, consulte Conectar-se ao armazenamento Azure Blob com WASB (legado).
Conecte-se ao Azure data lake Storage ou Blob Storage usando as credenciais do Azure
As seguintes credenciais podem ser usadas para acessar o data lake Storage ou o Blob Storage do Azure:
-
OAuth 2.0 com uma Microsoft Entra ID entidade de serviço : a Databricks recomenda o uso da Microsoft Entra ID entidade de serviço para se conectar ao Azure data lake Storage. Para criar uma entidade de serviço Microsoft Entra ID e fornecer a ela acesso à conta de armazenamento Azure, consulte Acessar o armazenamento usando uma entidade de serviço & Microsoft Entra ID(Azure Active Directory).
Para criar uma entidade de serviço do Microsoft Entra ID, o senhor deve ter a função
Application Administrator
ou a permissãoApplication.ReadWrite.All
no Microsoft Entra ID. Para atribuir funções em um storage account, o senhor deve ser um Owner ou um usuário com a função User Access Administrator Azure RBAC no storage account.
O armazenamento de blob não é compatível com Microsoft Entra ID entidade de serviço.
-
Assinaturas de acesso compartilhado (SAS) : você pode usar tokens SAS de armazenamento para acessar o armazenamento do Azure. Com o SAS, é possível restringir o acesso a uma conta de armazenamento usando tokens temporários com controle de acesso refinado.
Você só pode conceder as permissões de token do SAS que tiver na conta de armazenamento, contêiner ou arquivo por conta própria.
-
chave da conta : o senhor pode usar a chave de acesso do Storage account para gerenciar o acesso ao Storage Azure. A chave de acesso do Storage account fornece acesso total à configuração de um storage account, bem como aos dados. Databricks recomenda o uso de uma entidade de serviço Microsoft Entra ID ou de tokens SAS para se conectar ao armazenamento Azure em vez da chave account.
Para view a chave de acesso de um account, o senhor deve ter a função Owner, Contributor ou Storage account key Operator serviço no armazenamento account.
Databricks recomenda o uso do Secret Scope para armazenar todas as credenciais. O senhor pode conceder a usuários, entidades de serviço e grupos em seu workspace acesso para ler o Secret Scope. Isso protege as credenciais do Azure e permite que os usuários acessem o armazenamento do Azure. Para criar um escopo secreto, consulte Gerenciar escopo secreto.
Defina as propriedades do Spark para configurar as credenciais do Azure para acessar o armazenamento do Azure
O senhor pode definir as propriedades do Spark para configurar as credenciais do Azure para acessar o armazenamento do Azure. O escopo das credenciais pode ser definido para um clustering ou um Notebook. Use o controle de acesso ao clustering e o controle de acesso ao Notebook juntos para proteger o acesso ao armazenamento Azure. Consulte Permissões de computação e Colaborar usando o Databricks Notebook.
Para definir as propriedades do Spark, use o seguinte snippet na configuração do Spark de um clustering ou em um Notebook:
- Azure service principal
- SAS tokens
- Account key
Use o seguinte formato para definir a configuração do cluster do Spark:
spark.hadoop.fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net OAuth
spark.hadoop.fs.azure.account.oauth.provider.type.<storage-account>.dfs.core.windows.net org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider
spark.hadoop.fs.azure.account.oauth2.client.id.<storage-account>.dfs.core.windows.net <application-id>
spark.hadoop.fs.azure.account.oauth2.client.secret.<storage-account>.dfs.core.windows.net {{secrets/<secret-scope>/<service-credential-key>}}
spark.hadoop.fs.azure.account.oauth2.client.endpoint.<storage-account>.dfs.core.windows.net https://login.microsoftonline.com/<directory-id>/oauth2/token
Você pode utilizar o spark.conf.set
em notebooks, como mostrado no exemplo a seguir:
service_credential = dbutils.secrets.get(scope="<secret-scope>",key="<service-credential-key>")
spark.conf.set("fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net", "OAuth")
spark.conf.set("fs.azure.account.oauth.provider.type.<storage-account>.dfs.core.windows.net", "org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider")
spark.conf.set("fs.azure.account.oauth2.client.id.<storage-account>.dfs.core.windows.net", "<application-id>")
spark.conf.set("fs.azure.account.oauth2.client.secret.<storage-account>.dfs.core.windows.net", service_credential)
spark.conf.set("fs.azure.account.oauth2.client.endpoint.<storage-account>.dfs.core.windows.net", "https://login.microsoftonline.com/<directory-id>/oauth2/token")
Substituir
<secret-scope>
pelo nome do secret scope do Databricks.<service-credential-key>
pelo nome da chave que contém o segredo do cliente.<storage-account>
pelo nome da conta de armazenamento do Azure.<application-id>
com a ID do aplicativo (cliente) para a aplicação Microsoft Entra ID.<directory-id>
com o ID do diretório (tenant) para a aplicação Microsoft Entra ID.
Você pode configurar tokens SAS para várias contas de armazenamento na mesma sessão do Spark.
spark.conf.set("fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net", "SAS")
spark.conf.set("fs.azure.sas.token.provider.type.<storage-account>.dfs.core.windows.net", "org.apache.hadoop.fs.azurebfs.sas.FixedSASTokenProvider")
spark.conf.set("fs.azure.sas.fixed.token.<storage-account>.dfs.core.windows.net", dbutils.secrets.get(scope="<scope>", key="<sas-token-key>"))
Substituir
<storage-account>
pelo nome da conta do Azure Storage.<scope>
pelo nome do secret scope do Databricks.<sas-token-key>
pelo nome da chave que contém o token SAS de armazenamento do Azure.
spark.conf.set(
"fs.azure.account.key.<storage-account>.dfs.core.windows.net",
dbutils.secrets.get(scope="<scope>", key="<storage-account-access-key>"))
Substituir
<storage-account>
pelo nome da conta do Azure Storage.<scope>
pelo nome do secret scope do Databricks.<storage-account-access-key>
pelo nome da chave que contém a chave de acesso da conta de armazenamento do Azure.
Acessar o armazenamento do Azure
Depois de configurar corretamente as credenciais para acessar seu contêiner de armazenamento do Azure, você pode interagir com os recursos na conta de armazenamento usando URIs. A Databricks recomenda usar o driver abfss
para maior segurança.
spark.read.load("abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<path-to-data>")
dbutils.fs.ls("abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<path-to-data>")
CREATE TABLE <database-name>.<table-name>;
COPY INTO <database-name>.<table-name>
FROM 'abfss://container@storageAccount.dfs.core.windows.net/path/to/folder'
FILEFORMAT = CSV
COPY_OPTIONS ('mergeSchema' = 'true');
Exemplo de notebook
ADLS OAuth 2.0 com Microsoft Entra ID (anteriormente Azure Active Directory) entidade de serviço Notebook
Azure Data Lake Storage Problemas conhecidos
Se o senhor tentar acessar um contêiner de armazenamento criado por meio do portal do Azure, poderá receber o seguinte erro:
StatusCode=404
StatusDescription=The specified filesystem does not exist.
ErrorCode=FilesystemNotFound
ErrorMessage=The specified filesystem does not exist.
Quando um namespace hierárquico está ativado, não é necessário criar contêineres por meio do portal do Azure. Se o senhor encontrar esse problema, exclua o contêiner Blob por meio do portal do Azure. Depois de alguns minutos, você pode acessar o contêiner. Como alternativa, o senhor pode alterar o URI do abfss
para usar um contêiner diferente, desde que esse contêiner não seja criado por meio do portal do Azure.
Consulte Problemas conhecidos com o Azure data lake Storage na documentação do Microsoft.
Padrões obsoletos para armazenamento e acesso a dados do Databricks
Os padrões de armazenamento obsoletos são os seguintes:
- Databricks Não é mais recomendável montar locais de dados externos em Databricks Filesystem. Consulte Montagem de armazenamento de objetos em nuvem na Databricks.