Pular para o conteúdo principal

Databricks ativo Bundles recurso

Databricks O ativo Bundles permite que o senhor especifique informações sobre o recurso Databricks usado pelo pacote no mapeamento resources na configuração do pacote. Consulte recurso mapping e recurso key reference.

Esta página fornece uma referência de configuração para todos os tipos de recursos suportados para pacotes, incluindo detalhes e um exemplo para cada tipo suportado. Para exemplos adicionais, consulte Exemplos de configuração de pacotes.

O esquema JSON para pacotes usado para validar a configuração YAML está no repositório GitHub da CLI do Databricks.

dica

Para gerar YAML para qualquer recurso existente, utilize o comando databricks bundle generate. Veja a geração do pacote databricks.

Recurso suportado

A tabela a seguir lista os tipos de recursos suportados para pacotes (YAML e Python, quando aplicável). Alguns recursos podem ser criados definindo-os em um pacote e implantando o pacote, enquanto outros recursos só podem ser criados referenciando uma ativa existente para inclusão no pacote.

A configuração de recurso define um objeto Databricks que corresponde a um objeto APIREST Databricks . Os campos de solicitação de criação suportados pelo objeto API REST , expressos em YAML, são a chave suportada do recurso. Os links para a documentação de cada objeto correspondente a um recurso encontram-se na tabela abaixo.

dica

O comando databricks bundle validate retorna avisos se forem encontradas propriedades de recurso desconhecidas nos arquivos de configuração do pacote.

aplicativo

Type: Map

O recurso de aplicativo define um aplicativo Databricks. Para obter informações sobre Databricks Apps, consulte Databricks Apps.

Para adicionar um aplicativo, especifique as configurações para definir o aplicativo, incluindo o source_code_path necessário.

dica

O senhor pode inicializar um pacote com um aplicativo Streamlit Databricks usando o seguinte comando:

databricks bundle init https://github.com/databricks/bundle-examples --template-dir contrib/templates/streamlit-app
YAML
apps:
<app-name>:
<app-field-name>: <app-field-value>

Chave

Tipo

Descrição

budget_policy_id

String

O ID da política de orçamento do aplicativo.

compute_size

String

O tamanho compute para o aplicativo. Os valores válidos são MEDIUM, LARGE, LIQUID, mas dependem da configuração workspace .

config

Mapa

Obsoleto. Em vez disso, defina o comando de configuração do aplicativo e a variável de ambiente no arquivo app.yaml. Consulte Configurar um aplicativo Databricks.

description

String

A descrição do aplicativo.

lifecycle

Mapa

O comportamento do recurso quando ele é implantado ou destruído. Veja ciclo de vida.

name

String

O nome do aplicativo. O nome deve conter somente caracteres alfanuméricos minúsculos e hífens. Ele deve ser exclusivo no site workspace.

permissions

Sequência

As permissões do aplicativo. Veja as permissões.

resources

Sequência

O aplicativo compute recursos. Veja app.recurso.

source_code_path

String

O caminho local ./app do código-fonte do aplicativo Databricks. Esse campo é obrigatório.

user_api_scopes

Sequência

Os escopos da API do usuário.

app.recurso

Type: Sequence

O compute recurso para o aplicativo.

Chave

Tipo

Descrição

description

String

A descrição do recurso do aplicativo.

database

Mapa

As configurações que identificam o banco de dados Lakebase a ser usado. Consulte app.recurso.database.

genie_space

Mapa

As configurações que identificam o espaço Genie a ser usado. Veja app.recurso.genie_space.

job

Mapa

As configurações que identificam o recurso de trabalho a ser usado. Veja app.recurso.Job.

name

String

O nome do recurso do aplicativo.

secret

Mapa

As configurações que identificam o recurso secreto do Databricks a ser usado. Veja app.recurso.secret.

serving_endpoint

Mapa

As configurações que identificam o recurso endpoint do modelo de serviço a ser usado. Consulte app.recurso.serving_endpoint.

sql_warehouse

Mapa

As configurações que identificam o recurso SQL warehouse a ser usado. Consulte app.recurso.sql_warehouse.

us_securable

Mapa

As configurações que identificam o volume Unity Catalog a ser usado. Veja app.recurso.uc_securable.

app.recurso.database

Type: Map

As configurações que identificam o banco de dados Lakebase a ser usado.

Chave

Tipo

Descrição

id

String

O ID da instância do banco de dados.

permission

String

O nível de permissão para o banco de dados. Os valores válidos incluem CAN_USE, CAN_MANAGE.

app.recurso.genie_space

Type: Map

As configurações que identificam o espaço Genie a ser usado.

Chave

Tipo

Descrição

name

String

O nome do espaço Genie.

permission

String

O nível de permissão para o espaço. Os valores válidos incluem CAN_VIEW, CAN_EDIT, CAN_MANAGE, CAN_RUN.

space_id

String

O ID do espaço Genie, por exemplo 550e8400-e29b-41d4-a716-999955440000.

app.recurso.Job

Type: Map

As configurações que identificam o recurso de trabalho a ser usado.

Chave

Tipo

Descrição

id

String

A ID do job.

permission

String

O nível de permissão para a tarefa. Os valores válidos incluem CAN_VIEW, CAN_MANAGE_RUN, CAN_MANAGE.

app.recurso.secret

Type: Map

As configurações que identificam o recurso secreto do Databricks a ser usado.

Chave

Tipo

Descrição

scope

String

O nome do Escopo Secreto.

key

String

A key está dentro do Escopo Secreto.

permission

String

O nível de permissão para o segredo. Os valores válidos incluem READ, WRITE, MANAGE.

app.recurso.serving_endpoint

Type: Map

As configurações que identificam o modelo de serviço endpoint recurso a ser usado.

Chave

Tipo

Descrição

name

String

O nome do endpoint de serviço.

permission

String

O nível de permissão para o endpoint de serviço. Os valores válidos incluem CAN_QUERY, CAN_MANAGE.

app.recurso.sql_warehouse

Type: Map

As configurações que identificam o SQL warehouse a ser usado.

Chave

Tipo

Descrição

id

String

O ID do SQL warehouse.

permission

String

O nível de permissão para o SQL warehouse. Os valores válidos incluem CAN_USE, CAN_MANAGE.

app.recurso.uc_securable

Type: Map

As configurações que identificam o volume do Unity Catalog a ser usado.

Chave

Tipo

Descrição

full_name

String

O nome completo do Unity Catalog pode ser protegido no formato catalog.schema.name.

permission

String

O nível de permissão para o item protegível por UC. Os valores válidos incluem READ_FILES, WRITE_FILES, ALL_PRIVILEGES.

Exemplo

O exemplo a seguir cria um aplicativo chamado my_app que gerencia um Job criado pelo bundle:

YAML
resources:
jobs:
# Define a job in the bundle
hello_world:
name: hello_world
tasks:
- task_key: task
spark_python_task:
python_file: ../src/main.py
environment_key: default

environments:
- environment_key: default
spec:
environment_version: '2'

# Define an app that manages the job in the bundle
apps:
job_manager:
name: 'job_manager_app'
description: 'An app which manages a job created by this bundle'

# The location of the source code for the app
source_code_path: ../src/app

# The resources in the bundle which this app has access to. This binds the resource in the app with the bundle resource.
resources:
- name: 'app-job'
job:
id: ${resources.jobs.hello_world.id}
permission: 'CAN_MANAGE_RUN'

O app.yaml correspondente define a configuração para executar o aplicativo:

YAML
command:
- flask
- --app
- app
- run
- --debug
env:
- name: JOB_ID
valueFrom: 'app-job'

Para obter o pacote completo de exemplos de aplicativos Databricks, consulte o repositório GitHub de exemplos de pacotes.

agrupamento

Type: Map

O recurso de clustering define um clustering.

YAML
clusters:
<cluster-name>:
<cluster-field-name>: <cluster-field-value>

Chave

Tipo

Descrição

apply_policy_default_values

Booleana

Quando definido como true, os valores fixos e default da política serão usados para os campos que forem omitidos. Quando definido como falso, somente valores fixos da política serão aplicados.

autoscale

Mapa

Parâmetros necessários para escalonar automaticamente o clustering para cima e para baixo com base na carga. Veja autoscale.

autotermination_minutes

Integer

Encerra automaticamente o clustering depois que ele fica inativo por esse tempo em minutos. Se não for definido, esse clustering não será encerrado automaticamente. Se especificado, o limite deve estar entre 10 e 10.000 minutos. Os usuários também podem definir esse valor como 0 para desativar explicitamente o encerramento automático.

aws_attributes

Mapa

Atributos relacionados ao clustering em execução no serviço Amazon Web. Se não for especificado na criação do clustering, será usado um conjunto de valores default. Veja aws_attributes.

azure_attributes

Mapa

Atributos relacionados ao clustering em execução em Microsoft Azure. Se não for especificado na criação do clustering, será usado um conjunto de valores default. Veja azure_attributes.

cluster_log_conf

Mapa

A configuração para entrega de spark logs a um destino de armazenamento de longo prazo. Veja clustering.

cluster_name

String

nome do clustering solicitado pelo usuário. Isso não precisa ser exclusivo. Se não for especificado na criação, o nome do clustering será uma cadeia de caracteres vazia.

custom_tags

Mapa

tags adicionais para recurso cluster . Databricks tag todos os recursos cluster (por exemplo, instâncias AWS e volumes EBS) com essas tags além de default_tags.

data_security_mode

String

O modelo de governança de dados a ser utilizado ao acessar dados de um cluster. Os valores válidos incluem NONE, SINGLE_USER, USER_ISOLATION, LEGACY_SINGLE_USER, LEGACY_TABLE_ACL, LEGACY_PASSTHROUGH.

docker_image

Mapa

A imagem personalizada do Docker. Veja Docker.

driver_instance_pool_id

String

O ID opcional da instância pool para o driver do clustering pertence. O clustering pool usa a instância pool com id (instance_pool_id) se o driver pool não estiver atribuído.

driver_node_type_id

String

O tipo de nó do driver do Spark. Observe que esse campo é opcional; se não for definido, o tipo de nó do driver será definido como o mesmo valor de node_type_id definido acima. Esse campo, junto com node_type_id, não deve ser definido se virtual_cluster_size estiver definido. Se driver_node_type_id, node_type_id e virtual_cluster_size forem especificados, driver_node_type_id e node_type_id terão precedência.

enable_elastic_disk

Booleana

autoscale Local Storage: quando ativado, esse clustering adquirirá dinamicamente espaço em disco adicional quando o worker Spark estiver com pouco espaço em disco. Esse recurso requer permissões específicas no site AWS para funcionar corretamente - consulte o Guia do Usuário para obter mais detalhes.

enable_local_disk_encryption

Booleana

Se o LUKS deve ser ativado nos discos locais das VMs de clustering

gcp_attributes

Mapa

Atributos relacionados ao clustering em execução no Google Cloud Platform. Se não for especificado na criação do clustering, será usado um conjunto de valores default. Veja gcp_attributes.

init_scripts

Sequência

A configuração para armazenar o script de inicialização. Qualquer número de destinos pode ser especificado. Os scripts são executados sequencialmente na ordem fornecida. Veja init_scripts.

instance_pool_id

String

O ID opcional da instância pool à qual o clustering pertence.

is_single_node

Booleana

Esse campo só pode ser usado quando kind = CLASSIC_PREVIEW. Quando definido como true, o Databricks definirá automaticamente um único nó relacionado a custom_tags, spark_conf e num_workers

kind

String

O tipo de compute descrito por esta especificação compute.

node_type_id

String

Esse campo codifica, por meio de um único valor, o recurso disponível para cada um dos nós do Spark nesse clustering. Por exemplo, os nós do Spark podem ser provisionados e otimizados para cargas de trabalho intensivas de memória ou compute. Uma lista dos tipos de nós disponíveis pode ser recuperada usando o método:Chamada de API /listNodeTypes.

num_workers

Integer

Número de nós worker que esse clustering deve ter. Um clustering tem um driver Spark e um executor num_workers para um total de nós num_workers + 1 Spark.

permissions

Sequência

As permissões de clustering. Veja as permissões.

policy_id

String

A ID da política de cluster usada para criar o clustering, se aplicável.

runtime_engine

String

Determina o mecanismo de tempo de execução do clustering, STANDARD ou PHOTON.

single_user_name

String

Nome de usuário único se data_security_mode for SINGLE_USER

spark_conf

Mapa

Um objeto contendo um conjunto de parâmetros de configuração Spark opcionais, especificados pelo usuário, no formato key-valor. Os usuários também podem passar strings de opções JVM extras para o driver e o executor por meio de spark.driver.extraJavaOptions e spark.executor.extraJavaOptions , respectivamente.

spark_env_vars

Mapa

Um objeto que contém um conjunto de variáveis de ambiente opcionais, especificadas pelo usuário, para key-value.

spark_version

String

A versão Spark do clustering, por exemplo. 3.3.x-scala2.11. Uma lista das versões disponíveis do Spark pode ser recuperada usando o método :methodChamada de API /sparkVersions.

ssh_public_keys

Sequência

SSH público key conteúdo que será adicionado a cada nó Spark nesse clustering. A chave privada correspondente pode ser usada para fazer login com o nome de usuário ubuntu na porta 2200. Podem ser especificadas até 10 teclas.

use_ml_runtime

Booleana

Esse campo só pode ser usado quando kind = CLASSIC_PREVIEW. effective_spark_version é determinado por spark_version (versão DBR), esse campo use_ml_runtime e se node_type_id é o nó de gpu ou não.

workload_type

Mapa

clustering Atributos que mostram os tipos de carga de trabalho de clustering. Veja workload_type.

cluster.autoscale

Type: Map

Parâmetros para dimensionar automaticamente os clusters para cima e para baixo com base na carga.

Chave

Tipo

Descrição

min_workers

Integer

O número mínimo de trabalhadores para o qual o cluster pode reduzir quando subutilizado. É também o número inicial de trabalhadores que o cluster terá após a sua criação.

max_workers

Integer

O número máximo de trabalhadores que o cluster pode aumentar em caso de sobrecarga. max_workers deve ser estritamente maior que min_workers.

cluster.aws_attributes

Type: Map

Atributos relacionados a clusters em execução no Amazon Web Services.

Chave

Tipo

Descrição

zone_id

String

Identificador da zona de disponibilidade/centro de dados em que o cluster reside. Essas strings terão um formato como us-west-2a.

availability

String

Tipo de disponibilidade usado para todos os nós subsequentes após os nós first_on_demand . Os valores válidos são SPOT, ON_DEMAND, SPOT_WITH_FALLBACK.

spot_bid_price_percent

Integer

O preço máximo para instâncias spot da AWS, como uma porcentagem do preço sob demanda do tipo de instância correspondente.

instance_profile_arn

String

Os nós deste cluster serão alocados apenas em instâncias AWS com este instance profile.

first_on_demand

Integer

Os primeiros first_on_demand nós do cluster serão colocados em instâncias sob demanda. Este valor deve ser maior que 0, para garantir que o nó do driver do cluster seja colocado em uma instância sob demanda.

ebs_volume_type

String

O tipo de volumes EBS que serão iniciados com este cluster. Os valores válidos são GENERAL_PURPOSE_SSD ou THROUGHPUT_OPTIMIZED_HDD.

ebs_volume_count

Integer

O número de volumes iniciados para cada instância.

ebs_volume_size

Integer

O tamanho de cada volume EBS (em GiB) iniciado para cada instância.

ebs_volume_iops

Integer

Número de IOPS por volume de EBS gp3.

ebs_volume_throughput

Integer

Taxa de transferência por volume EBS gp3, em MiB por segundo.

cluster.azure_attributes

Type: Map

Atributos relacionados a clusters em execução no Microsoft Azure.

Chave

Tipo

Descrição

first_on_demand

Integer

Os primeiros first_on_demand nós do cluster serão colocados em instâncias sob demanda.

availability

String

Tipo de disponibilidade usado para todos os nós subsequentes após os nós first_on_demand . Os valores válidos são SPOT_AZURE, ON_DEMAND_AZURE, SPOT_WITH_FALLBACK_AZURE.

spot_bid_max_price

Número

O preço máximo para instâncias spot do Azure. Use -1 para especificar o preço mais baixo.

cluster.gcp_atributos

Type: Map

Atributos relacionados a clusters em execução na plataforma Google Cloud.

Chave

Tipo

Descrição

use_preemptible_executors

Booleana

Se deve ou não utilizar um executor preemptível. Os executores preemptíveis são instâncias do GCE que podem ser recuperadas pelo GCE a qualquer momento.

google_service_account

String

A account do serviço Google a ser usada pelas instâncias de VM cluster Databricks .

local_ssd_count

Integer

O número de SSD locais a serem conectados a cada nó do cluster. O valor default é 0.

zone_id

String

Identificador da zona de disponibilidade/centro de dados em que o cluster reside.

availability

String

Tipo de disponibilidade utilizado para todos os nós. Os valores válidos são PREEMPTIBLE_GCP, ON_DEMAND_GCP, PREEMPTIBLE_WITH_FALLBACK_GCP.

boot_disk_size

Integer

O tamanho do disco de inicialização em GB. Os valores normalmente variam de 100 a 1000.

cluster.cluster_log_conf

Configuração para enviar logs do Spark para um destino de armazenamento de longo prazo.

Chave

Tipo

Descrição

dbfs

Mapa

Localização DBFS para entrega log cluster . Veja dbfs.

s3

Mapa

Localização S3 para entrega log cluster . Ver s3.

volumes

Mapa

Localização dos volumes para entrega log cluster . Ver volumes.

cluster.cluster_log_conf.dbfs

Type: Map

Localização DBFS para entrega log cluster .

Chave

Tipo

Descrição

destination

String

O caminho DBFS para entrega log cluster (por exemplo, dbfs:/cluster-logs).

cluster.cluster_log_conf.s3

Type: Map

Localização S3 para entrega log cluster .

Chave

Tipo

Descrição

destination

String

O URI S3 para entrega log cluster (por exemplo, s3://my-bucket/cluster-logs).

region

String

A região da AWS do bucket S3.

endpoint

String

URL do endpoint S3 (opcional).

enable_encryption

Booleana

Ativar ou não a criptografia para os logs do cluster.

encryption_type

String

O tipo de criptografia. Os valores válidos incluem SSE_S3, SSE_KMS.

kms_key

String

O ARN key KMS para criptografia (ao usar SSE_KMS).

canned_acl

String

A ACL predefinida para aplicar aos logs do cluster.

cluster.cluster_log_conf.volumes

Type: Map

Localização dos volumes para entrega log cluster .

Chave

Tipo

Descrição

destination

String

O caminho do volume para entrega log cluster (por exemplo, /Volumes/catalog/schema/volume/cluster_log).

cluster.docker_image

Type: Map

Configuração personalizada da imagem Docker .

Chave

Tipo

Descrição

url

String

URL da imagem Docker .

basic_auth

Mapa

Autenticação básica para repositório Docker. Consulte autenticação básica.

cluster.docker_image.basic_auth

Type: Map

Autenticação básica para repositório Docker.

Chave

Tipo

Descrição

username

String

O nome de usuário para autenticação no registro do Docker.

password

String

A senha para autenticação do registro Docker.

scripts de inicializaçãocluster

Type: Map

Configuração para armazenar o script de inicialização. Pelo menos um tipo de localização deve ser especificado.

Chave

Tipo

Descrição

dbfs

Mapa

Localização do init script DBFS . Veja dbfs.

workspace

Mapa

Localização do init script no espaço de trabalho. Veja workspace.

s3

Mapa

Localização do init script S3 . Ver s3.

abfss

Mapa

Localização do init script do ABFSS. Veja abfss.

gcs

Mapa

Localização do init script GCS . Consulte GCS.

volumes

Mapa

Localização do init script nos volumes da UC. Ver volumes.

cluster.init_scripts.dbfs

Type: Map

Localização do init script DBFS .

Chave

Tipo

Descrição

destination

String

O caminho DBFS do init script.

cluster.init_scripts.workspace

Type: Map

Localização do init script no espaço de trabalho.

Chave

Tipo

Descrição

destination

String

O caminho workspace do init script.

cluster.init_scripts.s3

Type: Map

Localização do init script S3 .

Chave

Tipo

Descrição

destination

String

O URI S3 do init script.

region

String

A região da AWS do bucket S3.

endpoint

String

URL do endpoint S3 (opcional).

cluster.init_scripts.abfss

Type: Map

Localização do init script do ABFSS.

Chave

Tipo

Descrição

destination

String

O caminho ABFSS do init script.

cluster.init_scripts.GCS

Type: Map

Localização do init script GCS .

Chave

Tipo

Descrição

destination

String

O caminho GCS do init script.

cluster.init_scripts.volumes

Type: Map

Localização dos volumes do init script.

Chave

Tipo

Descrição

destination

String

O caminho dos volumes UC do init script.

cluster.workload_type

Type: Map

Atributos do cluster que mostram os tipos de carga de trabalho cluster .

Chave

Tipo

Descrição

clients

Mapa

Define que tipo de clientes podem usar o cluster. Veja os clientes.

cluster.workload_type.clients

Type: Map

O tipo de clientes para esta carga de trabalho compute .

Chave

Tipo

Descrição

jobs

Booleana

Se o cluster pode executar o trabalho.

notebooks

Booleana

Se o cluster pode executar o Notebook.

Exemplos

O exemplo a seguir cria um clustering dedicado (usuário único) para o usuário atual com Databricks Runtime 15.4 LTS e uma política de cluster:

YAML
resources:
clusters:
my_cluster:
num_workers: 0
node_type_id: 'i3.xlarge'
driver_node_type_id: 'i3.xlarge'
spark_version: '15.4.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'
autotermination_minutes: 60
enable_elastic_disk: true
single_user_name: ${workspace.current_user.userName}
policy_id: '000128DB309672CA'
enable_local_disk_encryption: false
data_security_mode: SINGLE_USER
runtime_engine": STANDARD

Este exemplo cria um clustering simples my_cluster e o define como o clustering a ser usado para executar o Notebook em my_job:

YAML
bundle:
name: clusters

resources:
clusters:
my_cluster:
num_workers: 2
node_type_id: 'i3.xlarge'
autoscale:
min_workers: 2
max_workers: 7
spark_version: '13.3.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'

jobs:
my_job:
tasks:
- task_key: test_task
notebook_task:
notebook_path: './src/my_notebook.py'
existing_cluster_id: ${resources.clusters.my_cluster.id}

painel

Type: Map

O recurso de dashboard permite que o senhor gerencie AI/BI dashboards em um pacote. Para obter informações sobre AI/BI dashboards, consulte Dashboards.

Se você implementou um pacote que contém um painel do seu ambiente local e, em seguida, usa a interface do usuário para modificar esse painel, as modificações feitas por meio da interface do usuário não serão aplicadas ao arquivo JSON do painel no pacote local, a menos que você o atualize explicitamente usando bundle generate. Você pode usar a opção --watch para pesquisar e recuperar continuamente as alterações no painel. Veja databricks bundle generate.

Além disso, se você tentar implementar um pacote do seu ambiente local que contenha um arquivo JSON do painel diferente daquele no workspace remoto, ocorrerá um erro. Para forçar a instalação e substituir o painel no workspace remoto pelo local, use a opção --force . Veja pacote de databricks implantado.

nota

Ao usar Databricks ativo Bundles com suporte a dashboard Git, evite que sejam gerados dashboards duplicados adicionando o mapeamento de sincronização para excluir a sincronização dos dashboards como arquivos:

YAML
sync:
exclude:
- src/*.lvdash.json
YAML
dashboards:
<dashboard-name>:
<dashboard-field-name>: <dashboard-field-value>

Chave

Tipo

Descrição

display_name

String

O nome de exibição do painel.

embed_credentials

Booleana

Se as credenciais de identidade de implantação do pacote são usadas para executar consultas para todos os visualizadores do painel. Se estiver definido como false, as credenciais de um visualizador serão usadas. O valor default é false.

etag

String

A etag do painel. Pode ser fornecido opcionalmente nas atualizações para garantir que o painel não tenha sido modificado desde a última leitura.

file_path

String

O caminho local do ativo do dashboard, incluindo o nome do arquivo. Os painéis exportados sempre têm a extensão de arquivo .lvdash.json.

permissions

Sequência

As permissões do painel. Veja as permissões.

serialized_dashboard

Qualquer um

O conteúdo do painel na forma de cadeias de caracteres serializadas.

warehouse_id

String

O ID do depósito usado para executar o painel.

Exemplo

O exemplo a seguir inclui e implanta a amostra do painel de análise de viagens de táxi de Nova York no site Databricks workspace.

YAML
resources:
dashboards:
nyc_taxi_trip_analysis:
display_name: 'NYC Taxi Trip Analysis'
file_path: ../src/nyc_taxi_trip_analysis.lvdash.json
warehouse_id: ${var.warehouse_id}

catálogo_de_banco_de_dados

Type: Map

O recurso de catálogo de banco de dados permite que o senhor defina catálogos de banco de dados que correspondem a instâncias de banco de dados em um pacote. Um catálogo de banco de dados é um banco de dados Lakebase registrado como um catálogo do Unity Catalog.

YAML
database_catalogs:
<database_catalog-name>:
<database_catalog-field-name>: <database_catalog-field-value>

Chave

Tipo

Descrição

create_database_if_not_exists

Booleana

Se deve criar o banco de dados se ele não existir.

database_instance_name

String

O nome da instância que abriga o banco de dados.

database_name

String

O nome do banco de dados (em uma instância) associado ao catálogo.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso, incluindo o comportamento do recurso quando ele é implantado ou destruído. Veja ciclo de vida.

name

String

O nome do catálogo no Unity Catalog.

Exemplo

O exemplo a seguir define uma instância de banco de dados com um catálogo de banco de dados correspondente:

YAML
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true

instância_do_banco_de_dados

Type: Map

O recurso de instância de banco de dados permite que o senhor defina instâncias de banco de dados em um pacote. Uma instância do banco de dados Lakebase gerencia o armazenamento e compute recurso e fornece o ponto de extremidade ao qual os usuários se conectam.

importante

Quando o senhor implanta um pacote com uma instância de banco de dados, a instância começa a funcionar imediatamente e está sujeita a preços. Veja os preços do Lakebase.

YAML
database_instances:
<database_instance-name>:
<database_instance-field-name>: <database_instance-field-value>

Chave

Tipo

Descrição

capacity

String

O SKU da instância. Os valores válidos são CU_1, CU_2, CU_4, CU_8.

custom_tags

Sequência

Uma lista de pares key-valor que especificam tags personalizadas associadas à instância.

enable_pg_native_login

Booleana

Se a instância tem o login com senha nativa PG ativado. padrão para true.

enable_readable_secondaries

Booleana

Se deve permitir que os secundários forneçam tráfego somente para leitura. padrão para false.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

name

String

O nome da instância. Esse é o identificador exclusivo da instância.

node_count

Integer

O número de nós na instância, composto por 1 primário e 0 ou mais secundários. padrão para 1 primário e 0 secundários.

parent_instance_ref

Mapa

A referência da instância pai. Isso só está disponível se a instância for uma instância filha. Veja a instância pai.

permissions

Sequência

As permissões da instância do banco de dados. Veja as permissões.

retention_window_in_days

Integer

A janela de retenção da instância. Essa é a janela de tempo em dias para a qual os dados históricos são mantidos. O valor de default é 7 dias. Os valores válidos são de 2 a 35 dias.

stopped

Booleana

Se a instância foi interrompida.

usage_policy_id

String

A política de utilização desejada para associar à instância.

database_instance.parent_instance_ref

Type: Map

A referência da instância pai. Isso só está disponível se a instância for instância filha.

Chave

Tipo

Descrição

branch_time

String

Tempo de ramificação da instância do banco de dados de referência. Para uma instância de referência pai, este é o ponto no tempo na instância pai a partir do qual a instância foi criada. Para uma instância de referência filha, este é o ponto no tempo da instância a partir do qual a instância filha foi criada.

lsn

String

LSN WAL especificado pelo usuário para a instância do banco de dados de referência.

name

String

Nome da instância do banco de dados de referência.

Exemplo

O exemplo a seguir define uma instância de banco de dados com um catálogo de banco de dados correspondente:

YAML
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true

Para obter um exemplo de pacote que demonstra como definir uma instância de banco de dados e o catálogo de banco de dados correspondente, consulte o repositório bundle-examples do GitHub.

experimento

Type: Map

O recurso de experimento permite que o senhor defina experimentos do MLflow em um pacote. Para obter informações sobre os experimentos do MLflow, consulte Organizar treinamento execução com os experimentos do MLflow.

YAML
experiments:
<experiment-name>:
<experiment-field-name>: <experiment-field-value>

Chave

Tipo

Descrição

artifact_location

String

O local onde os artefatos do experimento são armazenados.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

name

String

O nome amigável que identifica o experimento. O nome de um experimento deve ser um caminho absoluto no endereço Databricks workspace, por exemplo, /Workspace/Users/someone@example.com/my_experiment.

permissions

Sequência

As permissões do experimento. Veja as permissões.

tags

Sequência

Metadados adicionais par key-value. Veja as tags.

Exemplo

O exemplo a seguir define um experimento que todos os usuários podem view:

YAML
resources:
experiments:
experiment:
name: /Workspace/Users/someone@example.com/my_experiment
permissions:
- level: CAN_READ
group_name: users
description: MLflow experiment used to track runs

Trabalho

Type: Map

Os trabalhos são suportados em Python para Databricks Ativo Bundles. Consulte databricks.bundles.Job.

O recurso Job permite que você defina Jobs e suas respectivas tarefas em seu pacote.

Para obter informações sobre Job, consulte LakeFlow Jobs. Para obter um tutorial que usa um Databricks ativo Bundles padrão para criar um trabalho, consulte Desenvolver um trabalho com Databricks ativo Bundles.

YAML
jobs:
<job-name>:
<job-field-name>: <job-field-value>

Chave

Tipo

Descrição

budget_policy_id

String

O ID da política de orçamento especificada pelo usuário a ser usada para esse trabalho. Se não for especificado, uma política de orçamento default poderá ser aplicada ao criar ou modificar o trabalho. Consulte effective_budget_policy_id para ver a política orçamentária usada por essa carga de trabalho.

continuous

Mapa

Uma propriedade contínua opcional para esse trabalho. A propriedade contínua garantirá que sempre haverá uma execução. Somente um dos schedule e continuous pode ser usado. Veja contínuo.

deployment

Mapa

Informações de implantação do Job gerenciar por fontes externas. Veja a implantação.

description

String

Uma descrição opcional para o trabalho. O tamanho máximo é de 27700 caracteres na codificação UTF-8.

edit_mode

String

Modo de edição do trabalho, UI_LOCKED ou EDITABLE.

email_notifications

Mapa

Um conjunto opcional de endereços email que é notificado quando a execução desse trabalho começa ou é concluída, bem como quando esse trabalho é excluído. Veja o e-mail.

environments

Sequência

Uma lista das especificações do ambiente de execução de tarefas que podem ser referenciadas pelas tarefas serverless deste Job. É necessário que haja um ambiente presente para que a tarefa serverless seja executada. Para tarefas de Notebook serverless , o ambiente pode ser acessado no painel de ambiente do Notebook. Para outras tarefas serverless , o ambiente da tarefa precisa ser especificado usando `environment_key` nas configurações da tarefa.

format

String

O formato do trabalho.

git_source

Mapa

Uma especificação opcional para um repositório Git remoto que contém o código-fonte usado pela tarefa.

Importante: o campo git_source e o campo tarefa source definidos como GIT não são recomendados para pacotes, pois os caminhos relativos locais podem não apontar para o mesmo conteúdo no repositório Git e os pacotes esperam que um trabalho implantado tenha o mesmo conteúdo que a cópia local de onde foi implantado.

Em vez disso, clone o repositório localmente e configure seu projeto de pacote dentro desse repositório, de modo que o código-fonte da tarefa seja o workspace.

health

Mapa

Um conjunto opcional de regras de integridade que podem ser definidas para esse trabalho. Veja saúde.

job_clusters

Sequência

Uma lista de especificações de agrupamento de trabalhos que podem ser compartilhadas e reutilizadas pela tarefa desse trabalho. Veja clustering.

max_concurrent_runs

Integer

Um número máximo opcional permitido de execução simultânea do Job. Defina este valor se desejar poder executar várias tarefas iguais simultaneamente.

name

String

Um nome opcional para o trabalho. O tamanho máximo é de 4096 bytes na codificação UTF-8.

notification_settings

Mapa

Configurações de notificação opcionais que são usadas ao enviar notificações para cada um dos sites email_notifications e webhook_notifications para esse trabalho. Veja notification_settings.

parameters

Sequência

Definições de parâmetros em nível Job .

performance_target

String

Define o quão eficiente em termos de desempenho ou custo-benefício deve ser a execução em um serverless .

permissions

Sequência

As permissões do trabalho. Veja as permissões.

queue

Mapa

As configurações de fila do trabalho. Veja a fila.

run_as

Mapa

Configuração somente para escrita. Especifica o usuário ou entidade de serviço na qual o trabalho é executado. Caso não seja especificado, a execução da tarefa será feita pelo usuário que a criou. Deve-se especificar user_name ou service_principal_name . Caso contrário, um erro será lançado. Veja run_as.

schedule

Mapa

Um programador periódico opcional para esse trabalho. O comportamento do default é que o trabalho só é executado quando acionado ao clicar em "Executar agora" na interface do usuário do Jobs ou ao enviar uma solicitação API para runNow. Veja programar.

tags

Mapa

Um mapa de tags associadas ao trabalho. Elas são encaminhadas ao clustering como Cluster Tag para o clustering de trabalhos e estão sujeitas às mesmas limitações da Cluster Tag. Um máximo de 25 tags pode ser adicionado ao trabalho.

tasks

Sequência

Uma lista de especificações de tarefa a serem executadas por esse Job. Consulte Adicionar tarefa ao trabalho em Databricks ativo Bundles.

timeout_seconds

Integer

Um tempo limite opcional aplicado a cada execução desse trabalho. Um valor de 0 significa que não há tempo limite.

trigger

Mapa

Uma configuração para acionar uma execução quando determinadas condições são atendidas. Veja o gatilho.

webhook_notifications

Mapa

Uma coleção de IDs de notificação do sistema para notificar quando a execução desse trabalho for iniciada ou concluída. Veja webhook_notifications.

Trabalho contínuo

Type: Map

Configuração para execução contínua de tarefas.

Chave

Tipo

Descrição

pause_status

String

Se o trabalho contínuo está em pausa ou não. Valores válidos: PAUSED, UNPAUSED.

Implantação de empregos

Type: Map

Informação de implantação para gerenciamento de trabalhos por fontes externas.

Chave

Tipo

Descrição

kind

String

O tipo de implantação. Por exemplo, BUNDLE.

metadata_file_path

String

O caminho para o arquivo de metadados da implantação.

Notificações de emprego por e-mail

Type: Map

configurações de notificação por e-mail para execução do trabalho.

Chave

Tipo

Descrição

on_start

Sequência

Uma lista de endereços email para notificar quando uma execução começar.

on_success

Sequência

Uma lista de endereços email para notificar quando uma execução for bem-sucedida.

on_failure

Sequência

Uma lista de endereços email para notificar quando uma execução falhar.

on_duration_warning_threshold_exceeded

Sequência

Uma lista de endereços email para notificação quando a duração da execução exceder o limite de aviso.

no_alert_for_skipped_runs

Booleana

Se deve ignorar o envio de alerta para execução ignorada.

Trabalho.git_source

Type: Map

Configuração do repositório Git para código fonte do Job.

Chave

Tipo

Descrição

git_url

String

O URL do repositório Git.

git_provider

String

O provedor Git. Valores válidos: gitHub, bitbucketCloud, gitLab, azureDevOpsServices, gitHubEnterprise, bitbucketServer, gitLabEnterpriseEdition.

git_branch

String

O nome da ramificação Git a ser usada.

git_tag

String

O nome da tag Git a ser usada.

git_commit

String

O hash do commit do Git a ser usado.

git_snapshot

Mapa

Informações commit utilizadas. Este campo é somente leitura. Veja git_snapshot.

Job.git_source.git_snapshot

Type: Map

Instantâneo de informações commit somente leitura.

Chave

Tipo

Descrição

used_commit

String

O hash de commit que foi utilizado.

Trabalho.Saúde

Type: Map

Configuração de monitoramento de saúde para o trabalho.

Chave

Tipo

Descrição

rules

Sequência

Uma lista de regras de saúde no trabalho. Cada regra contém um metric e op (operador) e value. Consulte JobsHealthRule.

EmpregosRegra de Saúde

Type: Map

Chave

Tipo

Descrição

metric

String

Especifica as métricas de saúde que estão sendo avaliadas para uma determinada regra de saúde.

  • RUN_DURATION_SECONDS: Tempo total esperado para uma execução em segundos.
  • STREAMING_BACKLOG_BYTESUma estimativa do número máximo de bytes de dados que aguardam para serem consumidos em todas as transmissões. Esta novidade está em versão prévia pública.
  • STREAMING_BACKLOG_RECORDSUma estimativa do atraso máximo de deslocamento em todas as transmissões. Esta novidade está em versão prévia pública.
  • STREAMING_BACKLOG_SECONDSUma estimativa do atraso máximo do consumidor em todas as transmissões. Esta novidade está em versão prévia pública.
  • STREAMING_BACKLOG_FILESUma estimativa do número máximo de processos pendentes em todas as transmissões. Esta novidade está em versão prévia pública.

op

String

Especifica o operador usado para comparar o valor da métrica de saúde com o limite especificado.

value

Integer

Especifica o valor limite que as medidas de saúde devem obedecer para satisfazer a regra de saúde.

Configurações de notificação de trabalho

Type: Map

Configurações de notificação que se aplicam a todas as notificações da tarefa.

Chave

Tipo

Descrição

no_alert_for_skipped_runs

Booleana

Se deve ignorar o envio de alerta para execução ignorada.

no_alert_for_canceled_runs

Booleana

Se deve ignorar o envio de alerta para execução cancelada.

Fila de tarefas

Type: Map

Configurações da fila para a tarefa.

Chave

Tipo

Descrição

enabled

Booleana

Indica se o enfileiramento da tarefa deve ser ativado.

Trabalho.programador

Type: Map

Configuração programática para execução periódica de tarefas.

Chave

Tipo

Descrição

quartz_cron_expression

String

Uma expressão Cron usando a sintaxe do Quartz que especifica quando a tarefa será executada. Por exemplo, 0 0 9 * * ? executa o Job todos os dias às 9:00 da manhã UTC.

timezone_id

String

O fuso horário do programador. Por exemplo, America/Los_Angeles ou UTC.

pause_status

String

Se o programador está pausado ou não. Valores válidos: PAUSED, UNPAUSED.

Trabalho.gatilho

Type: Map

Configuração de gatilhos para execução de tarefas orientadas a eventos.

Chave

Tipo

Descrição

file_arrival

Mapa

Acionado com base na chegada do arquivo. Veja file_arrival.

table

Mapa

Gatilho baseado em uma tabela. Veja a tabela.

table_update

Mapa

Acionado com base em atualizações de tabela. Veja atualização_da_tabela.

periodic

Mapa

Gatilho periódico. Veja periódico.

Trabalho.gatilho.arquivo_chegada

Type: Map

Configuração de gatilho com base na chegada de arquivos.

Chave

Tipo

Descrição

url

String

O caminho do arquivo a ser monitorado em busca de novos arquivos.

min_time_between_triggers_seconds

Integer

Tempo mínimo em segundos entre eventos de disparo.

wait_after_last_change_seconds

Integer

Tempo de espera em segundos após a última alteração de arquivo antes de acionar o mecanismo.

Tabela de gatilho de trabalho

Type: Map

Configuração de gatilhos baseada em uma tabela.

Chave

Tipo

Descrição

table_names

Sequência

Uma lista de nomes de tabelas a serem monitoradas.

condition

String

A condição SQL que deve ser atendida para acionar a tarefa.

Job.trigger.table_update

Type: Map

Configuração de gatilhos com base em atualizações de tabelas.

Chave

Tipo

Descrição

table_names

Sequência

Uma lista de nomes de tabelas a serem monitoradas para atualizações.

condition

String

A condição SQL que deve ser atendida para acionar a tarefa.

wait_after_last_change_seconds

Integer

Tempo de espera em segundos após a última atualização da tabela antes de acionar o mecanismo.

Trabalho.gatilho.periódico

Type: Map

Configuração de gatilho periódico.

Chave

Tipo

Descrição

interval

Integer

O valor do intervalo para o gatilho periódico.

unit

String

A unidade de tempo para o intervalo. Valores válidos: SECONDS, MINUTES, HOURS, DAYS, WEEKS.

Notificações de webhook de trabalho

Type: Map

Configurações de notificação de webhook para execução de trabalho.

Chave

Tipo

Descrição

on_start

Sequência

Uma lista de IDs de notificação de webhook para notificar quando uma execução começar.

on_success

Sequência

Uma lista de IDs de notificação de webhook para avisar quando uma execução for bem-sucedida.

on_failure

Sequência

Uma lista de IDs de notificação de webhook para avisar quando uma execução falhar.

on_duration_warning_threshold_exceeded

Sequência

Uma lista de IDs de notificação de webhook para avisar quando a duração de uma execução exceder o limite de aviso.

Exemplos

O exemplo a seguir define um Job com o recurso key hello-job com uma tarefa de Notebook:

YAML
resources:
jobs:
hello-job:
name: hello-job
tasks:
- task_key: hello-task
notebook_task:
notebook_path: ./hello.py

O exemplo a seguir define um trabalho com um notebook SQL:

YAML
resources:
jobs:
job_with_sql_notebook:
name: 'Job to demonstrate using a SQL notebook with a SQL warehouse'
tasks:
- task_key: notebook
notebook_task:
notebook_path: ./select.sql
warehouse_id: 799f096837fzzzz4

Para obter exemplos adicionais de configuração de trabalho, consulte Job configuration.

Para obter informações sobre como definir a tarefa do trabalho e substituir as configurações do trabalho, consulte:

modelo (legado)

Type: Map

O recurso de modelo permite que o senhor defina modelos legados em pacotes. A Databricks recomenda que o senhor use os modelos registrados do Unity Catalog.

model_serving_endpoint

Type: Map

O recurso model_serving_endpoint permite que o senhor defina o endpoint do modelo de serviço. Consulte o endpoint gerenciar servindo modelo.

YAML
model_serving_endpoints:
<model_serving_endpoint-name>:
<model_serving_endpoint-field-name>: <model_serving_endpoint-field-value>

Chave

Tipo

Descrição

ai_gateway

Mapa

A configuração do AI Gateway para o endpoint de serviço. OBSERVAÇÃO: no momento, somente o modelo externo e o ponto de extremidade da taxa de transferência de provisionamento são compatíveis. Ver IA.

config

Mapa

A configuração principal do endpoint de serviço. Veja a configuração.

name

String

O nome do endpoint de serviço. Esse campo é obrigatório e deve ser exclusivo em um site Databricks workspace. Um nome endpoint pode consistir em caracteres alfanuméricos, traços e sublinhado.

permissions

Sequência

As permissões do servindo modelo endpoint. Veja as permissões.

rate_limits

Sequência

Obsoleto. Limites de taxa a serem aplicados ao endpoint de atendimento. Use o AI Gateway para gerenciar os limites de taxa.

route_optimized

Booleana

Habilite a otimização de rota para o serviço endpoint.

tags

Sequência

Etiquetas a serem anexadas ao endpoint de serviço e propagadas automaticamente para logs de faturamento.

model_serving_endpoint.ai_gateway

Type: Map

Configuração AI Gateway para o endpoint de serviço.

Chave

Tipo

Descrição

guardrails

Mapa

Configuração do guarda-corpo. Veja os guarda-corpos.

inference_table_config

Mapa

Configuração para registro de inferências em tabelas Unity Catalog . Consulte inference_table_config.

rate_limits

Sequência

Configurações de limite de taxa.

usage_tracking_config

Mapa

Configuração para uso de envio. Consulte usage_tracking_config.

model_serving_endpoint.ai_gateway.guardrails

Type: Map

Configuração das diretrizes de segurança do gateway AI .

Chave

Tipo

Descrição

input

Mapa

Configuração de guarda-corpos de entrada com campos como safety, pii.

output

Mapa

Configuração de guarda-corpos de saída com campos como safety, pii.

invalid_keywords

Sequência

Uma lista de palavras-chave para bloquear.

model_serving_endpoint.ai_gateway.inference_table_config

Type: Map

Configuração para registro de inferências em tabelas Unity Catalog .

Chave

Tipo

Descrição

catalog_name

String

O nome do catálogo no Unity Catalog.

schema_name

String

O nome do esquema no Unity Catalog.

table_name_prefix

String

O prefixo para nomes de tabelas de inferência.

enabled

Booleana

Indica se o registro em tabela de inferência está ativado.

model_serving_endpoint.ai_gateway.usage_tracking_config

Type: Map

A configuração do gateway AI para utilização do acompanhamento.

Chave

Tipo

Descrição

enabled

Booleana

Se o acompanhamento de uso estiver ativado.

model_serving_endpoint.config

Type: Map

A configuração principal do endpoint de serviço.

Chave

Tipo

Descrição

served_entities

Sequência

Uma lista de entidades servidas para o endpoint atender. Cada entidade servida contém campos como entity_name, entity_version, workload_size, scale_to_zero_enabled, workload_type, environment_vars.

served_models

Sequência

(Obsoleto: use served_entities em vez disso) Uma lista de modelos servidos para o endpoint servir.

traffic_config

Mapa

A configuração de tráfego que define como as invocações para o endpoint de serviço devem ser roteadas. Consulte traffic_config.

auto_capture_config

Mapa

Configuração para tabelas de inferência que logs automaticamente solicitações e respostas no Unity Catalog. Consulte auto_capture_config.

model_serving_endpoint.config.traffic_config

Type: Map

A configuração de tráfego que define como as invocações para o endpoint de serviço devem ser roteadas.

Chave

Tipo

Descrição

routes

Sequência

Lista de rotas para distribuição de tráfego. Cada rota contém served_model_name e traffic_percentage.

model_serving_endpoint.config.auto_capture_config

Type: Map

Configuração para tabelas de inferência que logs automaticamente solicitações e respostas no Unity Catalog.

Chave

Tipo

Descrição

catalog_name

String

O nome do catálogo no Unity Catalog.

schema_name

String

O nome do esquema no Unity Catalog.

table_name_prefix

String

O prefixo para nomes de tabelas de inferência.

enabled

Booleana

Indica se o registro em tabela de inferência está ativado.

Exemplo

O exemplo a seguir define um Unity Catalog servindo o modelo endpoint:

YAML
resources:
model_serving_endpoints:
uc_model_serving_endpoint:
name: 'uc-model-endpoint'
config:
served_entities:
- entity_name: 'myCatalog.mySchema.my-ads-model'
entity_version: '10'
workload_size: 'Small'
scale_to_zero_enabled: 'true'
traffic_config:
routes:
- served_model_name: 'my-ads-model-10'
traffic_percentage: '100'
tags:
- key: 'team'
value: 'data science'

pipeline

Type: Map

O pipeline é suportado em Python para Databricks Ativo Bundles. Consulte databricks.bundles.pipeline.

O recurso pipeline permite criar um pipeline declarativo LakeFlow Spark . Para obter informações sobre pipeline, consulte Pipeline declarativoLakeFlow Spark. Para obter um tutorial que usa o Databricks ativo Bundles padrão para criar um pipeline, consulte Desenvolver pipeline declarativo LakeFlow Spark com Databricks ativo Bundles.

YAML
pipelines:
<pipeline-name>:
<pipeline-field-name>: <pipeline-field-value>

Chave

Tipo

Descrição

allow_duplicate_names

Booleana

Se for falso, a implementação falhará se o nome entrar em conflito com o de outro pipeline.

budget_policy_id

String

Política orçamentária deste pipeline.

catalog

String

Um catálogo no Unity Catalog para publicar dados desse pipeline. Se target for especificado, as tabelas desse pipeline serão publicadas em um esquema target dentro de catalog (por exemplo, catalog.target.table). Se target não for especificado, nenhum dado será publicado no Unity Catalog.

channel

String

O canal Release do pipeline LakeFlow Spark Declarative especifica qual versão do pipeline LakeFlow Spark Declarative deve ser usada.

clusters

Sequência

As configurações de clustering para essa implementação pipeline. Veja clustering.

configuration

Mapa

A configuração para a execução desse pipeline.

continuous

Booleana

Se o pipeline é contínuo ou acionado. Isso substitui trigger.

deployment

Mapa

Tipo de implementação desse pipeline. Veja a implantação.

development

Booleana

Se o pipeline está em modo de desenvolvimento. padrão para falso.

dry_run

Booleana

Se o pipeline é uma execução seca pipeline.

edition

String

A edição do produto de pipeline.

environment

Mapa

A especificação de ambiente para este pipeline é utilizada para instalar dependências em serverless compute. Este recurso ( key ) é suportado apenas em Databricks CLI versão 0.258 e superior.

event_log

Mapa

A configuração do evento log para este pipeline. Veja event_log.

filters

Mapa

Os filtros que determinam qual pipeline pacote deve ser incluído no gráfico implantado. Veja os filtros.

id

String

Identificador exclusivo para esse pipeline.

ingestion_definition

Mapa

A configuração para uma ingestão gerenciar pipeline. Essas configurações não podem ser usadas com as configurações libraries, schema, target ou catalog. Veja ingestion_definition.

libraries

Sequência

Lista de bibliotecas ou códigos necessários para esta implementação. Consulte PipelineLibrary.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

name

String

Um nome amigável para esse pipeline.

notifications

Sequência

As configurações de notificação para este pipeline.

permissions

Sequência

As permissões do pipeline. Veja as permissões.

photon

Booleana

Se o Photon está ativado para esse pipeline.

root_path

String

O caminho raiz para esse pipeline. Ele é usado como o diretório raiz ao editar o pipeline na interface de usuário do Databricks e é adicionado ao sys.path ao executar códigos-fonte do Python durante a execução do pipeline.

run_as

Mapa

A identidade com a qual a execução do pipeline . Caso não seja especificado, a execução pipeline será feita pelo usuário que o pipeline. Somente user_name ou service_principal_name podem ser especificados. Se ambos forem especificados, será gerado um erro. Veja run_as.

schema

String

O esquema default (banco de dados) de onde as tabelas são lidas ou publicadas.

serverless

Booleana

Se serverless compute está ativado para este pipeline.

storage

String

O diretório DBFS root para armazenar pontos de controle e tabelas.

tags

Mapa

Um mapa de tags associadas ao pipeline. Eles são encaminhados para o site cluster como Tag de cluster e, portanto, estão sujeitos às mesmas limitações. Um máximo de 25 tags pode ser adicionado ao pipeline.

target

String

Esquema de destino (banco de dados) para adicionar tabelas nesse pipeline. Exatamente um dos schema ou target deve ser especificado. Para publicar no Unity Catalog, especifique também catalog. Esse campo legado está obsoleto para a criação de pipeline em favor do campo schema.

implantação de pipeline

Type: Map

Configuração do tipo de implantação para o pipeline.

Chave

Tipo

Descrição

kind

String

O tipo de implantação. Por exemplo, BUNDLE.

metadata_file_path

String

O caminho para o arquivo de metadados da implantação.

ambiente de pipeline

Type: Map

Especificação do ambiente para instalação de dependências em compute serverless .

Chave

Tipo

Descrição

spec

Mapa

A especificação para o ambiente. Veja as especificações.

pipeline.ambiente.spec

Type: Map

A especificação para o ambiente.

Chave

Tipo

Descrição

client

String

A versão do cliente (por exemplo, 1 ou 2).

dependencies

Sequência

Uma lista de dependências a instalar (por exemplo, numpy, pandas==1.5.0).

pipeline.log_de_eventos

Type: Map

Configuração log de eventos para o pipeline.

Chave

Tipo

Descrição

enabled

Booleana

Indica se o registro de eventos está ativado.

storage_location

String

Local de armazenamento dos logs de eventos.

pipeline.filtros

Type: Map

Filtros que determinam qual pacote pipeline incluir nos gráficos implantados.

Chave

Tipo

Descrição

include

Sequência

Uma lista de nomes de pacotes a serem incluídos.

exclude

Sequência

Uma lista de nomes de pacotes a serem excluídos.

pipeline.definição_de_ingestão

Type: Map

Configuração para um pipeline de ingestão principal.

Chave

Tipo

Descrição

connection_name

String

O nome da conexão a ser usada para ingestão.

ingestion_gateway_id

String

O ID do gateway de ingestão.

objects

Sequência

Uma lista de objetos a serem ingeridos. Cada objeto pode ser um SchemaSpec, TableSpec ou ReportSpec. Consulte SchemaSpec, TableSpec e ReportSpec.

table_configuration

Mapa

Configuração das tabelas de ingestão. Consulte a configuração da tabela.

Especificação de esquema

Type: Map

Especificação de objeto de esquema para ingestão de todas as tabelas de um esquema.

Chave

Tipo

Descrição

source_schema

String

O nome do esquema de origem a ser ingerido.

destination_catalog

String

O nome do catálogo de destino no Unity Catalog.

destination_schema

String

O nome do esquema de destino no Unity Catalog.

table_configuration

Mapa

Configuração a ser aplicada a todas as tabelas neste esquema. Consulte pipeline.ingestion_definition.table_configuration.

Especificações da tabela

Type: Map

Especificação de objeto de tabela para ingestão de uma tabela específica.

Chave

Tipo

Descrição

source_schema

String

O nome do esquema de origem que contém a tabela.

source_table

String

O nome da tabela de origem a ser ingerida.

destination_catalog

String

O nome do catálogo de destino no Unity Catalog.

destination_schema

String

O nome do esquema de destino no Unity Catalog.

destination_table

String

O nome da tabela de destino no Unity Catalog.

table_configuration

Mapa

Configuração para esta tabela específica. Consulte pipeline.ingestion_definition.table_configuration.

Especificações do relatório

Type: Map

Especificação do objeto de relatório para ingestão de relatórios analíticos.

Chave

Tipo

Descrição

source_url

String

O URL do relatório original.

source_report

String

O nome ou identificador do relatório de origem.

destination_catalog

String

O nome do catálogo de destino no Unity Catalog.

destination_schema

String

O nome do esquema de destino no Unity Catalog.

destination_table

String

O nome da tabela de destino para os dados do relatório.

table_configuration

Mapa

Configuração da tabela de relatórios. Consulte pipeline.ingestion_definition.table_configuration.

pipeline.definição_de_ingestão.configuração_da_tabela

Type: Map

Opções de configuração para tabelas de ingestão.

Chave

Tipo

Descrição

primary_keys

Sequência

Uma lista de nomes de colunas a serem usadas como chave primária da tabela.

salesforce_include_formula_fields

Booleana

Inclua ou não os campos de fórmula do Salesforce na ingestão de dados.

scd_type

String

O tipo de dimensões que mudam lentamente (SCD) (SCD) a serem aplicadas. Valores válidos: SCD_TYPE_1, SCD_TYPE_2.

Biblioteca de Pipeline

Type: Map

Define uma biblioteca ou código necessário para este pipeline.

Chave

Tipo

Descrição

file

Mapa

O caminho para um arquivo que define um pipeline e está armazenado nos Repos Databricks . Consulte pipeline.biblioteca.file.

glob

Mapa

O campo unificado para incluir o código-fonte. Cada entrada pode ser um caminho de Notebook, um caminho de arquivo ou um caminho de pasta que termina em /**. Este campo não pode ser usado em conjunto com notebook ou file. Consulte pipeline.biblioteca.glob.

notebook

Mapa

O caminho para um Notebook que define um pipeline e está armazenado no workspace Databricks . Consulte pipeline.biblioteca.Notebook.

whl

String

Este campo está obsoleto.

pipeline.biblioteca.file

Type: Map

O caminho para um arquivo que define um pipeline e está armazenado nos Repos Databricks .

Chave

Tipo

Descrição

path

String

O caminho absoluto do código-fonte.

pipeline.biblioteca.glob

Type: Map

O campo unificado para incluir o código-fonte. Cada entrada pode ser um caminho de Notebook, um caminho de arquivo ou um caminho de pasta que termina em /**. Este campo não pode ser usado em conjunto com notebook ou file.

Chave

Tipo

Descrição

include

String

O código-fonte a ser incluído para o pipeline

pipeline.biblioteca.Notebook

Type: Map

O caminho para um Notebook que define um pipeline e está armazenado no workspace Databricks .

Chave

Tipo

Descrição

path

String

O caminho absoluto do código-fonte.

Exemplo

O exemplo a seguir define um pipeline com o recurso key hello-pipeline:

YAML
resources:
pipelines:
hello-pipeline:
name: hello-pipeline
clusters:
- label: default
num_workers: 1
development: true
continuous: false
channel: CURRENT
edition: CORE
photon: false
libraries:
- notebook:
path: ./pipeline.py

Para obter exemplos adicionais de configuração do pipeline, consulte Configuração do pipeline.

quality_monitor (Unity Catalog)

Type: Map

O recurso quality_monitor permite definir um monitor de tabela Unity Catalog . Para informações sobre monitores, consulte perfil de dados.

YAML
quality_monitors:
<quality_monitor-name>:
<quality_monitor-field-name>: <quality_monitor-field-value>

Chave

Tipo

Descrição

assets_dir

String

O diretório para armazenar o monitoramento ativo (por exemplo, o dashboard, tabelas métricas).

baseline_table_name

String

Nome da tabela de linha de base a partir da qual as métricas de desvio são computadas. As colunas na tabela monitorada também devem estar presentes na tabela de linha de base.

custom_metrics

Sequência

Métricas personalizadas para compute na mesa monitorada. Elas podem ser métricas agregadas, métricas derivadas (a partir de métricas agregadas já computadas) ou métricas de desvio (comparando métricas entre janelas de tempo). Veja custom_metrics.

inference_log

Mapa

Configuração para inferência de monitoramento logs. Veja inference_log.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

notifications

Mapa

As configurações de notificação do monitor. Veja as notificações.

output_schema_name

String

Esquema em que as tabelas de métricas de saída são criadas.

schedule

Mapa

O programar para atualizar e refrescar automaticamente as tabelas métricas. Veja programar.

skip_builtin_dashboard

Booleana

Se o senhor deve deixar de criar um painel default resumindo as métricas de qualidade dos dados.

slicing_exprs

Sequência

Lista de expressões de coluna para fatiar dados para análise direcionada. Os dados são agrupados por cada expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos. Para colunas de alta cardinalidade, somente os 100 principais valores exclusivos por frequência gerarão fatias.

snapshot

Mapa

Configuração para monitoramento de tabelas de instantâneos. Veja a imagem.

table_name

String

O nome completo da tabela.

time_series

Mapa

Configuração para tabelas de séries temporais de monitoramento. Veja time_series.

warehouse_id

String

Argumento opcional para especificar o depósito para a criação do painel. Se não for especificado, o primeiro depósito em execução será usado.

monitor_de_qualidade.métricas_personalizadas

Type: Sequence

Chave

Tipo

Descrição

definition

String

Jinja padrão para uma expressão SQL que especifica como compute os metros. Veja criar definição de métricas.

input_columns

Sequência

Uma lista dos nomes das colunas na tabela de entrada para as quais os parâmetros devem ser calculados. Pode usar :table para indicar que as informações precisam de informações de múltiplas colunas.

name

String

Nome das medidas nas tabelas de saída.

output_data_type

String

O tipo de saída das métricas personalizadas.

type

String

Só pode ser um dos seguintes: CUSTOM_METRIC_TYPE_AGGREGATE, CUSTOM_METRIC_TYPE_DERIVED ou CUSTOM_METRIC_TYPE_DRIFT. As métricas CUSTOM_METRIC_TYPE_AGGREGATE e CUSTOM_METRIC_TYPE_DERIVED são calculadas em uma única tabela, enquanto as CUSTOM_METRIC_TYPE_DRIFT comparam métricas entre a tabela de linha de base e a tabela de entrada, ou entre as duas janelas de tempo consecutivas.

  • CUSTOM_METRIC_TYPE_AGGREGATE: depende apenas das colunas existentes na sua tabela.
  • CUSTOM_METRIC_TYPE_DERIVED: depende de métricas agregadas calculadas anteriormente.
  • CUSTOM_METRIC_TYPE_DRIFT: depende de métricas agregadas ou derivadas calculadas anteriormente.

configuração de classificação de dados do monitor de qualidade

Type: Map

Configuração para classificação de dados.

Chave

Tipo

Descrição

enabled

Booleana

Indica se a classificação de dados está ativada.

monitoramento_de_qualidade.log_de_inferência

Type: Map

Configuração para monitoramento de logs de inferência.

Chave

Tipo

Descrição

granularities

Sequência

As granularidades de tempo para agregar logs de inferência (por exemplo, ["1 day"]).

model_id_col

String

O nome da coluna que contém o ID do modelo.

prediction_col

String

O nome da coluna que contém a previsão.

timestamp_col

String

O nome da coluna que contém o registro de data e hora.

problem_type

String

O tipo de problema ML . Os valores válidos incluem PROBLEM_TYPE_CLASSIFICATION, PROBLEM_TYPE_REGRESSION.

label_col

String

O nome da coluna que contém o rótulo (verdade fundamental).

notificações_monitor_de_qualidade

Type: Map

Configurações de notificação para o monitor.

Chave

Tipo

Descrição

on_failure

Mapa

Configurações de notificação para quando o monitor falhar. Veja on_failure.

on_new_classification_tag_detected

Mapa

Configurações de notificação para quando novas tags de classificação forem detectadas. Veja on_new_classification_tag_detected.

notificação_de_monitoramento_de_qualidade.em_falha

Type: Map

Configurações de notificação para quando o monitor falhar.

Chave

Tipo

Descrição

email_addresses

Sequência

Uma lista de endereços email para notificação em caso de falha do monitor.

quality_monitor.notifications.on_new_classification_tag_detected

Type: Map

Configurações de notificação para quando novas tags de classificação forem detectadas.

Chave

Tipo

Descrição

email_addresses

Sequência

Uma lista de endereços email para notificar quando novas tags de classificação forem detectadas.

monitor_de_qualidade.programa

Type: Map

Programa para atualização e renovação automática de tabelas de métricas.

Chave

Tipo

Descrição

quartz_cron_expression

String

Uma expressão Cron usando a sintaxe do Quartz. Por exemplo, 0 0 8 * * ? execução todos os dias às 8:00 da manhã.

timezone_id

String

O fuso horário do programador (por exemplo, UTC, America/Los_Angeles).

pause_status

String

Se o programar está pausado. Valores válidos: PAUSED, UNPAUSED.

monitor_de_qualidade.Instantâneo

Type: Map

Configuração para monitoramento de tabelas de instantâneos.

monitor_de_qualidade.séries_temporais

Configuração para monitoramento de tabelas de séries temporais.

Chave

Tipo

Descrição

granularities

Sequência

As granularidades de tempo para agregar dados de séries temporais (por exemplo, ["30 minutes"]).

timestamp_col

String

O nome da coluna que contém o registro de data e hora.

Exemplos

Para ver um pacote de exemplo completo que define um quality_monitor, consulte o pacote mlops_demo.

Os exemplos a seguir definem monitores de qualidade para os tipos de perfil InferenceLog, TimeSeries e Snapshot.

YAML
# InferenceLog profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
inference_log:
granularities: [1 day]
model_id_col: model_id
prediction_col: prediction
label_col: price
problem_type: PROBLEM_TYPE_REGRESSION
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
YAML
# TimeSeries profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
time_series:
granularities: [30 minutes]
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
YAML
# Snapshot profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
snapshot: {}
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC

registered_model (Unity Catalog)

Type: Map

O recurso de modelo registrado permite que o senhor defina modelos no Unity Catalog. Para obter informações sobre Unity Catalog os modelos registrados em, consulte gerenciar o ciclo de vida do Unity Catalog modelo em.

YAML
registered_models:
<registered_model-name>:
<registered_model-field-name>: <registered_model-field-value>

Chave

Tipo

Descrição

aliases

Sequência

Lista de nomes alternativos associados ao modelo registrado. Consulte registered_model.aliases.

browse_only

Booleana

Indica se a entidade principal está limitada a recuperar metadados do objeto associado por meio do privilégio BROWSE quando include_browse está habilitado na solicitação.

catalog_name

String

O nome do catálogo em que o esquema e o modelo registrado residem.

comment

String

O comentário anexado ao modelo registrado.

full_name

String

O nome completo (de três níveis) do modelo registrado.

grants

Sequência

As bolsas associadas ao modelo registrado. Veja concessão.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

name

String

O nome do modelo registrado.

schema_name

String

O nome do esquema em que o modelo registrado reside.

storage_location

String

O local de armazenamento na nuvem sob o qual os arquivos de dados da versão do modelo são armazenados.

aliases do modelo registrado

Type: Sequence

Lista de nomes alternativos associados ao modelo registrado

Chave

Tipo

Descrição

alias_name

String

Nome do pseudônimo, por exemplo 'campeão' ou 'última_estável'

catalog_name

String

O nome do catálogo que contém a versão do modelo.

id

String

O identificador único do pseudônimo

model_name

String

O nome do modelo pai registrado da versão do modelo, relativo ao esquema pai.

schema_name

String

O nome do esquema que contém a versão do modelo, relativo ao catálogo pai.

version_num

Integer

Número inteiro da versão do modelo à qual este alias se refere.

Exemplo

O exemplo a seguir define um modelo registrado no Unity Catalog:

YAML
resources:
registered_models:
model:
name: my_model
catalog_name: ${bundle.target}
schema_name: mlops_schema
comment: Registered model in Unity Catalog for ${bundle.target} deployment target
grants:
- privileges:
- EXECUTE
principal: account users

schema (Unity Catalog)

Type: Map

O Python oferece suporte a esquemas para Databricks Ativo Bundles. Consulte databricks.bundles.schemas.

O tipo de recurso schema permite que o senhor defina Unity Catalog esquemas para tabelas e outros ativos em seu fluxo de trabalho e pipeline criados como parte de um pacote. Um esquema, diferente de outros tipos de recurso, tem as seguintes limitações:

  • O proprietário de um recurso de esquema é sempre o usuário de implantação e não pode ser alterado. Se run_as for especificado no pacote, ele será ignorado pelas operações no esquema.
  • Somente os campos suportados pela API de criação de objeto Schemas correspondente estão disponíveis para o recurso de esquema. Por exemplo, o site enable_predictive_optimization não é compatível, pois está disponível apenas na API de atualização.
YAML
schemas:
<schema-name>:
<schema-field-name>: <schema-field-value>

Chave

Tipo

Descrição

catalog_name

String

O nome do catálogo principal.

comment

String

Uma descrição de texto em formato livre fornecida pelo usuário.

grants

Sequência

As concessões associadas ao esquema. Veja concessão.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

name

String

O nome do esquema, relativo ao catálogo principal.

properties

Mapa

Um mapa de key-value properties anexado ao esquema.

storage_root

String

O URL da raiz de armazenamento para gerenciar tabelas dentro do esquema.

Exemplos

O exemplo a seguir define um pipeline com o recurso key my_pipeline que cria um esquema Unity Catalog com o key my_schema como destino:

YAML
resources:
pipelines:
my_pipeline:
name: test-pipeline-{{.unique_id}}
libraries:
- notebook:
path: ../src/nb.ipynb
- file:
path: ../src/range.sql
development: true
catalog: ${resources.schemas.my_schema.catalog_name}
target: ${resources.schemas.my_schema.id}

schemas:
my_schema:
name: test-schema-{{.unique_id}}
catalog_name: main
comment: This schema was created by Databricks Asset Bundles.

Um mapeamento de concessões de nível superior não é suportado pelo Databricks ativo Bundles, portanto, se o senhor quiser definir concessões para um esquema, defina as concessões para o esquema dentro do mapeamento schemas. Para obter mais informações sobre concessões, consulte Mostrar, conceder e revogar privilégios.

O exemplo a seguir define um esquema do Unity Catalog com concessões:

YAML
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main

escopo_secreto

Type: Map

O recurso secret_scope permite que o senhor defina o escopo secreto em um pacote. Para obter informações sobre o Secret Scope, consulte Secret management.

YAML
secret_scopes:
<secret_scope-name>:
<secret_scope-field-name>: <secret_scope-field-value>

Chave

Tipo

Descrição

backend_type

String

O tipo de back-end com o qual o escopo será criado. Se não for especificado, o padrão será DATABRICKS.

keyvault_metadata

Mapa

Os metadados para o Escopo Secreto se backend_type for AZURE_KEYVAULT. Consulte keyvault_metadata.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

name

String

Nome do escopo solicitado pelo usuário. Os nomes dos escopos são exclusivos.

permissions

Sequência

As permissões a serem aplicadas ao escopo secreto. As permissões são gerenciadas por meio de ACLs de escopo secreto. Veja as permissões.

secret_scope.keyvault_metadata

Type: Map

Metadados para o Escopo de Segredos com suporte Azure Key Vault.

Chave

Tipo

Descrição

resource_id

String

O ID do recurso Azure do cofre de chaves.

dns_name

String

O nome DNS do Azure Key Vault.

Exemplos

O exemplo a seguir define um escopo secreto que usa um backend de cofre key:

YAML
resources:
secret_scopes:
secret_scope_azure:
name: test-secrets-azure-backend
backend_type: 'AZURE_KEYVAULT'
keyvault_metadata:
resource_id: my_azure_keyvault_id
dns_name: my_azure_keyvault_dns_name

O exemplo a seguir define um ACL personalizado usando o escopo secreto e as permissões:

YAML
resources:
secret_scopes:
my_secret_scope:
name: my_secret_scope
permissions:
- user_name: admins
level: WRITE
- user_name: users
level: READ

Para obter um exemplo de pacote que demonstra como definir um escopo secreto e um trabalho com uma tarefa que lê a partir dele em um pacote, consulte o repositório bundle-examples GitHub.

sql_warehouse

Type: Map

O recurso SQL warehouse permite que você defina um SQL warehouse em um pacote. Para obter informações sobre SQL Warehouse, consulte data warehousing no Databricks.

YAML
sql_warehouses:
<sql-warehouse-name>:
<sql-warehouse-field-name>: <sql-warehouse-field-value>

Chave

Tipo

Descrição

auto_stop_mins

Integer

A quantidade de tempo em minutos que um SQL warehouse deve ficar parado (por exemplo, sem consultas em EXECUÇÃO) antes de ser interrompido automaticamente. Os valores válidos são 0, que indica nenhuma parada automática, ou maior ou igual a 10. O default é 120.

channel

Mapa

Detalhes do canal. Veja o canal

cluster_size

String

O tamanho dos clusters alocados para este warehouse. Aumentar o tamanho de um cluster Spark permite que você execute consultas maiores nele. Se você quiser aumentar o número de consultas concorrentes, ajuste max_num_clusters. Para valores suportados, consulte cluster_size.

creator_name

String

O nome do usuário que criou o warehouse.

enable_photon

Booleana

Se o warehouse deve usar clusters otimizados do Photon. padrão para falso.

enable_serverless_compute

Booleana

Se o warehouse deve usar compute serverless .

instance_profile_arn

String

Obsoleto. perfil de instância usado para passar IAM role para o cluster,

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

max_num_clusters

Integer

O número máximo de clusters que o autoescalador criará para lidar com consultas concorrentes. Os valores devem ser menores ou iguais a 30 e maiores ou iguais a min_num_clusters. padrão para min_clusters se não definido.

min_num_clusters

Integer

O número mínimo de clusters disponíveis que serão mantidos para este SQL warehouse. Aumentar isso garantirá que um número maior de clusters esteja sempre em execução e, portanto, pode reduzir o tempo de inicialização para novas consultas. Isso é semelhante aos núcleos reservados e revogáveis em um gerenciador de recursos. Os valores devem ser maiores que 0 e menores ou iguais a min(max_num_clusters, 30). padrão para 1.

name

String

O nome lógico do cluster. O nome deve ser único dentro de uma organização e ter menos de 100 caracteres.

permissions

Sequência

As autorizações necessárias para o armazém. Consulte as permissões.

spot_instance_policy

String

Se deve ou não usar instâncias pontuais. Os valores válidos são POLICY_UNSPECIFIED, COST_OPTIMIZED, RELIABILITY_OPTIMIZED. O default é COST_OPTIMIZED.

tags

Mapa

Um conjunto de key-valor par que serão tags em todos os recursos (por exemplo, instâncias AWS e volumes EBS) associados a este SQL warehouse. O número de tags deve ser inferior a 45.

warehouse_type

String

O tipo de depósito, PRO ou CLASSIC. Se você quiser usar compute serverless , defina este campo como PRO e também defina o campo enable_serverless_compute como true.

sql_warehouse.canal

Type: Map

Configuração do canal para o SQL warehouse.

Chave

Tipo

Descrição

name

String

O nome do canal. Os valores válidos incluem CHANNEL_NAME_CURRENT, CHANNEL_NAME_PREVIEW, CHANNEL_NAME_CUSTOM.

dbsql_version

String

A versão DBSQL para canal personalizado.

Exemplo

O exemplo a seguir define um SQL warehouse:

YAML
resources:
sql_warehouses:
my_sql_warehouse:
name: my_sql_warehouse
cluster_size: X-Large
enable_serverless_compute: true
max_num_clusters: 3
min_num_clusters: 1
auto_stop_mins: 60
warehouse_type: PRO

tabela_de_base de dados sincronizada

Type: Map

O recurso de tabela de banco de dados sincronizado permite que o senhor defina tabelas de banco de dados do Lakebase em um pacote.

YAML
synced_database_tables:
<synced_database_table-name>:
<synced_database_table-field-name>: <synced_database_table-field-value>

Chave

Tipo

Descrição

database_instance_name

String

O nome da instância do banco de dados de destino. Isso é necessário ao criar tabelas de banco de dados sincronizadas em catálogos padrão. Isso é opcional ao criar tabelas de banco de dados sincronizadas em catálogos registrados.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

logical_database_name

String

O nome do objeto de banco de dados Postgres de destino (banco de dados lógico) para essa tabela.

name

String

O nome completo da tabela, no formato catalog.schema.table.

spec

Mapa

A especificação da tabela do banco de dados. Consulte a especificação da tabela de banco de dados sincronizada.

tabela_banco_de_dados_sincronizado.spec

Type: Map

Especificação da tabela do banco de dados.

Chave

Tipo

Descrição

create_database_objects_if_missing

Booleana

Indica se deve criar o recurso de banco de dados lógico e esquema da tabela sincronizada, caso ainda não existam.

existing_pipeline_id

String

O ID de um pipeline existente. Se esta opção estiver definida, a tabela sincronizada será compactada no pipeline existente referenciado. Isso evita a criação de um novo pipeline e permite o compartilhamento de compute existentes. Neste caso, o scheduling_policy desta tabela sincronizada deve corresponder à política programática do pipeline existente. No máximo um de existing_pipeline_id e new_pipeline_spec deve ser definido.

new_pipeline_spec

Mapa

A especificação para um novo pipeline. Consulte new_pipeline_spec. No máximo um de existing_pipeline_id e new_pipeline_spec deve ser definido.

primary_key_columns

Sequência

A lista de nomes de colunas que formam a key primária.

scheduling_policy

String

A política de programação para sincronização. Os valores válidos incluem SNAPSHOT, CONTINUOUS.

source_table_full_name

String

O nome completo da tabela de origem no formato catalog.schema.table.

timeseries_key

String

key de série temporal para remover linhas duplicadas com a mesma key primária.

tabela_banco_de_dados_sincronizada.spec.novo_pipeline_spec

Type: Map

Especificação de um novo pipeline usado pela tabela de banco de dados sincronizada.

Chave

Tipo

Descrição

storage_catalog

String

O catálogo do pipeline para armazenar arquivos intermediários, como pontos de verificação e logs de eventos. Este deve ser um catálogo padrão onde o usuário tenha permissões para criar tabelas Delta.

storage_schema

String

O esquema do pipeline para armazenar arquivos intermediários, como pontos de verificação e logs de eventos. Isso precisa estar no catálogo padrão, onde o usuário tem permissões para criar tabelas Delta.

Exemplos

O exemplo a seguir define uma tabela de banco de dados sincronizada em um catálogo de banco de dados correspondente:

YAML
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: my-instance
database_name: 'my_database'
name: my_catalog
create_database_if_not_exists: true
synced_database_tables:
my_synced_table:
name: ${resources.database_catalogs.my_catalog.name}.${resources.database_catalogs.my_catalog.database_name}.my_destination_table
database_instance_name: ${resources.database_catalogs.my_catalog.database_instance_name}
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'my_source_table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'

O exemplo a seguir define uma tabela de banco de dados sincronizada dentro de um catálogo padrão:

YAML
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.public.synced_table'
# database_instance_name is required for synced tables created in standard catalogs.
database_instance_name: 'my-database-instance'
# logical_database_name is required for synced tables created in standard catalogs:
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'source_catalog.schema.table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'

Este exemplo cria uma tabela de banco de dados sincronizada e personaliza o programa pipeline para ela. Ele pressupõe que você já tenha:

  • Uma instância de banco de dados chamada my-database-instance
  • Um catálogo padrão chamado my_standard_catalog
  • Um esquema no catálogo padrão denominado default
  • Uma tabela delta de origem chamada source_delta.schema.customer com a keyprimária c_custkey
YAML
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.default.my_synced_table'
database_instance_name: 'my-database-instance'
logical_database_name: 'test_db'
spec:
source_table_full_name: 'source_delta.schema.customer'
scheduling_policy: SNAPSHOT
primary_key_columns:
- c_custkey
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'source_delta'
storage_schema: 'schema'

jobs:
sync_pipeline_schedule_job:
name: sync_pipeline_schedule_job
description: 'Job to schedule synced database table pipeline.'
tasks:
- task_key: synced-table-pipeline
pipeline_task:
pipeline_id: ${resources.synced_database_tables.my_synced_table.data_synchronization_status.pipeline_id}
schedule:
quartz_cron_expression: '0 0 0 * * ?'

volume (Unity Catalog)

Type: Map

Python oferece suporte a volumes para Databricks Ativo Bundles. Consulte databricks.bundles.volumes.

O tipo de recurso de volume permite que o senhor defina e crie volumes do Unity Catalog como parte de um pacote. Ao implantar um feixe com um volume definido, observe que

  • Um volume não pode ser referenciado no artifact_path para o pacote até que ele exista no workspace. Portanto, se quiser usar Databricks ativo Bundles para criar o volume, o senhor deve primeiro definir o volume no bundle, implantá-lo para criar o volume e, em seguida, fazer referência a ele no artifact_path em implantações subsequentes.
  • Os volumes no pacote não são prefixados com o prefixo dev_${workspace.current_user.short_name} quando o destino de implantação tem mode: development configurado. No entanto, você pode configurar manualmente esse prefixo. Consulte Predefinições personalizadas.
YAML
volumes:
<volume-name>:
<volume-field-name>: <volume-field-value>

Chave

Tipo

Descrição

catalog_name

String

O nome do catálogo do esquema e do volume.

comment

String

O comentário anexado ao volume.

grants

Sequência

As subvenções associadas ao volume. Veja concessão.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

name

String

O nome do volume.

schema_name

String

O nome do esquema em que o volume está.

storage_location

String

O local de armazenamento na nuvem.

volume_type

String

O tipo de volume, EXTERNAL ou MANAGED. Um volume externo está localizado no local externo especificado. Um volume gerenciado está localizado no local default especificado pelo esquema pai, pelo catálogo pai ou pelo metastore. Consulte gerenciar versus volumes externos.

Exemplo

O exemplo a seguir cria um volume Unity Catalog com o key my_volume_id:

YAML
resources:
volumes:
my_volume_id:
catalog_name: main
name: my_volume
schema_name: my_schema

Para obter um exemplo de pacote que executa um trabalho que grava em um arquivo no volume Unity Catalog, consulte o repositório bundle-examples GitHub.

Objetos comuns

conceder

Type: Map

Define o principal e os privilégios a serem concedidos a esse principal. Para obter mais informações sobre concessões, consulte Exibir, conceder e revogar privilégios.

Chave

Tipo

Descrição

principal

String

O nome do diretor que receberá os privilégios. Pode ser um usuário, um grupo ou uma entidade de serviço.

privileges

Sequência

Os privilégios a serem concedidos à entidade especificada. Os valores válidos dependem do tipo de recurso (por exemplo, SELECT, MODIFY, CREATE, USAGE, READ_FILES, WRITE_FILES, EXECUTE, ALL_PRIVILEGES).

Exemplo

O exemplo a seguir define um esquema do Unity Catalog com concessões:

YAML
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main

vida útil

Type: Map

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído.

Chave

Tipo

Descrição

prevent_destroy

Booleana

Configuração do ciclo de vida para impedir que o recurso seja destruído.