Pular para o conteúdo principal

Databricks ativo Bundles recurso

Databricks ativo Bundles permite que você especifique informações sobre o recurso Databricks usado pelo pacote no mapeamento resources na configuração do pacote. Consulte a referência de recursos.

Esta página fornece uma referência de configuração para todos os tipos de recursos suportados para pacotes, incluindo detalhes e um exemplo para cada tipo suportado. Para exemplos adicionais, consulte Exemplos de configuração de pacotes.

O esquema JSON para pacotes usado para validar a configuração YAML está no repositório GitHub da CLI do Databricks.

dica

Para gerar YAML para qualquer recurso existente, utilize o comando databricks bundle generate. Veja a geração do pacote databricks.

Recurso suportado

A tabela a seguir lista os tipos de recursos suportados para pacotes (YAML e Python, quando aplicável). Alguns recursos podem ser criados definindo-os em um pacote e implantando o pacote, enquanto outros recursos só podem ser criados referenciando uma ativa existente para inclusão no pacote.

A configuração de recurso define um objeto Databricks que corresponde a um objeto APIREST Databricks . Os campos de solicitação de criação suportados pelo objeto API REST , expressos em YAML, são a chave suportada do recurso. Os links para a documentação de cada objeto correspondente a um recurso encontram-se na tabela abaixo.

dica

O comando databricks bundle validate retorna avisos se forem encontradas propriedades de recurso desconhecidas nos arquivos de configuração do pacote.

alerta

Type: Map

O recurso de alerta define um alerta SQL (v2).

Adicionado na versão 0.279.0 da CLI do Databricks.

YAML
alerts:
<alert-name>:
<alert-field-name>: <alert-field-value>

Chave

Tipo

Descrição

custom_description

String

Opcional. Descrição personalizada para o alerta. Suporta bigode padrão.

Adicionado na versão 0.279.0 da CLI do Databricks.

custom_summary

String

Opcional. Resumo personalizado para o alerta. Suporta bigode padrão.

Adicionado na versão 0.279.0 da CLI do Databricks.

display_name

String

Obrigatório. O nome de exibição do alerta, por exemplo, Example alert.

Adicionado na versão 0.279.0 da CLI do Databricks.

evaluation

Mapa

Obrigatório. Configuração de avaliação para o alerta. Veja alerta.avaliação.

Adicionado na versão 0.279.0 da CLI do Databricks.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.279.0 da CLI do Databricks.

parent_path

String

Opcional. O caminho do workspace que contém o alerta. Só pode ser definido na criação e não pode ser atualizado. Exemplo: /Users/someone@example.com.

Adicionado na versão 0.279.0 da CLI do Databricks.

permissions

Sequência

As permissões de alerta. Consulte as permissões.

Adicionado na versão 0.279.0 da CLI do Databricks.

query_text

String

Obrigatório. Texto da consulta a ser executada, por exemplo, SELECT 1.

Adicionado na versão 0.279.0 da CLI do Databricks.

run_as

Mapa

Opcional. Especifica a identidade que será usada para executar o alerta. Este campo permite configurar o alerta de execução como um usuário ou entidade de serviço específico. Veja run_as.

  • Para a identidade do usuário: Defina user_name como o email de um usuário ativo workspace . Os usuários só podem definir isso para o seu próprio email.
  • Para entidade de serviço: Defina service_principal_name como o ID do aplicativo. Requer a função servicePrincipal/user. Caso não seja especificado, o alerta será executado como o usuário solicitante.

Adicionado na versão 0.279.0 da CLI do Databricks.

schedule

Mapa

Obrigatório. A configuração programática para o alerta. Veja alerta.programar.

Adicionado na versão 0.279.0 da CLI do Databricks.

warehouse_id

String

Obrigatório. ID do SQL warehouse associado ao alerta, por exemplo, a7066a8ef796be84.

Adicionado na versão 0.279.0 da CLI do Databricks.

alerta.avaliação

Type: Map

Configuração de avaliação para o alerta.

Chave

Tipo

Descrição

comparison_operator

String

O operador utilizado para comparação na avaliação do alerta.

empty_result_state

String

O estado de alerta é exibido se o resultado estiver vazio. Evite definir este campo como UNKNOWN porque o estado UNKNOWN está planejado para ser descontinuado.

notification

Mapa

O usuário ou outro destinatário deverá ser notificado quando o alerta for acionado. Consulte alerta.evaluation.notification.

source

Mapa

A coluna de origem do resultado a ser usada para avaliar o alerta. Consulte alerta.evaluation.source.

threshold

Mapa

O limite a ser usado para avaliação de alertas. Isso pode ser uma coluna ou um valor. Consulte alerta.eavaliação.limite.

alerta.avaliação.notificação

Type: Map

O usuário ou outro destinatário deverá ser notificado quando o alerta for acionado.

Chave

Tipo

Descrição

notify_on_ok

Booleana

Opcional. Se deve notificar os assinantes do alerta quando o alerta voltar ao normal.

retrigger_seconds

Integer

Opcional. Número de segundos que um alerta aguarda após ser acionado antes de poder enviar outra notificação. Se definido como 0 ou omitido, o alerta não enviará mais notificações após o primeiro acionamento. Definir este valor como 1 permite que o alerta envie uma notificação em cada avaliação em que a condição for atendida, fazendo com que ele seja sempre acionado para fins de notificação.

subscriptions

Sequência

Opcional. Lista não ordenada de inscrição de notificação. Ver alerta.eavaliação.notificação.inscrição.

alerta.eavaliação.notificação.inscrição

Type: Sequence

Uma lista não ordenada de inscrição de notificação.

Cada item da lista é um AlertSubscription:

Chave

Tipo

Descrição

destination_id

String

O ID do destino da notificação.

user_email

String

O endereço email do usuário a ser notificado.

alerta.avaliação.fonte

Type: Map

Coluna de origem do resultado a ser usada para avaliar o alerta.

Chave

Tipo

Descrição

aggregation

String

O método de agregação a ser aplicado à coluna de origem. Os valores válidos são SUM, COUNT, COUNT_DISTINCT, AVG, MEDIAN, MIN, MAX, STDDEV

display

String

O nome de exibição da coluna de origem.

name

String

O nome da coluna de origem do resultado da consulta.

alerta.avaliação.limite

Type: Map

O parâmetro a ser usado para avaliação de alertas pode ser uma coluna ou um valor.

Chave

Tipo

Descrição

column

Mapa

Referência da coluna a ser usada como limite. Consulte alerta.evaluation.source.

value

Mapa

Valor literal a ser usado como limite. Consulte alerta.evaluation.limite.value.

valor limite de avaliação de alerta

Type: Map

Valor literal a ser usado como limite. Especifique um dos seguintes tipos de valor.

Chave

Tipo

Descrição

bool_value

Booleana

Opcional. Valor Boolean para o limite, por exemplo, true.

double_value

Double

Opcional. Valor numérico para o limite, por exemplo, 1.25.

string_value

String

Opcional. strings valor para o limite, por exemplo, test.

alerta.programar

Type: Map

A configuração programática para o alerta.

Chave

Tipo

Descrição

pause_status

String

Opcional. Se este programador está pausado ou não. Valores válidos: UNPAUSED, PAUSED. padrão: UNPAUSED.

quartz_cron_schedule

String

Obrigatório. Uma expressão cron usando a sintaxe do Quartz que especifica o programador para este pipeline. O formato quartz é descrito em formato de programador quartz.

timezone_id

String

Obrigatório. Um ID de fuso horário Java. O programador será resolvido usando este fuso horário. Isso será combinado com quartz_cron_schedule para determinar o programar. Consulte SET FUSO HORÁRIO para obter detalhes.

Exemplos

A seguinte configuração de exemplo define um alerta com uma avaliação simples:

YAML
resources:
alerts:
my_alert:
display_name: my_alert
evaluation:
comparison_operator: EQUAL
source:
name: '1'
threshold:
value:
double_value: 2
query_text: select 2
schedule:
quartz_cron_schedule: '44 19 */1 * * ?'
timezone_id: Europe/Amsterdam
warehouse_id: 799f096837fzzzz4

A seguinte configuração de exemplo define um alerta com permissões que é avaliado usando agregação e envia notificações:

YAML
resources:
alerts:
my_alert:
permissions:
- level: CAN_MANAGE
user_name: someone@example.com
custom_summary: 'My alert'
display_name: 'My alert'
evaluation:
comparison_operator: 'EQUAL'
notification:
notify_on_ok: false
retrigger_seconds: 1
source:
aggregation: 'MAX'
display: '1'
name: '1'
threshold:
value:
double_value: 2
query_text: 'select 2'
schedule:
pause_status: 'UNPAUSED'
quartz_cron_schedule: '44 19 */1 * * ?'
timezone_id: 'Europe/Amsterdam'
warehouse_id: 799f096837fzzzz4

aplicativo

Type: Map

O recurso de aplicativo define um aplicativo Databricks. Para obter informações sobre Databricks Apps, consulte Databricks Apps.

Para adicionar um aplicativo, especifique as configurações para definir o aplicativo, incluindo o source_code_path necessário.

dica

O senhor pode inicializar um pacote com um aplicativo Streamlit Databricks usando o seguinte comando:

databricks bundle init https://github.com/databricks/bundle-examples --template-dir contrib/templates/streamlit-app

Adicionado na versão 0.239.0 da CLI do Databricks.

YAML
apps:
<app-name>:
<app-field-name>: <app-field-value>

Chave

Tipo

Descrição

budget_policy_id

String

O ID da política de orçamento do aplicativo.

Adicionado na versão 0.243.0 da CLI do Databricks.

compute_size

String

O tamanho compute para o aplicativo. Os valores válidos são MEDIUM ou LARGE , mas dependem da configuração workspace .

Adicionado na versão 0.273.0 da CLI do Databricks.

config

Mapa

Comando de configuração do aplicativo e variável de ambiente. Quando especificada, essa configuração é gravada em um arquivo app.yaml no caminho do código-fonte durante a implantação. Isso permite definir a configuração do aplicativo diretamente no arquivo YAML do pacote, em vez de manter um arquivo app.yaml separado. Consulte app.config.

Adicionado na versão 0.283.0 da CLI do Databricks.

description

String

A descrição do aplicativo.

Adicionado na versão 0.239.0 da CLI do Databricks.

lifecycle

Mapa

O comportamento do recurso quando ele é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

name

String

O nome do aplicativo. O nome deve conter somente caracteres alfanuméricos minúsculos e hífens. Ele deve ser exclusivo no site workspace.

Adicionado na versão 0.239.0 da CLI do Databricks.

permissions

Sequência

As permissões do aplicativo. Veja as permissões.

Adicionado na versão 0.239.0 da CLI do Databricks.

resources

Sequência

O aplicativo compute recursos. Veja app.recurso.

Adicionado na versão 0.239.0 da CLI do Databricks.

source_code_path

String

O caminho local ./app do código-fonte do aplicativo Databricks.

Adicionado na versão 0.239.0 da CLI do Databricks.

user_api_scopes

Sequência

Os escopos da API do usuário.

Adicionado na versão 0.246.0 da CLI do Databricks.

app.config

Comando de configuração do aplicativo e variável de ambiente. Consulte Configurar a execução do aplicativo Databricks com app.yaml.

Chave

Tipo

Descrição

command

Sequência

O comando para executar o aplicativo, por exemplo ["streamlit", "run", "app.py"]

env

Sequência

Uma lista de pares name e value que especificam a variável de ambiente do aplicativo.

app.recurso

Type: Sequence

Uma lista de recursos compute para o aplicativo.

Cada item da lista é um AppResource:

Chave

Tipo

Descrição

description

String

A descrição do recurso do aplicativo.

database

Mapa

As configurações que identificam o banco de dados Lakebase a ser usado. Consulte app.recurso.database.

experiment

Mapa

As configurações que identificam o experimento MLflow a ser usado. Veja app.recurso.experiment.

genie_space

Mapa

As configurações que identificam o espaço Genie a ser usado. Veja app.recurso.genie_space.

job

Mapa

As configurações que identificam o recurso de trabalho a ser usado. Veja app.recurso.Job.

name

String

O nome do recurso do aplicativo.

secret

Mapa

As configurações que identificam o recurso secreto do Databricks a ser usado. Veja app.recurso.secret.

serving_endpoint

Mapa

As configurações que identificam o recurso endpoint do modelo de serviço a ser usado. Consulte app.recurso.serving_endpoint.

sql_warehouse

Mapa

As configurações que identificam o recurso SQL warehouse a ser usado. Consulte app.recurso.sql_warehouse.

uc_securable

Mapa

As configurações que identificam o volume Unity Catalog a ser usado. Veja app.recurso.uc_securable.

app.recurso.database

Type: Map

As configurações que identificam o banco de dados Lakebase a ser usado.

Chave

Tipo

Descrição

database_name

String

O nome do banco de dados.

instance_name

String

O nome da instância do banco de dados.

permission

String

O nível de permissão para o banco de dados. Os valores válidos são CAN_CONNECT_AND_CREATE.

app.recurso.experiment

Type: Map

As configurações que identificam o experimento MLflow a ser usado.

Chave

Tipo

Descrição

experiment_id

String

O ID do experimento MLflow.

permission

String

O nível de permissão para o experimento. Os valores válidos incluem CAN_READ, CAN_EDIT, CAN_MANAGE.

app.recurso.genie_space

Type: Map

As configurações que identificam o espaço Genie a ser usado.

Chave

Tipo

Descrição

name

String

O nome do espaço Genie.

permission

String

O nível de permissão para o espaço. Os valores válidos incluem CAN_VIEW, CAN_EDIT, CAN_MANAGE, CAN_RUN.

space_id

String

O ID do espaço Genie, por exemplo 550e8400-e29b-41d4-a716-999955440000.

app.recurso.Job

Type: Map

As configurações que identificam o recurso de trabalho a ser usado.

Chave

Tipo

Descrição

id

String

A ID do job.

permission

String

O nível de permissão para a tarefa. Os valores válidos incluem CAN_VIEW, CAN_MANAGE_RUN, CAN_MANAGE, IS_OWNER.

app.recurso.secret

Type: Map

As configurações que identificam o recurso secreto do Databricks a ser usado.

Chave

Tipo

Descrição

key

String

A key do segredo para conceder permissão.

permission

String

O nível de permissão para o segredo. Os valores válidos incluem READ, WRITE, MANAGE.

scope

String

O nome do Escopo Secreto.

app.recurso.serving_endpoint

Type: Map

As configurações que identificam o modelo de serviço endpoint recurso a ser usado.

Chave

Tipo

Descrição

name

String

O nome do endpoint de serviço.

permission

String

O nível de permissão para o endpoint de serviço. Os valores válidos incluem CAN_QUERY, CAN_MANAGE, CAN_VIEW.

app.recurso.sql_warehouse

Type: Map

As configurações que identificam o SQL warehouse a ser usado.

Chave

Tipo

Descrição

id

String

O ID do SQL warehouse.

permission

String

O nível de permissão para o SQL warehouse. Os valores válidos incluem CAN_USE, CAN_MANAGE, IS_OWNER.

app.recurso.uc_securable

Type: Map

As configurações que identificam o volume do Unity Catalog a ser usado.

Chave

Tipo

Descrição

permission

String

O nível de permissão para o Unity Catalog ser protegido. Os valores válidos são READ_VOLUME e WRITE_VOLUME.

securable_full_name

String

O nome completo do Unity Catalog pode ser protegido no formato catalog.schema.volume.

securable_type

String

O tipo de Unity Catalog que pode ser protegido. Os valores válidos são VOLUME.

Exemplos

Para um tutorial que explica passo a passo como criar um pacote que define um aplicativo, consulte Gerenciar aplicativos Databricks usando Databricks Ativo Bundles.

O exemplo a seguir define um aplicativo básico:

YAML
resources:
apps:
hello_world_app:
name: 'hello-world-app'
source_code_path: . # This assumes the app source code is at the root of the project.
description: 'A Databricks app'

O exemplo a seguir cria um aplicativo chamado my_app que gerencia um Job criado pelo pacote. Para ver o exemplo completo, consulte o repositório GitHub bundle-examples.

YAML
resources:
jobs:
# Define a job in the bundle
hello_world:
name: hello_world
tasks:
- task_key: task
spark_python_task:
python_file: ../src/main.py
environment_key: default

environments:
- environment_key: default
spec:
environment_version: '2'

# Define an app that manages the job in the bundle
apps:
job_manager:
name: 'job_manager_app'
description: 'An app which manages a job created by this bundle'

# The location of the source code for the app
source_code_path: ../src/app

# The resources in the bundle which this app has access to. This binds the resource in the app with the bundle resource.
resources:
- name: 'app-job'
job:
id: ${resources.jobs.hello_world.id}
permission: 'CAN_MANAGE_RUN'

O app.yaml correspondente define a configuração para executar o aplicativo:

YAML
command:
- flask
- --app
- app
- run
- --debug
env:
- name: JOB_ID
valueFrom: 'app-job'

O exemplo a seguir cria um aplicativo que tem acesso a um experimento do MLflow criado pelo pacote:

YAML
resources:
experiments:
# Define an MLflow experiment in the bundle
my_experiment:
name: /Users/${workspace.current_user.userName}/my-app-experiment

apps:
my_ml_app:
name: 'my-ml-app'
description: 'An app with access to an MLflow experiment'
source_code_path: ./app

# Grant the app access to the MLflow experiment
resources:
- name: 'app-experiment'
experiment:
experiment_id: ${resources.experiments.my_experiment.id}
permission: 'CAN_MANAGE'

Alternativamente, o exemplo a seguir define um aplicativo com configuração personalizada definida na configuração do pacote:

YAML
resources:
apps:
my_app:
name: my_app
description: my_app_description
source_code_path: ./app
config:
command: ['flask', '--app', 'app', 'run']
env:
- name: MY_ENV_VAR
value: test_value
- name: ANOTHER_VAR
value: another_value

catálogos

Type: Map

O recurso de catálogo permite definir catálogos (Unity Catalog) em um pacote.

nota

O uso de Databricks Ativo Bundles para definir catálogos só é compatível se você estiver usando o mecanismo de implantação direta.

Adicionado na versão 0.287.0 da CLI do Databricks.

YAML
catalogs:
<catalog-name>:
<catalog-field-name>: <catalog-field-value>

Chave

Tipo

Descrição

comment

String

Descrição do catálogo em formato livre, fornecida pelo usuário.

Adicionado na versão 0.287.0 da CLI do Databricks.

connection_name

String

O nome da conexão com uma fonte de dados externa.

Adicionado na versão 0.287.0 da CLI do Databricks.

grants

Sequência

As bolsas associadas ao catálogo. Ver concessão.

Adicionado na versão 0.287.0 da CLI do Databricks.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.287.0 da CLI do Databricks.

name

String

Obrigatório. O nome do catálogo.

Adicionado na versão 0.287.0 da CLI do Databricks.

options

Objeto

Um mapa de propriedades key-valor associadas ao objeto protegível.

Adicionado na versão 0.287.0 da CLI do Databricks.

properties

Objeto

Um mapa de propriedades key-valor associadas ao objeto protegível.

Adicionado na versão 0.287.0 da CLI do Databricks.

provider_name

String

O nome do provedor de compartilhamento delta. Um catálogo Delta Sharing é um catálogo baseado em um compartilhamento Delta em um servidor de compartilhamento remoto. Veja O que é Delta Sharing?

Adicionado na versão 0.287.0 da CLI do Databricks.

share_name

String

O nome da ação sob a responsabilidade do provedor da ação.

Adicionado na versão 0.287.0 da CLI do Databricks.

storage_root

String

O URL raiz de armazenamento para tabelas de gerenciamento dentro do catálogo.

Adicionado na versão 0.287.0 da CLI do Databricks.

Exemplo

YAML
resources:
catalogs:
my_catalog:
name: my_catalog
comment: 'Catalog created by Databricks Asset Bundles'
properties:
purpose: 'Testing'
grants:
- principal: someone@example.com
privileges:
- USE_CATALOG
- CREATE_SCHEMA

schemas:
my_schema:
name: my_schema
catalog_name: ${resources.catalogs.my_catalog.name}
comment: 'Schema in custom catalog'

agrupamento

Type: Map

O recurso de clustering define um clustering.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

YAML
clusters:
<cluster-name>:
<cluster-field-name>: <cluster-field-value>

Chave

Tipo

Descrição

apply_policy_default_values

Booleana

Quando definido como true, os valores fixos e default da política serão usados para os campos que forem omitidos. Quando definido como falso, somente valores fixos da política serão aplicados.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

autoscale

Mapa

Parâmetros necessários para escalonar automaticamente o clustering para cima e para baixo com base na carga. Veja autoscale.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

autotermination_minutes

Integer

Encerra automaticamente o clustering depois que ele fica inativo por esse tempo em minutos. Se não for definido, esse clustering não será encerrado automaticamente. Se especificado, o limite deve estar entre 10 e 10.000 minutos. Os usuários também podem definir esse valor como 0 para desativar explicitamente o encerramento automático.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

aws_attributes

Mapa

Atributos relacionados ao clustering em execução no serviço Amazon Web. Se não for especificado na criação do clustering, será usado um conjunto de valores default. Veja aws_attributes.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

azure_attributes

Mapa

Atributos relacionados ao clustering em execução em Microsoft Azure. Se não for especificado na criação do clustering, será usado um conjunto de valores default. Veja azure_attributes.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

cluster_log_conf

Mapa

A configuração para entrega de spark logs a um destino de armazenamento de longo prazo. Veja clustering.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

cluster_name

String

nome do clustering solicitado pelo usuário. Isso não precisa ser exclusivo. Se não for especificado na criação, o nome do clustering será uma cadeia de caracteres vazia.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

custom_tags

Mapa

tags adicionais para recurso cluster . Databricks tag todos os recursos cluster (por exemplo, instâncias AWS e volumes EBS) com essas tags além de default_tags.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

data_security_mode

String

O modelo de governança de dados a ser utilizado ao acessar dados de um cluster. Os valores válidos incluem NONE, SINGLE_USER, USER_ISOLATION, LEGACY_SINGLE_USER, LEGACY_TABLE_ACL, LEGACY_PASSTHROUGH.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

docker_image

Mapa

A imagem personalizada do Docker. Veja Docker.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

driver_instance_pool_id

String

O ID opcional do pool de instâncias ao qual o driver do cluster pertence. O cluster pool usa o pool de instâncias com o ID (instance*pool_id) se o pool de drivers não estiver atribuído.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

driver_node_type_id

String

O tipo de nó do driver Spark. Este campo é opcional. Se não estiver definido, o tipo de nó do driver é definido com o valor node_type_id. Este campo, juntamente com node_type_id, não deve ser definido se virtual_cluster_size estiver definido. Se ambos driver_node_type_id, node_type_id e virtual_cluster_size forem especificados, driver_node_type_id e node_type_id terão precedência.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

enable_elastic_disk

Booleana

autoscale Local Storage: quando ativado, esse clustering adquirirá dinamicamente espaço em disco adicional quando o worker Spark estiver com pouco espaço em disco. Esse recurso requer permissões específicas no site AWS para funcionar corretamente - consulte o Guia do Usuário para obter mais detalhes.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

enable_local_disk_encryption

Booleana

Indica se o LUKS deve ser ativado nos discos locais das VMs do cluster.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

gcp_attributes

Mapa

Atributos relacionados ao clustering em execução no Google Cloud Platform. Se não for especificado na criação do clustering, será usado um conjunto de valores default. Veja gcp_attributes.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

init_scripts

Sequência

A configuração para armazenar o script de inicialização. Qualquer número de destinos pode ser especificado. Os scripts são executados sequencialmente na ordem fornecida. Veja init_scripts.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

instance_pool_id

String

O ID opcional da instância pool à qual o clustering pertence.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

is_single_node

Booleana

Este campo só pode ser usado quando kind = CLASSIC_PREVIEW. Quando definido como verdadeiro, o Databricks definirá automaticamente os nós individuais relacionados custom_tags, spark_conf e num_workers.

Adicionado na versão 0.237.0 da CLI do Databricks.

kind

String

O tipo de compute descrito por esta especificação compute.

Adicionado na versão 0.237.0 da CLI do Databricks.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

node_type_id

String

Este campo codifica, por meio de um único valor, o recurso disponível para cada um dos nós Spark neste cluster. Por exemplo, os nós Spark podem ser provisionados e otimizados para cargas de trabalho que exigem muita memória ou compute . É possível obter uma lista dos tipos de nós disponíveis usando a API Listar tipos de nós.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

num_workers

Integer

Número de nós worker que esse clustering deve ter. Um clustering tem um driver Spark e um executor num_workers para um total de nós num_workers + 1 Spark.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

permissions

Sequência

As permissões de clustering. Veja as permissões.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

policy_id

String

A ID da política de cluster usada para criar o clustering, se aplicável.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

remote_disk_throughput

Integer

Taxa de transferência de disco remoto em bytes por segundo.

Adicionado na versão 0.257.0 da CLI do Databricks.

runtime_engine

String

Determina o mecanismo de tempo de execução do clustering, STANDARD ou PHOTON.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

single_user_name

String

Nome de usuário único se data*security_mode for SINGLE_USER.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

spark_conf

Mapa

Um objeto contendo um conjunto de parâmetros de configuração Spark opcionais, especificados pelo usuário, no formato key-valor. Os usuários também podem passar strings de opções JVM extras para o driver e o executor por meio de spark.driver.extraJavaOptions e spark.executor.extraJavaOptions , respectivamente.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

spark_env_vars

Mapa

Um objeto que contém um conjunto de variáveis de ambiente opcionais, especificadas pelo usuário, para key-value.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

spark_version

String

A versão Spark do cluster, por exemplo 3.3.x-scala2.11. É possível obter uma lista das versões disponíveis do Spark usando a API List available Spark versions.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

ssh_public_keys

Sequência

SSH público key conteúdo que será adicionado a cada nó Spark nesse clustering. A chave privada correspondente pode ser usada para fazer login com o nome de usuário ubuntu na porta 2200. Podem ser especificadas até 10 teclas.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

total_initial_remote_disk_size

Integer

Tamanho total inicial do disco remoto em bytes.

Adicionado na versão 0.257.0 da CLI do Databricks.

use_ml_runtime

Booleana

Este campo só pode ser usado quando kind = CLASSIC_PREVIEW. effective_spark_version é determinado por spark_version (versão do Databricks Runtime), este campo use_ml_runtime e se node_type_id é um nó de GPU ou não.

Adicionado na versão 0.237.0 da CLI do Databricks.

workload_type

Mapa

clustering Atributos que mostram os tipos de carga de trabalho de clustering. Veja workload_type.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

cluster.autoscale

Type: Map

Parâmetros para dimensionar automaticamente os clusters para cima e para baixo com base na carga.

Chave

Tipo

Descrição

min_workers

Integer

O número mínimo de trabalhadores para o qual o cluster pode reduzir quando subutilizado. É também o número inicial de trabalhadores que o cluster terá após a sua criação.

max_workers

Integer

O número máximo de trabalhadores que o cluster pode aumentar em caso de sobrecarga. max_workers deve ser estritamente maior que min_workers.

cluster.aws_attributes

Type: Map

Atributos relacionados a clusters em execução no Amazon Web Services.

Chave

Tipo

Descrição

zone_id

String

Identificador da zona de disponibilidade/centro de dados em que o cluster reside. Essas strings terão um formato como us-west-2a.

availability

String

Tipo de disponibilidade usado para todos os nós subsequentes após os nós first_on_demand . Os valores válidos são SPOT, ON_DEMAND, SPOT_WITH_FALLBACK.

spot_bid_price_percent

Integer

O preço máximo para instâncias spot da AWS, como uma porcentagem do preço sob demanda do tipo de instância correspondente.

instance_profile_arn

String

Os nós deste cluster serão alocados apenas em instâncias AWS com este instance profile.

first_on_demand

Integer

Os primeiros first_on_demand nós do cluster serão colocados em instâncias sob demanda. Este valor deve ser maior que 0, para garantir que o nó do driver do cluster seja colocado em uma instância sob demanda.

ebs_volume_type

String

O tipo de volumes EBS que serão iniciados com este cluster. Os valores válidos são GENERAL_PURPOSE_SSD ou THROUGHPUT_OPTIMIZED_HDD.

ebs_volume_count

Integer

O número de volumes iniciados para cada instância.

ebs_volume_size

Integer

O tamanho de cada volume EBS (em GiB) iniciado para cada instância.

ebs_volume_iops

Integer

Número de IOPS por volume de EBS gp3.

ebs_volume_throughput

Integer

Taxa de transferência por volume EBS gp3, em MiB por segundo.

cluster.azure_attributes

Type: Map

Atributos relacionados a clusters em execução no Microsoft Azure.

Chave

Tipo

Descrição

first_on_demand

Integer

Os primeiros first_on_demand nós do cluster serão colocados em instâncias sob demanda.

availability

String

Tipo de disponibilidade usado para todos os nós subsequentes após os nós first_on_demand . Os valores válidos são SPOT_AZURE, ON_DEMAND_AZURE, SPOT_WITH_FALLBACK_AZURE.

spot_bid_max_price

Número

O preço máximo para instâncias spot do Azure. Use -1 para especificar o preço mais baixo.

log_analytics_info

Mapa

Configuração do agente analítico de logs Azure . Consulte log_analytics_info.

cluster.azure_attributes.log_analytics_info

Type: Map

Configuração do agente analítico de logs Azure .

Chave

Tipo

Descrição

log_analytics_workspace_id

String

O ID do workspace Azure Log Analytics.

log_analytics_primary_key

String

A key primária para o workspace Azure Log Analytics.

cluster.gcp_atributos

Type: Map

Atributos relacionados a clusters em execução na plataforma Google Cloud.

Chave

Tipo

Descrição

use_preemptible_executors

Booleana

Se deve ou não utilizar um executor preemptível. Os executores preemptíveis são instâncias do GCE que podem ser recuperadas pelo GCE a qualquer momento.

google_service_account

String

A account do serviço Google a ser usada pelas instâncias de VM cluster Databricks .

local_ssd_count

Integer

O número de SSD locais a serem conectados a cada nó do cluster. O valor default é 0.

zone_id

String

Identificador da zona de disponibilidade/centro de dados em que o cluster reside.

availability

String

Tipo de disponibilidade utilizado para todos os nós. Os valores válidos são PREEMPTIBLE_GCP, ON_DEMAND_GCP, PREEMPTIBLE_WITH_FALLBACK_GCP.

boot_disk_size

Integer

O tamanho do disco de inicialização em GB. Os valores normalmente variam de 100 a 1000.

cluster.cluster_log_conf

Configuração para enviar logs do Spark para um destino de armazenamento de longo prazo.

Chave

Tipo

Descrição

dbfs

Mapa

Localização DBFS para entrega log cluster . Veja dbfs.

s3

Mapa

Localização S3 para entrega log cluster . Ver s3.

volumes

Mapa

Localização dos volumes para entrega log cluster . Ver volumes.

cluster.cluster_log_conf.dbfs

Type: Map

Localização DBFS para entrega log cluster .

Chave

Tipo

Descrição

destination

String

O caminho DBFS para entrega log cluster (por exemplo, dbfs:/cluster-logs).

cluster.cluster_log_conf.s3

Type: Map

Localização S3 para entrega log cluster .

Chave

Tipo

Descrição

destination

String

O URI S3 para entrega log cluster (por exemplo, s3://my-bucket/cluster-logs).

region

String

A região da AWS do bucket S3.

endpoint

String

URL do endpoint S3 (opcional).

enable_encryption

Booleana

Ativar ou não a criptografia para os logs do cluster.

encryption_type

String

O tipo de criptografia. Os valores válidos incluem SSE_S3, SSE_KMS.

kms_key

String

O ARN key KMS para criptografia (ao usar SSE_KMS).

canned_acl

String

A ACL predefinida para aplicar aos logs do cluster.

cluster.cluster_log_conf.volumes

Type: Map

Localização dos volumes para entrega log cluster .

Chave

Tipo

Descrição

destination

String

O caminho do volume para entrega log cluster (por exemplo, /Volumes/catalog/schema/volume/cluster_log).

cluster.docker_image

Type: Map

Configuração personalizada da imagem Docker .

Chave

Tipo

Descrição

url

String

URL da imagem Docker .

basic_auth

Mapa

Autenticação básica para repositório Docker. Consulte autenticação básica.

cluster.docker_image.basic_auth

Type: Map

Autenticação básica para repositório Docker.

Chave

Tipo

Descrição

username

String

O nome de usuário para autenticação no registro do Docker.

password

String

A senha para autenticação do registro Docker.

scripts de inicializaçãocluster

Type: Map

Configuração para armazenar o script de inicialização. Pelo menos um tipo de localização deve ser especificado.

Chave

Tipo

Descrição

dbfs

Mapa

Localização do init script DBFS . Veja dbfs.

workspace

Mapa

Localização do init script no espaço de trabalho. Veja workspace.

s3

Mapa

Localização do init script S3 . Ver s3.

abfss

Mapa

Localização do init script do ABFSS. Veja abfss.

gcs

Mapa

Localização do init script GCS . Consulte GCS.

volumes

Mapa

Localização do init script nos volumes da UC. Ver volumes.

cluster.init_scripts.dbfs

Type: Map

Localização do init script DBFS .

Chave

Tipo

Descrição

destination

String

O caminho DBFS do init script.

cluster.init_scripts.workspace

Type: Map

Localização do init script no espaço de trabalho.

Chave

Tipo

Descrição

destination

String

O caminho workspace do init script.

cluster.init_scripts.s3

Type: Map

Localização do init script S3 .

Chave

Tipo

Descrição

destination

String

O URI S3 do init script.

region

String

A região da AWS do bucket S3.

endpoint

String

URL do endpoint S3 (opcional).

cluster.init_scripts.abfss

Type: Map

Localização do init script do ABFSS.

Chave

Tipo

Descrição

destination

String

O caminho ABFSS do init script.

cluster.init_scripts.GCS

Type: Map

Localização do init script GCS .

Chave

Tipo

Descrição

destination

String

O caminho GCS do init script.

cluster.init_scripts.volumes

Type: Map

Localização dos volumes do init script.

Chave

Tipo

Descrição

destination

String

O caminho dos volumes UC do init script.

cluster.workload_type

Type: Map

Atributos do cluster que mostram os tipos de carga de trabalho cluster .

Chave

Tipo

Descrição

clients

Mapa

Define que tipo de clientes podem usar o cluster. Veja os clientes.

cluster.workload_type.clients

Type: Map

O tipo de clientes para esta carga de trabalho compute .

Chave

Tipo

Descrição

jobs

Booleana

Se o cluster pode executar o trabalho.

notebooks

Booleana

Se o cluster pode executar o Notebook.

Exemplos

O exemplo a seguir cria um clustering dedicado (usuário único) para o usuário atual com Databricks Runtime 15.4 LTS e uma política de cluster:

YAML
resources:
clusters:
my_cluster:
num_workers: 0
node_type_id: 'i3.xlarge'
driver_node_type_id: 'i3.xlarge'
spark_version: '15.4.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'
autotermination_minutes: 60
enable_elastic_disk: true
single_user_name: ${workspace.current_user.userName}
policy_id: '000128DB309672CA'
enable_local_disk_encryption: false
data_security_mode: SINGLE_USER
runtime_engine: STANDARD

Este exemplo cria um clustering simples my_cluster e o define como o clustering a ser usado para executar o Notebook em my_job:

YAML
bundle:
name: clusters

resources:
clusters:
my_cluster:
num_workers: 2
node_type_id: 'i3.xlarge'
autoscale:
min_workers: 2
max_workers: 7
spark_version: '13.3.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'

jobs:
my_job:
tasks:
- task_key: test_task
notebook_task:
notebook_path: './src/my_notebook.py'
existing_cluster_id: ${resources.clusters.my_cluster.id}

painel

Type: Map

O recurso de dashboard permite que o senhor gerencie AI/BI dashboards em um pacote. Para obter informações sobre AI/BI dashboards, consulte Dashboards.

Se você implementou um pacote que contém um painel do seu ambiente local e, em seguida, usa a interface do usuário para modificar esse painel, as modificações feitas por meio da interface do usuário não serão aplicadas ao arquivo JSON do painel no pacote local, a menos que você o atualize explicitamente usando bundle generate. Você pode usar a opção --watch para pesquisar e recuperar continuamente as alterações no painel. Veja databricks bundle generate.

Além disso, se você tentar implementar um pacote do seu ambiente local que contenha um arquivo JSON do painel diferente daquele no workspace remoto, ocorrerá um erro. Para forçar a instalação e substituir o painel no workspace remoto pelo local, use a opção --force . Veja pacote de databricks implantado.

Adicionado na versão 0.232.0 da CLI do Databricks.

nota

Ao usar Databricks ativo Bundles com suporte a dashboard Git, evite que sejam gerados dashboards duplicados adicionando o mapeamento de sincronização para excluir a sincronização dos dashboards como arquivos:

YAML
sync:
exclude:
- src/*.lvdash.json
YAML
dashboards:
<dashboard-name>:
<dashboard-field-name>: <dashboard-field-value>

Chave

Tipo

Descrição

dataset_catalog

String

O valor de catálogo default usado por todos os conjuntos de dados no painel, a menos que seja especificado de outra forma na consulta. Para exemplos de configuração que definem esse campo, consulte Catálogo do painel de controle e parametrização de esquema.

Adicionado na versão 0.283.0 da CLI do Databricks.

dataset_schema

String

O valor de esquema default usado por todos os conjuntos de dados no painel, a menos que seja especificado de outra forma na consulta. Para exemplos de configuração que definem esse campo, consulte Catálogo do painel de controle e parametrização de esquema.

Adicionado na versão 0.283.0 da CLI do Databricks.

display_name

String

O nome de exibição do painel.

Adicionado na versão 0.232.0 da CLI do Databricks.

embed_credentials

Booleana

Se as credenciais de identidade de implantação do pacote são usadas para executar consultas para todos os visualizadores do painel. Se estiver definido como false, as credenciais de um visualizador serão usadas. O valor default é false.

Adicionado na versão 0.232.0 da CLI do Databricks.

etag

String

A etag do painel. Pode ser fornecido opcionalmente nas atualizações para garantir que o painel não tenha sido modificado desde a última leitura.

Adicionado na versão 0.234.0 da CLI do Databricks.

file_path

String

O caminho local do ativo do dashboard, incluindo o nome do arquivo. Os painéis exportados sempre têm a extensão de arquivo .lvdash.json.

Adicionado na versão 0.232.0 da CLI do Databricks.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

parent_path

String

O caminho do workspace que contém o painel de controle. Inclui barra inicial e não inclui barra final.

Adicionado na versão 0.232.0 da CLI do Databricks.

path

String

O caminho workspace do painel ativo, incluindo o nome do ativo.

Adicionado na versão 0.234.0 da CLI do Databricks.

permissions

Sequência

As permissões do painel. Veja as permissões.

Adicionado na versão 0.232.0 da CLI do Databricks.

serialized_dashboard

Qualquer um

O conteúdo do painel na forma de cadeias de caracteres serializadas.

Adicionado na versão 0.232.0 da CLI do Databricks.

warehouse_id

String

O ID do depósito usado para executar o painel.

Adicionado na versão 0.232.0 da CLI do Databricks.

Exemplo

O exemplo a seguir inclui e implanta a amostra do painel de análise de viagens de táxi de Nova York no site Databricks workspace.

YAML
resources:
dashboards:
nyc_taxi_trip_analysis:
display_name: 'NYC Taxi Trip Analysis'
file_path: ../src/nyc_taxi_trip_analysis.lvdash.json
warehouse_id: ${var.warehouse_id}

catálogo_de_banco_de_dados

Type: Map

O recurso de catálogo de banco de dados permite que o senhor defina catálogos de banco de dados que correspondem a instâncias de banco de dados em um pacote. Um catálogo de banco de dados é um banco de dados Lakebase registrado como um catálogo do Unity Catalog.

Adicionado na versão 0.265.0 da CLI do Databricks.

YAML
database_catalogs:
<database_catalog-name>:
<database_catalog-field-name>: <database_catalog-field-value>

Chave

Tipo

Descrição

create_database_if_not_exists

Booleana

Se deve criar o banco de dados se ele não existir.

Adicionado na versão 0.265.0 da CLI do Databricks.

database_instance_name

String

O nome da instância que abriga o banco de dados.

Adicionado na versão 0.265.0 da CLI do Databricks.

database_name

String

O nome do banco de dados (em uma instância) associado ao catálogo.

Adicionado na versão 0.265.0 da CLI do Databricks.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso, incluindo o comportamento do recurso quando ele é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.265.0 da CLI do Databricks.

name

String

O nome do catálogo no Unity Catalog.

Adicionado na versão 0.265.0 da CLI do Databricks.

Exemplo

O exemplo a seguir define uma instância de banco de dados com um catálogo de banco de dados correspondente:

YAML
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true

instância_do_banco_de_dados

Type: Map

O recurso de instância de banco de dados permite que o senhor defina instâncias de banco de dados em um pacote. Uma instância do banco de dados Lakebase gerencia o armazenamento e compute recurso e fornece o ponto de extremidade ao qual os usuários se conectam.

importante

Quando o senhor implanta um pacote com uma instância de banco de dados, a instância começa a funcionar imediatamente e está sujeita a preços. Veja os preços do Lakebase.

Adicionado na versão 0.265.0 da CLI do Databricks.

YAML
database_instances:
<database_instance-name>:
<database_instance-field-name>: <database_instance-field-value>

Chave

Tipo

Descrição

capacity

String

O SKU da instância. Os valores válidos são CU_1, CU_2, CU_4, CU_8.

Adicionado na versão 0.265.0 da CLI do Databricks.

custom_tags

Sequência

Uma lista de pares key-valor que especificam tags personalizadas associadas à instância.

Adicionado na versão 0.273.0 da CLI do Databricks.

enable_pg_native_login

Booleana

Se a instância tem o login com senha nativa PG ativado. padrão para true.

Adicionado na versão 0.267.0 da CLI do Databricks.

enable_readable_secondaries

Booleana

Se deve permitir que os secundários forneçam tráfego somente para leitura. padrão para false.

Adicionado na versão 0.265.0 da CLI do Databricks.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

name

String

O nome da instância. Esse é o identificador exclusivo da instância.

Adicionado na versão 0.265.0 da CLI do Databricks.

node_count

Integer

O número de nós na instância, composto por 1 primário e 0 ou mais secundários. padrão para 1 primário e 0 secundários.

Adicionado na versão 0.265.0 da CLI do Databricks.

parent_instance_ref

Mapa

A referência da instância pai. Isso só está disponível se a instância for uma instância filha. Veja a instância pai.

Adicionado na versão 0.265.0 da CLI do Databricks.

permissions

Sequência

As permissões da instância do banco de dados. Veja as permissões.

Adicionado na versão 0.265.0 da CLI do Databricks.

retention_window_in_days

Integer

A janela de retenção da instância. Essa é a janela de tempo em dias para a qual os dados históricos são mantidos. O valor de default é 7 dias. Os valores válidos são de 2 a 35 dias.

Adicionado na versão 0.265.0 da CLI do Databricks.

stopped

Booleana

Se a instância foi interrompida.

Adicionado na versão 0.265.0 da CLI do Databricks.

usage_policy_id

String

A política de utilização desejada para associar à instância.

Adicionado na versão 0.273.0 da CLI do Databricks.

database_instance.parent_instance_ref

Type: Map

A referência da instância pai. Isso só está disponível se a instância for instância filha.

Chave

Tipo

Descrição

branch_time

String

Tempo de ramificação da instância do banco de dados de referência. Para uma instância de referência pai, este é o ponto no tempo na instância pai a partir do qual a instância foi criada. Para uma instância de referência filha, este é o ponto no tempo da instância a partir do qual a instância filha foi criada.

lsn

String

LSN WAL especificado pelo usuário para a instância do banco de dados de referência.

name

String

Nome da instância do banco de dados de referência.

Exemplo

O exemplo a seguir define uma instância de banco de dados com um catálogo de banco de dados correspondente:

YAML
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true

Para obter um exemplo de pacote que demonstra como definir uma instância de banco de dados e o catálogo de banco de dados correspondente, consulte o repositório bundle-examples do GitHub.

experimento

Type: Map

O recurso de experimento permite que o senhor defina experimentos do MLflow em um pacote. Para obter informações sobre os experimentos do MLflow, consulte Organizar treinamento execução com os experimentos do MLflow.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

YAML
experiments:
<experiment-name>:
<experiment-field-name>: <experiment-field-value>

Chave

Tipo

Descrição

artifact_location

String

O local onde os artefatos do experimento são armazenados.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

name

String

O nome amigável que identifica o experimento. O nome de um experimento deve ser um caminho absoluto no endereço Databricks workspace, por exemplo, /Workspace/Users/someone@example.com/my_experiment.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

permissions

Sequência

As permissões do experimento. Veja as permissões.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

tags

Sequência

Metadados adicionais par key-value. Veja as tags.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

Exemplo

O exemplo a seguir define um experimento que todos os usuários podem view:

YAML
resources:
experiments:
experiment:
name: /Workspace/Users/someone@example.com/my_experiment
permissions:
- level: CAN_READ
group_name: users
description: MLflow experiment used to track runs

Trabalho

Type: Map

Os trabalhos são suportados em Python para Databricks Ativo Bundles. Consulte databricks.bundles.Job.

O recurso Job permite que você defina Jobs e suas respectivas tarefas em seu pacote.

Para obter informações sobre Job, consulte LakeFlow Jobs. Para obter um tutorial que usa um Databricks ativo Bundles padrão para criar um trabalho, consulte Desenvolver um trabalho com Databricks ativo Bundles.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

YAML
jobs:
<job-name>:
<job-field-name>: <job-field-value>

Chave

Tipo

Descrição

budget_policy_id

String

O ID da política de orçamento especificada pelo usuário a ser usada para esse trabalho. Se não for especificado, uma política de orçamento default poderá ser aplicada ao criar ou modificar o trabalho. Consulte effective_budget_policy_id para ver a política orçamentária usada por essa carga de trabalho.

Adicionado na versão 0.231.0 da CLI do Databricks.

continuous

Mapa

Uma propriedade contínua opcional para esse trabalho. A propriedade contínua garantirá que sempre haverá uma execução. Somente um dos schedule e continuous pode ser usado. Veja contínuo.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

deployment

Mapa

Informações de implantação do Job gerenciar por fontes externas. Veja a implantação.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

description

String

Uma descrição opcional para o trabalho. O tamanho máximo é de 27700 caracteres na codificação UTF-8.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

email_notifications

Mapa

Um conjunto opcional de endereços email que é notificado quando a execução desse trabalho começa ou é concluída, bem como quando esse trabalho é excluído. Veja o e-mail.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

environments

Sequência

Uma lista de especificações do ambiente de execução da tarefa que pode ser referenciada por serverless tarefa desse Job. É necessário que um ambiente esteja presente para serverless tarefa. Para a tarefa serverless Notebook, o ambiente pode ser acessado no painel de ambiente do Notebook. Para outras serverless tarefas, é necessário especificar o ambiente da tarefa usando environment_key nas configurações da tarefa. Veja os ambientes.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

format

String

Obsoleto. O formato do trabalho.

git_source

Mapa

Uma especificação opcional para um repositório Git remoto contendo o código-fonte usado pelo tarefa. Consulte Job.git_source.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

Importante: o campo git_source e o campo tarefa source definidos como GIT não são recomendados para pacotes, pois os caminhos relativos locais podem não apontar para o mesmo conteúdo no repositório Git e os pacotes esperam que um trabalho implantado tenha o mesmo conteúdo que a cópia local de onde foi implantado.

Em vez disso, clone o repositório localmente e configure seu projeto de pacote dentro desse repositório, de modo que o código-fonte da tarefa seja o workspace.

health

Mapa

Um conjunto opcional de regras de integridade que podem ser definidas para esse trabalho. Veja saúde.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

job_clusters

Sequência

Uma lista de especificações cluster de Job que podem ser compartilhadas e reutilizadas pela tarefa deste Job. Consulte job_clusters.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

max_concurrent_runs

Integer

Um número máximo opcional permitido de execução simultânea do Job. Defina este valor se desejar poder executar várias tarefas iguais simultaneamente.

name

String

Um nome opcional para o trabalho. O tamanho máximo é de 4096 bytes na codificação UTF-8.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

notification_settings

Mapa

Configurações de notificação opcionais que são usadas ao enviar notificações para cada um dos sites email_notifications e webhook_notifications para esse trabalho. Veja notification_settings.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

parameters

Sequência

Definições de parâmetros em nível Job .

Adicionado na versão 0.229.0 ou inferior CLI Databricks

performance_target

String

Define o quão eficiente em termos de desempenho ou custo-benefício deve ser a execução em um serverless .

Adicionado na versão 0.241.0 da CLI do Databricks.

permissions

Sequência

As permissões do trabalho. Veja as permissões.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

queue

Mapa

As configurações de fila do trabalho. Veja a fila.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

run_as

Mapa

Configuração somente para escrita. Especifica o usuário ou entidade de serviço na qual o trabalho é executado. Caso não seja especificado, a execução da tarefa será feita pelo usuário que a criou. Deve-se especificar user_name ou service_principal_name . Caso contrário, um erro será lançado. Veja run_as.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

schedule

Mapa

Um programador periódico opcional para esse trabalho. O comportamento do default é que o trabalho só é executado quando acionado ao clicar em "Executar agora" na interface do usuário do Jobs ou ao enviar uma solicitação API para runNow. Veja programar.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

tags

Mapa

Um mapa de tags associadas ao trabalho. Elas são encaminhadas ao clustering como Cluster Tag para o clustering de trabalhos e estão sujeitas às mesmas limitações da Cluster Tag. Um máximo de 25 tags pode ser adicionado ao trabalho.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

tasks

Sequência

Uma lista de especificações de tarefa a serem executadas por esse Job. Consulte Adicionar tarefa ao trabalho em Databricks ativo Bundles.

Adicionado na versão 0.237.0 da CLI do Databricks.

timeout_seconds

Integer

Um tempo limite opcional aplicado a cada execução desse trabalho. Um valor de 0 significa que não há tempo limite.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

trigger

Mapa

Uma configuração para acionar uma execução quando determinadas condições são atendidas. Veja o gatilho.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

usage_policy_id

String

O ID da política de uso a ser utilizada para esta tarefa.

Adicionado na versão 0.273.0 da CLI do Databricks.

webhook_notifications

Mapa

Uma coleção de IDs de notificação do sistema para notificar quando a execução desse trabalho for iniciada ou concluída. Veja webhook_notifications.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

Trabalho contínuo

Type: Map

Configuração para execução contínua de tarefas.

Chave

Tipo

Descrição

pause_status

String

Se o trabalho contínuo está em pausa ou não. Valores válidos: PAUSED, UNPAUSED.

task_retry_mode

String

Indique como o Job contínuo está aplicando novas tentativas em nível de tarefa. Os valores válidos são NEVER e ON_FAILURE. por padrão é NEVER.

Implantação de empregos

Type: Map

Informação de implantação para gerenciamento de trabalhos por fontes externas.

Chave

Tipo

Descrição

kind

String

O tipo de implantação. Por exemplo, BUNDLE.

metadata_file_path

String

O caminho para o arquivo de metadados da implantação.

Notificações de emprego por e-mail

Type: Map

configurações de notificação por e-mail para execução do trabalho.

Chave

Tipo

Descrição

on_start

Sequência

Uma lista de endereços email para notificar quando uma execução começar.

on_success

Sequência

Uma lista de endereços email para notificar quando uma execução for bem-sucedida.

on_failure

Sequência

Uma lista de endereços email para notificar quando uma execução falhar.

on_duration_warning_threshold_exceeded

Sequência

Uma lista de endereços email para notificação quando a duração da execução exceder o limite de aviso.

no_alert_for_skipped_runs

Booleana

Se deve ignorar o envio de alerta para execução ignorada.

on_streaming_backlog_exceeded

Sequência

Uma lista de endereços email para notificar quando qualquer limite de atraso de transmissão for excedido para qualquer transmissão. O limite de atraso de transmissão pode ser definido no campo health usando as seguintes métricas: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS ou STREAMING_BACKLOG_FILES. O sistema de alertas baseia-se na média de 10 minutos dessas métricas. Caso o problema persista, as notificações serão reenviadas a cada 30 minutos.

Ambientes de trabalho

Type: Sequence

Uma lista de especificações do ambiente de execução de tarefas que podem ser referenciadas pela tarefa serverless de um Job.

Cada item da lista é um JobEnvironment:

Chave

Tipo

Descrição

environment_key

String

A key de um ambiente. Tem que ser algo único dentro de um trabalho.

spec

Mapa

A entidade que representa um ambiente serverless . Consulte Job.environments.spec.

Job.environments.spec

Type: Map

A entidade que representa um ambiente serverless .

Chave

Tipo

Descrição

client

String

Obsoleto. A versão do cliente.

dependencies

Sequência

Lista de dependências do pip, conforme suportadas pela versão do pip neste ambiente.

environment_version

String

Obrigatório. Versão do ambiente utilizada pelo ambiente. Cada versão vem com uma versão específica Python e um conjunto de pacotes Python . A versão é uma string, composta por um número inteiro.

Trabalho.git_source

Type: Map

Configuração do repositório Git para código fonte do Job.

Chave

Tipo

Descrição

git_branch

String

Nome da filial a ser verificada e utilizada por esta tarefa. Este campo não pode ser especificado em conjunto com git_tag ou git_commit.

git_commit

String

Comprometo-me a verificar e utilizar este serviço. Este campo não pode ser especificado em conjunto com git_branch ou git_tag.

git_provider

String

Identificador único do serviço usado para hospedar o repositório Git. O valor não diferencia maiúsculas de minúsculas. Os valores válidos são gitHub, bitbucketCloud, gitLab, azureDevOpsServices, gitHubEnterprise, bitbucketServer, gitLabEnterpriseEdition.

git_snapshot

Mapa

Estado somente leitura do repositório remoto no momento da execução do Job. Este campo só está incluído na execução do Job. Veja git_snapshot.

git_tag

String

Nome da tag a ser verificada e usada nesta tarefa. Este campo não pode ser especificado em conjunto com git_branch ou git_commit.

git_url

String

URL do recipiente a ser clonado por esta tarefa.

Job.git_source.git_snapshot

Type: Map

Instantâneo de informações commit somente leitura.

Chave

Tipo

Descrição

used_commit

String

commit que foi usado para executar a execução. Se git_branch foi especificado, isso aponta para o HEAD do branch no momento da execução; se git_tag foi especificado, isso aponta para o commit ao qual a tag aponta.

Trabalho.Saúde

Type: Map

Configuração de monitoramento de saúde para o trabalho.

Chave

Tipo

Descrição

rules

Sequência

Uma lista de regras de saúde no trabalho. Cada regra contém um metric e op (operador) e value. Consulte Job.health.rules.

Regras de trabalho e saúde

Type: Sequence

Uma lista de regras de saúde no trabalho.

Cada item da lista é um JobHealthRule:

Chave

Tipo

Descrição

metric

String

Especifica as métricas de saúde que estão sendo avaliadas para uma determinada regra de saúde.

  • RUN_DURATION_SECONDS: Tempo total esperado para uma execução em segundos.
  • STREAMING_BACKLOG_BYTESUma estimativa do número máximo de bytes de dados que aguardam para serem consumidos em todas as transmissões. Esta novidade está em versão prévia pública.
  • STREAMING_BACKLOG_RECORDSUma estimativa do atraso máximo de deslocamento em todas as transmissões. Esta novidade está em versão prévia pública.
  • STREAMING_BACKLOG_SECONDSUma estimativa do atraso máximo do consumidor em todas as transmissões. Esta novidade está em versão prévia pública.
  • STREAMING_BACKLOG_FILESUma estimativa do número máximo de processos pendentes em todas as transmissões. Esta novidade está em versão prévia pública.

op

String

Especifica o operador usado para comparar o valor da métrica de saúde com o limite especificado.

value

Integer

Especifica o valor limite que as medidas de saúde devem obedecer para satisfazer a regra de saúde.

Trabalho.clusters_de_trabalho

Type: Sequence

Uma lista de especificações cluster de Job que podem ser compartilhadas e reutilizadas pela tarefa deste Job. A biblioteca não pode ser declarada em um cluster de Jobs compartilhado. Você deve declarar a biblioteca dependente nas configurações da tarefa.

Cada item da lista é um JobCluster:

Chave

Tipo

Descrição

job_cluster_key

String

Um nome único para o cluster de tarefas. Este campo é obrigatório e deve ser único para cada vaga. JobTaskSettings pode se referir a este campo para determinar qual cluster iniciar para a execução da tarefa.

new_cluster

Mapa

Se `new_cluster`, será fornecida uma descrição do cluster criado para cada tarefa. Veja cluster.

Configurações de notificação de trabalho

Type: Map

Configurações de notificação que se aplicam a todas as notificações da tarefa.

Chave

Tipo

Descrição

no_alert_for_skipped_runs

Booleana

Se deve ignorar o envio de alerta para execução ignorada.

no_alert_for_canceled_runs

Booleana

Se deve ignorar o envio de alerta para execução cancelada.

Fila de tarefas

Type: Map

Configurações da fila para a tarefa.

Chave

Tipo

Descrição

enabled

Booleana

Indica se o enfileiramento da tarefa deve ser ativado.

Trabalho.programador

Type: Map

Configuração programática para execução periódica de tarefas.

Chave

Tipo

Descrição

quartz_cron_expression

String

Uma expressão Cron usando a sintaxe do Quartz que especifica quando a tarefa será executada. Por exemplo, 0 0 9 * * ? executa o Job todos os dias às 9:00 da manhã UTC.

timezone_id

String

O fuso horário do programador. Por exemplo, America/Los_Angeles ou UTC.

pause_status

String

Se o programador está pausado ou não. Valores válidos: PAUSED, UNPAUSED.

Trabalho.gatilho

Type: Map

Configuração de gatilhos para execução de tarefas orientadas a eventos.

Chave

Tipo

Descrição

file_arrival

Mapa

Acionado com base na chegada do arquivo. Veja file_arrival.

table

Mapa

Gatilho baseado em uma tabela. Veja a tabela.

table_update

Mapa

Acionado com base em atualizações de tabela. Veja atualização_da_tabela.

periodic

Mapa

Gatilho periódico. Veja periódico.

Trabalho.gatilho.arquivo_chegada

Type: Map

Configuração de gatilho com base na chegada de arquivos.

Chave

Tipo

Descrição

url

String

O caminho do arquivo a ser monitorado em busca de novos arquivos.

min_time_between_triggers_seconds

Integer

Tempo mínimo em segundos entre eventos de disparo.

wait_after_last_change_seconds

Integer

Tempo de espera em segundos após a última alteração de arquivo antes de acionar o mecanismo.

Tabela de gatilho de trabalho

Type: Map

Configuração de gatilhos baseada em uma tabela.

Chave

Tipo

Descrição

table_names

Sequência

Uma lista de nomes de tabelas a serem monitoradas.

condition

String

A condição SQL que deve ser atendida para acionar a tarefa.

Job.trigger.table_update

Type: Map

Configuração de gatilhos com base em atualizações de tabelas.

Chave

Tipo

Descrição

table_names

Sequência

Uma lista de nomes de tabelas a serem monitoradas para atualizações.

condition

String

A condição SQL que deve ser atendida para acionar a tarefa.

wait_after_last_change_seconds

Integer

Tempo de espera em segundos após a última atualização da tabela antes de acionar o mecanismo.

Trabalho.gatilho.periódico

Type: Map

Configuração de gatilho periódico.

Chave

Tipo

Descrição

interval

Integer

O valor do intervalo para o gatilho periódico.

unit

String

A unidade de tempo para o intervalo. Valores válidos: SECONDS, MINUTES, HOURS, DAYS, WEEKS.

Notificações de webhook de trabalho

Type: Map

Configurações de notificação de webhook para execução de trabalho.

Chave

Tipo

Descrição

on_start

Sequência

Uma lista de IDs de notificação de webhook para notificar quando uma execução começar.

on_success

Sequência

Uma lista de IDs de notificação de webhook para avisar quando uma execução for bem-sucedida.

on_failure

Sequência

Uma lista de IDs de notificação de webhook para avisar quando uma execução falhar.

on_duration_warning_threshold_exceeded

Sequência

Uma lista de IDs de notificação de webhook para avisar quando a duração de uma execução exceder o limite de aviso.

on_streaming_backlog_exceeded

Sequência

Uma lista de IDs de notificação do sistema a serem acionados quando qualquer limite de backlog de transmissão for excedido para qualquer transmissão. O limite de atraso de transmissão pode ser definido no campo health usando as seguintes métricas: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS ou STREAMING_BACKLOG_FILES. O sistema de alertas baseia-se na média de 10 minutos dessas métricas. Caso o problema persista, as notificações serão reenviadas a cada 30 minutos. É possível especificar no máximo 3 destinos.

Exemplos

O exemplo a seguir define um Job com o recurso key hello-job com uma tarefa de Notebook:

YAML
resources:
jobs:
hello-job:
name: hello-job
tasks:
- task_key: hello-task
notebook_task:
notebook_path: ./hello.py

O exemplo a seguir define um trabalho com um notebook SQL:

YAML
resources:
jobs:
job_with_sql_notebook:
name: 'Job to demonstrate using a SQL notebook with a SQL warehouse'
tasks:
- task_key: notebook
notebook_task:
notebook_path: ./select.sql
warehouse_id: 799f096837fzzzz4

Para obter exemplos adicionais de configuração de trabalho, consulte Job configuration.

Para obter informações sobre como definir a tarefa do trabalho e substituir as configurações do trabalho, consulte:

modelo (legado)

Type: Map

O recurso de modelo permite que o senhor defina modelos legados em pacotes. A Databricks recomenda que o senhor use os modelos registrados do Unity Catalog.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

model_serving_endpoint

Type: Map

O recurso model_serving_endpoint permite que o senhor defina o endpoint do modelo de serviço. Consulte o endpoint gerenciar servindo modelo.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

YAML
model_serving_endpoints:
<model_serving_endpoint-name>:
<model_serving_endpoint-field-name>: <model_serving_endpoint-field-value>

Chave

Tipo

Descrição

ai_gateway

Mapa

A configuração do AI Gateway para o endpoint de serviço. OBSERVAÇÃO: no momento, somente o modelo externo e o ponto de extremidade da taxa de transferência de provisionamento são compatíveis. Ver IA.

Adicionado na versão 0.230.0 da CLI do Databricks.

budget_policy_id

String

O ID da política orçamentária a ser usada para este endpoint.

Adicionado na versão 0.244.0 da CLI do Databricks.

config

Mapa

A configuração principal do endpoint de serviço. Veja a configuração.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

description

String

Uma descrição para o endpoint de serviço.

Adicionado na versão 0.260.0 da CLI do Databricks.

email_notifications

Mapa

Configuração de notificações por e-mail para o endpoint de serviço. Consulte as notificações por e-mail.

Adicionado na versão 0.264.0 da CLI do Databricks.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

name

String

O nome do endpoint de serviço. Esse campo é obrigatório e deve ser exclusivo em um site Databricks workspace. Um nome endpoint pode consistir em caracteres alfanuméricos, traços e sublinhado.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

permissions

Sequência

As permissões do servindo modelo endpoint. Veja as permissões.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

rate_limits

Sequência

Obsoleto. Limites de taxa a serem aplicados ao endpoint de atendimento. Use o AI Gateway para gerenciar os limites de taxa.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

route_optimized

Booleana

Habilite a otimização de rota para o serviço endpoint.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

tags

Sequência

Etiquetas a serem anexadas ao endpoint de serviço e propagadas automaticamente para logs de faturamento.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

model_serving_endpoint.email_notifications

Type: Map

Configuração de notificações por e-mail para o endpoint de serviço.

Chave

Tipo

Descrição

on_update_failure

Sequência

Uma lista de endereços email para serem notificados quando um endpoint não conseguir atualizar sua configuração ou estado.

on_update_success

Sequência

Uma lista de endereços email para serem notificados quando um endpoint atualizar com sucesso sua configuração ou estado.

model_serving_endpoint.ai_gateway

Type: Map

Configuração AI Gateway para o endpoint de serviço.

Chave

Tipo

Descrição

fallback_config

Mapa

Configuração para fallback de tráfego que redireciona automaticamente para outras entidades atendidas caso a solicitação a uma entidade atendida falhe com determinados códigos de erro, a fim de aumentar a disponibilidade. Consulte fallback_config.

guardrails

Mapa

Configuração do guarda-corpo. Veja os guarda-corpos.

inference_table_config

Mapa

Configuração para registro de inferências em tabelas Unity Catalog . Consulte inference_table_config.

rate_limits

Sequência

Configurações de limite de taxa.

usage_tracking_config

Mapa

Configuração para uso de envio. Consulte usage_tracking_config.

model_serving_endpoint.ai_gateway.fallback_config

Type: Map

Configuração para fallback de tráfego que redireciona automaticamente para outras entidades atendidas caso uma solicitação falhe com determinados códigos de erro.

Chave

Tipo

Descrição

enabled

Booleana

Indica se o recurso de fallback está ativado para este endpoint.

model_serving_endpoint.ai_gateway.guardrails

Type: Map

Configuração das diretrizes de segurança do gateway AI .

Chave

Tipo

Descrição

input

Mapa

Configuração de guarda-corpos de entrada com campos como safety, pii.

output

Mapa

Configuração de guarda-corpos de saída com campos como safety, pii.

invalid_keywords

Sequência

Uma lista de palavras-chave para bloquear.

model_serving_endpoint.ai_gateway.inference_table_config

Type: Map

Configuração para registro de inferências em tabelas Unity Catalog .

Chave

Tipo

Descrição

catalog_name

String

O nome do catálogo no Unity Catalog.

schema_name

String

O nome do esquema no Unity Catalog.

table_name_prefix

String

O prefixo para nomes de tabelas de inferência.

enabled

Booleana

Indica se o registro em tabela de inferência está ativado.

model_serving_endpoint.ai_gateway.usage_tracking_config

Type: Map

A configuração do gateway AI para utilização do acompanhamento.

Chave

Tipo

Descrição

enabled

Booleana

Se o acompanhamento de uso estiver ativado.

model_serving_endpoint.config

Type: Map

A configuração principal do endpoint de serviço.

Chave

Tipo

Descrição

served_entities

Sequência

Uma lista de entidades servidas para o endpoint atender. Cada entidade servida contém campos como entity_name, entity_version, workload_size, scale_to_zero_enabled, workload_type, environment_vars.

served_models

Sequência

(Obsoleto: use served_entities em vez disso) Uma lista de modelos servidos para o endpoint servir.

traffic_config

Mapa

A configuração de tráfego que define como as invocações para o endpoint de serviço devem ser roteadas. Consulte traffic_config.

auto_capture_config

Mapa

Configuração para tabelas de inferência que logs automaticamente solicitações e respostas no Unity Catalog. Consulte auto_capture_config.

model_serving_endpoint.config.traffic_config

Type: Map

A configuração de tráfego que define como as invocações para o endpoint de serviço devem ser roteadas.

Chave

Tipo

Descrição

routes

Sequência

Lista de rotas para distribuição de tráfego. Cada rota contém served_model_name e traffic_percentage.

model_serving_endpoint.config.auto_capture_config

Type: Map

Configuração para tabelas de inferência que logs automaticamente solicitações e respostas no Unity Catalog.

Chave

Tipo

Descrição

catalog_name

String

O nome do catálogo no Unity Catalog.

schema_name

String

O nome do esquema no Unity Catalog.

table_name_prefix

String

O prefixo para nomes de tabelas de inferência.

enabled

Booleana

Indica se o registro em tabela de inferência está ativado.

Exemplo

O exemplo a seguir define um Unity Catalog servindo o modelo endpoint:

YAML
resources:
model_serving_endpoints:
uc_model_serving_endpoint:
name: 'uc-model-endpoint'
config:
served_entities:
- entity_name: 'myCatalog.mySchema.my-ads-model'
entity_version: '10'
workload_size: 'Small'
scale_to_zero_enabled: 'true'
traffic_config:
routes:
- served_model_name: 'my-ads-model-10'
traffic_percentage: '100'
tags:
- key: 'team'
value: 'data science'

pipeline

Type: Map

O pipeline é suportado em Python para Databricks Ativo Bundles. Consulte databricks.bundles.pipeline.

O recurso pipeline permite criar um pipeline. Para obter informações sobre pipeline, consulte Pipeline declarativoLakeFlow Spark. Para obter um tutorial que usa o Databricks ativo Bundles padrão para criar um pipeline, consulte Desenvolver pipeline declarativo LakeFlow Spark com Databricks ativo Bundles.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

YAML
pipelines:
<pipeline-name>:
<pipeline-field-name>: <pipeline-field-value>

Chave

Tipo

Descrição

allow_duplicate_names

Booleana

Se for falso, a implementação falhará se o nome entrar em conflito com o de outro pipeline.

Adicionado na versão 0.261.0 da CLI do Databricks.

budget_policy_id

String

Política orçamentária deste pipeline.

Adicionado na versão 0.230.0 da CLI do Databricks.

catalog

String

Um catálogo no Unity Catalog para publicar dados desse pipeline. Se target for especificado, as tabelas desse pipeline serão publicadas em um esquema target dentro de catalog (por exemplo, catalog.target.table). Se target não for especificado, nenhum dado será publicado no Unity Catalog.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

channel

String

O canal Release do pipeline LakeFlow Spark Declarative especifica qual versão do pipeline LakeFlow Spark Declarative deve ser usada.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

clusters

Sequência

As configurações de clustering para essa implementação pipeline. Veja clustering.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

configuration

Mapa

A configuração para a execução desse pipeline.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

continuous

Booleana

Se o pipeline é contínuo ou acionado. Isso substitui trigger.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

deployment

Mapa

Tipo de implementação desse pipeline. Veja a implantação.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

development

Booleana

Se o pipeline está em modo de desenvolvimento. padrão para falso.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

dry_run

Booleana

Se o pipeline é uma execução seca pipeline.

edition

String

A edição do produto de pipeline.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

environment

Mapa

A especificação de ambiente para este pipeline é usada para instalar dependências em compute serverless . Ver ambiente. Esta key só é compatível com a versão 0.258 e superiores CLI Databricks .

Adicionado na versão 0.257.0 da CLI do Databricks.

event_log

Mapa

A configuração do evento log para este pipeline. Veja event_log.

Adicionado na versão 0.246.0 da CLI do Databricks.

filters

Mapa

Os filtros que determinam qual pipeline pacote deve ser incluído no gráfico implantado. Veja os filtros.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

gateway_definition

Mapa

Configuração de um pipeline de gateway. Essas configurações não podem ser usadas com as configurações ingestion_definition .

Adicionado na versão 0.229.0 ou inferior CLI Databricks

id

String

Identificador exclusivo para esse pipeline.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

ingestion_definition

Mapa

A configuração para uma ingestão gerenciar pipeline. Essas configurações não podem ser usadas com as configurações libraries, schema, target ou catalog. Veja ingestion_definition.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

libraries

Sequência

Lista de bibliotecas ou códigos necessários para esta implementação. Veja pipeline.biblioteca.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

name

String

Um nome amigável para esse pipeline.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

notifications

Sequência

As configurações de notificação para esse pipeline. Veja as notificações.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

permissions

Sequência

As permissões do pipeline. Veja as permissões.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

photon

Booleana

Indica se o Photon está habilitado para este pipeline. Esta key é ignorada se serverless estiver definido como true.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

restart_window

Mapa

Define uma janela de reinicialização para este pipeline. O pipeline pode ser reiniciado dentro desse período sem atrasos.

root_path

String

O caminho raiz para esse pipeline. Ele é usado como o diretório raiz ao editar o pipeline na interface de usuário do Databricks e é adicionado ao sys.path ao executar códigos-fonte do Python durante a execução do pipeline.

Adicionado na versão 0.253.0 da CLI do Databricks.

run_as

Mapa

A identidade com a qual a execução do pipeline . Caso não seja especificado, a execução pipeline será feita pelo usuário que o pipeline. Somente user_name ou service_principal_name podem ser especificados. Se ambos forem especificados, será gerado um erro. Veja run_as.

Adicionado na versão 0.241.0 da CLI do Databricks.

schema

String

O esquema default (banco de dados) de onde as tabelas são lidas ou publicadas.

Adicionado na versão 0.230.0 da CLI do Databricks.

serverless

Booleana

Se serverless compute está ativado para este pipeline.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

storage

String

O diretório DBFS root para armazenar pontos de controle e tabelas.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

tags

Mapa

Um mapa de tags associadas ao pipeline. Eles são encaminhados para o site cluster como Tag de cluster e, portanto, estão sujeitos às mesmas limitações. Um máximo de 25 tags pode ser adicionado ao pipeline.

Adicionado na versão 0.256.0 da CLI do Databricks.

target

String

Esquema de destino (banco de dados) para adicionar tabelas nesse pipeline. Exatamente um dos schema ou target deve ser especificado. Para publicar no Unity Catalog, especifique também catalog. Esse campo legado está obsoleto para a criação de pipeline em favor do campo schema.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

usage_policy_id

String

O ID da política de uso a ser utilizada para este pipeline.

Adicionado na versão 0.273.0 da CLI do Databricks.

implantação de pipeline

Type: Map

Configuração do tipo de implantação para o pipeline.

Chave

Tipo

Descrição

kind

String

O tipo de implantação. Por exemplo, BUNDLE.

metadata_file_path

String

O caminho para o arquivo de metadados da implantação.

ambiente de pipeline

Type: Map

Especificação do ambiente para instalação de dependências em compute serverless .

Chave

Tipo

Descrição

dependencies

Sequência

Uma lista das dependências do pip, conforme suportada pela versão do pip neste ambiente. Cada dependência é uma linha de um arquivo de requisitos do pip.

pipeline.log_de_eventos

Type: Map

Configuração log de eventos para o pipeline.

Chave

Tipo

Descrição

catalog

String

O Unity Catalog é o catálogo sob o qual o log de eventos é publicado.

name

String

O nome com o qual o log de eventos é publicado no Unity Catalog.

schema

String

O esquema Unity Catalog sob o qual o log de eventos é publicado.

pipeline.filtros

Type: Map

Filtros que determinam qual pacote pipeline incluir nos gráficos implantados.

Chave

Tipo

Descrição

include

Sequência

Uma lista de nomes de pacotes a serem incluídos.

exclude

Sequência

Uma lista de nomes de pacotes a serem excluídos.

pipeline.definição_de_ingestão

Type: Map

Configuração para um pipeline de ingestão principal. Essas configurações não podem ser usadas com as configurações libraries, schema, target ou catalog .

Chave

Tipo

Descrição

connection_name

String

O nome da conexão a ser usada para ingestão.

ingestion_gateway_id

String

O ID do gateway de ingestão.

objects

Sequência

Obrigatório. Configurações que especificam as tabelas a serem replicadas e o destino das tabelas replicadas. Cada objeto pode ser um SchemaSpec, TableSpec ou ReportSpec.

source_configurations

Sequência

Configurações de origem de nível superior.

table_configuration

Mapa

Configuração das tabelas de ingestão. Consulte a configuração da tabela.

Especificação de esquema

Type: Map

Especificação de objeto de esquema para ingestão de todas as tabelas de um esquema.

Chave

Tipo

Descrição

source_schema

String

O nome do esquema de origem a ser ingerido.

destination_catalog

String

O nome do catálogo de destino no Unity Catalog.

destination_schema

String

O nome do esquema de destino no Unity Catalog.

table_configuration

Mapa

Configuração a ser aplicada a todas as tabelas neste esquema. Consulte pipeline.ingestion_definition.table_configuration.

Especificações da tabela

Type: Map

Especificação de objeto de tabela para ingestão de uma tabela específica.

Chave

Tipo

Descrição

source_schema

String

O nome do esquema de origem que contém a tabela.

source_table

String

O nome da tabela de origem a ser ingerida.

destination_catalog

String

O nome do catálogo de destino no Unity Catalog.

destination_schema

String

O nome do esquema de destino no Unity Catalog.

destination_table

String

O nome da tabela de destino no Unity Catalog.

table_configuration

Mapa

Configuração para esta tabela específica. Consulte pipeline.ingestion_definition.table_configuration.

Especificações do relatório

Type: Map

Especificação do objeto de relatório para ingestão de relatórios analíticos.

Chave

Tipo

Descrição

source_url

String

O URL do relatório original.

source_report

String

O nome ou identificador do relatório de origem.

destination_catalog

String

O nome do catálogo de destino no Unity Catalog.

destination_schema

String

O nome do esquema de destino no Unity Catalog.

destination_table

String

O nome da tabela de destino para os dados do relatório.

table_configuration

Mapa

Configuração da tabela de relatórios. Consulte pipeline.ingestion_definition.table_configuration.

pipeline.definição_de_ingestão.configurações_de_origem

Type: Map

Configuração para a fonte.

Chave

Tipo

Descrição

catalog

Mapa

Parâmetros de configuração de origem em nível de catálogo. Consulte o catálogo.

Type: Map

Parâmetros de configuração da fonte em nível de catálogo

Chave

Tipo

Descrição

postgres

Mapa

Parâmetros de configuração específicos do Postgres em nível de catálogo. Contém uma key slot_config que é um Map representando a configuração do slot Postgres a ser usada para replicação lógica.

source_catalog

String

O nome do catálogo de origem.

pipeline.definição_de_ingestão.configuração_da_tabela

Type: Map

Opções de configuração para tabelas de ingestão.

Chave

Tipo

Descrição

exclude_columns

Sequência

Uma lista de nomes de colunas a serem excluídas da ingestão. Quando não especificado, include_columns controla totalmente quais colunas serão ingeridas. Quando especificado, todas as outras colunas, incluindo as futuras, serão automaticamente incluídas na ingestão. Este campo é mutuamente exclusivo com include_columns.

include_columns

Sequência

Uma lista de nomes de colunas a serem incluídas na ingestão. Quando não especificado, todas as colunas, exceto as que estão em exclude_columns serão incluídas. As colunas futuras serão incluídas automaticamente. Quando especificado, todas as outras colunas futuras serão automaticamente excluídas da ingestão. Este campo é mutuamente exclusivo com exclude_columns.

primary_keys

Sequência

Uma lista de nomes de colunas a serem usadas como chave primária da tabela.

sequence_by

Sequência

Os nomes das colunas especificam a ordem lógica dos eventos nos dados de origem. O pipeline declarativo Spark usa essa sequência para lidar com eventos de alteração que chegam fora de ordem.

pipeline.biblioteca

Type: Sequence

Define a lista de bibliotecas ou código necessários para este pipeline.

Cada item da lista é uma definição:

Chave

Tipo

Descrição

file

Mapa

O caminho para um arquivo que define um pipeline e está armazenado nos Repos Databricks . Consulte pipeline.biblioteca.file.

glob

Mapa

O campo unificado para incluir o código-fonte. Cada entrada pode ser um caminho de Notebook, um caminho de arquivo ou um caminho de pasta que termina em /**. Este campo não pode ser usado em conjunto com notebook ou file. Consulte pipeline.biblioteca.glob.

notebook

Mapa

O caminho para um Notebook que define um pipeline e está armazenado no workspace Databricks . Consulte pipeline.biblioteca.Notebook.

whl

String

Este campo está obsoleto.

pipeline.biblioteca.file

Type: Map

O caminho para um arquivo que define um pipeline e está armazenado nos Repos Databricks .

Chave

Tipo

Descrição

path

String

O caminho absoluto do código-fonte.

pipeline.biblioteca.glob

Type: Map

O campo unificado para incluir o código-fonte. Cada entrada pode ser um caminho de Notebook, um caminho de arquivo ou um caminho de pasta que termina em /**. Este campo não pode ser usado em conjunto com notebook ou file.

Chave

Tipo

Descrição

include

String

O código-fonte a ser incluído para o pipeline

pipeline.biblioteca.Notebook

Type: Map

O caminho para um Notebook que define um pipeline e está armazenado no workspace Databricks .

Chave

Tipo

Descrição

path

String

O caminho absoluto do código-fonte.

notificações de pipeline

Type: Sequence

As configurações de notificação para este pipeline. Cada item na sequência é uma configuração de notificação.

Chave

Tipo

Descrição

alerts

Sequência

Uma lista de alertas que disparam notificações. Os valores válidos incluem on-update-success, on-update-failure, on-update-fatal-failure, on-flow-failure.

email_recipients

Sequência

Uma lista de endereços email para notificação quando um alerta configurado for acionado.

Exemplo

O exemplo a seguir define um pipeline com o recurso key hello-pipeline:

YAML
resources:
pipelines:
hello-pipeline:
name: hello-pipeline
clusters:
- label: default
num_workers: 1
development: true
continuous: false
channel: CURRENT
edition: CORE
photon: false
libraries:
- notebook:
path: ./pipeline.py

Para obter exemplos adicionais de configuração do pipeline, consulte Configuração do pipeline.

postgres_branch

Type:Map

O recurso de ramificação do Postgres permite definir ramificações do Lakebase em um pacote. Você também deve definir os projetos Postgres correspondentes e o endpointcompute.

Adicionado na versão 0.287.0 da CLI do Databricks.

YAML
postgres_branches:
<postgres_branch-name>:
<postgres_branch-field-name>: <postgres_branches-field-value>

Chave

Tipo

Descrição

branch_id

String

O ID a ser usado para a filial. Este se torna o componente final do nome do recurso da ramificação. O ID é obrigatório e deve ter entre 1 e 63 caracteres, começar com uma letra minúscula e conter apenas letras minúsculas, números e hífenes. Por exemplo, development torna-se projects/my-app/branches/development.

Adicionado na versão 0.287.0 da CLI do Databricks.

expire_time

String

Data e hora de expiração absoluta. Quando configurado, o ramo expirará neste momento.

Adicionado na versão 0.287.0 da CLI do Databricks.

is_protected

Booleana

Quando definido como verdadeiro, protege o branch contra exclusão e redefinição. O endpoint compute associado e o projeto não podem ser excluídos enquanto a ramificação estiver protegida.

Adicionado na versão 0.287.0 da CLI do Databricks.

no_expiry

Booleana

Desative explicitamente a expiração. Quando definido como verdadeiro, o ramo não expirará. Se definido como falso, a solicitação é inválida; forneça ttl ou expire_time em vez disso.

Adicionado na versão 0.287.0 da CLI do Databricks.

parent

String

O projeto onde esta ramificação será criada. Formatar: projects/{project_id}

Adicionado na versão 0.287.0 da CLI do Databricks.

source_branch

String

O nome da ramificação de origem a partir da qual esta ramificação foi criada (linhagem de dados para recuperação pontual). Caso não seja especificado, será utilizada a ramificação default do projeto. Formatar: projects/{project_id}/branches/{branch_id}

Adicionado na versão 0.287.0 da CLI do Databricks.

source_branch_lsn

String

O número de sequência de log (LSN) no branch de origem a partir do qual este branch foi criado.

Adicionado na versão 0.287.0 da CLI do Databricks.

source_branch_time

String

O ponto no tempo, no ramo de origem, a partir do qual este ramo foi criado.

Adicionado na versão 0.287.0 da CLI do Databricks.

ttl

String

Duração relativa do tempo de vida. Quando configurado, o branch expirará em creation_time + ttl.

Adicionado na versão 0.287.0 da CLI do Databricks.

Exemplo

Veja o exemplo postgres_projects.

postgres_endpoint

Type: Map

O recurso postgres_endpoints permite definir um endpoint compute do Lakebase em um pacote. Você também deve definir os projetos Lakebase e os branches Lakebase correspondentes.

Adicionado na versão 0.287.0 da CLI do Databricks.

YAML
postgres_endpoints:
<postgres_endpoint-name>:
<postgres_endpoint-field-name>: <postgres_endpoint-field-value>

Chave

Tipo

Descrição

autoscaling_limit_max_cu

Número

O número máximo de unidades de computação. O valor mínimo é 0,5.

Adicionado na versão 0.287.0 da CLI do Databricks.

autoscaling_limit_min_cu

Número

O número mínimo de unidades de computação. O valor mínimo é 0,5.

Adicionado na versão 0.287.0 da CLI do Databricks.

disabled

Booleana

Se deve restringir as conexões ao endpoint compute . Habilitar esta opção programará a suspensão de operações compute . Um endpoint compute desativado não pode ser ativado por uma conexão ou ação do console.

Adicionado na versão 0.287.0 da CLI do Databricks.

endpoint_id

String

O ID a ser usado para o endpoint. Este componente torna-se o componente final do nome do recurso do endpoint. O ID é obrigatório e deve ter entre 1 e 63 caracteres, começar com uma letra minúscula e conter apenas letras minúsculas, números e hífenes. Por exemplo, primary torna-se projects/my-app/branches/development/endpoints/primary.

Adicionado na versão 0.287.0 da CLI do Databricks.

endpoint_type

String

O tipo endpoint . Uma ramificação só pode ter um endpoint READ_WRITE. Valores possíveis: ENDPOINT_TYPE_READ_WRITE, ENDPOINT_TYPE_READ_ONLY.

Adicionado na versão 0.287.0 da CLI do Databricks.

no_suspension

Booleana

Quando definido como verdadeiro, desativa explicitamente a suspensão automática (nunca suspender). Deve ser definido como verdadeiro quando fornecido.

Adicionado na versão 0.287.0 da CLI do Databricks.

parent

String

A ramificação onde este endpoint será criado. Formatar: projects/{project_id}/branches/{branch_id}

Adicionado na versão 0.287.0 da CLI do Databricks.

settings

Mapa

Um conjunto de configurações para um endpoint compute .

Adicionado na versão 0.287.0 da CLI do Databricks.

suspend_timeout_duration

String

duração da inatividade após a qual o endpoint compute é automaticamente suspenso. Se especificado, o valor deve estar entre 60s e 604800s (1 minuto a 1 semana).

Adicionado na versão 0.287.0 da CLI do Databricks.

Exemplo

Veja o exemplo postgres_projects.

projeto_postgres

Type: Map

O recurso de projeto Postgres permite definir projetos de banco de dados Postgres com escalonamento automático do Lakebase em um pacote. Você também deve definir as ramificações Postgres correspondentes e o endpointcompute.

Adicionado na versão 0.287.0 da CLI do Databricks.

YAML
postgres_projects:
<postgres_project-name>:
<postgres_project-field-name>: <postgres_project-field-value>

Chave

Tipo

Descrição

default_endpoint_settings

Mapa

Um conjunto de configurações para um endpoint compute . Consulte postgres_project.default_endpoint_settings.

Adicionado na versão 0.287.0 da CLI do Databricks.

display_name

String

Nome do projeto legível para humanos. O comprimento deve estar entre 1 e 256 caracteres.

Adicionado na versão 0.287.0 da CLI do Databricks.

history_retention_duration

String

O número de segundos necessários para manter o histórico compartilhado para recuperação pontual em todos os ramos deste projeto. O valor deve estar entre 0s e 2592000s (até 30 dias).

Adicionado na versão 0.287.0 da CLI do Databricks.

pg_version

Integer

O número da versão principal do Postgres. As versões suportadas são 16 e 17.

Adicionado na versão 0.287.0 da CLI do Databricks.

project_id

String

O ID a ser usado para o projeto. Este se torna o componente final do nome do recurso do projeto. O ID é obrigatório e deve ter entre 1 e 63 caracteres, começar com uma letra minúscula e conter apenas letras minúsculas, números e hífenes. Por exemplo, my-app torna-se projects/my-app.

Adicionado na versão 0.287.0 da CLI do Databricks.

Exemplo

YAML
resources:
postgres_projects:
my_db:
project_id: test-prod-app
display_name: 'Production Database'
pg_version: 17

postgres_branches:
main:
parent: ${resources.postgres_projects.my_db.id}
branch_id: main
is_protected: false
no_expiry: true

postgres_endpoints:
primary:
parent: ${resources.postgres_branches.main.id}
endpoint_id: primary
endpoint_type: ENDPOINT_TYPE_READ_WRITE
autoscaling_limit_min_cu: 0.5
autoscaling_limit_max_cu: 4

postgres_project.default_endpoint_settings

Type: Map

Chave

Tipo

Descrição

autoscaling_limit_max_cu

Número

O número máximo de unidades de computação. O valor mínimo é 0,5.

autoscaling_limit_min_cu

Número

O número mínimo de unidades de computação. O valor mínimo é 0,5.

no_suspension

Booleana

Quando definido como verdadeiro, desativa explicitamente a suspensão automática (nunca suspender). Deve ser definido como verdadeiro quando fornecido.

pg_settings

Mapa

Uma representação bruta das configurações do Postgres.

suspend_timeout_duration

String

duração da inatividade após a qual o endpoint compute é automaticamente suspenso. Se especificado, o valor deve estar entre 60s e 604800s (1 minuto a 1 semana).

quality_monitor (Unity Catalog)

Type: Map

O recurso quality_monitor permite definir um monitor de tabela Unity Catalog . Para informações sobre monitores, consulte perfil de dados.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

YAML
quality_monitors:
<quality_monitor-name>:
<quality_monitor-field-name>: <quality_monitor-field-value>

Chave

Tipo

Descrição

assets_dir

String

O diretório para armazenar o monitoramento ativo (por exemplo, o dashboard, tabelas métricas).

Adicionado na versão 0.229.0 ou inferior CLI Databricks

baseline_table_name

String

Nome da tabela de linha de base a partir da qual as métricas de desvio são computadas. As colunas na tabela monitorada também devem estar presentes na tabela de linha de base.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

custom_metrics

Sequência

Métricas personalizadas para compute na mesa monitorada. Elas podem ser métricas agregadas, métricas derivadas (a partir de métricas agregadas já computadas) ou métricas de desvio (comparando métricas entre janelas de tempo). Veja custom_metrics.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

inference_log

Mapa

Configuração para inferência de monitoramento logs. Veja inference_log.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

latest_monitor_failure_msg

String

A mensagem de erro mais recente referente a uma falha do monitor. Este é um campo somente leitura que é preenchido quando um monitor falha.

Adicionado na versão 0.264.0 da CLI do Databricks.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

notifications

Mapa

As configurações de notificação do monitor. Veja as notificações.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

output_schema_name

String

Esquema em que as tabelas de métricas de saída são criadas.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

schedule

Mapa

O programar para atualizar e refrescar automaticamente as tabelas métricas. Veja programar.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

skip_builtin_dashboard

Booleana

Se o senhor deve deixar de criar um painel default resumindo as métricas de qualidade dos dados.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

slicing_exprs

Sequência

Lista de expressões de coluna para fatiar dados para análise direcionada. Os dados são agrupados por cada expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos. Para colunas de alta cardinalidade, somente os 100 principais valores exclusivos por frequência gerarão fatias.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

snapshot

Mapa

Configuração para monitoramento de tabelas de instantâneos. Veja a imagem.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

table_name

String

O nome completo da tabela.

Adicionado na versão 0.235.0 da CLI do Databricks.

time_series

Mapa

Configuração para tabelas de séries temporais de monitoramento. Veja time_series.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

warehouse_id

String

Argumento opcional para especificar o depósito para a criação do painel. Se não for especificado, o primeiro depósito em execução será usado.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

monitor_de_qualidade.métricas_personalizadas

Type: Sequence

Uma lista de definições de métricas personalizadas.

Cada item da lista é um CustomMetric:

Chave

Tipo

Descrição

definition

String

Jinja padrão para uma expressão SQL que especifica como compute os metros. Veja criar definição de métricas.

input_columns

Sequência

Uma lista dos nomes das colunas na tabela de entrada para as quais os parâmetros devem ser calculados. Pode usar :table para indicar que as informações precisam de informações de múltiplas colunas.

name

String

Nome das medidas nas tabelas de saída.

output_data_type

String

O tipo de saída das métricas personalizadas.

type

String

Só pode ser um dos seguintes: CUSTOM_METRIC_TYPE_AGGREGATE, CUSTOM_METRIC_TYPE_DERIVED ou CUSTOM_METRIC_TYPE_DRIFT. As métricas CUSTOM_METRIC_TYPE_AGGREGATE e CUSTOM_METRIC_TYPE_DERIVED são calculadas em uma única tabela, enquanto as CUSTOM_METRIC_TYPE_DRIFT comparam métricas entre a tabela de linha de base e a tabela de entrada, ou entre as duas janelas de tempo consecutivas.

  • CUSTOM_METRIC_TYPE_AGGREGATE: depende apenas das colunas existentes na sua tabela.
  • CUSTOM_METRIC_TYPE_DERIVED: depende de métricas agregadas calculadas anteriormente.
  • CUSTOM_METRIC_TYPE_DRIFT: depende de métricas agregadas ou derivadas calculadas anteriormente.

monitoramento_de_qualidade.log_de_inferência

Type: Map

Configuração para monitoramento de logs de inferência.

Chave

Tipo

Descrição

granularities

Sequência

As granularidades de tempo para agregar logs de inferência (por exemplo, ["1 day"]).

model_id_col

String

O nome da coluna que contém o ID do modelo.

prediction_col

String

O nome da coluna que contém a previsão.

timestamp_col

String

O nome da coluna que contém o registro de data e hora.

problem_type

String

O tipo de problema ML . Os valores válidos incluem PROBLEM_TYPE_CLASSIFICATION, PROBLEM_TYPE_REGRESSION.

label_col

String

O nome da coluna que contém o rótulo (verdade fundamental).

prediction_proba_col

String

O nome da coluna que contém as probabilidades de previsão.

notificações_monitor_de_qualidade

Type: Map

Configurações de notificação para o monitor.

Chave

Tipo

Descrição

on_failure

Mapa

Configurações de notificação para quando o monitor falhar. Veja on_failure.

on_new_classification_tag_detected

Mapa

Configurações de notificação para quando novas tags de classificação forem detectadas. Veja on_new_classification_tag_detected.

notificação_de_monitoramento_de_qualidade.em_falha

Type: Map

Configurações de notificação para quando o monitor falhar.

Chave

Tipo

Descrição

email_addresses

Sequência

Uma lista de endereços email para notificação em caso de falha do monitor.

quality_monitor.notifications.on_new_classification_tag_detected

Type: Map

Configurações de notificação para quando novas tags de classificação forem detectadas.

Chave

Tipo

Descrição

email_addresses

Sequência

Uma lista de endereços email para notificar quando novas tags de classificação forem detectadas.

monitor_de_qualidade.programa

Type: Map

Programa para atualização e renovação automática de tabelas de métricas.

Chave

Tipo

Descrição

quartz_cron_expression

String

Uma expressão Cron usando a sintaxe do Quartz. Por exemplo, 0 0 8 * * ? execução todos os dias às 8:00 da manhã.

timezone_id

String

O fuso horário do programador (por exemplo, UTC, America/Los_Angeles).

pause_status

String

Se o programar está pausado. Valores válidos: PAUSED, UNPAUSED.

monitor_de_qualidade.Instantâneo

Type: Map

Configuração para monitoramento de tabelas de instantâneos.

monitor_de_qualidade.séries_temporais

Configuração para monitoramento de tabelas de séries temporais.

Chave

Tipo

Descrição

granularities

Sequência

As granularidades de tempo para agregar dados de séries temporais (por exemplo, ["30 minutes"]).

timestamp_col

String

O nome da coluna que contém o registro de data e hora.

Exemplos

Os exemplos a seguir definem monitores de qualidade para os tipos de perfil InferenceLog, TimeSeries e Snapshot.

YAML
# InferenceLog profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
inference_log:
granularities: [1 day]
model_id_col: model_id
prediction_col: prediction
label_col: price
problem_type: PROBLEM_TYPE_REGRESSION
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
YAML
# TimeSeries profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
time_series:
granularities: [30 minutes]
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
YAML
# Snapshot profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
snapshot: {}
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC

O exemplo a seguir configura um monitor de qualidade e uma tarefa de retreinamento de modelo correspondente com base no monitoramento:

YAML
# Quality monitoring workflow
resources:
quality_monitors:
mlops_quality_monitor:
table_name: ${bundle.target}.mlops_demo.predictions
output_schema_name: ${bundle.target}.mlops_demo
assets_dir: /Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
inference_log:
granularities: [1 hour]
model_id_col: model_version
prediction_col: prediction
label_col: fare_amount
problem_type: PROBLEM_TYPE_REGRESSION
timestamp_col: inference_timestamp
schedule:
quartz_cron_expression: 57 0 14 * * ? # refresh monitoring metrics every day at 7 am PT
timezone_id: UTC
jobs:
retraining_job:
name: ${bundle.target}-mlops_demo-monitoring-retraining-job
tasks:
- task_key: monitored_metric_violation_check
notebook_task:
notebook_path: ../monitoring/notebooks/MonitoredMetricViolationCheck.py
base_parameters:
env: ${bundle.target}
table_name_under_monitor: ${bundle.target}.mlops_demo.predictions
metric_to_monitor: r2_score
metric_violation_threshold: 0.7
num_evaluation_windows: 24
num_violation_windows: 5 # 5 out of the past 24 windows have metrics lower than threshold

- task_key: is_metric_violated
depends_on:
- task_key: monitored_metric_violation_check
condition_task:
op: EQUAL_TO
left: '{{tasks.monitored_metric_violation_check.values.is_metric_violated}}'
right: 'true'

- task_key: trigger_retraining
depends_on:
- task_key: is_metric_violated
outcome: 'true'
run_job_task:
job_id: ${resources.jobs.model_training_job.id}

schedule:
quartz_cron_expression: '0 0 15 * * ?' # daily at 8 am PDT
timezone_id: UTC

# To get notifications, provide a list of emails to the on_failure argument.
#
# email_notifications:
# on_failure:
# - someone@example.com

registered_model (Unity Catalog)

Type: Map

O recurso de modelo registrado permite que o senhor defina modelos no Unity Catalog. Para obter informações sobre Unity Catalog os modelos registrados em, consulte gerenciar o ciclo de vida do Unity Catalog modelo em.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

YAML
registered_models:
<registered_model-name>:
<registered_model-field-name>: <registered_model-field-value>

Chave

Tipo

Descrição

aliases

Sequência

Lista de nomes alternativos associados ao modelo registrado. Consulte registered_model.aliases.

Adicionado na versão 0.273.0 da CLI do Databricks.

browse_only

Booleana

Indica se a entidade principal está limitada a recuperar metadados do objeto associado por meio do privilégio BROWSE quando include_browse está habilitado na solicitação.

Adicionado na versão 0.273.0 da CLI do Databricks.

catalog_name

String

O nome do catálogo em que o esquema e o modelo registrado residem.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

comment

String

O comentário anexado ao modelo registrado.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

created_at

Integer

Data e hora de criação do modelo registrado, em milissegundos, desde a época Unix.

Adicionado na versão 0.273.0 da CLI do Databricks.

created_by

String

O identificador do usuário que criou o modelo registrado.

Adicionado na versão 0.273.0 da CLI do Databricks.

full_name

String

O nome completo (de três níveis) do modelo registrado.

Adicionado na versão 0.273.0 da CLI do Databricks.

grants

Sequência

As bolsas associadas ao modelo registrado. Veja concessão.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

metastore_id

String

O identificador único do metastore.

Adicionado na versão 0.273.0 da CLI do Databricks.

name

String

O nome do modelo registrado.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

owner

String

O identificador do usuário que possui o modelo registrado.

Adicionado na versão 0.273.0 da CLI do Databricks.

schema_name

String

O nome do esquema em que o modelo registrado reside.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

storage_location

String

O local de armazenamento na nuvem sob o qual os arquivos de dados da versão do modelo são armazenados.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

updated_at

String

Data e hora da última atualização do modelo registrado, em milissegundos, desde a época Unix.

Adicionado na versão 0.273.0 da CLI do Databricks.

updated_by

String

O identificador do usuário que atualizou o modelo registrado pela última vez.

Adicionado na versão 0.273.0 da CLI do Databricks.

aliases do modelo registrado

Type: Sequence

Uma lista de nomes alternativos associados ao modelo registrado.

Cada item da lista é um Alias:

Chave

Tipo

Descrição

alias_name

String

Nome do pseudônimo, por exemplo 'campeão' ou 'última_estável'

catalog_name

String

O nome do catálogo que contém a versão do modelo.

id

String

O identificador único do pseudônimo

model_name

String

O nome do modelo pai registrado da versão do modelo, relativo ao esquema pai.

schema_name

String

O nome do esquema que contém a versão do modelo, relativo ao catálogo pai.

version_num

Integer

Número inteiro da versão do modelo à qual este alias se refere.

Exemplo

O exemplo a seguir define um modelo registrado no Unity Catalog:

YAML
resources:
registered_models:
model:
name: my_model
catalog_name: ${bundle.target}
schema_name: mlops_schema
comment: Registered model in Unity Catalog for ${bundle.target} deployment target
grants:
- privileges:
- EXECUTE
principal: account users

schema (Unity Catalog)

Type: Map

O Python oferece suporte a esquemas para Databricks Ativo Bundles. Consulte databricks.bundles.schemas.

O tipo de recurso schema permite que o senhor defina Unity Catalog esquemas para tabelas e outros ativos em seu fluxo de trabalho e pipeline criados como parte de um pacote. Um esquema, diferente de outros tipos de recurso, tem as seguintes limitações:

  • O proprietário de um recurso de esquema é sempre o usuário de implantação e não pode ser alterado. Se run_as for especificado no pacote, ele será ignorado pelas operações no esquema.
  • Somente os campos suportados pela API de criação de objeto Schemas correspondente estão disponíveis para o recurso de esquema. Por exemplo, o site enable_predictive_optimization não é compatível, pois está disponível apenas na API de atualização.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

YAML
schemas:
<schema-name>:
<schema-field-name>: <schema-field-value>

Chave

Tipo

Descrição

catalog_name

String

O nome do catálogo principal.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

comment

String

Uma descrição de texto em formato livre fornecida pelo usuário.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

grants

Sequência

As concessões associadas ao esquema. Veja concessão.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

name

String

O nome do esquema, relativo ao catálogo principal.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

properties

Mapa

Um mapa de key-value properties anexado ao esquema.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

storage_root

String

O URL da raiz de armazenamento para gerenciar tabelas dentro do esquema.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

Exemplos

O exemplo a seguir define um pipeline com o recurso key my_pipeline que cria um esquema Unity Catalog com o key my_schema como destino:

YAML
resources:
pipelines:
my_pipeline:
name: test-pipeline-{{.unique_id}}
libraries:
- notebook:
path: ../src/nb.ipynb
- file:
path: ../src/range.sql
development: true
catalog: ${resources.schemas.my_schema.catalog_name}
target: ${resources.schemas.my_schema.id}

schemas:
my_schema:
name: test-schema-{{.unique_id}}
catalog_name: main
comment: This schema was created by Databricks Asset Bundles.

Um mapeamento de concessões de nível superior não é suportado pelo Databricks ativo Bundles, portanto, se o senhor quiser definir concessões para um esquema, defina as concessões para o esquema dentro do mapeamento schemas. Para obter mais informações sobre concessões, consulte Mostrar, conceder e revogar privilégios.

O exemplo a seguir define um esquema do Unity Catalog com concessões:

YAML
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main

escopo_secreto

Type: Map

O recurso secret_scope permite que o senhor defina o escopo secreto em um pacote. Para obter informações sobre o Secret Scope, consulte Secret management.

Adicionado na versão 0.252.0 da CLI do Databricks.

YAML
secret_scopes:
<secret_scope-name>:
<secret_scope-field-name>: <secret_scope-field-value>

Chave

Tipo

Descrição

backend_type

String

O tipo de back-end com o qual o escopo será criado. Se não for especificado, o padrão será DATABRICKS.

Adicionado na versão 0.252.0 da CLI do Databricks.

keyvault_metadata

Mapa

Os metadados para o Escopo Secreto se backend_type for AZURE_KEYVAULT. Consulte keyvault_metadata.

Adicionado na versão 0.252.0 da CLI do Databricks.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

name

String

Nome do escopo solicitado pelo usuário. Os nomes dos escopos são exclusivos.

Adicionado na versão 0.252.0 da CLI do Databricks.

permissions

Sequência

As permissões a serem aplicadas ao escopo secreto. As permissões são gerenciadas por meio de ACLs de escopo secreto. Veja as permissões.

Adicionado na versão 0.252.0 da CLI do Databricks.

secret_scope.keyvault_metadata

Type: Map

Metadados para o Escopo de Segredos com suporte Azure Key Vault.

Chave

Tipo

Descrição

resource_id

String

O ID do recurso Azure do cofre de chaves.

dns_name

String

O nome DNS do Azure Key Vault.

Exemplos

O exemplo a seguir define um escopo secreto que usa um backend de cofre key:

YAML
resources:
secret_scopes:
secret_scope_azure:
name: test-secrets-azure-backend
backend_type: 'AZURE_KEYVAULT'
keyvault_metadata:
resource_id: my_azure_keyvault_id
dns_name: my_azure_keyvault_dns_name

O exemplo a seguir define um ACL personalizado usando o escopo secreto e as permissões:

YAML
resources:
secret_scopes:
my_secret_scope:
name: my_secret_scope
permissions:
- user_name: admins
level: WRITE
- user_name: users
level: READ

Para obter um exemplo de pacote que demonstra como definir um escopo secreto e um trabalho com uma tarefa que lê a partir dele em um pacote, consulte o repositório bundle-examples GitHub.

sql_warehouse

Type: Map

O recurso SQL warehouse permite que você defina um SQL warehouse em um pacote. Para obter informações sobre SQL Warehouse, consulte data warehousing no Databricks.

Adicionado na versão 0.260.0 da CLI do Databricks.

YAML
sql_warehouses:
<sql-warehouse-name>:
<sql-warehouse-field-name>: <sql-warehouse-field-value>

Chave

Tipo

Descrição

auto_stop_mins

Integer

A quantidade de tempo em minutos que um SQL warehouse deve ficar parado (por exemplo, sem consultas em EXECUÇÃO) antes de ser interrompido automaticamente. Os valores válidos são 0, que indica nenhuma parada automática, ou maior ou igual a 10. O default é 120.

Adicionado na versão 0.260.0 da CLI do Databricks.

channel

Mapa

Detalhes do canal. Veja o canal.

Adicionado na versão 0.260.0 da CLI do Databricks.

cluster_size

String

O tamanho dos clusters alocados para este warehouse. Aumentar o tamanho de um cluster Spark permite que você execute consultas maiores nele. Se você quiser aumentar o número de consultas concorrentes, ajuste max_num_clusters. Para valores suportados, consulte cluster_size.

Adicionado na versão 0.260.0 da CLI do Databricks.

creator_name

String

O nome do usuário que criou o warehouse.

Adicionado na versão 0.260.0 da CLI do Databricks.

enable_photon

Booleana

Se o warehouse deve usar clusters otimizados do Photon. padrão para falso.

Adicionado na versão 0.260.0 da CLI do Databricks.

enable_serverless_compute

Booleana

Se o warehouse deve usar compute serverless .

Adicionado na versão 0.260.0 da CLI do Databricks.

instance_profile_arn

String

Obsoleto. Perfil de instância usado para passar IAM role para o cluster.

Adicionado na versão 0.260.0 da CLI do Databricks.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

max_num_clusters

Integer

O número máximo de clusters que o autoescalador criará para lidar com consultas concorrentes. Os valores devem ser menores ou iguais a 30 e maiores ou iguais a min_num_clusters. padrão para min_clusters se não definido.

Adicionado na versão 0.260.0 da CLI do Databricks.

min_num_clusters

Integer

O número mínimo de clusters disponíveis que serão mantidos para este SQL warehouse. Aumentar isso garantirá que um número maior de clusters esteja sempre em execução e, portanto, pode reduzir o tempo de inicialização para novas consultas. Isso é semelhante aos núcleos reservados e revogáveis em um gerenciador de recursos. Os valores devem ser maiores que 0 e menores ou iguais a min(max_num_clusters, 30). padrão para 1.

Adicionado na versão 0.260.0 da CLI do Databricks.

name

String

O nome lógico do cluster. O nome deve ser único dentro de uma organização e ter menos de 100 caracteres.

Adicionado na versão 0.260.0 da CLI do Databricks.

permissions

Sequência

As autorizações necessárias para o armazém. Consulte as permissões.

Adicionado na versão 0.260.0 da CLI do Databricks.

spot_instance_policy

String

Se deve ou não usar instâncias pontuais. Os valores válidos são POLICY_UNSPECIFIED, COST_OPTIMIZED, RELIABILITY_OPTIMIZED. O default é COST_OPTIMIZED.

Adicionado na versão 0.260.0 da CLI do Databricks.

tags

Mapa

Um conjunto de key-valor par que serão tags em todos os recursos (por exemplo, instâncias AWS e volumes EBS) associados a este SQL warehouse. O número de tags deve ser inferior a 45.

Adicionado na versão 0.260.0 da CLI do Databricks.

warehouse_type

String

O tipo de depósito, PRO ou CLASSIC. Se você quiser usar compute serverless , defina este campo como PRO e também defina o campo enable_serverless_compute como true.

Adicionado na versão 0.260.0 da CLI do Databricks.

sql_warehouse.canal

Type: Map

Configuração do canal para o SQL warehouse.

Chave

Tipo

Descrição

name

String

O nome do canal. Os valores válidos incluem CHANNEL_NAME_CURRENT, CHANNEL_NAME_PREVIEW, CHANNEL_NAME_CUSTOM.

dbsql_version

String

A versão DBSQL para canal personalizado.

Exemplo

O exemplo a seguir define um SQL warehouse:

YAML
resources:
sql_warehouses:
my_sql_warehouse:
name: my_sql_warehouse
cluster_size: X-Large
enable_serverless_compute: true
max_num_clusters: 3
min_num_clusters: 1
auto_stop_mins: 60
warehouse_type: PRO

tabela_de_base de dados sincronizada

Type: Map

O recurso de tabela de banco de dados sincronizado permite que o senhor defina tabelas de banco de dados do Lakebase em um pacote.

Adicionado na versão 0.266.0 da CLI do Databricks.

YAML
synced_database_tables:
<synced_database_table-name>:
<synced_database_table-field-name>: <synced_database_table-field-value>

Chave

Tipo

Descrição

database_instance_name

String

O nome da instância do banco de dados de destino. Isso é necessário ao criar tabelas de banco de dados sincronizadas em catálogos padrão. Isso é opcional ao criar tabelas de banco de dados sincronizadas em catálogos registrados.

Adicionado na versão 0.266.0 da CLI do Databricks.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

logical_database_name

String

O nome do objeto de banco de dados Postgres de destino (banco de dados lógico) para essa tabela.

Adicionado na versão 0.266.0 da CLI do Databricks.

name

String

O nome completo da tabela, no formato catalog.schema.table.

Adicionado na versão 0.266.0 da CLI do Databricks.

spec

Mapa

A especificação da tabela do banco de dados. Consulte a especificação da tabela de banco de dados sincronizada.

Adicionado na versão 0.266.0 da CLI do Databricks.

tabela_banco_de_dados_sincronizado.spec

Type: Map

Especificação da tabela do banco de dados.

Adicionado na versão 0.266.0 da CLI do Databricks.

Chave

Tipo

Descrição

create_database_objects_if_missing

Booleana

Indica se deve criar o recurso de banco de dados lógico e esquema da tabela sincronizada, caso ainda não existam.

existing_pipeline_id

String

O ID de um pipeline existente. Se esta opção estiver definida, a tabela sincronizada será compactada no pipeline existente referenciado. Isso evita a criação de um novo pipeline e permite o compartilhamento de compute existentes. Neste caso, o scheduling_policy desta tabela sincronizada deve corresponder à política programática do pipeline existente. No máximo um de existing_pipeline_id e new_pipeline_spec deve ser definido.

new_pipeline_spec

Mapa

A especificação para um novo pipeline. Consulte new_pipeline_spec. No máximo um de existing_pipeline_id e new_pipeline_spec deve ser definido.

primary_key_columns

Sequência

A lista de nomes de colunas que formam a key primária.

scheduling_policy

String

A política de programação para sincronização. Os valores válidos incluem SNAPSHOT, CONTINUOUS.

source_table_full_name

String

O nome completo da tabela de origem no formato catalog.schema.table.

timeseries_key

String

key de série temporal para remover linhas duplicadas com a mesma key primária.

tabela_banco_de_dados_sincronizada.spec.novo_pipeline_spec

Type: Map

Especificação de um novo pipeline usado pela tabela de banco de dados sincronizada.

Chave

Tipo

Descrição

budget_policy_id

String

O ID da política orçamentária a ser definida no novo pipeline criado.

storage_catalog

String

O catálogo do pipeline para armazenar arquivos intermediários, como pontos de verificação e logs de eventos. Este deve ser um catálogo padrão onde o usuário tenha permissões para criar tabelas Delta.

storage_schema

String

O esquema do pipeline para armazenar arquivos intermediários, como pontos de verificação e logs de eventos. Isso precisa estar no catálogo padrão, onde o usuário tem permissões para criar tabelas Delta.

Exemplos

O exemplo a seguir define uma tabela de banco de dados sincronizada em um catálogo de banco de dados correspondente:

YAML
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: my-instance
database_name: 'my_database'
name: my_catalog
create_database_if_not_exists: true
synced_database_tables:
my_synced_table:
name: ${resources.database_catalogs.my_catalog.name}.${resources.database_catalogs.my_catalog.database_name}.my_destination_table
database_instance_name: ${resources.database_catalogs.my_catalog.database_instance_name}
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'my_source_table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'

O exemplo a seguir define uma tabela de banco de dados sincronizada dentro de um catálogo padrão:

YAML
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.public.synced_table'
# database_instance_name is required for synced tables created in standard catalogs.
database_instance_name: 'my-database-instance'
# logical_database_name is required for synced tables created in standard catalogs:
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'source_catalog.schema.table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'

Este exemplo cria uma tabela de banco de dados sincronizada e personaliza o programa pipeline para ela. Ele pressupõe que você já tenha:

  • Uma instância de banco de dados chamada my-database-instance
  • Um catálogo padrão chamado my_standard_catalog
  • Um esquema no catálogo padrão denominado default
  • Uma tabela delta de origem chamada source_delta.schema.customer com a keyprimária c_custkey
YAML
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.default.my_synced_table'
database_instance_name: 'my-database-instance'
logical_database_name: 'test_db'
spec:
source_table_full_name: 'source_delta.schema.customer'
scheduling_policy: SNAPSHOT
primary_key_columns:
- c_custkey
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'source_delta'
storage_schema: 'schema'

jobs:
sync_pipeline_schedule_job:
name: sync_pipeline_schedule_job
description: 'Job to schedule synced database table pipeline.'
tasks:
- task_key: synced-table-pipeline
pipeline_task:
pipeline_id: ${resources.synced_database_tables.my_synced_table.data_synchronization_status.pipeline_id}
schedule:
quartz_cron_expression: '0 0 0 * * ?'

volume (Unity Catalog)

Type: Map

Python oferece suporte a volumes para Databricks Ativo Bundles. Consulte databricks.bundles.volumes.

O tipo de recurso de volume permite que o senhor defina e crie volumes do Unity Catalog como parte de um pacote. Ao implantar um feixe com um volume definido, observe que

  • Um volume não pode ser referenciado no artifact_path para o pacote até que ele exista no workspace. Portanto, se quiser usar Databricks ativo Bundles para criar o volume, o senhor deve primeiro definir o volume no bundle, implantá-lo para criar o volume e, em seguida, fazer referência a ele no artifact_path em implantações subsequentes.
  • Os volumes no pacote não são prefixados com o prefixo dev_${workspace.current_user.short_name} quando o destino de implantação tem mode: development configurado. No entanto, você pode configurar manualmente esse prefixo. Consulte Predefinições personalizadas.

Adicionado na versão 0.236.0 da CLI do Databricks.

YAML
volumes:
<volume-name>:
<volume-field-name>: <volume-field-value>

Chave

Tipo

Descrição

catalog_name

String

O nome do catálogo do esquema e do volume.

Adicionado na versão 0.236.0 da CLI do Databricks.

comment

String

O comentário anexado ao volume.

Adicionado na versão 0.236.0 da CLI do Databricks.

grants

Sequência

As subvenções associadas ao volume. Veja concessão.

Adicionado na versão 0.236.0 da CLI do Databricks.

lifecycle

Mapa

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído. Veja ciclo de vida.

Adicionado na versão 0.268.0 da CLI do Databricks.

name

String

O nome do volume.

Adicionado na versão 0.236.0 da CLI do Databricks.

schema_name

String

O nome do esquema em que o volume está.

Adicionado na versão 0.236.0 da CLI do Databricks.

storage_location

String

O local de armazenamento na nuvem.

Adicionado na versão 0.236.0 da CLI do Databricks.

volume_type

String

O tipo de volume, EXTERNAL ou MANAGED. Um volume externo está localizado no local externo especificado. Um volume gerenciado está localizado no local default especificado pelo esquema pai, pelo catálogo pai ou pelo metastore. Consulte gerenciar versus volumes externos.

Exemplo

O exemplo a seguir cria um volume Unity Catalog com o key my_volume_id:

YAML
resources:
volumes:
my_volume_id:
catalog_name: main
name: my_volume
schema_name: my_schema

Para obter um exemplo de pacote que executa um trabalho que grava em um arquivo no volume Unity Catalog, consulte o repositório bundle-examples GitHub.

Objetos comuns

conceder

Type: Map

Define o principal e os privilégios a serem concedidos a esse principal. Para obter mais informações sobre concessões, consulte Exibir, conceder e revogar privilégios.

Adicionado na versão 0.229.0 ou inferior CLI Databricks

Chave

Tipo

Descrição

principal

String

O nome do diretor que receberá os privilégios. Pode ser um usuário, um grupo ou uma entidade de serviço.

privileges

Sequência

Os privilégios a serem concedidos à entidade especificada. Os valores válidos dependem do tipo de recurso (por exemplo, SELECT, MODIFY, CREATE, USAGE, READ_FILES, WRITE_FILES, EXECUTE, ALL_PRIVILEGES).

Exemplo

O exemplo a seguir define um esquema do Unity Catalog com concessões:

YAML
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main

vida útil

Type: Map

Contém as configurações do ciclo de vida de um recurso. Ele controla o comportamento do recurso quando este é implantado ou destruído.

Adicionado na versão 0.268.0 da CLI do Databricks.

Chave

Tipo

Descrição

prevent_destroy

Booleana

Configuração do ciclo de vida para impedir que o recurso seja destruído.

Adicionado na versão 0.268.0 da CLI do Databricks.