Guia da API Delta Live Tables
Importante
O conteúdo deste artigo foi retirado e pode não ser atualizado. Consulte Delta Live Tables na Referência da API REST do Databricks.
A API Delta Live Tables permite que você crie, edite, exclua, comece e view detalhes sobre pipelines.
Importante
Para acessar APIs REST do Databricks, você deve autenticar o.
Criar um pipeline
endpoint |
Método HTTP |
---|---|
|
|
Cria um novo pipeline Delta Live Tables.
Exemplo
Este exemplo cria um novo pipeline acionado.
Solicitar
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json
pipeline-settings.json
:
{
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false
}
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplodbc-a1b2345c-d6e7.cloud.databricks.com
.
Este exemplo usa um .netrc arquivo.
Estrutura do pedido
Consulte Configurações de pipeline.
Editar um pipeline
endpoint |
Método HTTP |
---|---|
|
|
Atualiza as configurações de um pipeline existente.
Exemplo
Este exemplo adiciona um parâmetro target
ao pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json
pipeline-settings.json
{
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
}
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplodbc-a1b2345c-d6e7.cloud.databricks.com
.
Este exemplo usa um .netrc arquivo.
Estrutura do pedido
Consulte Configurações de pipeline.
Excluir um pipeline
endpoint |
Método HTTP |
---|---|
|
|
Exclui um pipeline do sistema Delta Live Tables.
Exemplo
Este exemplo exclui o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplodbc-a1b2345c-d6e7.cloud.databricks.com
.
Este exemplo usa um .netrc arquivo.
começar uma atualização de pipeline
endpoint |
Método HTTP |
---|---|
|
|
começar uma atualização para um pipeline. Você pode começar uma atualização para todo o grafo do pipeline, ou uma atualização seletiva de tabelas específicas.
Exemplos
começar uma atualização completa
Este exemplo começa uma atualização com refresh completa para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplodbc-a1b2345c-d6e7.cloud.databricks.com
.
Este exemplo usa um .netrc arquivo.
começar uma atualização das mesas selecionadas
Este exemplo começa uma atualização que refresh as tabelas sales_orders_cleaned
e sales_order_in_chicago
no pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplodbc-a1b2345c-d6e7.cloud.databricks.com
.
Este exemplo usa um .netrc arquivo.
começar uma atualização completa das mesas selecionadas
Este exemplo começa uma atualização das tabelas sales_orders_cleaned
e sales_order_in_chicago
e uma atualização com refresh completa das tabelas customers
e sales_orders_raw
no pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
.
Solicitar
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplodbc-a1b2345c-d6e7.cloud.databricks.com
.
Este exemplo usa um .netrc arquivo.
Estrutura do pedido
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
Se todos os dados devem ser reprocessados. Se Este campo é opcional. O valor default é Um erro será retornado se |
|
Uma matriz de |
Uma lista de tabelas a serem atualizadas. Use Este campo é opcional. Se Um erro é retornado se:
|
|
Uma matriz de |
Uma lista de tabelas a serem atualizadas com refresh completa. Use Este campo é opcional. Se Um erro é retornado se:
|
Obtenha o status de uma solicitação de atualização de pipeline
endpoint |
Método HTTP |
---|---|
|
|
Obtém o status e as informações para a atualização do pipeline associada a request_id
, em que request_id
é um identificador exclusivo para a solicitação que inicia a atualização do pipeline. Se a atualização for repetida ou reiniciada, a nova atualização herdará o request_id.
Exemplo
Para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
, este exemplo retorna status e informações para a atualização associada ao ID de solicitação a83d9f7c-d798-4fd5-aa39-301b6e6f4429
:
Solicitar
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplodbc-a1b2345c-d6e7.cloud.databricks.com
.
Este exemplo usa um .netrc arquivo.
Resposta
{
"status": "TERMINATED",
"latest_update":{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
"config":{
"id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
"name": "Retail sales (SQL)",
"storage": "/Users/username/data",
"configuration":{
"pipelines.numStreamRetryAttempts": "5"
},
"clusters":[
{
"label": "default",
"autoscale":{
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries":[
{
"notebook":{
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false,
"development": true,
"photon": true,
"edition": "advanced",
"channel": "CURRENT"
},
"cause": "API_CALL",
"state": "COMPLETED",
"cluster_id": "1234-567891-abcde123",
"creation_time": 1664304117145,
"full_refresh": false,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
Estrutura de resposta
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O status da solicitação de atualização do pipeline. Um de
|
|
|
O identificador exclusivo do pipeline. |
|
|
O identificador exclusivo da atualização. |
|
As configurações do pipeline. |
|
|
|
O gatilho para a atualização. Um de |
|
|
O estado da atualização. Um de |
|
|
O identificador dos clusters que executam a atualização. |
|
|
O timestamp quando a atualização foi criada. |
|
|
Se esta atualização Reset todas as tabelas antes de executar |
|
Uma matriz de |
Uma lista de tabelas a serem atualizadas sem refresh completa. |
|
Uma matriz de |
Uma lista de tabelas a serem atualizadas com refresh completa. |
|
|
O identificador único da solicitação que inicia a atualização. Este é o valor retornado pela solicitação de atualização . Se a atualização for repetida ou reiniciada, a nova atualização herdará o request_id. No entanto, o |
Interrompa qualquer atualização de pipeline ativa
endpoint |
Método HTTP |
---|---|
|
|
Interrompe qualquer atualização de pipeline ativa. Se nenhuma atualização estiver em execução, essa solicitação será no-op.
Para um pipeline contínuo, a execução do pipeline é pausada. As tabelas atualmente em processamento concluem a atualização, mas as tabelas downstream não são atualizadas. Na próxima atualização do pipeline, o Delta Live Tables executa uma refresh selecionada das tabelas que não concluíram o processamento e retoma o processamento do DAG do pipeline restante.
Para um pipeline acionado, a execução do pipeline é interrompida. As tabelas atualmente em processamento concluem a atualização, mas as tabelas downstream não são atualizadas. Na próxima atualização do pipeline, Delta Live Tables refresh todas as tabelas.
Exemplo
Este exemplo interrompe uma atualização para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplodbc-a1b2345c-d6e7.cloud.databricks.com
.
Este exemplo usa um .netrc arquivo.
Listar eventos de pipeline
endpoint |
Método HTTP |
---|---|
|
|
Recupera eventos para um pipeline.
Exemplo
Este exemplo recupera no máximo 5 eventos para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
.
Solicitar
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplodbc-a1b2345c-d6e7.cloud.databricks.com
.
Este exemplo usa um .netrc arquivo.
Estrutura do pedido
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
tokens de página retornados pela chamada anterior. Este campo é mutuamente exclusivo com todos os campos desta solicitação, exceto max_results. Um erro será retornado se quaisquer campos diferentes de max_results forem configurados quando este campo for configurado. Este campo é opcional. |
|
|
O número máximo de entradas a serem retornadas em uma única página. O sistema pode retornar menos de Este campo é opcional. O valor default é 25. O valor máximo é 100. Um erro será retornado se o valor de |
|
|
Uma strings indicando uma ordem de classificação por carimbo de data/hora para os resultados, por exemplo, A ordem de classificação pode ser crescente ou decrescente. Por default, os eventos são retornados em ordem decrescente por timestamp. Este campo é opcional. |
|
|
Critérios para selecionar um subconjunto de resultados, expressos usando uma sintaxe semelhante a SQL. Os filtros suportados são:
Expressões compostas são suportadas, por exemplo:
Este campo é opcional. |
Estrutura de resposta
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
Uma matriz de eventos de pipeline. |
A lista de eventos que correspondem aos critérios de solicitação. |
|
|
Se presente, um tokens para buscar a próxima página de eventos. |
|
|
Se presente, um tokens para buscar a página anterior de eventos. |
Obter detalhes do pipeline
endpoint |
Método HTTP |
---|---|
|
|
Obtém detalhes sobre um pipeline, incluindo as configurações do pipeline e atualizações recentes.
Exemplo
Este exemplo obtém detalhes do pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplodbc-a1b2345c-d6e7.cloud.databricks.com
.
Este exemplo usa um .netrc arquivo.
Resposta
{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"spec": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
},
"state": "IDLE",
"cluster_id": "1234-567891-abcde123",
"name": "Wikipedia pipeline (SQL)",
"creator_user_name": "username",
"latest_updates": [
{
"update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:37:30.279Z"
},
{
"update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
"state": "CANCELED",
"creation_time": "2021-08-13T00:35:51.902Z"
},
{
"update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
"state": "FAILED",
"creation_time": "2021-08-13T00:33:38.565Z"
}
],
"run_as_user_name": "username"
}
Estrutura de resposta
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O identificador exclusivo do pipeline. |
|
As configurações do pipeline. |
|
|
|
O estado do pipeline. Um de Se estado = |
|
|
O identificador dos clusters que executam o pipeline. |
|
|
O nome amigável para este pipeline. |
|
|
O nome de usuário do criador do pipeline. |
|
Uma matriz de UpdateStateInfo |
Status das atualizações mais recentes para o pipeline, ordenadas com a atualização mais recente primeiro. |
|
|
O nome de usuário que o pipeline executa. |
Obter detalhes da atualização
endpoint |
Método HTTP |
---|---|
|
|
Obtém detalhes para uma atualização de pipeline.
Exemplo
Este exemplo obtém detalhes para atualizar 9a84f906-fc51-11eb-9a03-0242ac130003
para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplodbc-a1b2345c-d6e7.cloud.databricks.com
.
Este exemplo usa um .netrc arquivo.
Resposta
{
"update": {
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
"config": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"configuration": {
"pipelines.numStreamRetryAttempts": "5"
},
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false,
"development": false
},
"cause": "API_CALL",
"state": "COMPLETED",
"creation_time": 1628815050279,
"full_refresh": true,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
Estrutura de resposta
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O identificador exclusivo do pipeline. |
|
|
O identificador exclusivo desta atualização. |
|
As configurações do pipeline. |
|
|
|
O gatilho para a atualização. Um de |
|
|
O estado da atualização. Um de |
|
|
O identificador dos clusters que executam o pipeline. |
|
|
O timestamp quando a atualização foi criada. |
|
|
Se esta foi uma refresh completa. Se verdadeiro, todas as tabelas de pipeline foram Reset antes de executar a atualização. |
Listar pipelines
endpoint |
Método HTTP |
---|---|
|
|
Lista os pipelines definidos no sistema Delta Live Tables.
Exemplo
Este exemplo recupera detalhes de pipelines em que o nome contém quickstart
:
Solicitar
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplodbc-a1b2345c-d6e7.cloud.databricks.com
.
Este exemplo usa um .netrc arquivo.
Resposta
{
"statuses": [
{
"pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "DLT quickstart (Python)",
"latest_updates": [
{
"update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:34:21.871Z"
}
],
"creator_user_name": "username"
},
{
"pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "My DLT quickstart example",
"creator_user_name": "username"
}
],
"next_page_token": "eyJ...==",
"prev_page_token": "eyJ..x9"
}
Estrutura do pedido
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
tokens de página retornados pela chamada anterior. Este campo é opcional. |
|
|
O número máximo de entradas a serem retornadas em uma única página. O sistema pode retornar menos de Este campo é opcional. O valor default é 25. O valor máximo é 100. Um erro será retornado se o valor de |
|
Uma matriz de |
Uma lista de strings especificando a ordem dos resultados, por exemplo, Este campo é opcional. |
|
|
Selecione um subconjunto de resultados com base nos critérios especificados. Os filtros suportados são:
Filtros compostos não são suportados. Este campo é opcional. |
Estrutura de resposta
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
Uma matriz de PipelineStateInfo |
A lista de eventos que correspondem aos critérios de solicitação. |
|
|
Se presente, um tokens para buscar a próxima página de eventos. |
|
|
Se presente, um tokens para buscar a página anterior de eventos. |
Estruturas de dados
Nesta secção:
AwsAttributes
Atributos definidos durante a criação clusters relacionados ao Amazon Web serviço.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
Os primeiros nós first_on_demand dos clusters serão colocados em instâncias sob demanda. Se esse valor for maior que 0, o nó do driver clusters será colocado em uma instância sob demanda. Se esse valor for maior ou igual ao tamanho atual clusters , todos os nós serão colocados em instâncias sob demanda. Se esse valor for menor que o tamanho atual clusters , os nós first_on_demand serão colocados em instâncias sob demanda e os restantes serão colocados em |
|
Tipo de disponibilidade usado para todos os nós subsequentes após os first_on_demand. Observação: se first_on_demand for zero, esse tipo de disponibilidade será usado para todos os clusters. |
|
|
|
Identificador para a zona de disponibilidade (AZ) na qual os clusters residem. Por default, a configuração tem um valor de auto, também conhecido como Auto-AZ. Com o Auto-AZ, o Databricks seleciona o AZ com base nos IPs disponíveis nas sub-redes workspace e tenta novamente em outras zonas de disponibilidade se a AWS retornar erros de capacidade insuficiente. Se desejar, você também pode especificar uma zona de disponibilidade para usar. Isso beneficia account que possuem instâncias reservadas em uma AZ específica. Especifique o AZ como strings (por exemplo, A lista de zonas disponíveis, bem como o valor default , podem ser encontrados usando o comando GET /api/2.0/clusters/list-zones chamar. |
|
|
Os nós para esses clusters serão colocados apenas em instâncias da AWS com esse instance profile. Se omitido, os nós serão colocados em instâncias sem um instance profile. O instance profile deve ter sido adicionado anteriormente ao ambiente Databricks por um administrador account . Esse recurso pode estar disponível apenas para determinados planos de clientes. |
|
|
O preço máximo para instâncias spot da AWS, como uma porcentagem do preço sob demanda do tipo de instância correspondente. Por exemplo, se este campo for definido como 50 e os clusters precisarem de uma nova instância spot |
|
O tipo de volumes EBS que serão iniciados com esses clusters. |
|
|
|
O número de volumes lançados para cada instância. Você pode escolher até 10 volumes. Esse recurso é ativado apenas para tipos de nó com suporte. Os tipos de nós legados não podem especificar volumes personalizados do EBS. Para tipos de nó sem armazenamento de instância, pelo menos um volume EBS precisa ser especificado; caso contrário, a criação clusters falhará. Esses volumes EBS serão montados em Se os volumes EBS estiverem anexados, o Databricks configurará o Spark para usar apenas os volumes EBS para armazenamento temporário porque dispositivos temporários de tamanho heterogêneo podem levar à utilização ineficiente do disco. Se nenhum volume EBS estiver anexado, o Databricks configurará o Spark para usar volumes de armazenamento de instâncias. Se os volumes EBS forem especificados, a configuração do Spark |
|
|
O tamanho de cada volume do EBS (em GiB) iniciado para cada instância. Para SSD de propósito geral, este valor deve estar dentro do intervalo 100 - 4096. Para HDD otimizado para taxa de transferência, esse valor deve estar entre 500 e 4096. Os volumes personalizados do EBS não podem ser especificados para os tipos de nós legados (com otimização de memória e otimizaçãocompute). |
|
|
O número de IOPS por volume EBS gp3. Este valor deve estar entre 3000 e 16000. O valor de IOPS e Taxa de transferência é calculado com base na documentação da AWS para corresponder ao desempenho máximo de um volume gp2 com o mesmo tamanho de volume. Para obter mais informações, consulte a calculadora de limite de volume do EBS. |
|
|
A Taxa de transferência por EBS gp3 volume, em MiB por segundo. Este valor deve estar entre 125 e 1000. |
Se nem ebs_volume_iops
nem ebs_volume_throughput
forem especificados, os valores serão inferidos a partir do tamanho do disco:
tamanho do disco |
IOPS |
Taxa de transferência |
---|---|---|
Maior que 1000 |
3 vezes o tamanho do disco, até 16000 |
250 |
Entre 170 e 1000 |
3000 |
250 |
abaixo de 170 |
3000 |
125 |
AwsAvailability
O conjunto de tipos de disponibilidade da AWS com suporte ao configurar nós para clusters.
Tipo |
Descrição |
---|---|
|
Use instâncias pontuais. |
|
Use instâncias sob demanda. |
|
De preferência, use instâncias spot, mas volte para instâncias sob demanda se as instâncias spot não puderem ser adquiridas (por exemplo, se os preços spot da AWS forem muito altos). |
ClusterLogConf
Caminho para logs clusters.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
Localização DBFS de logs clusters. O destino deve ser fornecido. Por exemplo,
Localização S3 de logs clusters. |
DbfsStorageInfo
Informações de armazenamento DBFS.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
Destino DBFS. Exemplo: |
EbsVolumeType
O Databricks oferece suporte aos tipos de volume EBS gp2 e gp3. Siga as instruções em gerenciar SSD storage para selecionar gp2 ou gp3 para seu workspace.
Tipo |
Descrição |
---|---|
|
provisionamento de armazenamento extra usando volumes AWS EBS. |
|
provisionamento de armazenamento extra usando volumes AWS st1. |
FileStorageInfo
Informação de armazenamento de arquivo.
Observação
Este tipo de localização só está disponível para clusters configurados usando Databricks Container Services.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
Destino do arquivo. Exemplo: |
InitScriptInfo
Caminho para um init script.
Para obter instruções sobre como usar init script com o Databricks Container Services, consulte Usar um init script.
Observação
O tipo de armazenamento de arquivos (nome do campo: file
) só está disponível para clusters configurados usando Databricks Container Services. Consulte FileStorageInfo.
Nome do campo |
Tipo |
Descrição |
---|---|---|
OU
|
DbfsStorageInfo (obsoleto) |
localização da workspace do init script. O destino deve ser fornecido. Por exemplo,
(Descontinuado) Localização DBFS do init script. O destino deve ser fornecido. Por exemplo,
Localização S3 do init script. O destino e a região ou armazém devem ser fornecidos. Por exemplo,
|
Valor chave
Um valor- keypar que especifica os parâmetros de configuração.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O nome da propriedade de configuração. |
|
|
O valor da propriedade de configuração. |
NotebookBiblioteca
Uma especificação para um Notebook contendo código de pipeline.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O caminho absoluto para o Notebook. Este campo é obrigatório. |
PipelinesAutoScale
Atributos que definem clusters autoscale.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O número mínimo de worker para os quais os clusters podem ser reduzidos quando subutilizados. É também o número inicial de worker que os clusters terão após a criação. |
|
|
O número máximo de worker para os quais os clusters podem ser dimensionados quando sobrecarregados. max_workers deve ser estritamente maior que min_workers. |
|
|
O modo autoscale para os clusters:
|
PipelineLibrary
Uma especificação para dependências de pipeline.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
O caminho para um dataset Delta Live Tables que define o Notebook. O caminho deve estar no workspace Databricks, por exemplo: |
PipelinesNovoCluster
Uma especificação clusters de pipeline.
O sistema Delta Live Tables define os seguintes atributos. Esses atributos não podem ser configurados pelos usuários:
spark_version
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
Um rótulo para a especificação clusters , seja Este campo é opcional. O valor default é |
|
Um objeto que contém um conjunto de valor- keypar de configuração opcional do Spark especificado pelo usuário. Você também pode passar strings de opções JVM extras para o driver e os executores por meio de Exemplo de confs do Spark: |
|
|
Atributos relacionados a clusters em execução no Amazon Web serviço. Se não for especificado na criação clusters , um conjunto de valores default será usado. |
|
|
|
Este campo codifica, através de um único valor, o recurso disponível para cada um dos nós Spark neste clusters. Por exemplo, os nós do Spark podem ser provisionados e otimizados para cargas de trabalho com uso intensivo de memória ou compute . Uma lista de tipos de nós disponíveis pode ser recuperada usando a chamada GET 2.0/clusters/list-node-types . |
|
|
O tipo de nó do driver Spark. Este campo é opcional; se não for definido, o tipo de nó do driver será definido com o mesmo valor de |
|
Uma matriz de |
Conteúdo key pública SSH que será adicionado a cada nó do Spark nesses clusters. A key privada correspondente pode ser usada para efetuar login com o nome de usuário |
|
Um objeto contendo um conjunto de tags para recursos clusters . Databricks marca todos os recursos clusters com essas marcas, além de default_tags. Nota:
|
|
|
A configuração para entregar logs do Spark para um destino de armazenamento de longo prazo. Apenas um destino pode ser especificado para um clusters. Se esta configuração for fornecida, os logs serão entregues ao destino a cada |
|
|
Um objeto que contém um conjunto opcional de variável de ambiente por key-valor especificado pelo usuário. o valor-chave par do formulário (X,Y) é exportado como está (ou seja, Para especificar um conjunto adicional de Exemplo Spark variável de ambiente: |
|
|
Uma matriz de InitScriptInfo |
A configuração para armazenar init script. Qualquer número de destinos pode ser especificado. Os scripts são executados sequencialmente na ordem fornecida. Se |
|
|
O ID opcional do pool de instâncias ao qual os clusters pertencem. Consulte pool referência de configuração. |
|
|
O ID opcional do pool de instâncias a ser usado para o nó do driver. Você também deve especificar |
|
|
Um ID de políticaclusters . |
|
|
Se num_workers, número de nós do trabalhador que esses clusters devem ter. Um clusters tem um driver Spark e executores num_workers para um total de num_workers + 1 nós Spark. Ao ler as propriedades de um clusters, esse campo reflete o número desejado de worker em vez do número real de worker. Por exemplo, se um clusters for redimensionado de 5 para 10 worker, este campo é atualizado para refletir o tamanho alvo de 10 worker, enquanto o worker listado nos executores aumenta gradativamente de 5 para 10 conforme os novos nós são provisionados. Se autoescala, os parâmetros necessários para escalar automaticamente os clusters para cima e para baixo com base na carga. Este campo é opcional. |
|
|
Se devem ser usados default valores de política para clusters atributos ausentes. |
Configurações de Pipeline
As configurações para uma implantação de pipeline.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O identificador exclusivo para este pipeline. O identificador é criado pelo sistema Delta Live Tables e não deve ser fornecido ao criar um pipeline. |
|
|
Um nome amigável para este pipeline. Este campo é opcional. Por default, o nome do pipeline deve ser exclusivo. Para usar um nome duplicado, defina |
|
|
Um caminho para um diretório DBFS para armazenar pontos de verificação e tabelas criadas pelo pipeline. Este campo é opcional. O sistema usa um local default se este campo estiver vazio. |
|
um mapa de |
Uma lista de valor- keypar para adicionar à configuração do Spark dos clusters que executarão o pipeline. Este campo é opcional. Os elementos devem ser formatados como valor- keypar. |
|
Uma matriz de PipelinesNewCluster |
Uma matriz de especificações para os clusters para execução do pipeline. Este campo é opcional. Se isso não for especificado, o sistema selecionará uma configuração clusters default para o pipeline. |
|
Uma matriz de PipelineLibrary |
O Notebook contendo o código do pipeline e quaisquer dependências necessárias para a execução do pipeline. |
|
|
Um nome de banco de dados para dados de saída de pipeline persistentes. Para obter mais informações, consulte Publicar dados de Delta Live Tables para Hive metastore. |
|
|
Se este é um pipeline contínuo. Este campo é opcional. O valor default é |
|
|
Se deve executar o pipeline no modo de desenvolvimento. Este campo é opcional. O valor default é |
|
|
Se a aceleração Photon está habilitada para este pipeline. Este campo é opcional. O valor default é |
|
|
O canal de lançamento Delta Live Tables especificando a versão Runtime a ser usada para este pipeline. Os valores suportados são:
Este campo é opcional. O valor default é |
|
|
A edição do produto Delta Live Tables para executar o pipeline:
Este campo é opcional. O valor default é |
PipelineStateInfo
O estado de um pipeline, o status das atualizações mais recentes e informações sobre os recursos associados.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O estado do pipeline. Um de |
|
|
O identificador exclusivo do pipeline. |
|
|
O identificador exclusivo dos clusters que executam o pipeline. |
|
|
O nome amigável do pipeline. |
|
Uma matriz de UpdateStateInfo |
Status das atualizações mais recentes para o pipeline, ordenadas com a atualização mais recente primeiro. |
|
|
O nome de usuário do criador do pipeline. |
|
|
O nome de usuário com o qual o pipeline é executado. Este é um valor somente leitura derivado do proprietário do pipeline. |
S3StorageInfo
Informações de armazenamento S3.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
destino S3. Por exemplo: |
|
|
região S3. Por exemplo: |
|
|
Armazém S3. Por exemplo: |
|
|
(Opcional) Ative a criptografia do lado do servidor, |
|
|
(Opcional) O tipo de criptografia, pode ser |
|
|
(Opcional) key KMS usada se a criptografia estiver ativada e o tipo de criptografia estiver definido como |
|
|
(Opcional) Defina a lista de controle de acesso enlatada. Por exemplo: |
UpdateStateInfo
O estado atual de uma atualização de pipeline.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O identificador exclusivo para esta atualização. |
|
|
O estado da atualização. Um de |
|
|
Carimbo de data/hora quando esta atualização foi criada. |
WorkspaceStorageInfo
informações de armazenamento workspace .
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
Destino do arquivo. Exemplo: |