Introdução aos objetos do workspace
Este artigo apresenta uma introdução de alto nível dos objetos do workspace do Databricks. Você pode criar, visualizar e organizar objetos do workspace no navegador do workspace entre personas.
Clusters
Os clusters Databricks Ciência de Dados & Engenharia e Databricks Machine Learning fornecem uma plataforma unificada para vários casos de uso, como a execução de pipeline ETL de produção, transmissão analítica, análise ad-hoc e machine learning. Um cluster é um tipo de recurso do Databrickscompute. Outros tipos de recursos de computação incluem o Databricks SQL warehouse.
Para obter informações detalhadas sobre gerenciamento e uso de clusters, consulte Compute.
Notebooks
Um Notebook é uma interface baseada na web para documentos contendo uma série de células executáveis (comandos) que operam em arquivos e tabelas, visualizações e texto narrativo. Os comandos podem ser executados em sequência, referindo-se à saída de um ou mais comandos de execução anteriores.
Os notebooks são um mecanismo para executar código no Databricks. O outro mecanismo são os jobs.
Para obter informações detalhadas sobre como gerenciar e usar notebooks, consulte Introdução aos notebook do Databricks.
Jobs
Os jobs são um mecanismo para executar código no Databricks. O outro mecanismo é notebooks.
Para obter informações detalhadas sobre como gerenciar e usar jobs, consulte Criar e executar jobs do Databricks.
Bibliotecas
Uma biblioteca disponibiliza códigos de terceiros ou criados localmente para notebooks e jobs executados em seus clusters.
Para obter informações detalhadas sobre como gerenciar e usar bibliotecas, consulte Bibliotecas.
Dados
Você pode importar dados para um sistema de arquivos distribuído montado em um workspace do Databricks e trabalhar com eles em notebooks e clusters do Databricks. Você também pode usar uma grande variedade de fontes de dados do Apache Spark para acessar os dados.
Para obter informações detalhadas sobre o carregamento de dados, consulte Ingerir dados em um Databricks lakehouse.
Arquivos
Visualização
Esse recurso está na Prévia Pública.
Em Databricks Runtime 11.3 LTS e acima, o senhor pode criar e usar arquivos arbitrários no Databricks workspace. Os arquivos podem ser de qualquer tipo. Exemplos comuns incluem:
.py
arquivos utilizados em módulos personalizados..md
arquivos comoREADME.md
..csv
ou outros pequenos arquivos de dados..txt
arquivos.Arquivos de log.
Para obter informações detalhadas sobre o uso de arquivos, consulte Trabalhar com arquivos no Databricks. Para obter informações sobre como usar arquivos para modularizar seu código à medida que você desenvolve com o Databricks Notebook, consulte Compartilhar código entre o Databricks Notebook
Pastas do Git
As pastas Git são pastas do Databricks cujo conteúdo é convertido em conjunto, sincronizando-as com um repositório Git remoto. Usando as pastas Git do Databricks, é possível desenvolver o Notebook no Databricks e usar um repositório Git remoto para colaboração e controle de versão.
Para obter informações detalhadas sobre o uso de repositórios, consulte Integração do Git com pastas Git do Databricks.
Modelos
Modelo refere-se a um modelo registrado no MLflow Model Registry. O Registro de Modelo é um repositório de modelos centralizado que permite gerenciar todo o ciclo de vida dos modelos MLflow. Ele fornece a linhagem cronológica do modelo, o controle de versão do modelo, as transições de estágio e as anotações e descrições do modelo e da versão do modelo.
Para obter informações detalhadas sobre o gerenciamento e o uso de modelos, consulte gerenciar o ciclo de vida do modelo no Unity Catalog.
Experimentos
Um experimento do MLflow é a principal unidade de organização e controle de acesso para execuções de treinamento do modelo de aprendizado de máquina MLflow; todas as execuções do MLflow pertencem a um experimento. Cada experimento permite visualizar, pesquisar e comparar execuções, bem como baixar artefatos de execução ou metadados para análise em outras ferramentas.
Para obter informações detalhadas sobre como gerenciar e usar experimentos, consulte Organizar execuções de treinamento com experimentos do MLflow.
Queries
Consultas são instruções SQL que permitem interagir com seus dados. Para mais informações, consulte Aceder e gerir consultas guardadas.
Painéis
Os painéis são apresentações de visualizações de consultas e comentários. Consulte Dashboards ou Dashboards herdados.
Alertas
alerta são notificações de que um campo retornado por uma query atingiu um limite. Para obter mais informações, consulte O que são alerta Databricks SQL ?.
Referências a objetos do espaço de trabalho
Historicamente, os usuários eram obrigados a incluir o prefixo de caminho /Workspace
para algumas APIs da Databricks (%sh
), mas não para outras (%run
, entradas da API REST).
Os usuários podem usar os caminhos workspace com o prefixo /Workspace
em qualquer lugar. As referências antigas a caminhos sem o prefixo /Workspace
são redirecionadas e continuam funcionando. Recomendamos que todos os caminhos de workspace tenham o prefixo /Workspace
para diferenciá-los dos caminhos de Volume e DBFS.
O pré-requisito para o comportamento consistente do prefixo de caminho /Workspace
é o seguinte: Não pode haver uma pasta /Workspace
no nível raiz do site workspace. Se o senhor tiver uma pasta /Workspace
no nível da raiz e quiser ativar esse aprimoramento de UX, exclua ou renomeie a pasta /Workspace
que criou e entre em contato com a equipe da Databricks account.