Desenvolver em Databricks
Databricks Os usuários desenvolvedores abrangem data scientists, engenheiros de dados, analistas de dados, engenheiros de aprendizado de máquina, bem como engenheiros de DevOps e MLOps - todos criando soluções e integrações para estender e personalizar Databricks para suas necessidades específicas. Além dos muitos Databricks APIs e do recurso de engenharia de dados disponíveis no workspace, há também muitas ferramentas para conexão com o Databricks e desenvolvimento local que dão suporte aos usuários desenvolvedores do Databricks.
Este artigo oferece uma visão geral do APIs e das ferramentas disponíveis para os usuários desenvolvedores do Databricks.
começar a codificar no workspace
Desenvolver no site workspace é uma ótima maneira de se familiarizar rapidamente com o site Databricks APIs. Databricks suporta Python, SQL, Scala, R e outros recursos voltados para o desenvolvedor no workspace, incluindo ferramentas e utilitários úteis.
Aqui estão algumas maneiras de começar:
- Leia uma visão geral e encontre links para tutoriais de vários cenários para Python, Scalae R. Para obter uma tabela de ferramentas compatíveis com vários idiomas, consulte Visão geral dos idiomas.
- Consulte a referência da linguagem SQL para ver a profundidade e a amplitude dos recursos.
- Faça o tutorial: Load and transformation de dados using Apache Spark DataFramesin Python, Scala, or R to get an introduction to Spark APIs. Outros exemplos simples para o PySpark estão em PySpark basics.
- Procure a documentação de referência disponível, incluindo a referência da API REST, que fornece uma boa imagem dos objetos do Databricks que também podem ser criados e modificados com outras ferramentas.
- Instale o Python SDK em um Notebook e escreva uma função simples.
- Mova alguns arquivos usando as utilidadesDatabricks
fs
comando, para se familiarizar com o uso das utilidadesdbutils
para manipular o ambiente Databricks.
Criar aplicativos e soluções personalizados
Databricks oferece ferramentas para o desenvolvimento local e workspace. No workspace, é possível criar aplicativos usando a interface do usuário, os dados são facilmente acessíveis em Unity Catalog volumes e workspace arquivos, workspace- apenas recursos como o Databricks Assistant para depuração estão disponíveis, outras funcionalidades, como o Notebook, são totalmente funcionais e o controle de origem está disponível com Git pastas.
Como alternativa, desenvolva soluções personalizadas usando um IDE em seu computador local para aproveitar toda a funcionalidade de um ambiente de desenvolvimento avançado. O desenvolvimento local oferece suporte a uma variedade maior de idiomas, o que significa que recursos dependentes do idioma, como depuração e estruturas de teste, estão disponíveis para dar suporte a projetos maiores, juntamente com acesso direto ao controle de origem.
Para recomendações de uso da ferramenta, consulte Qual ferramenta de desenvolvedor devo usar?.
Recurso | Descrição |
---|---|
Configure a autenticação e a autorização para que suas ferramentas, scripts e aplicativos funcionem com a Databricks. | |
Crie dados seguros e aplicativos personalizados AI na plataforma Databricks, que podem ser compartilhados com outros usuários. | |
Conecte-se ao seu espaço de trabalho remoto Databricks a partir do Visual Studio Code para facilitar a configuração da sua conexão com o Databricks workspace e uma interface de usuário para gerenciar o recurso Databricks. | |
Configure uma conexão com um site remoto Databricks workspace e execute arquivos em Databricks clustering a partir de PyCharm. Este plug-in é desenvolvido e fornecido pela JetBrains em parceria com a Databricks. | |
Automatize suas interações com a Databricks usando um SDK, em vez de chamar as APIs REST diretamente. Os SDKs também estão disponíveis no site workspace. |
Conectar-se ao Databricks
A conexão com a Databricks é um componente necessário de muitas integrações e soluções, e a Databricks oferece uma grande variedade de ferramentas de conexão para o senhor escolher. A tabela a seguir fornece ferramentas para conectar o ambiente e os processos de desenvolvimento ao site Databricks workspace e ao recurso.
Recurso | Descrição |
---|---|
Conecte-se à Databricks usando ambientes de desenvolvimento integrado (IDEs) populares, como PyCharm, IntelliJ IDEA, Eclipse, RStudio e JupyterLab. | |
Fácil configuração de sua conexão com o site Databricks workspace e uma interface de usuário para gerenciar o recurso Databricks. | |
Conecte-se a Databricks para executar SQL comandos e scripts, interagir programaticamente com Databricks e integrar a funcionalidade Databricks SQL a aplicativos escritos em linguagens populares, como Python, Go, JavaScript e TypeScript. |
O senhor também pode conectar muitas outras ferramentas populares de terceiros ao clustering e ao warehouse SQL para acessar os dados em Databricks. Veja o parceiro tecnológico.
gerenciar infraestrutura e recursos
Os desenvolvedores e engenheiros de dados que estão criando o pipeline CI/CD para automatizar o provisionamento e o gerenciamento de infraestrutura e recursos podem escolher entre as seguintes ferramentas que oferecem suporte a cenários pipeline simples e mais complicados.
Para recomendações de uso da ferramenta, consulte Qual ferramenta de desenvolvedor devo usar?.
Recurso | Descrição |
---|---|
Acesse a funcionalidade do Databricks usando a interface de linha de comando (CLI) do Databricks. A CLI envolve a API REST do Databricks, portanto, em vez de enviar chamadas à API REST diretamente usando curl ou Postman, o senhor pode usar a CLI do Databricks para interagir com o Databricks. Use o CLI em um terminal local ou use-o no workspace terminal da Web. | |
Defina e gerencie Databricks recurso e seu CI/CD pipeline usando as melhores práticas de desenvolvimento, teste e implantação padrão da indústria para seus dados e AI projetos com Databricks ativo Bundles, que é um recurso do Databricks CLI. | |
Provedor Terraform da Databricks e Terraform CDKTF para Databricks | provisionamento Databricks infraestrutura e recurso usando Terraform. |
Integrar sistemas e estruturas populares de CI/CD, como GitHub Actions, Jenkins e Apache Airflow. |
Colabore e compartilhe código
Entre muitos outros recursos de colaboração no workspace, o Databricks oferece suporte específico aos usuários desenvolvedores que desejam colaborar e compartilhar códigos no workspace com esses recursos:
Recurso | Descrição |
---|---|
Desenvolva UDFs (funções definidas pelo usuário) para reutilizar e compartilhar código. | |
Configure as pastas do Git para contribuições de controle de versão e fonte para os arquivos de projeto do Databricks. |
Envolver-se com a comunidade de desenvolvedores da Databricks
Databricks tem uma comunidade de desenvolvedores ativa, que é apoiada pelos seguintes programas e recursos:
- Databricks MVPs : Esse programa reconhece os membros da comunidade, data scientists, engenheiros de dados, desenvolvedores e entusiastas do código aberto que vão além dos dados e da comunidade AI. Para obter mais informações, consulte Databricks MVPs.
- treinamento: Databricks oferece módulos de aprendizagem para Apache SparkAIdesenvolvedores de, engenheiros de geração, engenheiros de dados e muito mais.
- comunidade : Há uma grande quantidade de conhecimento disponível no site Databricks comunidade e no site Apache Spark comunidade.