Databricks para desenvolvedores Scala
Este artigo fornece um guia para desenvolver Notebook e Job em Databricks usando a linguagem Scala. A primeira seção fornece links para tutorial para fluxo de trabalho e tarefas comuns. A segunda seção fornece links para APIs, bibliotecas e ferramentas key .
Um fluxo de trabalho básico para começar é:
Importe código e execute-o usando um Databricks interativo Notebook: Importe seu próprio código de arquivos ou repositórios Git ou experimente um tutorial listado abaixo.
execução do seu código em um cluster: crie um cluster próprio ou certifique-se de ter permissões para usar um cluster compartilhado. Anexe seu Notebook aos clusters e execute o Notebook.
Além disso, você pode se aprofundar em tópicos mais específicos:
Trabalhe com conjuntos de dados maiores usando o Apache Spark
Automatize sua carga de trabalho como um Job
Tutoriais
O tutorial abaixo fornece código de exemplo e Notebook para aprender sobre fluxo de trabalho comum. Consulte Importar um Notebook para obter instruções sobre como importar exemplos Notebook para sua workspace.
tutorial: Carga e transformação de dados usando Apache Spark DataFrames
Tutorial: Delta Lake fornece exemplos de Scala.
Usar XGBoost no Databricks fornece um exemplo do Scala.
Referência
As subseções abaixo listam key recursos e dicas para ajudá-lo a começar a desenvolver no Databricks com Scala.
gerenciar código com pastas Git do Notebook e do Databricks
Databricks Suporte para notebook Scala. Esses notebooks oferecem funcionalidade semelhante à do Jupyter, mas com acréscimos, como visualizações integradas usando big data, integrações Apache Spark para monitoramento de depuração e desempenho e integrações MLflow para acompanhamento de experimentos machine learning. Comece importando um Notebook. Quando o senhor tiver acesso a um cluster, poderá anexar um Notebook ao cluster e executar o Notebook.
Dica
Para Reset completamente o estado do seu Notebook, pode ser útil reiniciar o kernel. Para usuários do Jupyter, a opção “reiniciar kernel” no Jupyter corresponde a desanexar e reanexar um Notebook no Databricks. Para reiniciar o kernel em um Notebook, clique no seletorcompute na barra de ferramentas Notebook e passe o mouse sobre os clusters anexados ou SQL warehouse na lista para exibir um menu lateral. Selecione Desanexar e anexar novamente. Isso desconecta o Notebook de seus clusters e o reconecta, o que reinicia o processo.
Databricks Git permitem que os usuários sincronizem o Notebook e outros arquivos com os repositórios do Git. Databricks Git ajudam no controle de versão do código e na colaboração, e podem simplificar a importação de um repositório completo de código para o site Databricks, a visualização de versões anteriores do Notebook e a integração com o desenvolvimento do IDE. Obtenha o começar clonando um repositório Git remoto. Em seguida, o senhor pode abrir ou criar um Notebook com o clone do repositório, anexar o Notebook a um cluster e executar o Notebook.
Clusters e bibliotecas
O Databricks compute oferece gerenciamento de computação para clusters de qualquer tamanho: desde clusters de nó único até clusters grandes. O senhor pode personalizar o hardware e a biblioteca do cluster de acordo com suas necessidades. data scientists Geralmente, o trabalho começa criando um cluster ou usando um clustercompartilhado existente. Quando o senhor tiver acesso a um cluster, poderá anexar um Notebook ao cluster ou executar um Job no cluster.
Para cargas de trabalho pequenas que exigem apenas nós únicos, o cientista de dados pode usar a computação de nó único para economizar custos.
Para obter dicas detalhadas, consulte Recomendações de configuração da computação
Os administradores podem configurar políticas de cluster para simplificar e orientar a criação de clusters.
Os clusters Databricks usam um Databricks Runtime, que fornece muitas bibliotecas populares prontas para uso, incluindo Apache Spark, Delta Lake e muito mais. Você também pode instalar bibliotecas personalizadas ou de terceiros adicionais para usar com Notebook e Job.
comece com a biblioteca default no Databricks Runtime notas sobre a versão versões e compatibilidade. Para obter listas completas de bibliotecas pré-instaladas, consulte Databricks Runtime notas sobre a versão versões e compatibilidade.
Você também pode instalar bibliotecas Scala em clusters.
Para mais detalhes, consulte biblioteca.
Visualizações
Databricks Scala Notebook tem suporte integrado para muitos tipos de visualizações. Você também pode usar visualizações herdadas:
Interoperabilidade
Esta seção descreve os recursos que suportam a interoperabilidade entre Scala e SQL.
Empregos
O senhor pode automatizar as cargas de trabalho do Scala como um trabalho agendado ou acionado em Databricks. Os trabalhos podem executar Notebook e JARs.
Para obter detalhes sobre como criar um Job por meio da interface do usuário, consulte Configurar e editar Databricks Jobs.
Os SDKs do Databricks permitem criar, editar e excluir trabalhos programaticamente.
A CLI do Databricks fornece uma interface de linha de comando conveniente para automatizar Job.
IDEs, ferramentas de desenvolvedor e SDKs
Além de desenvolver o código Scala no Databricks Notebook, você pode desenvolver externamente usando ambientes de desenvolvimento integrado (IDEs), como o IntelliJ IDEA. Para sincronizar o trabalho entre ambientes de desenvolvimento externos e Databricks, existem várias opções:
Código: O senhor pode sincronizar o código usando o Git. Consulte Integração do Git para pastas Git do Databricks.
biblioteca e Job: O senhor pode criar uma biblioteca externamente e upload para Databricks. Essas bibliotecas podem ser importadas para o Databricks Notebook ou podem ser usadas para criar trabalhos. Ver biblioteca e programar e orquestrar fluxo de trabalho.
Execução remota de máquina: você pode executar código de seu IDE local para desenvolvimento e teste interativos. O IDE pode se comunicar com o Databricks para executar grandes cálculos em clusters do Databricks. Por exemplo, você pode usar o IntelliJ IDEA com o Databricks Connect.
O Databricks fornece um conjunto de SDKs que suportam automação e integração com ferramentas externas. Os SDKs do Databricks podem ser usados para administrar recursos como clusters e bibliotecas, código e outros objetos no workspace, cargas de trabalho e tarefas, e muito mais.Consulte os SDKs do Databricks.
Para obter mais informações sobre IDEs, ferramentas de desenvolvedor e SDKs, consulte Ferramentas de desenvolvedor.
Recursos adicionais
A Databricks Academy oferece cursos individualizados e conduzidos por instrutor em muitos tópicos.