Databricks para desenvolvedores Scala

Este artigo fornece um guia para desenvolver o Notebook e o Job em Databricks usando a linguagem Scala. A primeira seção fornece links para tutoriais de fluxos de trabalho e tarefas comuns. A segunda seção fornece links para as ferramentas APIs, biblioteca e key.

Um fluxo de trabalho básico para começar é o seguinte:

Importe código e execute-o usando um notebook interativo Databricks: Importe seu próprio código de arquivos ou repositórios Git ou experimente um tutorial listado abaixo.
executar seu código em um clustering: Crie um cluster próprio ou certifique-se de que o senhor tem permissões para usar um cluster compartilhado. Anexe seu Notebook ao clustering e execute o Notebook.

Além disso, o senhor pode se aprofundar em tópicos mais específicos:

Trabalhar com conjuntos de dados maiores usando o Apache Spark
Adicionar visualizações
Automatize sua carga de trabalho como um trabalho
Desenvolver em IDEs

tutorial

O tutorial abaixo fornece código de exemplo e Notebook para que o senhor aprenda sobre fluxos de trabalho comuns. Consulte Importar um Notebook para obter instruções sobre como importar exemplos do Notebook para o site workspace.

Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames
tutorial: Delta Lake fornece exemplos de Scala.
O uso do XGBoost no Databricks fornece um exemplo em Scala.

Referência

As subseções abaixo listam key recurso e dicas para ajudar o senhor a começar a desenvolver em Databricks com Scala.

API Scala

Esses links fornecem uma introdução e uma referência para a API do Apache Spark Scala.

Gerenciar código com o Notebook e Databricks Git pastas

Databricks Suporte para Scala notebook. Esses notebooks oferecem funcionalidade semelhante à do Jupyter, mas com acréscimos, como visualizações integradas usando big data, integrações Apache Spark para monitoramento de depuração e desempenho e integrações MLflow para acompanhamento de experimentos de aprendizado de máquina. Comece importando um Notebook. Depois de ter acesso a um cluster, o senhor pode anexar um Notebook ao cluster e executar o Notebook.

dica

Para redefinir o estado de seu notebook, reinicie o kernel. Para os usuários do Jupyter, a opção "restart kernel" no Jupyter corresponde a iniciar uma nova sessão no Databricks. Para reiniciar o kernel em um Notebook, clique no seletorcompute na barra de ferramentas do Notebook e passe o mouse sobre o clustering anexado ou SQL warehouse na lista para exibir um menu lateral. Selecione Nova sessão . Isso inicia uma nova sessão, que reinicia o processo.

Databricks Git permitem que os usuários sincronizem o Notebook e outros arquivos com os Git repositórios do. Databricks Git ajudam no controle de versão do código e na colaboração, e podem simplificar a importação de um repositório completo de código para o site Databricks, a visualização de versões anteriores do Notebook e a integração com o desenvolvimento do IDE. Obtenha o começar clonando um repositório Git remoto. Em seguida, o senhor pode abrir ou criar o Notebook com o clone do repositório, anexar o Notebook a um cluster e executar o Notebook.

agrupamento e biblioteca

Databricks compute oferece o gerenciamento compute para clustering de qualquer tamanho: desde clustering de nó único até clustering de grande porte. O senhor pode personalizar o hardware de clustering e a biblioteca de acordo com suas necessidades. data scientists geralmente começam a trabalhar criando um clustering ou usando um clustering compartilhado existente. Quando o senhor tiver acesso a um cluster, poderá anexar um Notebook ao cluster ou executar um Job no cluster.

Para cargas de trabalho pequenas que exigem apenas um único nó, o site data scientists pode usar o nó único compute para economizar.
Para obter dicas detalhadas, consulte recomendações de configuração de computação
Os administradores podem configurar a política de cluster para simplificar e orientar a criação de clusters.

Databricks O clustering usa o site Databricks Runtime, que fornece muitas bibliotecas populares prontas para uso, incluindo Apache Spark, Delta Lake, entre outras. O senhor também pode instalar outras bibliotecas de terceiros ou personalizadas para usar com o Notebook e o Job.

O senhor pode acessar a default biblioteca em Databricks Runtime notas sobre a versão, versões e compatibilidade. Para obter listas completas de bibliotecas pré-instaladas, consulte Databricks Runtime notas sobre versões e compatibilidade.
O senhor também pode instalar o Scala biblioteca em um clustering.
Para obter mais detalhes, consulte Instalar biblioteca.

Visualizações

Databricks Scala O Notebook tem suporte integrado para muitos tipos de visualizações. Você também pode usar visualizações antigas:

Interoperabilidade

Esta seção descreve os recursos que oferecem suporte à interoperabilidade entre Scala e SQL.

Empregos

O senhor pode automatizar as cargas de trabalho do Scala como um trabalho programado ou acionado em Databricks. Os trabalhos podem executar Notebook e JARs.

Para obter detalhes sobre a criação de um Job por meio da interface do usuário, consulte Configurar e editar LakeFlow Jobs.
Os SDKs doDatabricks permitem que o senhor crie, edite e exclua trabalhos de forma programática.
O Databricks CLI fornece uma interface de linha de comando conveniente para automatizar o trabalho.

IDEs, ferramentas de desenvolvimento e SDKs

Além de desenvolver o código Scala no Databricks Notebook, o senhor pode desenvolver externamente usando ambientes de desenvolvimento integrados (IDEs), como o IntelliJ IDEA. Para sincronizar o trabalho entre ambientes de desenvolvimento externos e o Databricks, há várias opções:

Código : É possível sincronizar o código utilizando Git. Consulte O que são pastas Git do Databricks.
biblioteca e Job : O senhor pode criar uma biblioteca externamente e upload para Databricks. Essas bibliotecas podem ser importadas para o Databricks Notebook ou podem ser usadas para criar trabalhos. Consulte Instalar biblioteca e LakeFlow Jobs.
Execução remota da máquina : O senhor pode executar o código do seu IDE local para desenvolvimento e testes interativos. O IDE pode se comunicar com o site Databricks para executar grandes cálculos no clustering Databricks. Por exemplo, o senhor pode usar o IntelliJ IDEA com o Databricks Connect.

A Databricks fornece um conjunto de SDKs que oferecem suporte à automação e à integração com ferramentas externas. O senhor pode usar os SDKs do Databricks para gerenciar recursos como clustering e biblioteca, código e outros objetos do workspace, cargas de trabalho e Job, entre outros. Consulte os SDKs da Databricks.

Para obter mais informações sobre IDEs, ferramentas de desenvolvedor e SDKs, consulte Ferramentas de desenvolvimento local.

Recurso adicional

O Databricks Academy oferece cursos individuais e ministrados por instrutores sobre vários tópicos.

tutorial​

Referência​

API Scala​

Gerenciar código com o Notebook e Databricks Git pastas​

agrupamento e biblioteca​

Visualizações​

Interoperabilidade​

Empregos​

IDEs, ferramentas de desenvolvimento e SDKs​

Recurso adicional​