Pular para o conteúdo principal

Databricks para desenvolvedores Scala

Este artigo fornece um guia para desenvolver o Notebook e o Job em Databricks usando a linguagem Scala. A primeira seção fornece links para tutoriais de fluxos de trabalho e tarefas comuns. A segunda seção fornece links para as ferramentas APIs, biblioteca e key.

Um fluxo de trabalho básico para começar é o seguinte:

Além disso, o senhor pode se aprofundar em tópicos mais específicos:

tutorial

O tutorial abaixo fornece código de exemplo e Notebook para que o senhor aprenda sobre fluxos de trabalho comuns. Consulte Importar um Notebook para obter instruções sobre como importar exemplos do Notebook para o site workspace.

Referência

As subseções abaixo listam key recurso e dicas para ajudar o senhor a começar a desenvolver em Databricks com Scala.

API Scala

Esses links fornecem uma introdução e uma referência para a API do Apache Spark Scala.

Gerenciar código com o Notebook e Databricks Git pastas

Databricks Suporte para Scala notebook. Esses notebooks oferecem funcionalidade semelhante à do Jupyter, mas com acréscimos, como visualizações integradas usando big data, integrações Apache Spark para monitoramento de depuração e desempenho e integrações MLflow para acompanhamento de experimentos de aprendizado de máquina. Comece importando um Notebook. Depois de ter acesso a um cluster, o senhor pode anexar um Notebook ao cluster e executar o Notebook.

dica

Para redefinir o estado de seu notebook, reinicie o kernel. Para os usuários do Jupyter, a opção "restart kernel" no Jupyter corresponde a desanexar e reanexar um Notebook em Databricks. Para reiniciar o kernel em um Notebook, clique no seletorcompute na barra de ferramentas do Notebook e passe o mouse sobre o clustering anexado ou SQL warehouse na lista para exibir um menu lateral. Selecione Desanexar & e reconectar . Isso desconecta o Notebook do clustering e o reconecta, o que reinicia o processo.

Databricks Git permitem que os usuários sincronizem o Notebook e outros arquivos com os Git repositórios do. Databricks Git ajudam no controle de versão do código e na colaboração, e podem simplificar a importação de um repositório completo de código para o site Databricks, a visualização de versões anteriores do Notebook e a integração com o desenvolvimento do IDE. Obtenha o começar clonando um repositório Git remoto. Em seguida, o senhor pode abrir ou criar o Notebook com o clone do repositório, anexar o Notebook a um cluster e executar o Notebook.

agrupamento e biblioteca

Databricks compute oferece o gerenciamento compute para clustering de qualquer tamanho: desde clustering de nó único até clustering de grande porte. O senhor pode personalizar o hardware de clustering e a biblioteca de acordo com suas necessidades. data scientists geralmente começam a trabalhar criando um clustering ou usando um clustering compartilhado existente. Quando o senhor tiver acesso a um cluster, poderá anexar um Notebook ao cluster ou executar um Job no cluster.

Databricks O clustering usa o site Databricks Runtime, que fornece muitas bibliotecas populares prontas para uso, incluindo Apache Spark, Delta Lake, entre outras. O senhor também pode instalar outras bibliotecas de terceiros ou personalizadas para usar com o Notebook e o Job.

Visualizações

Databricks Scala O Notebook tem suporte integrado para muitos tipos de visualizações. Você também pode usar visualizações antigas:

Interoperabilidade

Esta seção descreve os recursos que oferecem suporte à interoperabilidade entre Scala e SQL.

Empregos

O senhor pode automatizar as cargas de trabalho do Scala como um trabalho programado ou acionado em Databricks. Os trabalhos podem executar Notebook e JARs.

IDEs, ferramentas de desenvolvimento e SDKs

Além de desenvolver o código Scala no Databricks Notebook, o senhor pode desenvolver externamente usando ambientes de desenvolvimento integrados (IDEs), como o IntelliJ IDEA. Para sincronizar o trabalho entre ambientes de desenvolvimento externos e o Databricks, há várias opções:

  • Código : O senhor pode sincronizar o código usando o Git. Consulte Integração do Git para pastas Git do Databricks.
  • biblioteca e Job : O senhor pode criar uma biblioteca externamente e upload para Databricks. Essas bibliotecas podem ser importadas para o Databricks Notebook ou podem ser usadas para criar trabalhos. Veja biblioteca e orquestração usando Databricks Jobs.
  • Execução remota da máquina : O senhor pode executar o código do seu IDE local para desenvolvimento e testes interativos. O IDE pode se comunicar com o site Databricks para executar grandes cálculos no clustering Databricks. Por exemplo, o senhor pode usar o IntelliJ IDEA com o Databricks Connect.

A Databricks fornece um conjunto de SDKs que oferecem suporte à automação e à integração com ferramentas externas. O senhor pode usar os SDKs do Databricks para gerenciar recursos como clustering e biblioteca, código e outros objetos do workspace, cargas de trabalho e Job, entre outros. Consulte os SDKs da Databricks.

Para obter mais informações sobre IDEs, ferramentas de desenvolvedor e SDKs, consulte Ferramentas de desenvolvimento local.

Recurso adicional

  • O Databricks Academy oferece cursos individuais e ministrados por instrutores sobre vários tópicos.