Databricks para desenvolvedores Scala
Este artigo fornece um guia para desenvolver o Notebook e o Job em Databricks usando a linguagem Scala. A primeira seção fornece links para tutoriais de fluxos de trabalho e tarefas comuns. A segunda seção fornece links para as ferramentas APIs, biblioteca e key.
Um fluxo de trabalho básico para começar é o seguinte:
- Importe código e execute-o usando um notebook interativo Databricks: Importe seu próprio código de arquivos ou repositórios Git ou experimente um tutorial listado abaixo.
- executar seu código em um clustering: Crie um cluster próprio ou certifique-se de que o senhor tem permissões para usar um cluster compartilhado. Anexe seu Notebook ao clustering e execute o Notebook.
Além disso, o senhor pode se aprofundar em tópicos mais específicos:
- Trabalhar com conjuntos de dados maiores usando o Apache Spark
- Adicionar visualizações
- Automatize sua carga de trabalho como um trabalho
- Desenvolver em IDEs
tutorial
O tutorial abaixo fornece código de exemplo e Notebook para que o senhor aprenda sobre fluxos de trabalho comuns. Consulte Importar um Notebook para obter instruções sobre como importar exemplos do Notebook para o site workspace.
- Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames
- tutorial: Delta Lake fornece exemplos de Scala.
- O uso do XGBoost no Databricks fornece um exemplo em Scala.
Referência
As subseções abaixo listam key recurso e dicas para ajudar o senhor a começar a desenvolver em Databricks com Scala.
API Scala
Esses links fornecem uma introdução e uma referência para a API do Apache Spark Scala.
- Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames
- Consultar strings JSON
- Introdução ao streaming estruturado
- Referência da API do Apache Spark Core
- Referência da API do Apache Spark ML
Gerenciar código com o Notebook e Databricks Git pastas
Databricks Suporte para Scala notebook. Esses notebooks oferecem funcionalidade semelhante à do Jupyter, mas com acréscimos, como visualizações integradas usando big data, integrações Apache Spark para monitoramento de depuração e desempenho e integrações MLflow para acompanhamento de experimentos de aprendizado de máquina. Comece importando um Notebook. Depois de ter acesso a um cluster, o senhor pode anexar um Notebook ao cluster e executar o Notebook.
Para redefinir o estado de seu notebook, reinicie o kernel. Para os usuários do Jupyter, a opção "restart kernel" no Jupyter corresponde a desanexar e reanexar um Notebook em Databricks. Para reiniciar o kernel em um Notebook, clique no seletorcompute na barra de ferramentas do Notebook e passe o mouse sobre o clustering anexado ou SQL warehouse na lista para exibir um menu lateral. Selecione Desanexar & e reconectar . Isso desconecta o Notebook do clustering e o reconecta, o que reinicia o processo.
Databricks Git permitem que os usuários sincronizem o Notebook e outros arquivos com os Git repositórios do. Databricks Git ajudam no controle de versão do código e na colaboração, e podem simplificar a importação de um repositório completo de código para o site Databricks, a visualização de versões anteriores do Notebook e a integração com o desenvolvimento do IDE. Obtenha o começar clonando um repositório Git remoto. Em seguida, o senhor pode abrir ou criar o Notebook com o clone do repositório, anexar o Notebook a um cluster e executar o Notebook.
agrupamento e biblioteca
Databricks compute oferece o gerenciamento compute para clustering de qualquer tamanho: desde clustering de nó único até clustering de grande porte. O senhor pode personalizar o hardware de clustering e a biblioteca de acordo com suas necessidades. data scientists geralmente começam a trabalhar criando um clustering ou usando um clustering compartilhado existente. Quando o senhor tiver acesso a um cluster, poderá anexar um Notebook ao cluster ou executar um Job no cluster.
- Para cargas de trabalho pequenas que exigem apenas um único nó, o site data scientists pode usar o nó único compute para economizar.
- Para obter dicas detalhadas, consulte recomendações de configuração de computação
- Os administradores podem configurar a política de cluster para simplificar e orientar a criação de clusters.
Databricks O clustering usa o site Databricks Runtime, que fornece muitas bibliotecas populares prontas para uso, incluindo Apache Spark, Delta Lake, entre outras. O senhor também pode instalar outras bibliotecas de terceiros ou personalizadas para usar com o Notebook e o Job.
- O senhor pode acessar a default biblioteca em Databricks Runtime notas sobre a versão, versões e compatibilidade. Para obter listas completas de bibliotecas pré-instaladas, consulte Databricks Runtime notas sobre versões e compatibilidade.
- O senhor também pode instalar o Scala biblioteca em um clustering.
- Para obter mais detalhes, consulte biblioteca.
Visualizações
Databricks Scala O Notebook tem suporte integrado para muitos tipos de visualizações. Você também pode usar visualizações antigas:
Interoperabilidade
Esta seção descreve os recursos que oferecem suporte à interoperabilidade entre Scala e SQL.
Empregos
O senhor pode automatizar as cargas de trabalho do Scala como um trabalho programado ou acionado em Databricks. Os trabalhos podem executar Notebook e JARs.
- Para obter detalhes sobre a criação de um Job por meio da interface do usuário, consulte Configurar e editar Databricks Jobs.
- Os SDKs doDatabricks permitem que o senhor crie, edite e exclua trabalhos de forma programática.
- O Databricks CLI fornece uma interface de linha de comando conveniente para automatizar o trabalho.
IDEs, ferramentas de desenvolvimento e SDKs
Além de desenvolver o código Scala no Databricks Notebook, o senhor pode desenvolver externamente usando ambientes de desenvolvimento integrados (IDEs), como o IntelliJ IDEA. Para sincronizar o trabalho entre ambientes de desenvolvimento externos e o Databricks, há várias opções:
- Código : O senhor pode sincronizar o código usando o Git. Consulte Integração do Git para pastas Git do Databricks.
- biblioteca e Job : O senhor pode criar uma biblioteca externamente e upload para Databricks. Essas bibliotecas podem ser importadas para o Databricks Notebook ou podem ser usadas para criar trabalhos. Veja biblioteca e orquestração usando Databricks Jobs.
- Execução remota da máquina : O senhor pode executar o código do seu IDE local para desenvolvimento e testes interativos. O IDE pode se comunicar com o site Databricks para executar grandes cálculos no clustering Databricks. Por exemplo, o senhor pode usar o IntelliJ IDEA com o Databricks Connect.
A Databricks fornece um conjunto de SDKs que oferecem suporte à automação e à integração com ferramentas externas. O senhor pode usar os SDKs do Databricks para gerenciar recursos como clustering e biblioteca, código e outros objetos do workspace, cargas de trabalho e Job, entre outros. Consulte os SDKs da Databricks.
Para obter mais informações sobre IDEs, ferramentas de desenvolvedor e SDKs, consulte Ferramentas de desenvolvimento local.
Recurso adicional
- O Databricks Academy oferece cursos individuais e ministrados por instrutores sobre vários tópicos.