Databricks Runtime para aprendizado de máquina
Esta página descreve o Databricks Runtime para Machine Learning e fornece orientações sobre como criar um recurso compute clássico que o utilize.
O que é o Databricks Runtime for Machine Learning?
Databricks Runtime for Machine Learning (Databricks Runtime ML) automatiza a criação de um recurso compute com infraestrutura pré-construída machine learning e aprendizado profundo, incluindo as bibliotecas ML e DL mais comuns.
biblioteca incluída em Databricks Runtime ML
Databricks Runtime ML inclui uma variedade de ML biblioteca populares. A biblioteca é atualizada a cada versão para incluir novos recursos e correções.
Databricks designou um subconjunto das bibliotecas apoiadas como biblioteca de primeira linha. Para essas bibliotecas, o site Databricks oferece uma cadência de atualização mais rápida, atualizando para as versões mais recentes do pacote a cada versão de tempo de execução (salvo conflitos de dependência). Databricks também oferece suporte avançado, testes e otimizações incorporadas para bibliotecas de primeira linha. As bibliotecas de primeira linha são adicionadas ou removidas apenas com as principais versões.
- Para obter uma lista completa das bibliotecas de primeira linha e outras fornecidas, consulte as notas sobre a versão para Databricks Runtime ML.
- Para obter informações sobre a frequência com que as bibliotecas são atualizadas e quando são obsoletas, consulte Databricks Runtime ML maintenance policy.
Você pode instalar bibliotecas adicionais para criar um ambiente personalizado para seu notebook ou recurso compute .
- Para disponibilizar uma biblioteca para todos os Notebooks em execução em um recurso compute , crie uma biblioteca com escopo de compute. Você também pode usar um init script para instalar a biblioteca durante a criação compute .
- Para instalar uma biblioteca que esteja disponível somente para uma sessão específica do Notebook, use Notebook-scoped Pythonbiblioteca.
Crie um recurso compute com Databricks Runtime para ML
Para criar um recurso compute que utilize Databricks Runtime for ML, selecione a caixa de seleção " Aprendizado de máquina" na interface de criação compute . Isso define automaticamente o modo de acesso como Dedicado , com sua account como usuário dedicado. Você pode atribuir manualmente o recurso compute a um usuário ou grupo diferente na seção Avançado da interface de criação compute .
Para compute baseada em GPU, selecione um tipo de instância habilitado para GPU no menu suspenso de tipo de trabalhador . Para obter a lista completa dos tipos de GPU suportados, consulte Tipos de instância suportados.
Photon e Databricks Runtime ML
Ao criar um recurso compute que execute Databricks Runtime 15.2 ML ou superior, você pode optar por habilitar Photon. Photon melhora o desempenho de aplicações que usam Spark SQL, Spark DataFrames, recurso engenharia, GraphFrames e xgboost4j. Não se espera que melhore o desempenho em aplicações que utilizam Spark RDDs, Pandas UDFs e linguagens não-JVM como Python. Assim, pacotes Python como XGBoost, PyTorch e TensorFlow não apresentarão melhorias com Photon.
As APIs do Spark RDD e o Spark MLlib têm compatibilidade limitada com o Photon. Ao processar grandes conjuntos de dados usando Spark RDD ou Spark MLlib, o senhor pode ter problemas de memória em Spark. Consulte Problemas de memória do Spark.
Databricks Runtime ML em instâncias AWS Graviton
Databricks Runtime 15.4 LTS ML e acima suportam os tipos de instânciaGraviton. O uso dos tipos de instância Graviton pode melhorar o desempenho dos algoritmos Spark, Photon, recurso engenharia, biblioteca do aprendizado de máquina, como XGBoost e LightGBM, e Spark MLlib para gradient boosting. As instâncias Graviton também podem oferecer melhor relação preço-desempenho do que outros tipos de instância do AWS EC2.
Modo de acesso computacional para Databricks Runtime ML
Para acessar dados no Unity Catalog em um recurso compute que executa Databricks Runtime ML, você deve definir o modo de acesso como Dedicado. O modo de acesso é definido automaticamente na interface de criação compute quando você seleciona a caixa de seleção " Aprendizado de máquina" .
Quando um recurso compute possui o modo de acesso Dedicado , ele pode ser atribuído a um único usuário ou a um grupo. Ao ser atribuído a um grupo, as permissões do usuário são automaticamente ajustadas às permissões do grupo, permitindo que o usuário compartilhe o recurso com segurança com outros membros do grupo.
Ao usar o modo de acesso dedicado, os seguintes recursos estão disponíveis apenas em Databricks Runtime 15.4 LTS ML e acima: