Databricks Runtime 6.0 com (EoS) Conda
O suporte para essa versão do Databricks Runtime foi encerrado. Para saber a data do fim do suporte, consulte Histórico do fim do suporte. Para conhecer todas as versões compatíveis do site Databricks Runtime, consulte Databricks Runtime notas sobre as versões e a compatibilidade.
Essa versão não está mais disponível. Se o senhor quiser usar o Conda para gerenciar Python biblioteca e ambientes, use uma versão compatível do Databricks Runtime for Machine Learning.
Databricks Runtime 6.0 com Conda (Beta) permite que o senhor tire proveito do Conda para gerenciar Python biblioteca e ambientes. Esse tempo de execução oferece duas opções de ambiente Conda raiz na criação do cluster:
- Databricks O ambiente padrão inclui versões atualizadas de muitos pacotes populares do Python. Esse ambiente foi concebido para substituir o Notebook existente que é executado em Databricks Runtime. Este é o ambiente de tempo de execução baseado no Conda default Databricks .
- Databricks O ambiente mínimo contém um número mínimo de pacotes que são necessários para a funcionalidade do notebook PySpark e Databricks Python . Esse ambiente é ideal se o senhor quiser personalizar o tempo de execução com vários pacotes Python.
Ambos incluem suporte para Databricks biblioteca utilidades (dbutils.biblioteca) (legado).
Os sites Scala, Java e a biblioteca R em Databricks Runtime 6.0 com Conda são idênticos aos de Databricks Runtime 6.0. Para obter detalhes, consulte as notas sobre a versão Databricks Runtime 6.0 (EoS). Para obter informações sobre como usar Databricks Runtime com Conda, consulte Conda.
Novo recurso
Consulte Databricks Runtime 6.0 Novo recurso.
Melhorias
Consulte Aprimoramentos do Databricks Runtime 6.0.
Correção de bug
Foi corrigido o problema 9104 do Conda (a lista do Conda falha se o arquivo "RECORD" tiver entradas duplicadas).
Problemas conhecidos
-
Por default, cada Python execução do Notebook em seu próprio ambiente Conda isolado. Esse ambiente isolado é clonado a partir do ambiente raiz do Conda. Como esse clone é uma operação cara, para determinados casos, o senhor pode ter os seguintes problemas:
-
Se o tipo de instância de clustering não tiver armazenamento local, a criação do clustering poderá falhar com um erro do tipo:
ConsoleCould not start Spark. This can happen when installing incompatible libraries or when initialization scripts failed.
databricks_error_message: Spark failed to start: Timed out after ... seconds -
A anexação simultânea de muitos Python Notebooks a um único cluster (por exemplo, acionada por um trabalho agendado ou fluxo de trabalho de Notebooks) pode fazer com que alguns desses Notebooks não sejam anexados.
Se o senhor tiver algum dos problemas acima e não precisar executar o Python Notebook em ambientes isolados (ou seja, o clustering não é compartilhado), poderá desativar a criação de um ambiente isolado Python para cada Python Notebook definindo
spark.databricks.libraryIsolation.enabled
comofalse
na configuraçãoSpark. Definir esse sinalizador também desativadbutils.library
. -
-
Se o senhor atualizar o Conda instalado, a nova versão do Conda pode não incluir a correção para o problema 9104 do Conda (Conda List falha se o arquivo "RECORD" tiver entradas duplicadas). Se o senhor atualizar Conda e observar falhas ao conectar Python Notebook ou usar
conda list
com o erroTypeError: '<' not supported between instances of 'NoneType' and 'str'
no driver logs ou em um Notebook, use uma versão de Conda que tenha a correção ou evite atualizar Conda instalado nesta versão.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 6.0 com Conda difere do Databricks Runtime 6.0 da seguinte forma:
Há algumas diferenças na Python biblioteca instalada.
biblioteca
A seguir, o arquivo environment.yml
exportado para os ambientes raiz default em Databricks Runtime 6.0 com Conda.
Padrão Databricks
name: databricks-standard
channels:
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- asn1crypto=0.24.0=py37_0
- backcall=0.1.0=py37_0
- blas=1.0=openblas
- boto=2.49.0=py37_0
- boto3=1.9.162=py_0
- botocore=1.12.163=py_0
- ca-certificates=2019.1.23=0
- certifi=2019.3.9=py37_0
- cffi=1.12.2=py37h2e261b9_1
- chardet=3.0.4=py37_1003
- cryptography=2.6.1=py37h1ba5d50_0
- cython=0.29.6=py37he6710b0_0
- decorator=4.4.0=py37_1
- docutils=0.14=py37_0
- idna=2.8=py37_0
- ipython=7.4.0=py37h39e3cac_0
- ipython_genutils=0.2.0=py37_0
- jedi=0.13.3=py37_0
- jmespath=0.9.4=py_0
- krb5=1.16.1=h173b8e3_7
- libedit=3.1.20181209=hc058e9b_0
- libffi=3.2.1=hd88cf55_4
- libgcc-ng=8.2.0=hdf63c60_1
- libgfortran-ng=7.3.0=hdf63c60_0
- libopenblas=0.3.6=h5a2b251_1
- libpq=11.2=h20c2e04_0
- libstdcxx-ng=8.2.0=hdf63c60_1
- ncurses=6.1=he6710b0_1
- nomkl=3.0=0
- numpy=1.16.2=py37h99e49ec_0
- numpy-base=1.16.2=py37h2f8d375_0
- openssl=1.1.1b=h7b6447c_1
- pandas=0.24.2=py37he6710b0_0
- parso=0.3.4=py37_0
- patsy=0.5.1=py37_0
- pexpect=4.6.0=py37_0
- pickleshare=0.7.5=py37_0
- pip=19.0.3=py37_0
- prompt_toolkit=2.0.9=py37_0
- psycopg2=2.7.6.1=py37h1ba5d50_0
- ptyprocess=0.6.0=py37_0
- pycparser=2.19=py37_0
- pygments=2.3.1=py37_0
- pyopenssl=19.0.0=py37_0
- pysocks=1.6.8=py37_0
- python=3.7.3=h0371630_0
- python-dateutil=2.8.0=py37_0
- pytz=2018.9=py37_0
- readline=7.0=h7b6447c_5
- requests=2.21.0=py37_0
- s3transfer=0.2.1=py37_0
- scikit-learn=0.20.3=py37h22eb022_0
- scipy=1.2.1=py37he2b7bc3_0
- setuptools=40.8.0=py37_0
- six=1.12.0=py37_0
- sqlite=3.27.2=h7b6447c_0
- statsmodels=0.9.0=py37h035aef0_0
- tk=8.6.8=hbc83047_0
- traitlets=4.3.2=py37_0
- urllib3=1.24.1=py37_0
- wcwidth=0.1.7=py37_0
- wheel=0.33.1=py37_0
- xz=5.2.4=h14c3975_4
- zlib=1.2.11=h7b6447c_3
- pip:
- cycler==0.10.0
- kiwisolver==1.1.0
- matplotlib==3.0.3
- pyarrow==0.13.0
- pyparsing==2.4.2
- seaborn==0.9.0
prefix: /databricks/conda/envs/databricks-standard
Databricks Minimal
name: databricks-minimal
channels:
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- backcall=0.1.0=py37_0
- blas=1.0=openblas
- ca-certificates=2019.1.23=0
- certifi=2019.3.9=py37_0
- decorator=4.4.0=py37_1
- ipython=7.4.0=py37h39e3cac_0
- ipython_genutils=0.2.0=py37_0
- jedi=0.13.3=py37_0
- libedit=3.1.20181209=hc058e9b_0
- libffi=3.2.1=hd88cf55_4
- libgcc-ng=8.2.0=hdf63c60_1
- libgfortran-ng=7.3.0=hdf63c60_0
- libopenblas=0.3.6=h5a2b251_1
- libstdcxx-ng=8.2.0=hdf63c60_1
- ncurses=6.1=he6710b0_1
- nomkl=3.0=0
- numpy=1.16.2=py37h99e49ec_0
- numpy-base=1.16.2=py37h2f8d375_0
- openssl=1.1.1b=h7b6447c_1
- pandas=0.24.2=py37he6710b0_0
- parso=0.3.4=py37_0
- pexpect=4.6.0=py37_0
- pickleshare=0.7.5=py37_0
- pip=19.0.3=py37_0
- prompt_toolkit=2.0.9=py37_0
- ptyprocess=0.6.0=py37_0
- pygments=2.3.1=py37_0
- python=3.7.3=h0371630_0
- python-dateutil=2.8.0=py37_0
- pytz=2018.9=py37_0
- readline=7.0=h7b6447c_5
- setuptools=40.8.0=py37_0
- six=1.12.0=py37_0
- sqlite=3.27.2=h7b6447c_0
- tk=8.6.8=hbc83047_0
- traitlets=4.3.2=py37_0
- wcwidth=0.1.7=py37_0
- wheel=0.33.1=py37_0
- xz=5.2.4=h14c3975_4
- zlib=1.2.11=h7b6447c_3
- pip:
- pyarrow==0.13.0
prefix: /databricks/conda/envs/databricks-minimal