Migrar espaço de trabalho Community Edition para a Free Edition
Visualização
Este recurso está em Pré-visualização Pública.
Com o lançamento da Databricks Free Edition, a Community Edition (CE) será descontinuada em breve. Os proprietários workspace Community Edition devem usar a ferramenta de migração workspace para migrar para a Free Edition o mais rápido possível.
Migre seu workspace
Ao usar a ferramenta de migração, Databricks cria um novo workspace da Edição Gratuita vinculado ao seu login existente. Em seguida, seu Notebook e seus dados serão migrados para seu novo workspace da Edição Gratuita.
Você só pode executar a migração uma vez, portanto, certifique-se de limpar os Notebooks e tabelas não utilizados antes de começar. Para obter uma lista das limitações na migração de dados, consulte Limitações.
Passo 1: Analise seu workspaceatual
Antes de usar a ferramenta de migração, revise seu workspace atual e identifique os notebooks e dados key que deseja migrar. Mova quaisquer tabelas e Notebooks que você queira migrar para fora dos diretórios tmp e Filestore .
o passo 2: iniciar o processo de migração
Você precisa ser o proprietário workspace para usar a ferramenta de migração.
Em seu workspace CE:
- Clique em "Migrar para a Edição Gratuita" no banner na parte superior do seu workspace Community Edition .
- Uma caixa de diálogo explica o processo de migração.
- Clique em Migrar . Seu workspace CE é bloqueado e você é desconectado. Evite fazer login novamente até que a migração seja concluída.
- Quando a migração terminar (normalmente em menos de 2 horas), você receberá um email com um link de login.
o passo 3: Teste seu workspaceda Edição Gratuita
Ao log in, você verá agora o seu espaço de trabalho tanto Community Edition quanto da Edição Gratuita. Abra ambos os espaços de trabalho para confirmar que tudo foi migrado para o workspace da Edição Gratuita.
- Abra o espaço de trabalho > Usuários > [seu-email] e confirme se todos os seus Notebooks estão presentes.
- Abra o Catálogo > padrão e confirme se todas as suas tabelas estão presentes.
- key de execução Notebook, célula por célula. Se você encontrar erros, consulte Problemas comuns.
Você poderá notar que algumas tabelas foram divididas em partes menores. Isso é esperado. Veja "Minha tabela foi dividida em partes menores" para saber comomerge las.
Passo 4: baixe qualquer ativo ausente do seu workspaceCE.
Caso algum ativo não tenha sido transferido, você pode download lo manualmente do seu workspace Community Edition eupload lo novamente para o seu workspace da Free Edition.
Após 7 dias, seu workspace Community Edition será excluído permanentemente. Verifique se todo o conteúdo foi transferido para seu novo workspace antes dessa data.
Limitações
A migração pode não transferir todos os recursos. Analise as seguintes limitações antes de iniciar a migração:
- A versão gratuita tem um limite rígido de 500 mesas. Se você tiver mais de 500 tabelas em seu workspace Community Edition , nem todas as tabelas serão migradas.
- Para tabelas ou partes de tabelas que foram arquivadas, a migração tenta migrá-las, mas elas podem aparecer como erros no histórico de consultas. O arquivamento automático ocorre para dados que não foram acessados por mais de 3 meses.
- A migração de arquivos CSV é feita da melhor maneira possível. Pode haver casos em que o delimitador seja usado incorretamente e as colunas sejam agrupadas ou a tabela não seja criada.
- Somente arquivos e tipos de dados compatíveis serão migrados. Se precisar de algum desses ativos, download manual deles do seu workspace antes de iniciar a migração. Os seguintes tipos de arquivo e dados não foram migrados:
.ziparquivos,.mp4vídeos, logsdo sistema- Arquivos XML
- Arquivos ocultos ou formatos não suportados
- Experiments MLflow
- Qualquer coisa abaixo de
tmpouFilestore - Arquivos armazenados fora
dbfs:/
Solução de problemas comuns
Não consigo escolher o tamanho do cluster nem o tipo de instância.
A versão gratuita utiliza computeserverless, portanto, você não pode personalizar o tamanho cluster ou o tipo de instância. compute sem servidor é dimensionado automaticamente com base nos requisitos da sua carga de trabalho.
soluções
Execute uma célula para iniciar automaticamente compute serverless ou selecione um recurso compute no menu suspenso. Se você observar atrasos ou erros, mantenha as cargas de trabalho leves e tente novamente após alguns minutos.
Um dos meus arquivos não foi transferido.
Isso acontece se o arquivo estiver em um formato não padrão (por exemplo, .mp4, .zip), oculto ou não suportado.
soluções
Faça o download do arquivo do seu workspace Community Edition em até 7 dias e upload o manualmente para o seu workspace da Free Edition.
Minha mesa foi dividida em pedaços menores.
Algumas tabelas CE eram baseadas em arquivos grandes que estavam armazenados em partes. Durante a migração, o Databricks copia cada parte como uma tabela separada.
soluções
Recombine usando UNION ALL:
CREATE OR REPLACE TABLE my_full_table AS
SELECT * FROM my_table_part1
UNION ALL
SELECT * FROM my_table_part2
UNION ALL
SELECT * FROM my_table_part3;
Minha tabela foi transferida, mas meu Notebook não consegue encontrá-la.
Seu notebook provavelmente está fazendo referência a uma tabela pelo nome, mas o nome da tabela mudou durante a migração.
Na Edição Gratuita, todas as tabelas são criadas em workspace.default.<table_name>. O nome da tabela é um dos seguintes:
- O diretório que contém o arquivo. Portanto,
/my_table/my_table_data_file.parqueté chamado demy_table. - Se estiver na DBFS root, o nome do arquivo será usado. Portanto,
/my_table_data_file.parqueté chamado demy_table_data_file.
soluções
-
Localize a tabela subjacente no Catálogo.
-
Copie o nome do arquivo da tabela.
-
Voltar ao Bloco de Anotações.
-
Instrua o Databricks Assistant a substituir todas as instâncias da localização antiga da tabela pela nova localização da tabela:
TextReplace all references to 'old_table_name' with 'workspace.default.new_table_name' in this notebook
Meu código no Notebook não funciona.
Isso geralmente se enquadra em duas categorias:
Caso 1: Você está usando RDDs
Os RDDs são uma abstração legada do Spark e não são suportados na Edição Gratuita. Substitua-os por DataFrames.
soluções
Peça ajuda ao Databricks Assistant para converter seu código RDD :
Convert all RDD operations in this notebook to DataFrame operations
Caso 2: Você está usando Scala ou R
compute sem servidor suporta apenas Python e SQL . Se o seu Notebook usa Scala ou R, você precisa traduzi-lo para Python.
soluções
Peça ao Databricks Assistant para traduzir seu código:
Convert this Scala/R code to Python using PySpark DataFrames
dbutils.fs.mount falha de comando
O novo espaço de trabalho Databricks não suporta montagens DBFS legadas.
soluções
Em vez disso, use locais e volumes externos Unity Catalog . Para armazenar conjuntos de dados ou arquivos compartilhados, crie um volume:
CREATE VOLUME IF NOT EXISTS workspace.default.my_volume;
Em seguida, acesse os arquivos usando:
# Write data
df.write.mode("overwrite").option("path", "/Volumes/workspace/default/my_volume/my_data").saveAsTable("my_table")
# Read data
df = spark.read.table("my_table")
Não consigo ler nem escrever arquivos em /dbfs/
A versão gratuita restringe o acesso direto à DBFS root por motivos de segurança.
soluções
Utilize um volume Unity Catalog para armazenar conjuntos de dados ou arquivos compartilhados:
# Create a volume (run once)
spark.sql("CREATE VOLUME IF NOT EXISTS workspace.default.my_data_volume")
# Write files
dbutils.fs.cp("file:/local/path/data.csv", "/Volumes/workspace/default/my_data_volume/")
# Read files
df = spark.read.csv("/Volumes/workspace/default/my_data_volume/data.csv", header=True, inferSchema=True)