Modelo de ensino e registro do machine learning with Unity Catalog

O Unity Catalog permite que você aplique segurança refinada a tabelas e modelos enquanto interage perfeitamente com outros componentes de aprendizado de máquina no Databricks. Este artigo mostra como usar o Python para ensinar o modelo do aprendizado de máquina usando dados no Unity Catalog e registrar o modelo no Unity Catalog.

Requisitos

  • Seu workspace deve estar ativado para o Unity Catalog.

  • Você deve ter a capacidade de criar clusters ou ter acesso a clusters em execução no modo de acesso de usuário único.

Criar clustersde Machine Learning do Databricks

Siga estas passos para criar clusters Databricks Runtime ML de usuário único que podem acessar dados no Unity Catalog.

  1. Clique em Ícone de computação Compute.

  2. Clique em Criar compute.

  3. Em Modo de acesso, selecione Usuário único.

    O Databricks Runtime ML inclui bibliotecas que exigem o uso de clusters de usuário único. Os clusters de um único usuário podem ser usados exclusivamente por um único usuário (por default, o único usuário é o proprietário dos clusters). Outros usuários não podem se conectar aos clusters.

    Para mais informação sobre os recursos disponíveis em cada modo de acesso, consulte Modos de acesso.

  4. No menu suspenso da versão Databricks Runtime , selecione ML e selecione 11.3 LTS ML ou superior.

  5. Clique em Criar clusters.

Criar o catálogo

Siga estas passos para criar um novo catálogo no qual sua equipe machine learning possa armazenar seus ativos de dados.

  1. Em um workspace com o metastore atribuído, logs in como administrador do metastore ou como um usuário com o privilégio CREATE CATALOG.

  2. Crie um Notebook ou abra o editor Databricks SQL .

  3. execução do seguinte comando para criar o catálogo ml :

    CREATE CATALOG ml;
    

    Quando você cria um catálogo, um esquema chamado default é criado automaticamente dentro dele.

  4. Conceda acesso ao catálogo ml e ao esquema ml.default e a capacidade de criar tabelas e view, ao grupo ml_team. Para incluir todos os usuários no nível account , você pode usar o grupo account users.

    GRANT USE CATALOG ON CATALOG ml TO `ml team`;
    GRANT USE SCHEMA, CREATE TABLE ON SCHEMA ml.default TO `ml_team`;
    

Agora, qualquer usuário no grupo ml_team pode executar o seguinte Notebook de exemplo.

Importe o Notebook de exemplo

Para começar, importe o seguinte Notebook.

Aprendizado de máquina com Notebook do Unity Catalog

Abra o bloco de anotações em outra guia

Para importar o Notebook:

  1. Ao lado do Notebook, clique em Copiar link para importação.

  2. Na sua área de trabalho, clique em ícone do workspace Espaço de trabalho.

  3. Ao lado de uma pasta, clique em Acento circunflexo e clique em Importar

  4. Clique em URL e cole o link que você copiou.

  5. O Notebook importado aparece na pasta que você selecionou. Clique duas vezes no nome Notebook para abri-lo.

  6. Na parte superior do Notebook, selecione seus clusters Databricks Machine Learning para anexar o Notebook a ele.

O Notebook é dividido em várias seções de alto nível:

  1. Configurar.

  2. Leia dados de arquivos CSV e grave-os no Unity Catalog.

  3. Carregue os dados nos dataframes do Pandas e limpe-os.

  4. Ensino um modelo básico de classificação.

  5. Ajuste os hiperparâmetros e otimize o modelo.

  6. registrar o modelo no Unity Catalog.

  7. Grave os resultados em uma nova tabela e compartilhe-a com outros usuários.

Para executar uma célula, clique em Ícone de execução execução. Para executar o Notebook inteiro, clique em execução All.