Carregar dados para aprendizado de máquina e aprendizagem profunda

Esta seção aborda informações sobre o carregamento de dados especificamente para os aplicativos ML e DL. Para obter informações gerais sobre o carregamento de dados, consulte Conectores padrão em LakeFlow Connect.

Armazene arquivos para carregamento de dados e verificação de modelos

Talvez os aplicativos de aprendizado de máquina precisem usar armazenamento compartilhado para carregamento de dados e verificação de modelos. Isso é particularmente importante para a aprendizagem profunda distribuída.

Databricks fornece Unity Cataloguma solução de governança unificada para dados e AI ativo. O senhor pode usar Unity Catalog para acessar dados em um clustering usando tanto Spark quanto o arquivo local APIs.

Carregar dados tabulares

O senhor pode carregar dados tabulares de aprendizado de máquina de tabelas ou arquivos (por exemplo, consulte Ler arquivos CSV). O senhor pode converter Apache Spark DataFrames em Pandas DataFrames usando o métodoPySpark toPandas() e, opcionalmente, converter para o formato NumPy usando o métodoPySpark to_numpy().

Prepare dados para ajustar modelos de grandes linguagens

O senhor pode preparar seus dados para o ajuste fino de grandes modelos de idiomas com o código aberto Hugging Face Transformers e o conjunto de dadosHugging Face.

Preparar dados para o ajuste fino dos modelos Hugging Face

Preparar dados para treinamento de aprendizagem profunda distribuída

Esta seção aborda a preparação de dados para o treinamento profundo de aprendizagem distribuída usando a transmissão Mosaic e TFRecords.

Armazene arquivos para carregamento de dados e verificação de modelos​

Carregar dados tabulares​

Prepare dados para ajustar modelos de grandes linguagens​

Preparar dados para treinamento de aprendizagem profunda distribuída​

Armazene arquivos para carregamento de dados e verificação de modelos

Carregar dados tabulares

Prepare dados para ajustar modelos de grandes linguagens

Preparar dados para treinamento de aprendizagem profunda distribuída