Carregue dados para aprendizado de máquina e aprendizado profundo
Esta seção aborda informações sobre o carregamento de dados especificamente para aplicativos de ML e DL. Para obter informações gerais sobre o carregamento de dados, consulte Ingerir dados em um Databricks lakehouse.
Armazene arquivos para carregamento de dados e verificação de modelos
Os aplicativos de aprendizado de máquina podem precisar usar armazenamento compartilhado para carregamento de dados e ponto de verificação de modelo. Isso é particularmente importante para a aprendizagem profunda distribuída.
Databricks fornece Unity Cataloguma solução de governança unificada para dados e AI ativo. O senhor pode usar Unity Catalog para acessar dados em um clustering usando tanto Spark quanto o arquivo local APIs.
Carregar dados tabulares
O senhor pode carregar dados tabulares do site machine learning a partir de tabelas ou arquivos (por exemplo, consulte Ler arquivos CSV ). O senhor pode converter Apache Spark DataFrames em Pandas DataFrames usando o métodoPySpark toPandas()
e, opcionalmente, converter para o formato NumPy usando o métodoPySpark to_numpy()
.
Prepare dados para ajustar modelos de linguagem grandes
Você pode preparar seus dados para ajustar modelos de linguagem grande de código aberto com Hugging Face Transformers e Hugging Face Datasets.
Prepare os dados para o ajuste fino dos modelos Hugging Face
Preparar dados para treinamento de aprendizagem profunda distribuída
Esta seção aborda a preparação de dados para o treinamento profundo de aprendizagem distribuída usando a transmissão Mosaic e TFRecords.