Processamento de linguagem natural

O senhor pode executar a tarefa de processamento de linguagem natural em Databricks usando uma biblioteca popular de código aberto, como Spark ML e spark-nlp ou uma biblioteca proprietária por meio da parceria Databricks com John Snow Labs.

Para obter exemplos de NLP com Hugging Face, consulte Recurso adicional

Criação de recurso a partir de texto usando Spark ML

Spark ML contém uma série de ferramentas de processamento de texto para criar recursos a partir de colunas de texto. O senhor pode criar recursos de entrada a partir de texto para algoritmos de treinamento de modelos diretamente em seu pipelineSpark ML usando Spark ML. Spark ML oferece suporte a uma série de processadores de texto, incluindo tokenização, processamento de stop-word, word2vec e recurso hashing.

treinamento e inferência usando Spark NLP

O senhor pode conhecer muitos métodos de aprendizagem profunda para processamento de linguagem natural em Spark usando o código aberto Spark NLP biblioteca. Essa biblioteca oferece suporte a operações padrão de processamento de linguagem natural , como tokenização, reconhecimento de entidades nomeadas e vetorização usando os anotadores incluídos. O senhor também pode resumir, realizar o reconhecimento de entidades nomeadas , traduzir e gerar texto usando muitos modelos de aprendizagem profunda pré-treinados com base nos transformadores do Spark NLP , como o BERT e o T5 Marion.

Realizar inferência em lotes usando Spark NLP em CPUs

O Spark NLP fornece muitos modelos pré-treinados que podem ser usados com o mínimo de código. Esta seção contém um exemplo de uso do Marian Transformer para tradução automática. Para obter o conjunto completo de exemplos, consulte a documentação do Spark NLP.

Requisitos

Instale o Spark NLP no clustering usando as coordenadas mais recentes do Maven para o Spark NLP, como com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0. Seu clustering deve começar com as opções de configuração Spark apropriadas definidas para que essa biblioteca funcione.
Para usar o Spark NLP, seu clustering deve ter os downloads de arquivos .jar corretos do John Snow Labs. O senhor pode criar ou usar um clustering executando qualquer tempo de execução compatível.

Código de exemplo para tradução automática

Em uma célula do Notebook, instale sparknlp Python biblioteca:

%pip install sparknlp

Construa um site pipeline para tradução e execute-o em um texto de amostra:

Python
from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Exemplo: Modelo de reconhecimento de identidade nomeada usando Spark NLP e MLflow

O exemplo do Notebook ilustra como treinar um modelo de reconhecimento de entidade nomeada usando Spark NLP, salvar o modelo em MLflow e usar o modelo para inferência no texto. Consulte a documentação da John Snow Labs para Spark NLP para saber como treinar modelos adicionais de processamento de linguagem natural.

Notebook de treinamento e inferência de modelos Spark NLP

Abrir notebook em uma nova aba Open in Databricks

PNL na área de saúde com a parceria da John Snow Labs

O Spark NLP for Healthcare da John Snow Labs é uma biblioteca proprietária para mineração de textos clínicos e biomédicos . Essa biblioteca fornece modelos pré-treinados para reconhecer e trabalhar com entidades clínicas, medicamentos, fatores de risco, anatomia, dados demográficos e dados confidenciais. O senhor pode experimentar o Spark NLP for Healthcare usando a integração do Partner Connect com a John Snow Labs. O senhor precisa de uma versão de avaliação ou paga account com John Snow Labs para experimentar o comando demonstrado neste guia.

Leia mais sobre os recursos completos do Spark NLP da John Snow Labs para o setor de saúde e a documentação para uso no site da empresa.

Criação de recurso a partir de texto usando Spark ML​

treinamento e inferência usando Spark NLP​

Realizar inferência em lotes usando Spark NLP em CPUs​

Requisitos​

Código de exemplo para tradução automática​

Exemplo: Modelo de reconhecimento de identidade nomeada usando Spark NLP e MLflow​