Processamento de linguagem natural
O senhor pode executar a tarefa de processamento de linguagem natural em Databricks usando uma biblioteca popular de código aberto, como Spark ML e spark-nlp ou uma biblioteca proprietária por meio da parceria Databricks com John Snow Labs.
Para obter exemplos de NLP com Hugging Face, consulte Recurso adicional
Criação de recurso a partir de texto usando Spark ML
Spark ML contém uma série de ferramentas de processamento de texto para criar recursos a partir de colunas de texto. O senhor pode criar recursos de entrada a partir de texto para algoritmos de treinamento de modelos diretamente em seu pipelineSpark ML usando Spark ML. Spark ML oferece suporte a uma série de processadores de texto, incluindo tokenização, processamento de stop-word, word2vec e recurso hashing.
treinamento e inferência usando Spark NLP
O senhor pode conhecer muitos métodos de aprendizagem profunda para processamento de linguagem natural em Spark usando o código aberto Spark NLP biblioteca. Essa biblioteca oferece suporte a operações padrão de processamento de linguagem natural , como tokenização, reconhecimento de entidades nomeadas e vetorização usando os anotadores incluídos. O senhor também pode resumir, realizar o reconhecimento de entidades nomeadas , traduzir e gerar texto usando muitos modelos de aprendizagem profunda pré-treinados com base nos transformadores do Spark NLP , como o BERT e o T5 Marion.
Realizar inferência em lotes usando Spark NLP em CPUs
O Spark NLP fornece muitos modelos pré-treinados que podem ser usados com o mínimo de código. Esta seção contém um exemplo de uso do Marian Transformer para tradução automática. Para obter o conjunto completo de exemplos, consulte a documentação do Spark NLP.
Requisitos
- Instale o Spark NLP no clustering usando as coordenadas mais recentes do Maven para o Spark NLP, como
com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0
. Seu clustering deve começar com as opções de configuração Spark apropriadas definidas para que essa biblioteca funcione. - Para usar o Spark NLP, seu clustering deve ter os downloads de arquivos
.jar
corretos do John Snow Labs. O senhor pode criar ou usar um clustering executando qualquer tempo de execução compatível.
Código de exemplo para tradução automática
Em uma célula do Notebook, instale sparknlp
Python biblioteca:
%pip install sparknlp
Construa um site pipeline para tradução e execute-o em um texto de amostra:
from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline
document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")
sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
.setInputCols("document").setOutputCol("sentence")
marian_transformer = MarianTransformer.pretrained() \
.setInputCols("sentence").setOutputCol("translation")
pipeline = Pipeline().setStages([document_assembler, sentence_detector, marian_transformer])
data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
"This example pipeline translates English to French"]]).toDF("text")
# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)
# You can use the model on any data frame that has a “text” column
result = model.transform(data)
display(result.select("text", "translation.result"))
Exemplo: Modelo de reconhecimento de identidade nomeada usando Spark NLP e MLflow
O exemplo do Notebook ilustra como treinar um modelo de reconhecimento de entidade nomeada usando Spark NLP, salvar o modelo em MLflow e usar o modelo para inferência no texto. Consulte a documentação da John Snow Labs para Spark NLP para saber como treinar modelos adicionais de processamento de linguagem natural.
Notebook de treinamento e inferência de modelos Spark NLP
PNL na área de saúde com a parceria da John Snow Labs
O Spark NLP for Healthcare da John Snow Labs é uma biblioteca proprietária para mineração de textos clínicos e biomédicos . Essa biblioteca fornece modelos pré-treinados para reconhecer e trabalhar com entidades clínicas, medicamentos, fatores de risco, anatomia, dados demográficos e dados confidenciais. O senhor pode experimentar o Spark NLP for Healthcare usando a integração do Partner Connect com a John Snow Labs. O senhor precisa de uma versão de avaliação ou paga account com John Snow Labs para experimentar o comando demonstrado neste guia.
Leia mais sobre os recursos completos do Spark NLP da John Snow Labs para o setor de saúde e a documentação para uso no site da empresa.