Name		Name	Last commit message	Last commit date
parent directory ..
README.md		README.md
aegis-classification.ipynb		aegis-classification.ipynb
content-type-classification.ipynb		content-type-classification.ipynb
domain-classification.ipynb		domain-classification.ipynb
fineweb-edu-classification.ipynb		fineweb-edu-classification.ipynb
instruction-data-guard-classification.ipynb		instruction-data-guard-classification.ipynb
multilingual-domain-classification.ipynb		multilingual-domain-classification.ipynb
prompt-task-complexity-classification.ipynb		prompt-task-complexity-classification.ipynb
pytorch-ensemble-classification.ipynb		pytorch-ensemble-classification.ipynb
quality-classification.ipynb		quality-classification.ipynb

README.md

Distributed Data Classification

The following is a set of Jupyter notebook tutorials which demonstrate how to use various text classification models supported by NeMo Curator. The goal of using these classifiers is to help with data annotation, which is useful in data blending for foundation model training.

Each of these classifiers are available on Hugging Face and can be run independently with the Transformers library. By running them with NeMo Curator, the classifiers are accelerated using CrossFit, a library that leverages intellegent batching and RAPIDS to accelerate the offline inference on large datasets. Each of the Jupyter notebooks in this directory demonstrate how to run the classifiers on text data and are easily scalable to large amounts of data.

Before running any of these notebooks, please see this Getting Started page for instructions on how to install NeMo Curator.

List of Classifiers

NeMo Curator Classifier	Hugging Face page
`AegisClassifier`	nvidia/Aegis-AI-Content-Safety-LlamaGuard-Defensive-1.0 and nvidia/Aegis-AI-Content-Safety-LlamaGuard-Permissive-1.0
`ContentTypeClassifier`	nvidia/content-type-classifier-deberta
`DomainClassifier`	nvidia/domain-classifier
`FineWebEduClassifier`	HuggingFaceFW/fineweb-edu-classifier
`InstructionDataGuardClassifier`	nvidia/instruction-data-guard
`MultilingualDomainClassifier`	nvidia/multilingual-domain-classifier
`PromptTaskComplexityClassifier`	nvidia/prompt-task-and-complexity-classifier
`PyTorchClassifier`	Requires local .pth file(s) for any DeBERTa-based text classifier(s)
`QualityClassifier`	quality-classifier-deberta

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

distributed_data_classification

distributed_data_classification

README.md

Distributed Data Classification

List of Classifiers

Files

distributed_data_classification

Directory actions

More options

Directory actions

More options

Latest commit

History

distributed_data_classification

Folders and files

parent directory

README.md

Distributed Data Classification

List of Classifiers