lancer

(WIP) Codebase for "Language Concept Erasure for Language-invariant Dense Retrieval" EMNLP 2024

Training

The training of lancer framework needs msmarco passage ranking and mc4 multilingual datasets. The following command

python3 train_mdpr_lancer_cor.py \
        --seed 42 \
        --job_name mdpr_labse_lancer_cor \
        --base_model_name sentence-transformers/LaBSE \
        --output_dir /path/to/output/mdpr_labse_lancer_cor \
        --langs arabic bangla chinese english finnish french german hindi indonesian japanese korean persian russian spanish telugu thai
        --num_train 3000000 \
        --batch_size 8 \
        --train_n_passages 8 \
        --gradient_accumulation_steps 128 \
        --learning_rate 2e-5 \
        --logging_steps 6400 \
        --query_maxlen 40 \
        --doc_maxlen 180 \
        --num_train_epochs 4 \
        --use_pooler \
        --temperature 10.0 \
        --normalize \
        --fp16

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
figures		figures
models		models
notebooks		notebooks
util		util
README.md		README.md
arguments.py		arguments.py
index_document.py		index_document.py
index_passage.py		index_passage.py
search_document.py		search_document.py
search_passage.py		search_passage.py
train_mdpr_lancer_cor.py		train_mdpr_lancer_cor.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

lancer

Training

About

Releases

Packages

Languages

zhiqihuang/lancer

Folders and files

Latest commit

History

Repository files navigation

lancer

Training

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages