Prepend language identifier to every training sequence. Do not add special tokens. (!26) · Merge requests · GitLab.org / ModelOps / AI Assisted (formerly Applied ML) / Code Suggestions / Model Development · GitLab

Hongtao Yang requested to merge hotfix_prefix_newtoken_random into main Apr 20, 2023

Fix 3 bugs:

Prepend language identifier to every training sequence.
Do not add any special tokens, just use plain english to as language identifier for now.
Fix random sampling

Edited Apr 20, 2023 by Hongtao Yang