TAG

Indic言語

  • 5月 31, 2026

Indic言語を効率的に処理するBrahmicTokenizer-131Kの登場:o200k_baseの置き換え可能トークナイザー

Indic言語を効率的に処理するBrahmicTokenizer-131Kの登場:o200k_baseの置き換え可能トークナイザー 📄 論文サマリー 著者:Rohan Shravan 発表:arXiv(自然言語処理)/2605.29379v1 公開日:2026年05月28日 ✨ 本論文の新規性 o200k_baseをベースとした131K語彙のトークナイザーを構築し、Indic言語の圧縮率を大幅に向 […]