Tokenize training transcripts by grapheme (cluster) instead of codepoint · mozilla/DeepSpeech#811

(2 comments) (1 reaction) (1 assignee)C++ (4,093 forks)batch import

enhancementhelp wanted

Repository metrics

この Issue には説明がありません。

調査方針: DeepSpeechトレーニングパイプラインの現在のトークン化コード（おそらくPython）を理解してください。トランスクリプトがコードポイントでどのようにトークン化されているかを学びます。次に、Unicodeセグメンテーション（例：PythonのgraphemeライブラリやC++のICU）を使用して書記素クラスターでトークン化する方法を調査します。コードベースでトークン化が発生する正確な場所を特定し、コードポイントではなく書記素クラスターで分割する変更を提案します。結合文字や絵文字シーケンスなどのエッジケースを考慮してください。
技術スタック: python
領域: machine learningaidata
Issue 種別: 機能
難度: 3
推定時間: 半日
活動状況: アクティブ
明確さ: 明確
前提条件: PythonUnicode text processingDeepSpeech training pipeline
初心者向け度: 55