Tokenize training transcripts by grapheme (cluster) instead of codepoint · mozilla/DeepSpeech#811 | Good First Issue

(2 留言) (1 反應) (1 負責人)C++ (4,093 fork)batch import

enhancementhelp wanted

倉庫指標

Star: (26,755 star)
PR 合併指標: (30 天內沒有已合併 PR)

描述

此議題沒有描述。

貢獻者指南

研究方向: 熟悉DeepSpeech訓練管線中當前的標記化代碼（很可能是Python）。研究如何按程式碼點對轉錄文本進行標記。然後研究如何使用Unicode分段（例如Python中的grapheme庫或C++中的ICU）按字素簇進行標記化。確定程式碼庫中標記化發生的準確位置，並提出更改以按字素簇而不是程式碼點進行拆分。考慮組合字元和表情符號序列等邊緣情況。
技術棧: python
領域: machine learningaidata
議題類型: 功能
難度: 3
預計時間: 半天
活動狀態: 活躍
清晰度: 清晰
前置要求: PythonUnicode text processingDeepSpeech training pipeline
新手友善度: 55