标贝 g2p 数据集标注规则

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

标贝 g2p 数据集标注规则
1.每个单词均需标注音标,即将其转化为音素序列。

2. 音标应使用国际音标,如有特殊情况需要使用其他音标,请注明。

3. 对于多音字,需注明其多个读音,并根据使用频率将其排序。

4. 对于生僻字,如无法确定其正确发音,可在音素序列中使用半角括号内的数字表示该字的声调,例如:(1)(2)。

5. 对于带有声调的拼音,需将声调数字标注在拼音后面,例如:ni3 hao3。

6. 对于多音字的拼音,应将每个读音及其所对应的音素序列都标注出来。

例如:“一”字的拼音可以有yi1、yi2、yi3、yi4四种,且每个读音对应的音素序列也不同,应分别标注。

7. 对于一些特殊的拼音,如“er”、“ang”等,应根据其实际发音将其分割成对应的音素序列进行标注。

8. 数据集标注时应尽量减少人为因素的干扰,确保标注结果的准确性和一致性。

- 1 -。

相关文档
最新文档