-
Notifications
You must be signed in to change notification settings - Fork 0
Description
目标:通过口音表 accents.yml 能够获取各地口音的单字调、前变调、后变调、轻声调调值和规则,并用于标注段落中每个汉字的实际调值(五度标记法 or 比较宽式的描述如“中平调”“低平调”“低降调”“高降调”等)。
几个重要步骤:
- 根据分词结果,即各字词的词性,正确划定连调组(连调单位),以及组内各字的声调地位(单字调、前变调、后变调)
- 多种可能的组合出现时,返回列表,提示用户可进行选择
- 根据口音表中的声调规则,为各汉字赋值实际调值
需求/预期样例如下:将句子进行连调单位分割处理,自动化地正确地标注每个字的实际调值。
例中斜杠分割连调单位(标点天然分割),粗体表示单字调(这个标记不考虑潮州澄海揭阳第 2 声变为低降调的情况),斜体表示轻声调,其余为前变调。白话字中连字符用于连接连调单元,最下面一行数字表示最终标注的实际调值(以变调情况最丰富的潮州音为例)。
- 掠老鼠,我/是大明星,尽忠/职守/日/续夜。
Liah8-ngiau2-tshv2, ua2 si6-tua7-meng5-tshenn1, tsin6-tiong1 tseh4-siu2 jit8 sua3-menn5.
2-25-21, 52 21-212-212-33, 21-33 5-21 5 52-55. - 老鼠/胆/敢来捣乱,我/即时/叫伊回老家。
Ngiau2-tshv2 tann2 kann2-lai5-tau2-luan6, ua2 tsiat4-si5 kio3-i1-hue5-lau6-ke1.
25-21 52 23-212-23-25, 52 5-55 32-23-212-21-33. - 啲咊猫,勿拉贬,我/个工课/还未曾展。
Ti1-tann5-ngiau1, Mai3-la1-phian2, ua2 kai5-khang1-khue3 huann1-bue7-tseng5-tian2.
23-212-33, 32-23-52, 52 212-23-212 23-212-212-52. - 只爱我/略施/小技,管叫你肉疼/兼失脸。
Tsi2-ainn3-ua2 liat8-si1 siau2-ki6, kuan2-kio3-lv2-nek8--thiann3 kiam1-sit4-liam2.
23-32-52 2-33 23-25, 23-32-23 5--21 23-5-21. - 灵精仔,勿假𠢕,鸡卵/敢来碰石头。
Leng5-tseng1-kiann2, mai3-ke2-gau5, koi1-nng6 kann2-lai5-phong3-tsioh8-thau5.
212-23-52, 32-25-55, 23-25 23-212-32-2-55. - 啲咊猫,你/个涎湫/勿散呸,咱/难兄难弟/和/为贵。
Ti1-tann5-ngiau1, lv2 kai5-nuann6-tshiu1 mai3-suann3-phui3, nan2 nan5-hiann5-nan5-ti6 hua5 ui5-kui3.
23-212-33, 52 212-21-33 32-32-212, 52 212-23-212-25 55 212-212. - 有了我,主人/才养你,无了我,你也大驳悸。
U6-liau2-ua2, tsu2-jin5 tshai5-iang2-lv2, bo5-liau2-ua2, lv2-ia7-tua7-poh4-khui3.
21-25-21, 25-55 212-25-21, 212-25-21, 23-212-212-3-212. - 诶,伊呾话/虽然唔合听,是呾道理/哩有几成。
E6, i1-tann3-ue7 sui1-jian5-m7-hah8-thiann1, si6-tann3-tau6-li2 li1-u6--kui2-siann5.
25, 23-32-22 23-212-212-2-33, 21-32-21-52 23-25--212-22.
参考论文:
施其生《汕头方言连读变调的动态运行———兼论汉语方言连读变调的研究视角》
从结果出发往回推,几个子任务,依次解决:
- 给定连调组,以及组内各字的单字调调序和声调地位,求实际声调。
- 给定分词结果(含字词词性)以及各字的白话字拼音,求连调组以及各字的声调地位。
- 给定句子和词汇表,求分词结果以及各字的白话字拼音。
Reactions are currently unavailable