Skip to content

各地口音变调规则建模;自动化实际调值标注 #16

@brangpd

Description

@brangpd

目标:通过口音表 accents.yml 能够获取各地口音的单字调、前变调、后变调、轻声调调值和规则,并用于标注段落中每个汉字的实际调值(五度标记法 or 比较宽式的描述如“中平调”“低平调”“低降调”“高降调”等)。

几个重要步骤:

  1. 根据分词结果,即各字词的词性,正确划定连调组(连调单位),以及组内各字的声调地位(单字调、前变调、后变调)
  2. 多种可能的组合出现时,返回列表,提示用户可进行选择
  3. 根据口音表中的声调规则,为各汉字赋值实际调值

需求/预期样例如下:将句子进行连调单位分割处理,自动化地正确地标注每个字的实际调值。
例中斜杠分割连调单位(标点天然分割),粗体表示单字调(这个标记不考虑潮州澄海揭阳第 2 声变为低降调的情况),斜体表示轻声调,其余为前变调。白话字中连字符用于连接连调单元,最下面一行数字表示最终标注的实际调值(以变调情况最丰富的潮州音为例)。

  • 掠老/是大明,尽/职//续
    Liah8-ngiau2-tshv2, ua2 si6-tua7-meng5-tshenn1, tsin6-tiong1 tseh4-siu2 jit8 sua3-menn5.
    2-25-21, 52 21-212-212-33, 21-33 5-21 5 52-55.
  • //敢来捣/即/叫伊回老
    Ngiau2-tshv2 tann2 kann2-lai5-tau2-luan6, ua2 tsiat4-si5 kio3-i1-hue5-lau6-ke1.
    25-21 52 23-212-23-25, 52 5-55 32-23-212-21-33.
  • 啲咊,勿拉/个工/还未曾
    Ti1-tann5-ngiau1, Mai3-la1-phian2, ua2 kai5-khang1-khue3 huann1-bue7-tseng5-tian2.
    23-212-33, 32-23-52, 52 212-23-212 23-212-212-52.
  • 只爱/略/小,管叫你/兼失
    Tsi2-ainn3-ua2 liat8-si1 siau2-ki6, kuan2-kio3-lv2-nek8--thiann3 kiam1-sit4-liam2.
    23-32-52 2-33 23-25, 23-32-23 5--21 23-5-21.
  • 灵精,勿假𠢕,鸡/敢来碰石
    Leng5-tseng1-kiann2, mai3-ke2-gau5, koi1-nng6 kann2-lai5-phong3-tsioh8-thau5.
    212-23-52, 32-25-55, 23-25 23-212-32-2-55.
  • 啲咊/个涎/勿散/难兄难//为
    Ti1-tann5-ngiau1, lv2 kai5-nuann6-tshiu1 mai3-suann3-phui3, nan2 nan5-hiann5-nan5-ti6 hua5 ui5-kui3.
    23-212-33, 52 212-21-33 32-32-212, 52 212-23-212-25 55 212-212.
  • 有了,主/才养,无了,你也大驳
    U6-liau2-ua2, tsu2-jin5 tshai5-iang2-lv2, bo5-liau2-ua2, lv2-ia7-tua7-poh4-khui3.
    21-25-21, 25-55 212-25-21, 212-25-21, 23-212-212-3-212.
  • ,伊呾/虽然唔合,是呾道/哩几成
    E6, i1-tann3-ue7 sui1-jian5-m7-hah8-thiann1, si6-tann3-tau6-li2 li1-u6--kui2-siann5.
    25, 23-32-22 23-212-212-2-33, 21-32-21-52 23-25--212-22.

参考论文:

施其生《汕头方言连读变调的动态运行———兼论汉语方言连读变调的研究视角》

从结果出发往回推,几个子任务,依次解决:

  1. 给定连调组,以及组内各字的单字调调序和声调地位,求实际声调。
  2. 给定分词结果(含字词词性)以及各字的白话字拼音,求连调组以及各字的声调地位。
  3. 给定句子和词汇表,求分词结果以及各字的白话字拼音。

Sub-issues

Metadata

Metadata

Assignees

No one assigned

    Type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions