目前中文分词的一般做法是将分词当作序列标注问题来处理,这种做法首先标注好一批训练语料,然后用统计模型进行训练和标注。常用的统计模型包括隐马尔可夫模型(HMM
)、最大熵模型(MEM
)以及条件随机场模型(CRF
)。因为CRF比HMM和MEM
有更弱的上下文无关假设,所以CRF一般能取得更好的分词结果。
在使用统计模型进行训练时,一个关键的步骤是选择特征,这些特征主要是上下文特征,例如针对当前字的前一个字是什幺、后一个字是什幺等。基于上下文特征训练得到的统计模型有一个明显的弱点,也是当前分词面临的最主要问题,那就是训练好的模型难以适应新的领域。例如用金融领域的模型对体育领域的文本进行分词时,准确率会相对较大幅度地降低。造成这一现象的关键原因是原模型不能有效识别新领域中出现的大量新词(即未登录词,out-of-vocabulary)。
考虑到任何领域的新词都有一定的统计表现特征,例如出现频率高,搭配稳定等。我们尝试了将这些统计表现特征加入上下文特征进行训练,我们在backoff2005
提供的语料进行了简单的对比测试,测试结果表明新加入的特征提高了分词系统对新领域的适应能力。在测试结果中,CRF
表示使用上下文特征的模型,FCRF
表示加入新词统计特征的模型,F-score
是综合考虑分词准确率和召回率得到的一个分值,Roov表示未登录词的召回率。
数据集
来源 训练集(行) 测试集(行) 简/繁体 PKU(北京大学) 19056 1945 简 CITYU(香港城市大学) 53019 1493 繁 MSR(微软研究院) 86924 3985 简 AS(台湾中央研究院) 708953 14431 繁
测试1:训练文本和测试文本属于同一领域时
分别用PKU和CITYU提供的训练集上进行训练,然后对相应的测试集进行测试:
训练集 测试集 F-score Roov CRF PKU-train PKU-test 0.938 0.695 FCRF PKU-train PKU-test <strong>0.941</strong> <strong>0.730</strong> CRF CITYU-train CITYU-test 0.945 0.778 FCRF CITYU-train CITYU-test <strong>0.951</strong> <strong>0.798</strong>
结论:当训练和测试属于同一领域时,FCRF
和CRF
表现相差不大。
测试2:训练文本和测试文本属于不同领域
用简体的PKU训练集进行训练,对繁体的AS测试集进行测试;用繁体的CITYU进行训练,对简体的MSR进行测试:
训练集 测试集 F-score Roov CRF PKU-train As-test 0.762 0.627 FCRF PKU-train As-test <strong>0.859</strong> <strong>0.812</strong> CRF CITYU-train Msr-test 0.753 0.630 FCRF CITYU-train Msr-test <strong>0.809</strong> <strong>0.744</strong>
结论:当训练和测试属于不同领域时,FCRF
比CRF
效果有较大提升。
其它测试
对《金庸小说全集》进行适应后,和其它一些有名的分词工具做分词结果比较。
FCRF
郭襄 回头 过来 , 见 张君宝 头 上 伤口 兀自 汨汨 流血 , 于是 从 怀中 取出 手帕 , 替 他 包扎 。 张君宝 好生 感激 , 欲 待 出言 道谢 , 却 见 郭襄 眼中 泪光 莹莹 , 心 下 大 是 奇怪 , 不知 她 为 甚幺 伤心 , 道谢 的 言辞 竟 此 便 说 不 出 口 。 却 听 得 杨过 朗声 说道 : “ 今番 良晤 , 豪兴 不 浅 , 他 日 江湖 相逢 , 再 当 杯酒 言欢 。 咱们 就此 别 过 。 ” 说 着 袍袖 一 拂 , 携 着 小龙女 之 手 , 与 神雕 并肩 下山 。 其时 明月 在 天 , 清风 吹 叶 , 树 巅 乌鸦 呀 啊 而 鸣 , 郭襄 再 也 忍耐 不 住 , 泪珠 夺眶而出 。
郭襄 回头 过来 , 见 张君宝 头 上 伤口 兀自 汨 汨 流血 , 于是 从 怀中 取出 手帕 , 替 他 包扎 。 张君宝 好生 感激 , 欲 待 出言 道谢 , 却 见 郭襄 眼中 泪光 莹 莹 , 心下 大 是 奇怪 , 不知 她 为 甚 幺 伤心 , 道谢 的 言辞 竟 此 便 说 不 出口 。 却 听 得 杨 过 朗声 说道 : “ 今番 良 晤 , 豪兴 不 浅 , 他日 江湖 相逢 , 再 当 杯酒言欢 。 咱们 就此 别 过 。 ” 说 着 袍 袖 一 拂 , 携 着 小龙 女 之 手 , 与 神 雕 并肩 下山 。 其时 明月 在 天 , 清风 吹 叶 , 树 巅 乌鸦 呀 啊 而 鸣 , 郭襄 再也 忍耐 不住 , 泪珠 夺眶而出 。
郭襄回头 过来 ,见 张君宝头 上 伤口 兀自 汨 汨 流血 , 于是 从 怀中 取出手 帕, 替 他 包扎 。 张君宝 好生 感激, 欲待 出言 道谢, 却 见 郭襄 眼中 泪光 莹莹 ,心 下 大 是 奇怪 , 不知 她 为 甚幺 伤心 , 道谢 的 言辞 竟 此 便 说 不 出口 。 却 听 得 杨过 朗声 说道 : “ 今番 良晤 ,豪兴 不 浅, 他 日 江湖 相逢 , 再 当 杯 酒言 欢 。 咱们 就 此 别 过 。 ” 说 着 袍袖 一 拂 , 携 着 小龙女 之 手 , 与 神雕 并肩 下山 。 其时 明月 在 天, 清风 吹 叶, 树 巅 乌鸦 呀 啊 而 鸣, 郭襄 再 也 忍耐 不 住 ,泪 珠 夺眶而出 。
为了适应新领域的文本,FCRF在分词前需要对新领域文本进行频率信息统计,这会稍微降低分词的速度。
Be First to Comment