Press "Enter" to skip to content

基于海量公司分词ES中文分词插件

介绍

 

本次想和大家分享一款Elasticsearch分词插件,该插件是基于天津海量信息股份有限公司的中文分词核心开发的。海量分词针对大数据检索场景专门做了定制和优化,更贴近搜索需求,整体分词的性能也是非常高效。

 

本文章有广告成分。但希望将公司研究成果分享出来,给大家实际工作中多一种选择…

 

海量分词检索优化点

地名方面海量分词5.0可以识别并 检索出关于地名后缀

的结果

 

可以通过搜索“河南”得到“河南省”的结果,搜索“天津”得到“天津市”的搜索结果,而不是简单河南、天津的识别。

着名人物的 人名识别更精准

,如刘翔、傅莹等

 

部分分词器处理中文分词只有两种方式:一种是单字(unigrams)形式,即简单粗暴的将中文的每一个汉字作为一个词(token)分开;另一种是两字(bigrams)的,也就是任意相邻的两个汉字作为一个词分开。这种简单粗暴的切分方式无法实现时效性较新的人名识别,如刘翔、傅莹等会被识别为单字切开。

外国人名识别

方面海量可以将人名识别智能识别

 

“玛利亚 凯利”、“乔治·史密斯”、“玛丽·戴维斯”将完整的外国人名识别出姓氏和名,如“乔治·史密斯”可以被识别为“乔治”和 “史密斯”。

常见词的 品牌名称

识别方面,海量分词5.0识别的结果中包含实际意义的品牌名称

 

如“乐高”,“吉米作为简单的词,可以被识别,但是词放在文档语境中有其品牌的属性,海量分词识别的结果中可以准确搜索出品牌的结果。

机构名识别

方面

 

海量分词5.0可以识别完整的机构名称,如“天津海量信息技术股份有限公司”,可以完整的识别出全称。

 

海量分词性能评测

 

评测用例

 

本次评测选取的语料一共三个。一个是2MB的海量测试语料,一个是4MB的北大语料(新版旧版各2MB),一个是9.4GB海量的线上实际数据

 

评测指标

 

本次评测是在开源评测程序上修改而来,评测指标有分词速度、行数完美率、字数完美率(该指标仅供参考)、内存消耗

 

评测结果

 

2MB海量测试语料

分词器分词模式分词速度(字符/毫秒)行数完美率字数完美率占用内存(MB)
海量/1049.021274.11%65.97%85
ltp/33.74883355.68%45.23%201
IctClass普通分词208.6961248.77%37.10%51
IctClass细粒度分词691.595138.33%27.95%51
JiebaSEARCH分词592.69747.64%36.25%236
FudanNLP/121.753742.99%31.59%99
HanLP标准分词212.7412145.30%34.00%63
HanLPNLP分词378.2367644.09%32.55%71
HanLPN-最短路径分词189.2995944.19%32.22%60
HanLP最短路径分词415.6360543.19%31.28%59
HanLP极速词典分词6735.193436.78%25.10%18
THULAC/0.2085734854.49%43.79%110
StanfordCTB0.1352046444.43%33.25%1101
StanfordPKU0.1250862345.15%34.01%1065

 

可以看到海量分词的行数完美率是最高的,而且速度十分优异;仅有的一个比海量分词速度快的算法是一个追求极限性能舍弃准确率的算法

 

4MB北大语料

词器分词模式分词速度(字符/毫秒)行数完美率字数完美率占用内存(MB)
海量/1121.726985.94%48.28%85
ltp/35.8132987.37%49.37%201
IctClass普通分词226.1155478.55%42.04%51
IctClass细粒度分词756.513559.06%30.61%51
JiebaSEARCH分词957.5282647.07%20.01%236
FudanNLP/126.0987958.54%27.78%99
HanLP标准分词369.6665.46%35.04%63
HanLPNLP分词439.7563261.93%31.37%71
HanLPN-最短路径分词223.3048269.20%35.07%60
HanLP最短路径分词440.7224467.74%33.83%59
HanLP极速词典分词7522.58158.09%27.82%18

 

(注:THULAC和stanford由于速度问题,不纳入评测)

 

可以看到海量的速度和行数完美率都很优异而且达到了兼顾,行数完美率只落后更高的ltp算法1.4个百分点,速度却是它的三十多倍

 

9.4GB线上数据

分词器分词模式分词速度(字符/毫秒)
ltp/33.592
海量/960.611
IctClass普通分词198.094
HanLPN-最短路径分词201.735
HanLP最短路径分词425.482
HanLP标准分词473.400
HanLPNLP分词361.842
IctClass细粒度分词689.183
FudanNLP/120.860
HanLP极速词典分词6238.916
JiebaSEARCH分词568.262

 

(注:THULAC和stanford由于速度问题,不纳入评测)

 

本表格中分词顺序按(4MB北大语料的)行数完美率进行排序,越靠前的(4MB北大语料的)行数完美率越高

 

可以看出海量的分词速度十分优秀,分词速度拉开了大多数分词数倍,相比于行数完美率小幅领先的ltp要快几十倍

 

海量分词插件使用方法

 

安装使用

下载安装 – 地址: https://github.com/HylandaOpen/elasticsearch-analysis-hlseg/releases

unzip plugin to folder `your-es-root/plugins/`

使用 elasticsearch-plugin 安装

./bin/elasticsearch-plugin install https://github.com/HylandaOpen/elasticsearch-analysis-hlseg/releases/download/v6.4.2/elasticsearch-analysis-hlseg-6.4.2.zip

重启es集群

实例(借用github-ik分词插件的实例)

 

1.创建index

 

curl -XPUT http://localhost:9200/hylanda_seg

 

2.配置mapping

 

curl -XPOST http://localhost:9200/hylanda_seg/data/_mapping -H 'Content-Type:application/json' -d'
{
  "properties": {
    "msg": {
      "type": "text",
      "analyzer": "hlseg_search"
    }
  }
}'

 

3.插入测试数据

 

curl -XPOST http://localhost:9200/hylanda_seg/data/1 -H 'Content-Type:application/json' -d'
{"content":"美国留给伊拉克的是个烂摊子吗"}
'

 

curl -XPOST http://localhost:9200/hylanda_seg/data/2 -H 'Content-Type:application/json' -d'
{"content":"公安部:各地校车将享最高路权"}
'

 

curl -XPOST http://localhost:9200/hylanda_seg/data/3 -H 'Content-Type:application/json' -d'
{"content":"中韩渔警冲突调查:韩警平均每天扣1艘中国渔船"}
'

 

curl -XPOST http://localhost:9200/hylanda_seg/data/4 -H 'Content-Type:application/json' -d'
{"content":"中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"}
'

 

4.查询

 

curl -XPOST http://localhost:9200/hylanda_seg/data/_search  -H 'Content-Type:application/json' -d'
{
  "query": {
    "match": {
      "content": "中国"
    }
  },
  "highlight": {
    "fields": {
      "content": {}
    }
  }
}
'

 

返回结果

 

{
  "took" : 11,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 2,
    "max_score" : 0.5754429,
    "hits" : [
      {
        "_index" : "hylanda_seg",
        "_type" : "data",
        "_id" : "4",
        "_score" : 0.5754429,
        "_source" : {
          "content" : "中韩渔警冲突调查:韩警平均每天扣1艘中国渔船"
        },
        "highlight" : {
          "content" : [
            "中韩渔警冲突调查:韩警平均每天扣1艘<em>中国</em>渔船"
          ]
        }
      },
      {
        "_index" : "hylanda_seg",
        "_type" : "data",
        "_id" : "5",
        "_score" : 0.2876821,
        "_source" : {
          "content" : "中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"
        },
        "highlight" : {
          "content" : [
            "<em>中国</em>驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"
          ]
        }
      }
    ]
  }
}

 

字典配置

 

海量分词分为基础词词典CoreDict.dat和自定义词典userDict_utf8.txt。基础词词典在dictionary目录下,需要将CoreDict.zip解压后放在config目录下,可以通过修改config下的userDict_utf8.txt来更新自定义词典

 

自定义词典格式如下

 

1.用户自定义词典采用文本格式,utf-8编码,每行一个词
2.每个词包含三列属性,分别是词串、词的属性以及idf值的加权等级,并以Tab作为分隔,其中除了词串必填外,其他列可以不填,不填写则系统采用默认值
3.“#”表示注释,会在加载时被忽略
4.词的属性以西文逗号分隔,可以是词性、停止词标志或者自定义属性
5.词性标记参考北大标准,用于词性标注时参考,该项不填则默认为名词
6.停止词标志为:stopword,由SegOption.outputStopWord来控制是否输出停止词
7.自定义属性不参与分词过程,分词结果中若Token.userTag不为空,则可以获取到该词的自定义属性。
8.idf值的加权分5级,从低到高的定义是idf-lv1 — idf-lv5,等级越高则该词在关键词计算时的权重会越大,若不填写该值则系统默认是idf-lv3(中等权重)

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注