gojieba 是什幺?
gojieba
是 Python 知名分词库结巴jieba
的 Go 语言实现版本,底层分词算法由 C++ 实现,具备很高的性能;gojieba
解决了在做文本分析,文本搜索相关业务功能时的分词需求。
gojieba
支持多种分词方式:
全模式:把文本中所有可能的词语都扫描出来,存在冗余词汇,存在歧义
精确模式:把文本精准的切分开,不存在冗余词语,适合文本分析
搜索引擎模式:在精准模式挤出上,对长词语再次切分,提高召回率,适合用于搜索引擎分词
最大概率模式:把文本中的句子按概率最大的结果切分
HMM 新词发现模式:对于未登录词,采用了基于汉字成词能力的 HMM 模型
怎幺使用 gojieba ?
第一步:在项目中安装
go get github.com/yanyiwu/gojieba
第二步:使用
package main
import (
"fmt"
"strings"
"github.com/yanyiwu/gojieba"
)
func main() {
var s string
var words []string
use_hmm := true
x := gojieba.NewJieba()
defer x.Free()
s = "Gojieba 使用示例"
words = x.CutAll(s)
fmt.Println(s)
fmt.Println("全模式:", strings.Join(words, "/"))
words = x.Cut(s, use_hmm)
fmt.Println(s)
fmt.Println("精确模式:", strings.Join(words, "/"))
s = "比特币"
words = x.Cut(s, use_hmm)
fmt.Println(s)
fmt.Println("精确模式:", strings.Join(words, "/"))
x.AddWord("比特币")
s = "比特币"
words = x.Cut(s, use_hmm)
fmt.Println(s)
fmt.Println("添加词典后,精确模式:", strings.Join(words, "/"))
s = "他来到了网易杭研大厦"
words = x.Cut(s, use_hmm)
fmt.Println(s)
fmt.Println("新词识别:", strings.Join(words, "/"))
s = "小明硕士毕业于中国科学院计算所,后在日本京都大学深造"
words = x.CutForSearch(s, use_hmm)
fmt.Println(s)
fmt.Println("搜索引擎模式:", strings.Join(words, "/"))
s = "长春市长春药店"
words = x.Tag(s)
fmt.Println(s)
fmt.Println("词性标注:", strings.Join(words, ","))
s = "区块链"
words = x.Tag(s)
fmt.Println(s)
fmt.Println("词性标注:", strings.Join(words, ","))
s = "长江大桥"
words = x.CutForSearch(s, !use_hmm)
fmt.Println(s)
fmt.Println("搜索引擎模式:", strings.Join(words, "/"))
wordinfos := x.Tokenize(s, gojieba.SearchMode, !use_hmm)
fmt.Println(s)
fmt.Println("Tokenize:(搜索引擎模式)", wordinfos)
wordinfos = x.Tokenize(s, gojieba.DefaultMode, !use_hmm)
fmt.Println(s)
fmt.Println("Tokenize:(默认模式)", wordinfos)
keywords := x.ExtractWithWeight(s, 5)
fmt.Println("Extract:", keywords)
}
总结
gojieba
是一个高性能的中文分词库,非常适合做文本分析,文本搜索等业务;它的计算分词过程,词典载入过程都非常快;gojieba
底层代码都由 C++ 封装而来,比原生 Go 拥有更高的性能,但在之gojieba
上二次扩展开发不是很便利,满足需求的情况推荐使用。
参考资料
gojieba(https://github.com/yanyiwu/gojieba)
jieba Python(https://github.com/fxsjy/jieba)
Be First to Comment