Press "Enter" to skip to content

中文词向量资源汇总 & 使用方法

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

项目地址

 

https://github.com/Embedding/Chinese-Word-Vectors

 

Chinese-Word-Vectors项目提供超过100种中文词向量,其中包括不同的表示方式(稠密SGNS和稀疏PPMI)、不同的上下文特征(词、N元组、字等等)、以及不同的训练语料。获取预训练词向量非常方便,下载后即可用于下游任务。

 

参考文献

 

如果使用了本项目的词向量和CA8数据集请进行如下引用:

 

Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du,Analogical Reasoning on Chinese Morphological and Semantic Relations
, ACL 2018.

 

不同领域

 

下列词向量基于不同的表示方式、不同的上下文特征以及不同领域的语料训练而成。

 

Word2vec / Skip-Gram with Negative Sampling (SGNS)
语料上下文特征
词 + N元组词 + 字词 + 字 + N元组
Baidu Encyclopedia 百度百科300d300d300d300d / PWD: 5555
Wikipedia_zh 中文维基百科300d300d300d300d
People’s Daily News 人民日报300d300d300d300d
Sogou News 搜狗新闻300d300d300d300d
Financial News 金融新闻300d300d300d300d
Zhihu_QA 知乎问答300d300d300d300d
Weibo 微博300d300d300d300d
Literature 文学作品300d300d / PWD: z5b4300d300d / PWD: yenb
Complete Library in Four Sections
四库全书*
300d300dNANNAN
Mixed-large 综合
Baidu Netdisk / Google Drive
300d
300d
300d
300d
300d
300d
300d
300d

 

Positive Pointwise Mutual Information (PPMI)
语料上下文特征
词 + N元组词 + 字词 + 字 + N元组
Baidu Encyclopedia 百度百科SparseSparseSparseSparse
Wikipedia_zh 中文维基百科SparseSparseSparseSparse
People’s Daily News 人民日报SparseSparseSparseSparse
Sogou News 搜狗新闻SparseSparseSparseSparse
Financial News 金融新闻SparseSparseSparseSparse
Zhihu_QA 知乎问答SparseSparseSparseSparse
Weibo 微博SparseSparseSparseSparse
Literature 文学作品SparseSparseSparseSparse
Complete Library in Four Sections
四库全书*
SparseSparseNANNAN
Mixed-large 综合SparseSparseSparseSparse

 

*
由于古汉语中绝大部份词均为单字词,因此只需字向量。

 

语料

 

项目花费了大量精力来收集了来自多个领域的语料。所有的文本数据均移除了html和xml标记,仅保留了纯文本。之后采用了HanLP(v_1.5.3)对文本进行了分词。此外,我们将繁体中文用Open Chinese Convert (OpenCC)转换为了简体中文。更详细的语料信息如下所示:

 

语料大小词数量词汇量详情
Baidu Encyclopedia
百度百科
4.1G745M5422K中文百科
https://baike.baidu.com/
Wikipedia_zh
中文维基百科
1.3G223M2129K中文维基百科
https://dumps.wikimedia.org/
People’s Daily News
人民日报
3.9G668M1664K人民日报新闻数据(1946-2017)
http://data.people.com.cn/
Sogou News
搜狗新闻
3.7G649M1226KSogou labs的新闻数据
http://www.sogou.com/labs/
Financial News
金融新闻
6.2G1055M2785K从多个网站收集到的金融新闻
Zhihu_QA
知乎问答
2.1G384M1117K中文问答数据
https://www.zhihu.com/
Weibo
微博
0.73G136M850KNLPIR Lab提供的微博数据
http://www.nlpir.org/wordpress/download/weibo.7z
Literature
文学作品
0.93G177M702K8599篇现代文学作品
Mixed-large
综合
22.6G4037M10653K上述所有数据的汇总
Complete Library in Four Sections
四库全书
1.5G714M21.8K目前最大的古代文献汇总

 

上述统计结果中,所有词都被计算在内,包括低频词。

 

导入模型(代码)

 

例如我下载了多个词模型,下载得到bz2结尾的文件名,例如sgns.financial.bigram.bz2

 

 

 

使用方式

 

from gensim.models.keyedvectors import KeyedVectors
#以金融sgns.financial.bigram.bz2为例
model = KeyedVectors.load_word2vec_format('embeddings/sgns.financial.bigram.bz2', 
                                          binary=False, 
                                          unicode_errors='ignore')
model

 

Run

 

<gensim.models.keyedvectors.KeyedVectors at 0x7fe7fad79d60>

 

model.similar_by_key('投资')

 

Run

 

[('长期投资', 0.5135656595230103),
 ('投资规模', 0.5089880228042603),
 ('智百扬', 0.49565914273262024),
 ('投资总额', 0.4955061078071594),
 ('洛辉', 0.489188551902771),
 ('337409', 0.48917514085769653),
 ('洛盛', 0.4819018244743347),
 ('洛腾', 0.4728960692882538),
 ('394150', 0.4704836308956146),
 ('投资额', 0.4685181975364685)]

 

model.similar_by_key('风险')

 

Run

 

[('提示', 0.6549968123435974),
 ('经营风险', 0.6316577792167664),
 ('景气衰退', 0.544153094291687),
 ('风险分析', 0.5439289212226868),
 ('遇宏观', 0.5435716509819031),
 ('信用风险', 0.5345730185508728),
 ('承受能力', 0.5291797518730164),
 ('防范', 0.5271924138069153),
 ('系统性', 0.5178108811378479),
 ('不确定性', 0.5173759460449219)]

 

向量运行效果还行,感兴趣的同学也可以根据自己的数据训练word2vec模型,训练及使用的办法参照文章

 

豆瓣影评 | 探索词向量妙处

 

代码地址

 

https://hidadeng.github.io/blog/embeddings_resource_usage_method/

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。