Press "Enter" to skip to content

【Github】TextCluster:短文本聚类预处理模块 Short text cluster

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

推荐Github上一个NLP相关的项目: RandyPen/

 

项目地址,阅读原文可以直达,欢迎参与和Star:

 

https://github.com/RandyPen/TextCluster

 

这个项目的作者是AINLP交流群里的昭鸣同学,该项目 开源了一个短文本聚类工具,内存友好,速度不错,还不用尝试隐变量个数,欢迎使用。

 

以下来自该项目介绍页,点击阅读原文可以直达相关资源链接。

 

 

项目介绍

 

短文本聚类是常用的文本预处理步骤,可以用于洞察文本常见模式、分析设计语义解析规范等。 本项目实现了内存友好的短文本聚类方法。

 

依赖库

 

pip install tqdm jieba

 

使用方法

 

python cluster.py --infile ./data/infile \
--output ./data/output

 

具体参数设置可以参考 cluster.py 文件内 _get_parser() 函数参数说明,包含设置分词词典、停用词、匹配采样数、匹配度阈值等。

 

文件路径

 

TextCluster
|      README.md
|      LICENSE
|      cluster.py                    主要执行程序
|
|------utils                         公共功能模块
|    |    __init__.py
|    |    segmentor.py               分词器封装
|    |    similar.py                 相似度计算函数
|    |    utils.py                   文件处理模块
|
|------data
|    |    infile                     默认输入文本路径,用于测试中文模式
|    |    infile_en                  默认输入文本路径,用于测试英文模式
|    |    seg_dict                   默认分词词典
|    |    stop_words                 默认停用词路径

 

注: 本方法仅面向短文本,长文本聚类可根据需求选用 SimHash ,  LDA 等其他算法。

 

Text Cluster

 

Introduction

 

Text cluster is a normal preprocess method to analysis text feature. This project implements a memory friendly method for  short text cluster . For long text, it will be preferable to choose  SimHash  or  LDA  or others according to demand.

 

Requirements

 

pip install tqdm spacy

 

Usage

 

python cluster.py --infile ./data/infile_en \
--output ./data/output \
--lang en

 

File Structure

 

TextCluster
|      README.md
|      LICENSE
|      cluster.py                    main excutable function
|
|------utils                         utilities
|    |    __init__.py
|    |    segmentor.py               tokenizer wrapper
|    |    similar.py                 similarity calculator
|    |    utils.py                   file process module
|
|------data
|    |    infile                     default input file path, to test Chinese mode
|    |    infile_en                  default input file path, to test English mode
|    |    seg_dict                   default tokenizer dict path
|    |    stop_words                 default stop words path

 

Other Language

 

For other specific language, modify tokenizer wrapper in  ./utils/segmentor.py .

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注