Press "Enter" to skip to content

Python可视化数据分析03、jieba【分词】

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

Python可视化数据分析03、jieba【分词】

 

前言

 

博客:【 红目香薰的博客_CSDN博客-计算机理论,2022年蓝桥杯,MySQL领域博主 】

 

✍本文由在下【红目香薰】原创,首发于CSDN✍

 

珞2022年最大愿望:【服务百万技术人次】珞

 

Python初始环境地址:【 Python可视化数据分析01、python环境搭建 】

 

环境需求

 

环境:win10

 

开发工具:PyCharm Community Edition 2021.2

 

数据库:MySQL5.6

 

目录

 

Python可视化数据分析03、jieba【分词】

 

demo1:jieba精确模式分词

 

demo2:全模式【cut_all=True】

 

demo3:搜索引擎模式【lcut_for_search()】

 

demo4:通过collections进行词频分析

 

前言

 

由于中科院分词总是过期需要证书,学校的网还不允许访问git,所以我这里用jieba来讲解分词。

 

通过pip3下载jieba

 

pip3 install jieba

 

 

新建测试类:Demo3.py

 

demo1:jieba精确模式分词

 

jieba精确模式分词使用lcut()函数,类似cut()函数,其参数和cut()函数是一致的,只不过返回结果是列表而不是生成器,默认使用精确模式。
【lcut】默认模式。句子精确地切开,每个字符只会出席在一个词中,适合文本分析;

 

import jieba
content = """
如果说等待也是一种快乐,我等待的人,只能是你;
爱,是一种氛围,只要有你,它就存在。
"""
result = jieba.lcut(content)
print(len(result), '/'.join(result))

 

 

可以从以上看出,自动分开词句。

 

demo2:全模式【cut_all=True】

 

会将所有的可能都拆分开

 

import jieba
content = """
如果说等待也是一种快乐,我等待的人,只能是你;
爱,是一种氛围,只要有你,它就存在。
"""
result = jieba.lcut(content,cut_all=True)
print(len(result), '/'.join(result))

 

 

demo3:搜索引擎模式【lcut_for_search()】

 

import jieba
content = """
如果说等待也是一种快乐,我等待的人,只能是你;
爱,是一种氛围,只要有你,它就存在。
"""
result = jieba.lcut_for_search(content)
print(len(result), '/'.join(result))

 

 

demo4:通过collections进行词频分析

 

import jieba
from collections import Counter
content = """
如果说等待也是一种快乐,我等待的人,只能是你;
爱,是一种氛围,只要有你,它就存在。
"""
result = jieba.lcut(content)
counter = Counter(result)
dictionary = dict(counter)
k = 100
res = counter.most_common(k)
for item in res:
    print(item)

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。