《自然语言处理技术》——实训4 应用中文分词技术.docx

资源ID：591422 资源大小：15.83KB 全文页数：5页
资源格式： DOCX 下载积分：5元

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要5元

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

《自然语言处理技术》——实训4 应用中文分词技术.docx

1、项目2初识文本基础处理应用中文分词技术1实训目标(1) 掌握安装jieba库的方法。(2) 掌握使用jieba库中的CUt函数获取语料库中的文本标识列表的方法。(3) 掌握全模式、精确模式、搜索引擎模式进行中文分词的流程。2实训环境环境版本说明Windows1064电脑操作系统Python3.8.5Python语言版本pandas1.3.0主要用于数据读取、清洗等操作NumPy1.21.6主要用于Python中的数值计算jieba0.42.1主要用于文本分词Gensim4.2.0主要用于检索文本、计算文本相似度、训练词向量、建模主题等Matplotlib3.3.0主要用于数据可视化Paddle

2、Paddle2.4.2是一个深度学习框架，提供了高效的计算框架和优化算法PaddleSpcech1.2.0主要用于语音和音频中的各种关键任务的开发scikit-learn1.0.2广泛地用于统计分析和机器学习建模等数据科学领域Librosa0.8.1主要用于分析一般的音频信号，是一个非常强大的Python语音信号处理的第三方库NLTK3.5是一个常用的自然语言处理工具包，可用于文本处理、语义分析、词性标注等SciPy1.7.3是一个科学计算工具包，可用于数学、科学、工程学等领域pyttsx32.9.0主要用于将文本转换成语音3实训说明中文分词技术是自然语言处理中的重要基础技术之一，也是中文文本

3、处理的关键步骤。在处理中文文本时，需要将连续的文本序列切分成词汇单元，这个处理过程即为中文分词。中文分词的结果对于后续的自然语言处理任务至关重要，如文本分类、信息检索、机器翻译等。因此，掌握中文分词技术(如基本简介、分词工具等)是进行中文文本处理的基础，也是实现中文文本相关应用的前提条件。本实训将通过jieba库，分别以全模式、精确模式、搜索引擎模式对中文文本进行分词。4实训步骤4.1 以全模式进行中文分词首先进入NLP虚拟环境，执行Condainstalljieba或pipinstalljieba”命令安装jieba,安装成功后检查安装列表中是否出现jieba,若出现，则表示安装成功。以“热

4、爱学习是一种积极向上的品质，它可以让我们不断地探索新的知识领域，不断地拓展我们的视野和思维。”为例，使用全模式进行中文分词，如代码4-1所示。代码4-1使用全模式进行中文分词importjiebatext=热爱学习是一种积极向上的品质，它可以让我们不断地探索新的知识领域，不断地拓展我们的视野和思维。segjist=jieba.cut(sentence=text,cut_all=Truc)PrintC全模式:V.join(segjist)在代码4-1中，使用到jieba库中的CUt函数获取语料库中的文本标识列表，其中，cut函数的常用参数说明如表4-1cut函数的常用参数说明所示。表4-1cut

5、函数的常用参数说明参数名称参数说明sentence接收str,表示需要进行分词的文本内容。无默认值cut-all接收bool,表示是否采用全模式分词。默认为FaISe运行代码4-1使用全模式进行中文分词代码4-1,得到分词结果如下。全模式：热爱/学习/是/一种/积极/积极向上/向上/的/品质/,/它/可以/让/我们/不断/地/探索/新/的/知识/领域/,/不断/地/拓展/我们/的/视野/和/思维/。全模式会输出所有可能的分词结果。4.2 以精确模式进行中文分词以“热爱学习是一种积极向上的品质，它可以让我们不断地探索新的知识领域，不断地拓展我们的视野和思维。”为例，使用精确模式进行中文分词，如代

6、码4-2所示。代码4-2使用精确模式进行中文分词importjiebatext=，热爱学习是一种积极向上的品质，它可以让我们不断地探索新的知识领域，不断地拓展我们的视野和思维。seg_list=jieba.cut(text,cut_all=False)Print(精确模式：7.join(SegJiSt)运行代码4-2,得到分词结果如下。精确模式：热爱/学习/是/一种/积极向上/的/品质/,/它/可以/让/我们/不断/地/探索/新/的/知识/领域/,/不断/地/拓展/我们/的/视野/和/思维/。精确模式仅输出一种分词结果。4.3 以搜索引擎模式进行中文分词以“热爱学习是一种积极向上的品质，它可以

7、让我们不断地探索新的知识领域，不断地拓展我们的视野和思维。”为例，使用搜索引擎模式进行中文分词，如代码4-3所示。代码4-3使用搜索引擎模式进行中文分词importjiebatext热爱学习是一种积极向上的品质，它可以让我们不断地探索新的知识领域，不断地拓展我们的视野和思维。seg_list=jieba.cut_fbr_search(text)PrintC搜索引擎模式：n,7.join(segjist)运行代码4-3,得到分词结果如下。搜索引擎模式：热爱/学习/是/一种/积极/向上/积极向上/的/品质/,/它/可以/让/我们/不断/地/探索/新/的/知识/领域/,/不断/地/拓展/我们/的/视野/和/思维/。搜索引擎模式会输出所有可能的分词结果。除了一些适合全模式和搜索引擎模式的场合，一般情况下会较多地使用精确模式。5实训小结技术点自评达标未达标能够安装jieba库能够使用jieba库中的CUl函数获取语料库中的文本标识列表能够使用全模式、精确模式、搜索引擎模式进行中文分词心得体会（如遇到的问题及解决方法、存在的不足之处等）：

注意事项: 本文（《自然语言处理技术》——实训4 应用中文分词技术.docx）为本站会员（极速器）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！