《自然语言处理技术》——实训4 应用中文分词技术.docx
《《自然语言处理技术》——实训4 应用中文分词技术.docx》由会员分享,可在线阅读,更多相关《《自然语言处理技术》——实训4 应用中文分词技术.docx(5页珍藏版)》请在三一文库上搜索。
1、项目2初识文本基础处理应用中文分词技术1实训目标(1) 掌握安装jieba库的方法。(2) 掌握使用jieba库中的CUt函数获取语料库中的文本标识列表的方法。(3) 掌握全模式、精确模式、搜索引擎模式进行中文分词的流程。2实训环境环境版本说明Windows1064电脑操作系统Python3.8.5Python语言版本pandas1.3.0主要用于数据读取、清洗等操作NumPy1.21.6主要用于Python中的数值计算jieba0.42.1主要用于文本分词Gensim4.2.0主要用于检索文本、计算文本相似度、训练词向量、建模主题等Matplotlib3.3.0主要用于数据可视化Paddle
2、Paddle2.4.2是一个深度学习框架,提供了高效的计算框架和优化算法PaddleSpcech1.2.0主要用于语音和音频中的各种关键任务的开发scikit-learn1.0.2广泛地用于统计分析和机器学习建模等数据科学领域Librosa0.8.1主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库NLTK3.5是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等SciPy1.7.3是一个科学计算工具包,可用于数学、科学、工程学等领域pyttsx32.9.0主要用于将文本转换成语音3实训说明中文分词技术是自然语言处理中的重要基础技术之一,也是中文文本
3、处理的关键步骤。在处理中文文本时,需要将连续的文本序列切分成词汇单元,这个处理过程即为中文分词。中文分词的结果对于后续的自然语言处理任务至关重要,如文本分类、信息检索、机器翻译等。因此,掌握中文分词技术(如基本简介、分词工具等)是进行中文文本处理的基础,也是实现中文文本相关应用的前提条件。本实训将通过jieba库,分别以全模式、精确模式、搜索引擎模式对中文文本进行分词。4实训步骤4.1 以全模式进行中文分词首先进入NLP虚拟环境,执行Condainstalljieba或pipinstalljieba”命令安装jieba,安装成功后检查安装列表中是否出现jieba,若出现,则表示安装成功。以“热
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言处理技术 自然语言处理技术实训4 应用中文分词技术 自然语言 处理 技术 实训 应用 中文 分词
