《自然语言处理技术》——实训3 读取与分析语料库.docx
《《自然语言处理技术》——实训3 读取与分析语料库.docx》由会员分享,可在线阅读,更多相关《《自然语言处理技术》——实训3 读取与分析语料库.docx(7页珍藏版)》请在三一文库上搜索。
1、项目2初识文本基础处理读取与分析语料库1实训目标(1) 能够使用nltk.corpus中的PlaintextCorpusReader函数获取语料库中的文本标识列表。(2) 能够使用count函数统计词语使用次数流程。(3) 掌握统计高频词频、查询词汇在指定区间内的词数量的方法。2实训环境环境版本说明Windows1064电脑操作系统Python3.8.5Python语言版本pandas1.3.0主要用于数据读取、清洗等操作NumPy1.21.6主要用于Python中的数值计算jieba0.42.1主要用于文本分词Gensim4.2.0主要用于检索文本、计算文本相似度、训练词向量、建模主题等Ma
2、tplotlib3.3.0主要用于数据可视化PaddlePaddle2.4.2是一个深度学习框架,提供了高效的计算框架和优化算法PaddleSpeech1.2.0主要用于语音和音频中的各种关键任务的开发scikit-leam1.0.2广泛地用于统计分析和机器学习建模等数据科学领域Librosa0.8.1主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库NLTK3.5是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等SciPy1.7.3是一个科学计算工具包,可用于数学、科学、工程学等领域pyttsx32.9.0主要用于将文本转换成语音3实训说明语料库
3、是指大量的、有组织的、用于研究目的的文本或语言样本集合。语料库可以来自各种来源,如书籍、新闻、网页、社交媒体、口语等。读取与分析语料库任务是自然语言处理中的一项基本任务,涉及从语料库中提取有用信息并做进一步分析.该任务通常作为中文分词、词性标注、中文命名实体识别、提取文本关键词等薪级任务的预处理步骤。本任务使用中IH四大名著进行作品集语科库构建,语料库如图2-1所示,通过对四大名著的语科障分析,学生可以认识文学,感受经典,增强文化认同感、文化自信心、民族自登啦a*MHWZtXl*3WftEaUiSIXi图2T语料库示意图4实训步骤4.1 读取作品集语料库读取一个位于本地存放四大名著作晶集文本的
4、目录卜的所有文件,再获取文件列表并输出.如代码2-1所示.代码2-1获取保存的文件列表imo!tnl(kIrtMnn!lk.bckImP(Ml,fromnlIk.corpusinpi)11PhinltxtCiHpuReader*本地加孜语料诉xpus.roo=data#本地存放泅人名著作晶集文本的目.境A援取语料库中的文本标IR列表WOniliXbi=Pbink!lCorpuRuufcr(m0=ckfiIcidv=.*.cncodi11g=utf8*)fileJist=wordlids()#获取文件列丧Primf文件列反为:OIjHsd#将出文件列半在代码21中,使用到nlk.corpus中的
5、PkliIMeXlCorpusReader函数获取语料库中的文本标识列表,其中,PIaimCXICrpusRvder函数的常用参数说明如表2所示。表2-1PiaintextCorpusReader函数的常用参数说明.*说明11xm接收*r表示研科蟀所在的根H录路径,无默认的接收str,表示用于匹配包含在语料库中的文件名,可以使用正则表达式进行模fileids式匹配。无默认值encoding接收str,表示语料库文件的编码方式。默认为utf8运行代码2-1,输出文件列表如下,表明本地文件目录包含了4个文本文件,分别是三国演义、水浒传、红楼梦和西游记。文件列表为:三国演义txt,水浒传.txth红
6、楼梦.tJ西游记.tx门此外,用户还可以通过在线加载获得四大名著的语料库,如代码22所示。代码22在线加载四大名著语料库importrequestsurls=“红楼梦”:“西游记”:“水浒传”:”三国演义”:novels=)fortitle,urlinurls.items():response=requests.get(url)response.encoding=utf-8text=response.textnovelstitle=textPrint(title己经成功加载到内存中。)运行代码2-2,已在线加载获得四大名著的语料库,过程结果如下。红楼梦已经成功加载到内存中。西游记已经成功加载到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言处理技术 自然语言处理技术实训3 读取与分析语料库 自然语言 处理 技术 实训 读取 分析 语料库
