欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    《自然语言处理技术》——实训4 应用中文分词技术.docx

    • 资源ID:591422       资源大小:15.83KB        全文页数:5页
    • 资源格式: DOCX        下载积分:5
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录 微博登录
    二维码
    微信扫一扫登录
    下载资源需要5
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《自然语言处理技术》——实训4 应用中文分词技术.docx

    1、项目2初识文本基础处理应用中文分词技术1实训目标(1) 掌握安装jieba库的方法。(2) 掌握使用jieba库中的CUt函数获取语料库中的文本标识列表的方法。(3) 掌握全模式、精确模式、搜索引擎模式进行中文分词的流程。2实训环境环境版本说明Windows1064电脑操作系统Python3.8.5Python语言版本pandas1.3.0主要用于数据读取、清洗等操作NumPy1.21.6主要用于Python中的数值计算jieba0.42.1主要用于文本分词Gensim4.2.0主要用于检索文本、计算文本相似度、训练词向量、建模主题等Matplotlib3.3.0主要用于数据可视化Paddle

    2、Paddle2.4.2是一个深度学习框架,提供了高效的计算框架和优化算法PaddleSpcech1.2.0主要用于语音和音频中的各种关键任务的开发scikit-learn1.0.2广泛地用于统计分析和机器学习建模等数据科学领域Librosa0.8.1主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库NLTK3.5是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等SciPy1.7.3是一个科学计算工具包,可用于数学、科学、工程学等领域pyttsx32.9.0主要用于将文本转换成语音3实训说明中文分词技术是自然语言处理中的重要基础技术之一,也是中文文本

    3、处理的关键步骤。在处理中文文本时,需要将连续的文本序列切分成词汇单元,这个处理过程即为中文分词。中文分词的结果对于后续的自然语言处理任务至关重要,如文本分类、信息检索、机器翻译等。因此,掌握中文分词技术(如基本简介、分词工具等)是进行中文文本处理的基础,也是实现中文文本相关应用的前提条件。本实训将通过jieba库,分别以全模式、精确模式、搜索引擎模式对中文文本进行分词。4实训步骤4.1 以全模式进行中文分词首先进入NLP虚拟环境,执行Condainstalljieba或pipinstalljieba”命令安装jieba,安装成功后检查安装列表中是否出现jieba,若出现,则表示安装成功。以“热

    4、爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。”为例,使用全模式进行中文分词,如代码4-1所示。代码4-1使用全模式进行中文分词importjiebatext=热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。segjist=jieba.cut(sentence=text,cut_all=Truc)PrintC全模式:V.join(segjist)在代码4-1中,使用到jieba库中的CUt函数获取语料库中的文本标识列表,其中,cut函数的常用参数说明如表4-1cut函数的常用参数说明所示。表4-1cut

    5、函数的常用参数说明参数名称参数说明sentence接收str,表示需要进行分词的文本内容。无默认值cut-all接收bool,表示是否采用全模式分词。默认为FaISe运行代码4-1使用全模式进行中文分词代码4-1,得到分词结果如下。全模式:热爱/学习/是/一种/积极/积极向上/向上/的/品质/,/它/可以/让/我们/不断/地/探索/新/的/知识/领域/,/不断/地/拓展/我们/的/视野/和/思维/。全模式会输出所有可能的分词结果。4.2 以精确模式进行中文分词以“热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。”为例,使用精确模式进行中文分词,如代

    6、码4-2所示。代码4-2使用精确模式进行中文分词importjiebatext=,热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。seg_list=jieba.cut(text,cut_all=False)Print(精确模式:7.join(SegJiSt)运行代码4-2,得到分词结果如下。精确模式:热爱/学习/是/一种/积极向上/的/品质/,/它/可以/让/我们/不断/地/探索/新/的/知识/领域/,/不断/地/拓展/我们/的/视野/和/思维/。精确模式仅输出一种分词结果。4.3 以搜索引擎模式进行中文分词以“热爱学习是一种积极向上的品质,它可以

    7、让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。”为例,使用搜索引擎模式进行中文分词,如代码4-3所示。代码4-3使用搜索引擎模式进行中文分词importjiebatext热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。seg_list=jieba.cut_fbr_search(text)PrintC搜索引擎模式:n,7.join(segjist)运行代码4-3,得到分词结果如下。搜索引擎模式:热爱/学习/是/一种/积极/向上/积极向上/的/品质/,/它/可以/让/我们/不断/地/探索/新/的/知识/领域/,/不断/地/拓展/我们/的/视野/和/思维/。搜索引擎模式会输出所有可能的分词结果。除了一些适合全模式和搜索引擎模式的场合,一般情况下会较多地使用精确模式。5实训小结技术点自评达标未达标能够安装jieba库能够使用jieba库中的CUl函数获取语料库中的文本标识列表能够使用全模式、精确模式、搜索引擎模式进行中文分词心得体会(如遇到的问题及解决方法、存在的不足之处等):


    注意事项

    本文(《自然语言处理技术》——实训4 应用中文分词技术.docx)为本站会员(极速器)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!




    宁ICP备18001539号-1

    三一文库
    收起
    展开