《Python》实训九 “结巴”中文分词库的使用.docx
《《Python》实训九 “结巴”中文分词库的使用.docx》由会员分享,可在线阅读,更多相关《《Python》实训九 “结巴”中文分词库的使用.docx(130页珍藏版)》请在三一文库上搜索。
1、实训任务:结巴中文分词库的使用学校名称:班级名称:学号/工号:学生姓名:实训日期:(I)了解jieba库的基本功能(2)熟练掌握jieba库的安装(3)熟练掌握Jieba库的常用函数使用,包括:jieba.Icut(三)jieba.Icut(s,cut_alI=True)、jieba.lcut_for_search(三)、jieba.add_word(w)(4)掌握jieba库的三种分词模式的应用2 .实训环境普通电脑,并安装以下软件:(1) Windows7(或者以上版本)操作系统(2) PyCharm软件(3) Python3.8以上版本3 .实训内容任务一:jieba库的三种分词模式的训
2、练1、任务内容(I)编写程序,应用jieba库的三种分词模式,对字符串“jieba是优秀的中文分词第三方库”进行分词。函数名称描述jieba.Icut(三)精确模式,返回一个列表类型。jieba.Icut(s,cutalI=True)全模式,返回一个列表类型。jieba.Icutforsearch(三)搜索引擎模式,返回一个列表类型。jieba.addword(w)向分词的词典增加新词W。(2)要求关键代码做好注释,效果如下图所示行范例11-1jieba库的三醒AC:ProgramFileSPython39python.exeD:/PythOnBOokpythonProjectll范例II-I
3、jieba库的三种分词模式.pyp8.42.1Buildingprefixdietfromthedefaultdictionary.IrpLoadingmodelfromcacheC:UsersADMINIlAppDataLocalTempjieba.cachei三i精确模式:路,不,通行,不得,在,此,小便,路,不,通行,不得,在,此,小便S寺全模式:路,不通,通行行不得不得,在,此,小便,路,不通通行,行不得,不得,在,此,小便,i搜索引擎模式:路,不,通行,不得,在,此,小便,路,不,通行,不得,在,此,小便加入新词后的精确模式:路,不,通行,不得,在,此,小便,路,不,通行,不得,在,
4、此,小便Loadingmodelcost.597seconds.Prefixdiethasbeenbuiltsuccessfully.2、任务提交要求(1)提交任务运行的截图,放在下面E:32424python.exeE:32424PyCharmCommunityEdition223.3.5pythonProject9.1.1.py,8.42.1BuildingprefixdietfromthedefaultdictionaryDumpingmodeltofilecacheC:Users32424AppdataLocalTempjieba.cache精确模式i路,不,,三t,不得,小便,路,不
5、通行,不得,在,此,小便全模式:路,不通,通行,行不得,不得,小便,路,不通,通行,行不得,不得,在,此,小便搜索引擎模式:路不通行,不得,小便,路,不通行,不得,在,Jfcr小便加入新词后的精确模式:路,不通行,不得,小便,路,不,通行,不得,在此,小便Loadingmodelcost8.495seconds.Prefixdiethasbeenbuiltsuccessfully.进程已结束,退出代码为B(2)提交任务的代码jiebaU(jieba.).IST路不通行不得小便路不通行不得在此小便,卜CSukJi班4七应6),卜力八1(精确模式:/CSt)vreilt-jiebaJcit(j=
6、Tnxc).cs土司匕Ck(三),匕加(,搜索引擎模式:/cs|/。4。44_卬。匕4,计算机编程语言)卜CS”化守icb4.ct(三),加入新词后的精确模式:/CS化)|3、参考答案及解析/范例11-1jieba库的三jgpy一,712Tjieba库的:种豆诃模式2importjiebaprint(jieba._version_)5S=,路不通行不得在此小便路不通行不得在此小便result=jiebacut(三)#,1PPint(精确模式:,result)9result=jieba.!cut(sicut.all=True)#二Print(”全模式*11iresult)12result=jie
7、ba.lcut_for_search(三)#一TPPintr搜索引擎模式:”,result)1516 /#jieba.enablepaddle()装动PaddIe型式.49旗之辰笈的文杨枭期版有不支持17 tfresult=jieba.cut(s,usepaddle=True)#使用P(IddIe模式18 #print(,paddleu,result)19jieba.add_word(计算机编程语言)并入,result=jieba.lcut(三)#IPPint(加入新词后的精确模式,result)23解析略任务二:英文文本解析1、任务内容编写程序,对一个txt格式的英文文章(比如english
8、txt)进行文本解析。(1)程序提示输入一个英文文章的路径。(2)打开该文件,并读取全部内容。读取文件时请注意字符的编码格式。字符转换为小字,并把特殊字符“!”#$用()*+/:K=?、_I”删除。(3)进行分词和统计,把前10个高频词显示出来。(4)要求关键代码做好注释C:ProgramFilesPython39python.exeDlyj写教材/Python/配套素材/=人请输入要打开的文件路径及名称,以txt结尾:d:/english.txtyoutoiwho$theX盲havethosethatwantandmake2615l98866662、任务提交要求(1)提交任务运行的截图,放
9、在下面forchin,!#$%()*+/:;=?0A_I,:C:Users3224Desktopkk.txt1245672技术部2组织2吉安2光电2徐一航1你好1书上1台湾1回归1进程已结束,退出代码为0(2)提交任务的代码I():I仇430二加NK请输入要打开的文件路径及名称,以七乂七结尾:fo-(fnaej二).Itxt=f0%qd().Itxt=txtJoWC匕()If。匕Chi八!#,()为+Itxt=txt.replace(Ch,),txtl#调用函数W0%=k4wcttt.sp七()卜OU心二.IwodWOds:Ico”八tswokdj=COU八ts.gct(WOrdJ)十,1CH
10、S二(CO八芯/七CHASO)卜tcnS.sort(kcg=ShaSWmx:xLHe/eHSC=7Vc)|Ii():.IWo匕d,co八七二itCmSprii.t(ll5,ll.forat(ordjcoit)i3、参考答案及解析一英文文本解析,py2#定义;个函数defgetext():Tname=input(请希入要打开的文件路径及名称,以txt结尾:)foopen(fnane4encodings1UTF-S)txt=fo.read()#.read():,:VLtxt=txtower()#仃、forchin,!#$%()*+/:;=?(aA_|:txt=txt.replace(chf,)re
11、turntxt#现用的数hamlettxt=getext()#进行分间和统H胤U悬搔文室史恿量越黑室整式收二位二全的宴愚/f将康累保查成姆代葺友义:力能*惠碧L因为赛fl雷里集曼烈族集通出理的次数隹为;二便瞳冠#遍历WOrdS列表的每一个值WOrdS=hamlettxt.split()counts=Torwordinwords:countsword=counts.get(word,0)+1Items=Iist(counts.items()items.sort(key=lambdax:xl,reverse=True)foriinrange(10):wordzcount=itemsiffitems
12、ihprint(:5.format(wordfcount)解析略任务三:中文文本解析1、任务内容编写程序,对一个txt格式的中文文章(比如学习强国简介.txt)进行文本解析。(1)程序提示输入一个中文文章的路径。(2)打开该文件,并读取全部内容。读取文件时请注意字符的编码格式。(3)进行分词和统计,把前10个高频词显示出来。在分词时需要使用Iiebiao=Jieba.Icut(txt)进行分词。(4)要求关键代码做好注释C:ProgramFilesPython39python.exe11D:lyj/写教材/Python/酉1套素材/实训任务二请输入要打开的文件地址及文本名称,以txt结尾,路径
13、要使用/:/学习强国简介Buildingprefixdietfromthedefaultdictionary.ALoadingmodelfromcacheC:UsersADMINIlAppDataLocalTempjieba.cache三iLoadingmodelcost0.638seconds.若Prefixdiethasbeenbuiltsuccessfully.j学习66强国30平台22上线17201916手机8228思想7127PC6客户端6建设6习近平5中国5202152、任务提交要求(3)提交任务运行的截图,放在下面WUPU,UUUllL-JLLtJ川、L-LJ八八八IndexEr
14、ror:listindexoutofrange1245672技术部2组织2台湾2吉安2光电2徐一航1你好1书上1回归1当归1江西11见图为只读1(4)提交任务的代码Ijicba.版加g斗(请输入要打开的文件地址及文本名称,以伙亡结尾,路径要使用/:)|o-(fnaj=).II血4。7/血Ct(t比).,OU也二.IWd(icbia。:,IcontswordJ=CO八ts.gct(W0-djO)+WJtCHAS=(CO八2S.itCHASO),cnS.sort(kcg=ShaSWmx:xJ/c/chsc=7V“c)|():IWord簿Oa八2二ctslpn八t(:5了.fOrVv4t(wOHdJ
15、Cotmt)巾中文文本解析,pyimportjieba3 螺匙女ISname:input(请给入要打开的文件地址及文本名称,以,txt结尾,路径要使用/:)fo=open(fnamezencoding=utf-8,)txt=fo.read()Iiebiao=jieba.Icut(txt)#counts=forwordinIiebiao:iflen(word)=l:continueelse:countsword=counts.get(word,0)+1items=list(counts.items()items.sort(key=lambdax:x1zreverse=!rue)#:foriinr
16、ange(15):word,count=itemsiprint(,:5.format(wordicount)解析略4 .实训心得体会实训任务:wordcloud词云的使用学校名称:班级名称:学号/工号:学生姓名:实训旧期:(5) 了解Jwordcloud词云的基本功能(6) 熟练掌握wordcloud词云的安装(7)熟练掌握使用WOrdChUd词云按指定的图形,生成目标图片结果(8) 掌握wordcloud的常用参数的应用(9) 掌握使用wordcloud,生成英文词云(IO)掌握使用WOrdClOUd,生成中文词云2 .实训环境普通电脑,并安装以下软件:(4) Windows7(或者以上版本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python Python实训九 “结巴”中文分词库的使用 实训九 结巴 中文 词库 使用
