1、目录项目I迸入自然语言处理世界1可.fNLP11 实训目标12 实训环境13 实训说明I4 实训步骤24.1 安装Pyihon环境24.2 安装NLP相关年104.3 下找数据集154.4 测试环境配置是否成功155 实训小结15项目1进入自然语言处理世界配置NLP环境1实训目标(1) 能覆安装Pylhon环境.(2) 健弊安装NLP相关库.(3) 能够下教数据集.(4) ffe筋测试环境配词是否成功,2实训环境环境Kt*说明WindowsIOM电脑掾作系统Pylhun3.&SPythonift皆版本pandas1.3.0主要用于数箱读取、清洗等操作NmPy1.21.6主宴川十PyIhOn中的
2、数值计算jicha0.42.1主要用干文本分词Gensim4.2.0主要用于检索文本、计算文本相似度、加族词向术、建模主题殍Maiploilib3.3.0主要用于数IK可视化PuddIePaddIc2.4.2足个深度学习板架.搬供了高效的计口板架和优化算法PaAiIeSpcixh1.2.0主要用于语音和音领中的各种关Bt任务的开发Scikit-Icam1.0.2广泛地用于统计分析和机器学习建模等数据科学戳域LibrOKIEa用分析版的许然他号.足一个季常强大的Pyihon语音仙号处理的第三方保NLTK35是一个常用的自然i*处理工具包,可用于文本处理、好义分析.同性标注等SciPy1.73是一
3、个科学计算工具包,可用于数学、科学.工程学等领域PynSX32.9.0主要用于将文本转换成语者3实训说明自然语言处理(NLP)是指利用计算也对自然语言的形、书、义等信息进行处理,即对字、闻、句、笈章的输入、1出、识别、分析、理解、生成等进行操作和加工的过程.NLP是计算机科学领域以及人工智能领域的一个无要的研究方向,是一门融语言学、计修机科学、数学、统计学于一体的科学.NLP的具体表现形式包括机满翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等,诳入自然语言处理世界前需要配汽NLP环境。4实训步骤4.1 安装Python环境安装Atiaconda的基本步暇如下。卜或Anaco
4、nda安装包,由于AnaConda官网网站不提供历史版本,所以需要通过官方镜像或国内镜像源进行下教,本顶口将安装2020.07版本的AnaCOnda.此处将通过清华镜像源下软AnaConda安装包,即打开清华大学TUNA网站,并电击“开源镜像站”图标,如在镜像列表中找到“anaconda”选项,并单击进入.如图1-2所示.,O20233282036VSCoSumO20236281501EgI3dobc-fort5202382822:30Wm2O23O2909:29JrUlanCUQ2023052905:59411thcO202332911:2035p-*vcrtN20236291106JPAC
5、he202362911:35rchQ202362910:44MCnuQ3OS2913:23archinu11Q2O23OS29O923rchir三xr202382914:13aW)Un20230S29048图1-2找到-anaconda并单击进入在anaconda列表中,单击warchive/进入Anaconda历史版本页面,如图1-3所示,*用3开EmlM04vwnKOQMMKOCAtf。Indexofnacod1UMU20116K8”raAA0Arcftv/22I-MUSX7:15mm”八e*1rUcM/22J-MMW:W6:11MlM3c.t*n?217l271:?Sl1-3查看AnaC
6、onda历史版本在archive列表中,找到“AnaCOn由32O2O07”开头的文件,选拜与自己计分机对应的操作系统版本,并进行卜佛本项目以Windows操作系统为例,iAnaconda3-2020.07-Windows-x86_64.exe即可进行下敦,如图1-4所示,:g32eZ,lVHnc0c64k.290.4HlB23M9225M*c2432eZ.07lMH%,%h5S.1WB2920-07240:25Ancoftfla32e2.eyH*c(6.64.p2:25An*coG322.e7.MlMo*S6.x397.3KlB2e-07242:25A11corM3-2920.07windo
7、wsM64.tie而5RlB22-7-2492:26图14选择对应版本下我AnaConda安装包下载完成后,双击已下栽好的安装包,单击“Nexi”按钮,如图15所示。OAnACOnda32020.07(645)SetupWdmetoknanda3202007QZO0z(64-bit)SetupSetupMlguideyouthrouhtheCStafotmofAnaconto32020.07(6brt).it6recommendedthatyoudoselotherppk0o11sbeforeStAftrtgSetup.TheWimakeitPoefibietoupdaterelevantsy
8、stemIfcswthouthamgtorebootyourccxxer.SckNexttocontinue.图1-5单击“Next”按钮单击“lAgm”按钮,同意相关协议并进入下一步,如图1-6所示.OAnacoda32020.07(64-bit)SetupOANACONDALiceraeAonsonentPleasereviewNkensetermsbeforertfenAndCOnda32020.07(Mt).PressPaeDowitoseetherestoftheagreement.ErxlUserUcemeAgreenent-AnKOnddIfdrvdalEdtwCopyrK2O1
9、S2O2O,Andcondd4Inc.AlEhtSreservedunderthe3*dauseBSDLicense:ThsEndUserlicenseAgreement(the,AgreementTt$agagreemntbetweenyouardAnacondafInc.CAndcondaTandQOVefnSyouruseofAnacondandvddEdition(*dweformerlykn*n&sAnacondaOstnbutxxi).IfyouaccepttetermsoftheagreementdkkIAgreetocontinue.YoumustaccepttheAgreem
10、enttoratalAnaconda32020.07(64it).AncndalInc.w,Yl-it11.并单击NCXt按钮进入下一步.OAnaConda32020.07(64bit)SetupSelectInftdlIdtiOnTypeJANACONDAFaseselectthetypeofrjtalabonyouBcetoperformforAacond32020.07(64t).Imtalfbr:OJustMe(recommended)OAlUsersSouresadnPrtVleg)CarxdE1-7送择所有用户管理权限单击Bg”按钮,选择合道的安装跖径,如图1-8所示(注:路径名称
11、最好为全英文).选择完成后单击“Next”按钮进入下一步.OAnacondaJ20207(64bit)Setp-XChooeeInstdMLoCdtionJANACONDAChOOeethefoMernWHChtoredAnaConte32020.07(6M).SetuptratalAnaconda32020.07(64t)nthefolowngfoWer.ToInStalmadifferentfolder,dckBrowseandselectanolherfolder.CkcfcNexttoconbcue.DeehnabonFoIdefEAnacondBrovwe-SPKerCqUrp2.7
12、GBSpaceavttbb:144.SG8AnMgdd,MCencd图18选择安装路径跳转到图-9所示的界面:第一个选项非示AnaConda自动添加环境变收,本项目将不做勾选,因为自动添加环境变量后,使用时有可能会出现问题,以致于后续需要手动添加环境变量:第二个选项表示Anaconda使用的Python版本为3.8.此处将勾选以配置Python3.8, 然后单击-Install按钮,开始安装。OAnacondaB2020.07(64bit)SetupOANACONDAAdvancedknstallaticnOptionsCustomzehwAnaconddintegrateswithWrXbM
13、AdvancedOpttonsOAddAconda3tothesystemPATHenvronmentvanableNotrecommended.InsteodfopenAnoCOnda3*wththeWndoWSStartmenuandMetAnonte(64-bt)*.IhsddtoPATH,OPgnmatesAnocondagetfoundbeforepre%oudnstaledSOftWOre,butmaycauseprobrequrrgyoutoUnnStalandrenstalAnaaxxfe.RegeterAndConda3asthesystemPython18ThewalMot
14、herprograms,sucaRythgTooHforWsualStudoPyCharm,WngIDE,PyOev,andMSlbnaryPAdcagesrtoautomabcalydetectAnaconddasthePrmaryPytbonX8thesystem.BddcInstolConcd(S1-9环境配置选项安装完成后,将会出现“InSIanatiOnCompdeie”提示,此时单击“NeXlz如图1-安所示.OAndCOrXfo32020.07(64bit)SetupOANACONDAInstallationCo(TplctOConnietedShowdetakSetupWaSG
15、XrptetedSwccessfufy.AnacondavInc.JCncd图l10InstaHationCOmPClet。”提示in*B9WXffF.11a%,名,KK-mURC;.WHHQmt三MX”.I-M20MUJiM*门4-PIi-Klf*“rx借ElUId*人碑0,中.Mii11t:务.IMiHmtvn*.JiMi1$电/.sVi?.WtaiiiKMH*B1BH.AflKM4jitYRE.11nrMD.*cvw,a,g,*W.-M-AgjKIS.1vF,ib.HtR4r.temIMM.mMbaW彳*皿或M3*iztfR寄.48年.内公召“8”2UMfflwe.9HMVa5rtFHf
16、41,RfMIfJB*X总乞”v.tf.、心量v*八八y.4M*W.5UmWfSRgSi5Q.fM.3他“九,UHWfCfrRFA-KHII1.I.411*m*:wfto.HmtJHut.lutfraHMrtR*.RUk11lM1lf*)MA.IMaCAgMXMait.WXaR怒NtKg3ZCifA化*图L17检辑AnaConda是否安装成功4.2安装NLP相关库AnaConda已经自带有大部分昨于,也没行的库,可以使用PiPinNall命令进行安装,例如,安装NLTK库在CMD中粕入如下命令.即可完成安装.pipinstallnlk=3.5(注:/l:jupytcrnotebook卜,ft入
17、的是!pipinstallnltk=3.5)除此之外,本项口还需要安装的NLP相关陈如表1-1所示。我1-1需要安笠的NLP相关出鼻名JK*安装命令NLK3.5PiPinstallnllk=X5jicba0.42.!pipinsultjicba=O.42.lskkumcrfsiic0.3.6pipinstallskkamcrfsuitc=0.3.6pandas13.0pipinstallpandas=1.3.0Gcnsim4.2.0PiPinstallgcnsim=4.X()PyPDEz5.0.1pPDb2=3.0.1NumPy1.21.6PiPinstallnumy=L21.6PyhQnlP
18、0.1,pipinstallPyhIlnlP=0.1.84ikitlGim1.0.2pipinstallSCikmICam=I.0.2Malptulhb5.3.0PiPinstallna(p!ullb-.3.0nowNLP0.12.3PiPinstallnownlp=0J2.3Imagdo2.26.0pipinstallimngcio=2.26.0IOi:t*,&s*wl-3M54vw9lJNsS*44wii5f上xUf=MiYB2三iX-xayZottrf。一cc42ClUo*交*9qrJC11*m1-it-351HiziliillllH11113SS111S358HSSSHSvagmds.
19、2mwwBM2H*=aflhc*iH44cvr*iA-mtcf.“ig*ClfIt*.品叶以11,十,#104帆,f!”以代&CtMMKVfl”电电”El20出丸.BAacW*MttTB,ft4X%XMlMA*11rt11lOM*.4U3MHCltQKM4BiH*JNrfttfftil.VIMA样fiMMVIXICVIlCfcMricUFdhftHrtl4ikflhtM*MF,&n置”11ciDmiifFal!hi-22.Y.XCnCI.KGM!T*XCM4.,,父n.5n*(rz内*SNE.*c.dh-rte.U;,1(DaAryi)VthnH-!UE4JSl34114i.ioty.frt
20、ra*图1-24查看1.4.0版本的PyTorch复制图1-24红色板中的代码,即LinUXandWindOWS下的代码,在开始菜单栏下,打开“AnaCondaPromP”,并将更制后的代码进行粘贴后运行,即可成功安装IynMCh。在所有库安装完成后,打开“AnagndaPmmpf,给入“condalist”命令.即可查看所有已经安笠的原,其中,包含AnaCOnda自带的标准库,如图1-25所示,可以清晰查看到本项目安装后的PyPDF2和PyhanIP库。图1-2S查看所有已经安装的库4.3 下载数据集在进行NLP任务时,许要使用相应的数据集,如自然语言处理语科薛(NLTK数据集)slopwo
21、rds、Wordnet等”打开Python解择器,输入、运行如代码I-I所示的代码,下歌NLTK数据姒代码1-1下载NLTK数据集*N*NLTK所需的语料库包括分诃:.停用K、词性标注器和WcnINet等)importnltknllk.wnkd(punkla)nhk.d(vnloidlMnpworicrcqcronjgcfr)nltk.downloadC4.4 测试环境配置是否成功打开PyIhOn解铎涔,输入、运行如代码1-2所示的流试代码,测试环境配置是否成功.代码L2测试环境配2是否成功“定义一个文4字符H;.时其进行分词,得fokem(CKl=Hdlo.world!Thisisasamp
22、letextforNLPanalysis/*tokens-nltk.word.okcnzc(exrinl(keu)“从NLTK作中荻取英浦停用词先过i拉SkenS中的停用词.J5Jniteredjkcnsstop-wo11ls=sct(nkk.cos.stop*notinsto.ords)Prinl(fiIlenrd.tokens对tokens进行词性标注得到JXMLM斜posJAgs=11kk.posjag(tokcns)Prim.faD).anie.JJ,).(text,.NN).CforIN).CNLF.NF).(analysis.,NN*(V.V)5实训小结技术点自守法标未达标掌批安装PylhOn环境的基本方法能移安装NLP相关阵秣K卜戢数幅奥的方法能够测试环境配艮足杏成功心将体会城8到的角&蛛方法、存在的不足之处等).