《自然语言处理技术》——实训8 Word2Vec词向量的训练.docx
《《自然语言处理技术》——实训8 Word2Vec词向量的训练.docx》由会员分享,可在线阅读,更多相关《《自然语言处理技术》——实训8 Word2Vec词向量的训练.docx(4页珍藏版)》请在三一文库上搜索。
1、项目3深入文本进阶处理WOrd2Vec词向量的训练1实训目标(1)掌握PandaS库的数据读取流程。(2)掌握使用jieba库对中文文本进行预处理的流程。(3)掌握使用Gensim库的Word2Vec模块对文本数据进行向量化处理。2实训环境环境版本说明Windows1064电脑操作系统Python3.8.5Python语言版本pandas1.3.0主要用于数据读取、清洗等操作NumPy1.21.6主要用于Python中的数值计算jieba0.42.1主要用于文本分词Gensim4.2.0主要用于检索文本、计算文本相似度、训练词向量、建模主题等Matplotlib3.3.0主要用于数据可视化Pa
2、ddlePaddle2.4.2是一个深度学习框架,提供了高效的计算框架和优化算法PaddleSpeech1.2.0主要用于语音和音频中的各种关键任务的开发scikit-learn1.0.2广泛地用于统计分析和机器学习建模等数据科学领域Librosa0.8.1主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库NLTK3.5是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等SciPy1.7.3是一个科学计算工具包,可用于数学、科学、工程学等领域pyttsx32.9.0主要用于将文本转换成语音3实训说明在实际应用中,Word2Vec模型通常是预训练的,然
3、后在下游任务中进行微调。例如,在自然语言处理任务中,可以将Word2Vec模型用于词向量的表示,然后将这些向量输入到分类器或者其他模型中,以完成各种自然语言处理任务。在使用WOrd2Vec模型进行词向量训练时,通常可以使用开源工具库如GenSim、PytorCh等来实现。这些工具库提供了一系列接口和函数,使用Gensim库可以很方便地实现Word2Vec模型的训练和使用。本任务使用从搜狐网站中爬取到的新闻数据,包含的特征为新闻内容和新闻类别,共计1999条数据,部分数据如表3-1所示,对Word2Vec模型进行训练。表3-1新闻数据信息(部分数据)新闻内容新闻类别昨天下午,广州市政府常务会议审
4、议通过广州市综合交通发展第十三个五年规划。“十旅游昨天开始进入“黄金周”很想出去玩又怕人人人人人又不想天天在家葛优躺旅游昨天,微博博主“小5啊”发起了一个征集一一有一种尴尬叫做:给你看看当年你写给教育昨日,省教育考试院发布了关于广东省2016年普通高等学校招生专业目录更正及增补的通教育最新消息:喜大普奔!国务院日前批复同意将惠州市列为国家历史文化名城啦!继广旅游*1、潮河4实训步骤4.1 数据读取数据格式为CSV文件,可以使用Python中的pandas库中的read_csv函数读取数据集。文本数据读取如代码4-1所示。代码4-1数据读取importreimportpandasaspdimpo
5、rtjiebaimportgensimfromgensim.modelsimportWord2Vec#加载Word2Vec模块训练词向量fromgensim.models.word2vecimportLineSentencedata=pd.read-csv(,.datanew.csvheader=None)data.columns=新闻内容,新闻类别4.2 文本数据预处理在数据读取的基础上,对文本数据进行预处理的工作,其中包括文本去重、分词、去停用词等环节,以便为后续WOrd2Vec模型训练打下基础。文本数据预处理如代码4-2所示代码4-2文本数据预处理# 数据预处理temp=data.con
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言处理技术 自然语言处理技术实训8 Word2Vec词向量的训练 自然语言 处理 技术 实训 Word2Vec 向量 训练
