《自然语言处理技术》——实训11 垃圾短信分类.docx
《《自然语言处理技术》——实训11 垃圾短信分类.docx》由会员分享,可在线阅读,更多相关《《自然语言处理技术》——实训11 垃圾短信分类.docx(6页珍藏版)》请在三一文库上搜索。
1、项目3深入文本进阶处理垃圾短信分类1实训目标(1) 能够进行中文分词和去除停用词的操作。(2) 掌握TF-IDF向量化器的使用以及对应的向量化文本数据的方法。(3) 掌握skleam库中MultinomialNB分类模型的使用方法。(4) 掌握模型评估中的计算准确率与模型优化的方法。2实训环境环境版本说明Windows1064电脑操作系统Python3.8.5Python语言版本pandas1.3.0主要用于数据读取、清洗等操作NumPy1.21.6主要用于Python中的数值计算jieba0.42.1主要用于文本分词Gensim4.2.0主要用于检索文本、计算文本相似度、训练词向量、建模主题
2、等Matplotlib3.3.0主要用于数据可视化PaddlePaddle2.4.2是一个深度学习框架,提供了高效的计算框架和优化算法PaddleSpeech1.2.0主要用于语音和音频中的各种关键任务的开发scikit-leam1.0.2广泛地用于统计分析和机器学习建模等数据科学领域Librosa0.8.1主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库NLTK3.5是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等SciPy1.7.3是一个科学计算工具包,可用于数学、科学、工程学等领域pyttsx32.9.0主要用于将文本转换成语音3实训说明
3、垃圾短信分类任务是指将一组给定的短信文本进行分类,判定其是否为垃圾短信。该任务通常是一个二分类问题,其中垃圾短信被视为正类,非垃圾短信被视为负类。垃圾短信分类任务的目的是让计算机自动识别垃圾短信,以便有效地过滤掉垃圾信息,提高用户体验和安全性。常见的应用包括垃圾短信过滤和网络安全等领域。因此,垃圾短信分类任务的研究和应用不仅是为了提高用户体验和安全性,更是为了践行社会主义核心价值观中的公正、法治等原则,推动社会主义现代化国家建设和网络治理的进步。垃圾短信分类的基本流程如图3-1所示。数据预处理一特征工程一模型训练一模型评估图3-1垃圾短信分类的基本流程4实训步骤4.1 数据预处理数据预处理需要
4、经过加载停用词表、加载数据集、中文分词和去除停用词的步骤。数据预处理如代码3-1所示。代码3-1数据预处理importjieba#导入jieba库importpandasaspd#导入pandas库importnltk#导入nltk库fromnltk.corpusimportstopwords#导入停用词# 加载停用词表withOPenc./data/StoPWOrdSHlT.txt,T)asf:stop_words=line.strip()forlineinf.readlines()#加载停用词表并去重# 加载数据集data=pd.read_table(./data/junk_message
5、txt,sep=t,header=None,names=,labe,content)#读取文本文件,使用制表符分隔,没有表头,指定列名为label和content# 中文分词和去除停用词defcut_words(text):#定义cut_words函数words=wordforwordinlist(jieba.cut(text)ifwordnotinstop_words#对文本进行分词,并去除停用词return,.join(words)#返回分词后的文本,单词之间用空格分隔data,content=datacontent,.apply(cut_words)#对dataconten门中的文本进
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言处理技术 自然语言处理技术实训11 垃圾短信分类 自然语言 处理 技术 实训 11 垃圾 短信 分类
