传统方法和深度学习的情感分析.doc
《传统方法和深度学习的情感分析.doc》由会员分享,可在线阅读,更多相关《传统方法和深度学习的情感分析.doc(2页珍藏版)》请在三一文库上搜索。
1、传统方法和深度学习的情感分析1.问题Kaggle竞赛Bag of Words Meets Bags of Popcorn是电影评论(review)的情感分析,可以视作为短文本的二分类问题(正向、负向)。标注数据集长这样:评价指标是AUC。因此,在测试数据集上应该给出概率而不是类别;即为predict_proba而不是predict:# random frorest result = forest.predict_proba(test_data_features):, 1 # not predict result = forest.predict(test_data_features)采用BoW
2、特征、RF (random forest)分类器,预测类别的AUC为0.84436,预测概率的AUC则为0.92154。2.分析传统方法传统方法一般会使用到两种特征:BoW (bag of words),n-gram。BoW忽略了词序,只是单纯对词计数;而n-gram则是考虑到了词序,比如bigram词对dog run、run dog是两个不同的特征。BoW可以用CountVectorizer向量化:from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(analyzer=
3、word, tokenizer=None, preprocessor=None, stop_words=None, max_features=5000) train_data_features = vectorizer.fit_transform(clean_train_reviews)在一个句子中,不同的词重要性是不同的;需要用TFIDF来给词加权重。n-gram特征则可以用TfidfVectorizer向量化:from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer(ma
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 传统 方法 深度 学习 情感 分析
链接地址:https://www.31doc.com/p-3377162.html