Skip to content

Latest commit

 

History

History
27 lines (17 loc) · 1.88 KB

README.md

File metadata and controls

27 lines (17 loc) · 1.88 KB

figure1

Movie_grades

一个有关电影评分回归的集合,包括情感分析模型和打分回归算法,一共六个模型代码,两个回归算法结合三个语言分析模型。 newdata.csv是爬取豆瓣上电影的中文短评和对应打分,new_test.csv用的是张艺谋的《无极》,newdata.csv一共是39部电影,3765条评论,1星到5星近似均衡分布,需要提前下载好torch等对应库。 figure2

爬虫数据的信息

figue3 原始爬取6648条0-5星的评论,删除只有评论没有打星的数据样本,均衡采样1-5星的样本,去除包含大量表情的文本样本。最后用3765条均衡数据用于后续的情感分析。

情感分析结果

figure4 figure5 Bert模型需要有良好的数据集和充分的训练量作为下游任务的微调,才能取得好的性能,Snownlp模型基于购买场景的评论,并不完全适用电影评论数据的情感分析,而Snownlp plus在Snownlp的基础上引入了3百万条电影评论数据的训练。

建立情感分析结果和电影评分的回归联系

figure6 image

实验总结

image