Skip to content

检查实验报告内容的相似度。 实验报告以word文档形式存在,doc或docx为扩展名。 使用simhash算法检测。

Notifications You must be signed in to change notification settings

youngsamwei/CheckExperimentSimilarity

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

CheckExperimentSimilarity

检查实验报告内容的相似度

实验报告以word文档形式存在,doc或docx为扩展名。 使用simhash算法检测。

程序入口

cn.sdkd.ccse.cise.ces.Main

说明

使用hanlp分词。

采用单线程和多线程两种方式运行,默认采用单线程方式运行。

多线程方式借鉴jay-bill/check-similarity

修改日志

2018-05-24 处理从蓝墨云班课中导出的文件夹,每个文件夹对应一个学生,一个文件夹中可能有多个提交文档

2018-05-20 按照相似度从大到小的顺序排序,按照(文档1, 文档2, 相似度)格式,若相似度为1,则非常大的概率是雷同文档。 相似度为0.98的文档中也可能存在一些雷同的,比文档1是文档2的子集。

About

检查实验报告内容的相似度。 实验报告以word文档形式存在,doc或docx为扩展名。 使用simhash算法检测。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages