一种充分利用现有资源的开放性作业查重系统设计.doc
《一种充分利用现有资源的开放性作业查重系统设计.doc》由会员分享,可在线阅读,更多相关《一种充分利用现有资源的开放性作业查重系统设计.doc(3页珍藏版)》请在三一文库上搜索。
1、一种充分利用现有资源的开放性作业查重系统设计1 引言 随着时代的变化,教育观念的进步,对教学效果的评价方式也日趋多样。开放性作业以其生活化、实践性等特点,能够激发学生的自发创造力,提高学生教学参与,成为广大高校教师的新选择。 开放性作业实施过程当中存在以下问题: (1)作业大部分依然以纸质形式存在,不易于长期存档和查询。 (2)作业完成存在许多相互抄袭的行为。给老师的评分的公平性带来了很大的挑战。大部分学校现在都购买了论文查重或科技查新服务,却鲜有学校能够进行开放作业的查重。 为解决以上问题,我们提出了一种充分利用现有资源进行开放性作业查重的系统设计方案。该方案充分利用现有资源,能够大幅降低系
2、统成本,在教师教学经费并不充裕的情况下能够大范围的推广。 2 总体方案 系统流程按照先后次序分为开放作业提交、开放作业收集、开放作业查重三个步骤。 2.1 开放作业提交方案 传统考试系统提交一般是自己开发web界面,将学生的前台数据获取并存入后台数据库。该方案需要开发前台Web界面,后台数据库设计,需要购买服务器并且很难保证数据的安全。为了最大限度的降低系统成本,我们要求每个授课教师注册一个博客帐户,每个上课的学生注册一个博客帐户并关注该授课教师。学生在博客系统中进行作业的编辑、录入,并以博文的形式发布作业,博文标题需要是老师给的作业标题。 2.2 开放作业收集方案 该步骤完成开放作业的收集存
3、档工作。初始化爬虫爬取页面为授课教师博客页面。获得关注该授课教师的所有学生粉丝的列表。对该列表进行遍历获得每个学生的博客ID,并进行网址补全,得到每个学生博客页面的地址。爬取每个学生所有的博文,获得博文标题、博文作者、博文内容、博文发表时间等信息。将这些信息一方面以Word形式存到教师PC机上进行存档,另一方面存放到教师PC机上的MYSQL数据库中以供查询。 2.3 开放作业查重方案 该步骤完成开放作业的查重工作。该步骤采用的主要算法是google公司提出的simhash算法。通过分词算法将文本表示成向量形式,通过simhash算法将其转换为二进制的文本指纹表示,最后计算两段文本指纹之间的海明距离,得到作业之间的重合程度。该步骤中使用IKAnalyzer工具包进行中文文本的分词,得到一个重复率得分矩阵。 试运行结果如图1。 可以看出作业1和作业2应该有抄袭嫌疑,只是更改了语句顺序,作业3则没有抄袭作业1、作业2。作业1、作业2、作业3的hash码值及各个作业之间的海明距离如图2所示。 3 结论 提出了一种新充分利用现有资源的开放性作业查重系统设计方案。利用现有的博客系统进行作业的提交,通过爬虫将开放性作业自动收集,通过simhash算法得到开放性作业的重复率得分。系统设计中最小化硬件及软件开发方面的投入,避免了安全方面的投入,部署较为简单,适合大范围推广。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 充分利用 现有 资源 开放性 作业 系统 设计
链接地址:https://www.31doc.com/p-1591949.html