随着科技的进步,人们对网络依赖的加深,大量的信息在网络上共享,在方便了我们日常生活、学习和工作的同时,如何快速有效地找到我们所需要的信息就成为了关键。本论文通过分析文本查重的意义与方法,以及中文分词的各种算法与作用,阐述了中文分词是文本查重的重要基础,并通过中文分词算法中的正向最大匹配算法,以及文本中重复词汇、短语的统计得到重复率,实现整个文本查重系统的设计。
[关键词] 中文分词算法;正向最大匹配;重复率;文本查重
功能模块的说明:
(1) 打开文本文件
系统的使用者可以通过打开文本文件的功能打开任意所想要对比的文件,并设置两个Button来分别打开源文件和对比文件。其中需要注意的是打开的文件必须是.txt格式。
(2) 文件另存为
系统的使用者可以通过文件另存为的功能保存分词后的源文件、对比文件以及分词结果。
(3) 文本分词
系统的使用者可以通过文本分词的功能进行对比前的分词处理,并设置两个Button来分别对源文件和对比文件进行分词。
(4) 文本对比
系统的使用者可以通过文本对比的功能对源文件和对比文件进行对比。需注意的是,对比前需要先使用文本分词功能分别对源文件以及对比文件进行分词,否则无法对比。
(5) 文本清空
系统的使用者可以通过文本清空的功能对源文件和对比文件的显示框中内容进行清空,以方便下次的打开文本文件功能、文本另存为功能、文本分词功能以及文本对比功能。需要注意的是,再保存需要保存的记录后再予以清空,以防重要信息的丢失。
(6) 显示结果
每次系统进行加载词库、文本分词、以及文本对比时都会进行提示,并显示分析结果以及各项活动所耗时间。
2.1.3 分词的基本过程
(1) 分词前的词库加载过程主要是建树的过程,经过建树使文本与词库可以进行层层的对比,方便分词的进行。首先读取词库,以下行不为空为条件循环按行读取词库文本中的数据,并以首字符索引是否存在为条件判断是否需要向树中添加关键词,以下一个字符不为空为条件循环添加至最后。
目 录
1 背景与意义 1
1.1 背景 1
1.2 分词的意义 1
1.3 分词的难点 2
1.4 常见分词算法 3
1.4.1 基于字符串匹配的分词(又称作机械分词方法) 3
1.4.2 基于理解的分词方法 4
1.4.3 基于统计的分词方法 4
2 系统分析 5
2.1 文本查重系统的需求分析 5
2.1.1 性能需求分析 5
2.1.2 功能需求分析 6
2.1.3 分词的基本过程 7
2.2 可行性分析 8
2.2.1 经济可行性分析 8
2.2.2 技术可行性分析 9
2.3 开发平台分析 9
3 系统设计 10
3.1 系统相应的模块 10
3.2 系统功能模块的介绍 10
4 编码与实现 11
4.1 词库加载的实现 11
4.2 分词处理的实现 13
4.3 对比查重的实现 14
4.4 对比结果显示 15
4.4.1 运行时间的显示 15
4.4.2 结果显示 15
5 系统运行与测试 17
5.1 系统的运行 17
5.2 系统的测试 22
5.2.1 模块的测试 22
5.2.2 系统的测试 22
结束语 24
参考文献 25
附录 26
致谢 30