知道科学文献索引的索引怎么把它搜索出来

点击联系发帖人 时间：2017-07-15 15:22

论文参考文献索引

您的访问出错了(404错误) 很抱歉，您要访问的页面不存在。 1、请检查您输入的地址是否正确。进行查找。 3、感谢您使用本站，3秒后自动跳转至网站首页当前位置： >> 中文全文检索系统中索引的研究中文摘要中文全文检索系统是信息产业中发展较快的一个领域，而一个中文检索系统　　　　的核心就是索引器，本文介绍了索引器构造的不同算法模型，对相关的技术进行了比较，分析了各自的优缺点和实现难点，提出了一种中文全文检索中索引实现的数据结构和新型的算法模型。本文首先综述了中文全文检索中索引构造的相关技术，主要包括索引文件数　　　　
据结构、索引单位选取和索引压缩算法。在上述综述的基础上，本文采用了基于单字的倒排表文件格式和可变字节编　　　　码压缩技术实现了整个索引系统。该系统包括三方面的功能分别是：文本预处理、索引创建和索引更新。在文本预处理部分实现了中文、外文和特殊字符的分离，同时实现了停止词　　　　（ｏｏ　　ｗｒ）的ｓｐ　ｄ删除。ｔ在索引创建部分本文首先给出了一种基于传统倒排表的索引创建算法― 合　　　　并排序式索引创建算法，该算法需要源文本１倍大小的临时空间。解决合并０为了排序式索引创建算法临时空间过大的问题，本文提出了一种新的索引创建方案，该方案采用分级的倒排表索引组织结构和链式顺序混合存储的方式。它不仅不需要额外的临时空间，而且还提高了索引创建的效率。在索引创建的过程中本系统采用了可变字节编码压缩技术对索引进行压缩，实验表明该压缩算法将索引文件大小减少了２－００３％．在索引更新部分本文提出了　　　　三种顺序存储方式下准动态的索引更新策略，一种链式存储格式下索引动态更新的算法。该系统采用的链式存储结构下的索引更新算法复杂度达到了Ｏｎｏ（）　关键词：中文全文检索；索引器；倒排表；索引压缩分类号：Ｔ３１Ｐ９ＡＢＳＴＲＡＣＴＣｉｓＦｌｘＲｒｖｌ　ｔｉｎｏｈａｄｖｌｉｆｄｎ　　　　ｕ－ｅｔ　ｔｅａＳｓｍ　ｏｅ　ｔｆｔ　ｅｐｇ　ｌｉｈｅｅ　ｌｎＴｅｉｙｅｓ　ｆ　ｓｅｏｎｉｓ　ｅ　ｅｉｏａｏｉｕｒａｄ　ｃｒｏｔＣｉｓｒｒｖｌ　ｅｉｔＩｅｄｖｃ．ｎｒｔｎ　ｓ，　ｔｏｆ　ｈｅｅｉａｓｓｍ　ｈｎｘ　ｉｆｍｉｎｔｎｈｅ　ｈｄｙｅ　ｅ　ｎｅ　ｅｙｔｔｓ　ｄｅｅｅ　Ｔｅ　ｅａａｚｓ　ｅｌ　ｅｎａｏｉｍｏｃｎｔｃｎｔｉｅｄｖｅａｄｈｐｐｒ　ｌｅｓｒｄｆｅｔ　ｒｈｓ　ｏｓｕｔｇ　ｎｘ　ｉ，　ａｎｙｅａｉｒｌｔｖｆｇｆ　ｒｉｈｄｅｃｎｅ　ｃｍａｓ　ｒａｄ　ｈｉｅａｄ　ｎ　ｅｔａｖｎｇｓ　ｄａｖｎｇｓ　ｏｐｒｔｅｔｔｎｕｓｎｔｇｓ　ｄａｔｅａｄ　ｄａｔｅｏｅｈｌｅｅｑ，　ｈｉｈｅ　ｃｅｖｅ　ａｎｉｓａｆｅｈ　ｔｄｆｕｙ　ａｉｉ．　ａｙ　ｓ　ｅｇｅｔｄｔｓｃｒａｄ　ａａｄ　ｉｉｌｏｃｅｎＦｌｔｐｐｒ　ｓ　ａｔｔｅ　ａｃｎｈｆｃｔｆ　ｖｇｉｌｈａｉｈａ　ｕｎｅ　ｈｎｉｖｅ　ｒｕｎｗ　ｏｉｍ　ｄｌ　ｈｉｅｉｆｌｔｔ　ｉａｓｓｍ．ｅａｒｈｍｅｏｔｎｘ　ｕ－ｘｒｒｖｌ　ｅｌｔｏｆ　ｄｎ　ｌｅｅｅｙｔｇｅ　ｔＴｉｐｐｒ　ｕｍｒｅｔｅｔｔｎｕｓ　ｎｘ　ｓｔｇ　ｈｅｅ　　　　ｆｓｓｍａｚｓ　ｒａｄ　ｈｉｅｏｉｅｃｎｔｃｎｉＣｉｓｈａｅｉｔ　ｉｈｌｅｅｑｆ　ｏｒｉｎ　ｎｓ　ｒｅ　ｃｄｕＦｌＴｘＲｔｅａｍｉｙ　ｌｅｄｔｓｃｒｏｄｃｍｎｉｅｉ，　ｅｕｉｕ－ｅｔ　ｒｖｌａｌｉｕｓ　ａ　ｔｅ　ｏｕｅｔ　ｘｇｉｘ　ｔｌｅｉ，　ｎｎｄａｔｕｆ　ｃｕｒｎｎｎｄｄｎｓｅｉ，　ｘ　ｐｓｏａｏｔｓｅｃｎｉｅｃｍｒｓｎ　ｒｈ．ｌｔｇｎｏｅｉｌｉｍｄｇＴｅ　ｈｒ　，　ｐｐｒ　ｌｅｔｈｎｒｉｘ　ｔｕｎｈｅ　　　　ｅｗｙｔｓ　ｅｉｐｍｎｔｅｔｅ　ｅｓｓｍ　ｉｔｓｈｆｕｔｒａｈａｍｅｓ　ｉｅ　ｉｎｄｙｅｓｇ　ｅｔｈｉｅｓｈ　ｃａｃｒ　ｅ－Ｉｅｅｌｔａｄ　ｖｒｂｂｔｃｄｇｅｎｕｓｕａｈｒｔｂｓｏｎｒｄ　ｓ　ｔａａｌｙｏｉｃｑ，　ｓ　ａｅａｄｎ　ｔｉｎｈｉｅ　ｅ　ｎｃｖｓｅ　ｃｍｒｓｎ　ｏｔ．　ｓ　ｔｉｌｅｔｅｆｃｏｓ　ｐｃｖｌｉＴｘｏｐｓｏａｒｈＴｉｓｓｍ　ｃｄｓ　ｅ　ｔｎｒｅｔｅｓｅｔｅｉｌｉｍｈｙｅｎｕｈｕｉｅｉｙ　ｇｒｎｓ：　ｐｔａｅｔｎｅｆｎａｏａｄ　ｅｕｄｔｇｒｒｔｎｉｘ　ｄｔｎ　ｉｘ　ａｎ．ｅｅｍ，　ｏｉｎｎｐｉｄｕｄＩｔｐｒ　ｅｐｔａｎｈｓ　ｉｄ　ｒｉｏＣｉｓｆｅｎ　ｔ　　　　ｏｔｔ　ｒｔｅｔａｒｌｅｓａｔｎ　ｈｅ，　ｉａｄ　ｎ　ａｆ　ｒｅｍ，　ｅｚｅａｏｆ　ｎｅｏｇｎｈｈｔｘｅｅ　ａｐｒｅｓｃｌ　ａｅａｈｒｌｅｄｌｉｏ＂ｔｗｒ＂ｐｉｃａｃｒｎａｅｉｄ　ｔｎ　ｓｐ　ｄ．ｅａｈｒｔ，　ｓ　ｚｅｏｆ　ｏｏｄ　ａｅＩｔｐｒ　ｎｘ　ｄｔｎｐｕｅｎｋｉｘ　ｄｔｎ　ｒｈ　　　　ｏｉｅｆｎａｏ，　ｄｃｏｅ　ｄ　ｅｆｎａｏａｏｉｍｎ　ａｆ　ｏｈｔｅ　ｄｕｉｒｓ　ｉｎｏｏｎｄｕｉｌｔｇｂｓｄ　ｔｄｉａＩｅｅＬｓ－ＳｒＭｅｅ　ｔｄＴｉａｏｔｎｅｓ　ａｏｒｉｎｌ　ｒｄ　ｔｅｎ　ｔａｏｎｔｉｓ　ｏ－ｒｍｈ．　ｓ　ｒｍ　ｄｔｖｔｇｅｏｈｌｉｅｈｇｈｅ１ｔｅ　ｉｓ　ｔｐｒｓｃｓ　ｔｓｒ　ｔｎ　ｅｔｓｌｔｐｂｍ０　ｏｓｅｆｅｏｒ　ｅｔｎ　ｏｃｔ．　ｒｒ　ｏｅ　ｒｌｉｆ　ｏｍａｐｈｈｕｅＩｏｏ　ｈｏｅｍｚｒ　ｙａａｅ　ｅｘｄｖｅ　ｏｏｅｉｄ　ｐｒ　ａ　ａｏｅ　ｏｔｓｔｓ　ｅｐｐｓａ　ｉｅｆ　ｒｚｔｏｒｓｃｉｂｖａｒｍ，　ｐｐｒ　ｏｄ　ｅｎｘｖｓｅｅａｐｅｎ　ｍｙｌｉｇｈｈａｒｅｎｗ　ｄｉｏｆｎａｏｐｎＴｅ　ｅｏａｉｔｎｌ　ｃｒｏｔｓ　ｉｉｐｖｄ　ｅｅｏｄｔｎ　．　ｉｘ　ｎａｏａｓｕｔｅ　ｈｐｎ　ｍｒｅＩｒｄｕｉｌｈｎｒｚｉｔｕｆ　ｌｓ　ｏｎｔａｄｇｒｉａｖｌｔａｄ　ｍｍｒｗｙ　ｉｏｃａａｄ　ｅＩｏｏｌｄｅｎｔ　ｄ　ｅｔｉｓｎｉｅｏ　ｉｍｘ　ｈｉｎｏｒｔ　ｎｏｓ　ｎｅｔｘｒｓ，　ｔｓ　ｙａｓ　ｆ　ｎ　ｒ．　ｔ　ｄｎｙ　ｏｅｈｅ　ａｔｐｒ　ａ，　ａｏ　ａｓ　ｅｃｎｙ　ｎｅｆｎｉ．　ｅ　ｅｏｅｏｒｓｃｂｔ　ｅｎｔｆｉｃｏｉｘ　ｄｇＩｔｐｃｓ　ｍａｐｅｕｌｎｃｈｉｅｆ　ｏｎｎ　ｒｓｆｙｓｈｅｅ　ｄｕｈｏｉｅｆｎｉ，　ｇ　ｉａａｌｂｔｃｄｃｍｒｓｎ　ｎｌｙ　ａｙ　ｔｅｎｘ　ｄｇｕｎｔｎｒｂｙｏｅ　ｐｅｉｔｈｏｇｔｃｒｏｈｄｏｎｓｈｖｉｅ　ｅ　ｏｓｏｅｏｏ　ｒｎ　ｕｉｅ　ｃｃｍｒｓｎ　ｉｅ，　ｅｐｒｅｔ　ｃｔｔｓ　ｐｓｏａｏｉｍ　ｕｄ　ｏｐｓｏｏｎｘｔｘｅｍｎｉｉｅｈｃｍｒｓｎ　ｒｈｒｃｔｅｅｉｆ　ｈｄｅ　ｉｎａｓ　ｏｅｉｌｔｅｅｈｄｉｇｄｓｅ　ｉｄｘ　ｃｍｅｔ　３％．ｉｏｎｅｄｕｎ２ｚｆ　ｏ０一０Ｉｔｐｒ　ｎｘ　ｗｌｈｐｐｒ　ｏｅｈｅ　ａｉｉｘ　ａｎ　　　　ｏｉｅｒｅａｔｓ　ｅｐｐｓｔｅｄｎｍｃ　ｅｕｄｔｇｎ　ａｆ　ｅｈｔｅ　ｄｎ，　ａｒｄ　ｉｏｒｙｎｄｐｉｓａｇｓ　ｅｏｏｅｍｍｒａｄ　ｉｏｉｅｄｎｍｃ　ａｎａｏｔｔｔｉｂｓｎ　ｒ　ｏ，　ａ　ｄ　ｎｘ　ａｉｕｄｔｇ　ｒｈｒｅｅａｄ　ｒｅｙｎｋｆ　ｙｄｎｄｐｉｌｉｍｇｂｅｏｃａｍｍｒＴｅ　ｅｍｎｉｉｔｔｔ　ｅｒｅａａｏｔａｄ　ｈｎ　ｏ．　ｅｐｒｅｔ　ｃｅｈｉｘ　ｗｌ　ｒｈｓｎ　ｉｅｙｈｘｉｎａｓ　ｎｅｄａｄｎｌｉｍｇｃｐｘ　ａｉｅＯ　ｂｓｏｃａｍｍｒｏｌｈｓ　ｅｓ　）　ｄ　ｈｉｅｏ．ｍｅａｃｖ（ａｎ　ｎ　ｙｈｎｅｉｖＫＹ　　　　ＲＳＣｉｓＦｌＴｘＲｔｅａＩｅｄｖｅＩｅｔＬｓ；　ｅＥＷＯＤ：　ｎｅ　ｌｅｔ　ｒｖｌｎｘ　ｉ；　ｒｄ　ｔｉｄｘｈｅｕ－ｅｉ；　ｄｅｃｎｅｉｓｎｖＣｍｒｓｎｏｐｓｏｅｉＣＬＡＳＳＮＯ：　ｐ９Ｔ３１致谢本论文的工作是在我的导师于剑教授和瞿有利副教授的悉心指导下完成的，　　　　于剑教授和瞿有利副教授严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来于剑老师和瞿有利老师对我的关心和指导。于剑教授和瞿有利副教授悉心指导我们完成了实验室的科研工作，在学习上　　　　和生活上都给予了我很大的关心和帮助，在此向两位老师表示衷心的谢意。于剑教授和瞿有利副教授对于我的科研工作和论文都提出了许多的宝贵意　　　　见，在此表示衷心的感谢。在实验室工作及撰写论文期间，黄锋、张晓峰、李林立、马艳红等同学对我　　　　论文中的全文检索部分的研究工作给予了热情帮助，在此向他们表达我的感激之情。另外也感谢爸　　　　爸、妈妈和弟弟，他们的理解和支持使我能够在学校专心完成我的学业。１引言１研究背景．１在信息时代产生了　　　　大量数字信息，其中文本信息是最基本和常用的形式，为了能在海量的文本信息中找到自己的所需，人们迫切需要一个高效的检索工具。怎样高效的存储和查询文本这种非结构数据，就是一个颇值得研究的问题。这其中以全文检索技术成为国内外学者研究的热点。全文检索Ｆｌｅｅｅ）　　　　ｕ－ｘＲｔｖｌ文本数据为（ｌｔ　ａ是以ｔｉｒ主要处理对象，全文标引，基于使用自然语言进行检索的技术川在信息检索领域，．全文检索一直是一个比较复杂的问题．与普通数据库检索所设计的结构化数据查询不同，全文检索不仅要查询结构化数据，还要查非结而且询构化数２比据１起标引１，检索来，全文检索提供了全新的，强大的检索功能，方便多角度、多侧面的综合利用信息资源。当今以全文检索为核心技术的搜索引擎已成为网络时代的主流技术之一。在文索中，满　　　　为了足一定的询性能要一响应时间ＲｓｎＴｅ本检查求（ｅｏｓｉ）ｐｅ　和系ｍ统吞吐Ｔｒｇｕ，量（ｏｈｔ词表和文档元ｈｕｐ）数据的存储要有良设计，３好的文献［１就检索效率问题作了详细的论述．文本检索有几种主要建索引的模型：倒排表［正排表４１、１后继数组模型６互关联后继数组模型等，５１、１１、其中倒排表是最常用的，它的存储设计也是文本检索中的基本问题之一。目前很多主流的全文检索系统用自设计的文件来存储倒件，如易宝排文比北信ＴＳ１倒排文件比大时，Ｒ［当＇。较就要考虑压缩。压缩在大规模文本索引时尤其重要，目前比较流行的压缩算法有以下几种：按位紧压法８可字编、ｌｇｍｃｉ［Ｇｌｂ　ｎ１压凑缩！变节码Ｅａａａ　ｎ９ｏｍｃｉ［等。缩１、ｉｍｏｇ．　ｓ　ｄ１ｏｏｇｌｄｏ算法的好坏不能只用其压缩率来衡量，在考虑到压缩率的同时也要考虑到解压所用的时间。国外的全文检索软件虽然较早地得到应用，但对中国用户有很多不适用的地　　　　方。中文全文检索技术在原理上同西文全文检索是一致的，但汉语本身的特点使中文系统的实现比西文系统更为复杂。全文检索的核心技术是将源文档中的所有的基本元素的出现信息记录到索引ｆ．库中ｉ在中文系统中，ｌｌ基本元素是单可以个汉字字符，也可以是词。因此存在两种基本的索引库结构，即基于字表的索引库和基于词表的库１。索引１字表法和词表法各有优缺点．学者对此都各有侧重研２１国内究，前者实用性很强，构建直观方便，纵观近几年单汉字标引和检索技术的发展，其发展趋势可归结到两点：一是在单汉字标引和检索技术中引入受控标引和检索的术和思想；技二是引入人工智能技术１检索方面，比用的首［。３１较实是“ 字直接匹配法”１．［１词表法多集中４在中文自动分词研究，自然语料统计分析等方面。１索引在中文检索中的位置及研究现状．２全文检索是指计算机索引程序通过扫描文章中的每一个词，给每一个词建立　　　　一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。在上段全文检索的叙述中提到了索引，为什么要建立索引？索引对于全文检　　　　索底味什？ｔＧｓｄｔ和Ｅｋ　ｈ的ｌｅｉｃｎ一到意这么在Ｏｓ　ｏｅｉｏｎｉｒＨｔｅｕｎｎ　［文ｐｃｉａｒｃｅ　ｔｌｃａｉ５ｏ１中提到 “ 在搜索引擎的所有概念中最为核心的概念就是索引，索引就是把原始的数据处理成一个有利于高效检索的数据形式。他们就为什么要进行索引给出了具 ” 体和形象的说明：假如你需要在很大量的文中进行某个特定信息的检索，并且你 “ 想在非常短的时间内找到含有需要信息的文件，你会怎样写程序实现这些？最简单的方法是顺序扫描所有的文件寻找给定词和短语，但这种方式有一些缺点，其中最致命的是当文件很大时根本没有足够的空间来存储该文件，这就是为什么需要索引了，为了在大量文本中检索到所需要的信息，首先必须把源文本集转换成一另一格式的文件，这种格式的文件能够让你进行快速的检索，而不是只进行很慢的顺序扫描。这个转化的过程就是索引化，该过程输出的结果就是 “ ” 索引气在上文中可以知道索引是全文检索的 “ 　　　　心脏气下面的全文检索的模型结构图能够清晰的说明索引在全文检索中的地位。下图即为全文检索的模型结构图：　　　　　　图１－１全文检索结构模型图全文检索系统是按照全文检索理论建立起来的用来提供全文检索服务的软件　　　　系统，一般来说，全文检索要具有建立索引和提供查询的功能。从上图中可以看出，全文检索系统中最为关键的部分是全文检索引擎，各种应用程序都需要建立在这个检索引擎之上。在检索引擎中可以看出索引引擎占据了核心的位置，他是整个检索效率的重要决定因素，一个全文检索应用的优异程度，根本上由全文检索引擎来决定。而全文检索的效率主要是由一个索引引擎所决定的．１本文论文安排．３鉴于上文的分析，知道一个优秀的索引引擎对于全文检索非常重要。本文的　　　　主旨就是建立一个全文检索的索引系统。本文主要的工作安排如下：第二章主要阐述了基于中文全文检索索引器的功能。同时给出了通用索引器　　　　的组织结构图：一个索引器应该包文本预处理模块，创建索引模块以及索引维护模块。第三章论述了中文全文检索索引所设计的主要技术问题。主要有索引文件结　　　　构的选择，索引元的选取以及索引压缩算法的比较分析等。同时给出了基于字和基于词的索引器优缺点的比较。第四章中给出了基于单字的中文全文检索的索引器的设计方案和实现过程，　　　　其中包括索引文档的创建，索引文档的动态更新和删除以及索引压缩算法的实现。第五章索引压缩算法测试结果以及索引创建效率分析。　　　　第六章是小节篇，总结了本文所做的工作，找到了不足之处，给出了下一步　　　　工作的方向。２中文全文检索中的索引器的结构和功能２全文检索索引器的结构．１在下图中可以看出一个索引器有三部分组成，第一部分是文本预处理模块，　　　　在该模块中针对给出的待索引的文本进行预处理，然后对经过处理的文本进行索引的建立，在索引建立后由于待查文档的改变要对索引尽心维护。索引维护主要涉及的问题是：源文档增加时将新的索引附加到原来的索引上，当源文档改变时，将其相对应的索引文件更新，但某些文档不在需要时，也要将其相对应的索引文件删除。具体的结构图见图２：　　　　－１．．．．．． … … ，。 … ‘ ．． … ，。．．－ｌ图２　　　　　　　　－１索引器结构图Ｆｕ２１　ｘ　ｉｓｓｍｉｒ－Ｉｅｄｖｅ　ｅｇｅ　ｎｅｃｙｄｔ２全文检索索引器的基本功能．２一个中文全文检索的索引器应该实现三部分的功能。第一部分是文本预处理，　　　　一般需要检索的文档成分比较复杂，需要用文本预处理将文档中的中文，数字，符号，及西文分以开并归后分别类然对其建立索引。于中语言的由文复杂性［（１见６］３．．３节分词技术说明）３在预处理这部分需要包括中文索引单位的选取，目前主流的有两类：一类是单字，一类是分词。第二部分功能是创建索引，利用选定的索引数据结构对源文档遍历建立索引。　　　　第三部分功能是实现索引的维护，包括索引删除，索引增加，索引更新。　　　　３中文全文检索索引器构造相关技术综述一个完整的中文全文检索的索引器的构造涉及到索引数据结构的选取，索引　　　　单位的选定，以及整个索引器的结构，索引采用的策略，以及有关索引压缩算法的研究。在本章中介绍了索引数据结构以及其相关的工作原理，分析了一种基于单字的索引器的构造及工作原理以及基于分词技术的索引的构造方案，在最后的一小章中介绍了一些主流的压缩技术，并给出了这些技术与索引的结合应用。３索引数据结构及其相关原理．１索引文件有多种组织形式，其中以正排表、到排表以及后继数组比较常用。　　　　下面分别介绍正排表、倒排表以及后继数组的结构和工作原理。３．正排表的数据结构和其工作原理．１１正排表是以　　　　文档的ｍ为关键字，表中记录文档中每个字的位置信息，查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。正排表结构如图３所示，－１这种组织方法在建立索引的时候结构比较简单，建立比较方便且易于维护；因为索引是基于文档建立的，若是有新的文档假如，直接为该文档建立一个新的索引块，挂接在原来索引文件的后面。若是有文档删除，则直接找到该文档号文档对因的索引信息，将其直接删除。但是在查询的时候需对所有的文档进行扫描以确保没有遗漏，这样就使得检索时间大大延长，检索效率低下。由于正排表的工作原理非常的简单，但是由于其检索效率太低，几乎没有什　　　　么实用价值，所以在此不作详细介绍。文档１Ｊ峪　　ｗｏｄＨ　ｗｏｄｒｌ　Ｉ　ｒ２ｗｏｄ｝Ｉ　ｏｄｒｌ　－ｗｒ２文档２」　　Ｌ图３１正排表结构图－Ｆｇｒ－Ｆｒａｌｔ　ｃｒｉｅ１　ｗｒｉｓｕｔｅｕ３ｏｄ　ｔｕｓｒ３．倒排表的数据结构和工作原理．２１倒排表以字或词为关键字进行索引，表中关键字所对应的记录表项记录了出　　　　现这个字或词的所有文档，一个表项就是一个字表段，它记录该文档的ＩＤ和字符在该文档中出现的位置情况。由于每个字或词对应的文档数量在动态变化，所以倒排表的建立和维护都较为复杂，但是在查询的时候由于可以一次得到查询关键字所对应的所有文档，所以效率高于正排表。在全文检索中，检索的快速响应是一个最为关键的性能，而索引建立由于在后台进行，效率相对低一些，不会影响整个搜索引擎的效率。倒排表的结构图如图３：－２ｗｏｄｒｌ］匕　　｛档文１｝文档１文档２文档２Ｗｏｄｒ２」　　Ｌ图３倒排表结构图　　　　　　　　　　　　　　　　　　　　　　　　　　　　一Ｆｕ３Ｉｅｅｌｔ　ｃｒ　　　　　　　　　　　　　　　　　　　　　　　　　　　　ｉｒ　ｎｒｄ　ｓｕｔｇｅ－ｖｔｉｔｕ２　ｓｒｅ倒排表的索引信息保存的是字或词条在文档内的位置，在同一篇文档内相邻　　　　的字或词条的前后关系没有被保存到索引文件内。下面给出一个传统的基于单字的中文全文检索数据结构和算法模型进行分析说明。全文检索方案是在执行检索操作时比较字或词条在同一文档内的位置是否相　　　　邻的算法方案。在此为了说明倒排表的工作原理，采用一个全文检索方案加以说明。倒排表实际上就是一个表结构，在对关键词进行检索时需要对关键词中每个　　　　字在倒排表中行一次进检索操作，假设我们要对ｋｅｙ这个关键词进行全文检索，ｋ如ｅ定义３所示：ｙ－１定义３：　＝Ｃ，　Ｃ．）　１３．．　　　　Ｋｙ（ｌＣ，　．ｎ＝２　．－ｅ１２３　　ｎ．Ｃ．．．Ｋｙ个字符的　　　　ｅ是ｎ集合，它们的后位置关系是固定的，（ｉ前Ｓ）Ｃ为包含字符Ｃｉ的索引信息二元组Ｄａ的集合，ｕｉｌ二元组中第一个数字为文档标号，第二个数字为文字在文档内的位置。Ｓｉ描述为定义３：　　　　（）Ｃ可以－２定－Ｓ）（ｔｌｏ）ＡｌＰｓ，．Ａｔ，　）　　　　（ｉ｛ｘｄＰｓ，　ｄ，　）．（ｒｍＰｓ）义３：　＝Ａｌ，　（ｒ２ｏ．，　ｌｏ２Ｃｌｔ２ｄｍ其中Ａｔ　　　　ｍ为包含字符Ｃ的文档的序号，Ｐｓ为字符Ｃ在文档Ａｌｒｄｌｉｏｍｉｔｍ中ｒｄ出位置，一ｅ被检索到的件数学描述如式３所示：现的则个ｋｙ条－１Ｖｉｋｘ（ｒｘｏｉＥＣ）　Ｄ　　　　３ｉ　ｒｄｉＰｓ）　（ｉＮＣｅｅｙ　ＡＩ，　ｘＳ　　Ａ（ｒｄｉ＝Ａ　Ｎ　（ｏｘ－Ｐｓｉ　　　　　　ＡＤ　Ｐｓｉｏｘ－＝１Ａｒｘ）　Ｉｉ）式３１－从上面的条件公式可以看出，检索成功的条件就是对关键字中所有的字符Ｃ　　　　ｉ都可以找到同一篇文档，使该文档包含字符Ｃ而且这些字符在该文档中的字符位ｉ置的差值和它们在关键词中的位置的差值相同。例如，搜索中国气　　　　 “假如索引库中 “ 字的索引信息为二元组序列为　　　　中” （５（６５）　）　０　　　　（９（９（１）２）　）　６７，４，，，， “ 　　　　国”字的索引信息为二元组序列为：（５（６５０（３）　　　　（１）　４１）　）　７，　，，２，则根据定义３１－　　　　－和３：２Ｋｙ｛，国　　　　｝ｅ中＝（＝（）　５６７）ｓ）１，４）　）　）　０　　　　５（６（９（９（１｝中２，，，，（＝（）　５）　｝Ｓ）１，　，）　０７４　　　　５（６（１（３）国１２，，根据式３定义的匹配成功条件，检索结果Ａ为２５　　　　１－和从上面检索的结果可以　　　　看出 “ 中国” 两个字在２７５号文档内都出现了，但是只有２５和号文档内 “ 中国” 两个字是相邻的，所以检索命中的文档为２５和号文档。从上述的分析可以　　　　知道，倒排表检索效率的优势远远大于正排表。３．互关联后继树模型．３１目前全文检索除了上述的正排表、倒排表模型外有人研究利用互关联后继树　　　　模型来实现全文检索。与传统的倒排表的索引数据必须具有文档一索引项结构且只能实现简单的询不同门互关联后继查【，树模型【１１９８１，不但能够处理具有文档索一引项结构的数据，同时也能够与Ｐｔ２ａ树［一样处理无结构数据［；具有创建速度０１２１１快，查询速度快，空间效率高等特点。在本小章中将简要的介绍互关联后继数组模的本造其作理２３型基构及工原【１２，２设Ｅ构文的本号元的合，２ … ａ中一基符，　　　　本基符单集是ａａ，，。的些本号是成，　它们的有序组合便可构成一个文本。我们在每个文本Ｔ的最后人为的添加一个不在Ｅ中的符号，用来表示该文本的结束。这个符号称为文本结束符，一般用ＡＣＩＳＩ为０的字符表示。在本文中，为了阅读方便文本结束符使用 “ ” ＃。通常把加入某一个索引库的所有文本的集合叫做该索引库对应的全文。定－（和继）对意本Ｔ的意符串，，　为ａ前　　　　驱后义３前３任文中任字ａ２　称２ａａ，的驱；ａ２，后继，最后一称为ａ的文本个字符的后继为文本结束符．注　　　　成本Ｔ的符串，ａ，，。，现了ｍ记：若组文字ａ２ … ａ中出，　个相同字的符，不妨记该字符为ａ那么ａ．有ｍ个后记［，　１，．．　］示ａ继，为ａ　ｋ，．ｍａ　ｋ＝２．］，［表的第ｋｋ个后继。定－（　　　　表达式与后继树）设义３后继４全文Ｉ一字符串ａａ，ａ，是由，２ …，．，　＃组成的若，其中ａ＝　＝．ａ＝　相同字ａ，ａ．二ａ，别是；ａ．；　为的符，ｎ＇　，，，分其，　．．ａ；＝２　．，　２，．．后ａ，ａ＋ …，，的继分．ａ，　，ｔ２ … ａ，　］继，，，　，ａ，后又别ａ，ｇ＇　ａ］，，［．　，，．２，．＋，］ａＪｇ，ｔ２．ｔ那．ａｇ么们｛ａ，ｔ，（，＇　） … （ｗ，　）为ａ后表我称（，，　）ａ＋ｔ２　，ａ，ｔ，）的继达式，，ａ，２ａ，．ｇ，ｇ＋ａｇ可以一继来描表达如图３用棵后树述此式，一所示，ａ，ｔ，是ａ一后（　，　）的个（，ａ，ｇ＋继，位置）对。厂（，，ｇ）ａ＋ｔ，ｊ，ａ（＋２ａ，）ａ冲９（＋ｔ．ａ，ａ）．ｉ，ｇ图３ａ　　　　－的后继树形式３　Ｆｇｒ　Ｓｃｅｉｔｅｏａｉｅ３ｕｃｓｖｒｓｆ　ｕ－３　ｓｅ　ｅ倘若文本中有一段文字为二ａ　，　二，有（．　．　，则ａ后继，ａｂ；，位置）（ｎ＇对ａ，＋ｔ，　 ‘：的个后，ｔ：在以ｎ为树中ｂ在支序。ａ）其中＋ｇ，是。一继而ａ是ａ，根的ｇ＋所分的号这序号上就是ｂｕ树中位置个实际也在ａ，的。．定义３（　　　　－互关联后继树）由５一个索引库对应的全文Ｉ的所有后继树组成的森林，叫做Ｉ的互关联后继树（ＳＩｅＲｌａｔ　ｃｓｖＴｅｓ．ＩＴ　ｎｒｅｖｎＳｃｅｓｅ　ｅ）Ｒｔ－ｅｕｉｒ例１对于全文ａｃｂａｃ，其中为索引库的结束符，ａ　　　　ｂａａｂ＃＃的后继表达式为（６１（，　（，，　，　，（，ｂ２，　４（３｝其对应的后继树，）　）ａ）ｂ）全文ＩＳＲＴ如图３所示。－４图３　　　　　　　　　　　　　　　　　　　　　　　　　　－４全文互关联后继树模型Ｆｕ３Ｆｌｅｉｒｌａｓｃｓｅ　ｏｌ　　　　　　　　　　　　　　ｔｅｍｄｉｒ　ｕ－ｘｎ－ｅｎｕｅｉｒｓ　ｅｇ－ｔｔ　ｒｖｔ　ｓｖｅｅ４　ｔｅｅｃ创建该全文ＩＳ　　　　ＲＴ的时候，我们为Ｅ中的三个字符：ａｂ‘ ，，分别建立三棵树，然后按照读取的字符依次为树添加树枝。首先读入ａ，的后继ｂ填入树ａｂ将ａ的第一个分支处，由于此时还不知道该分支对应的位置信息，留空．而后，读入ｃ，将ｃ填入以其前驱ｂ为根的树的第一个分支，此分支号即为前次留空的位置信息，将１回填到ａ树的第一个分支。再读取ａ在ｃ树的第一个分支填写ａ，，并且回添该分支号１到ｂ树的第一个分支。…… 。当读入＃后，在以其前驱ｃ为根的后继树中增加第二个分支＃，并将２回填。此时，索引文件的结构如图３所示，将此索引文件结构表示成树的形式，即为图３一的ＩＳ．ＲＴａ一ｂｌ　ａ４　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　ｂ２　ｂ３ｂ－ｃｌ　ｃ　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　－ａ３　２ｃ－ａ２＃　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　图３索引文件结构示例　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　一Ｆｕ３Ｉｅ欣ｓｕｔｅ　　　　　　　　　　　　　　　　　　　　　　　　　　ｉｒ　ｎｘｔｃｒｇｅ－ｄ５　ｒｕ利用索引生成原文，　　　　我们需要记录加入索引库的文本的第一个字符Ａ，和Ａ的后继在树Ａ中的存储位置Ｐ本例中Ａ＝ａＰ。，，　取出ａ＝１树的第１个分支，得到（，１，即ａｂ）的后继为ｂ。再取ｂ树的第一个分支得到（，　，……依次，ｃ１）我们得到的分支序列为：（　　　　　　ｂ，０ａ，０）￣（）￣（，　ｃ０）一（ａ，１）一（ｂ，１）一（，２ａ）￣（　　　　）一（ａ，３ｂ，２）一（，１ｃ）￣（，Ｆｌｏ　＃ｉＮ）ｅ每一个分支中的字符的序列即为我们的原文件：ａｃｂａｃ　　　　　ｂａａｂ＃　ｏ如果查询字符串 “ ｂ，我们在ａ　　　　ａｃ树的分支中查找后继为ｂ的，发现第１２＞　和４分支满足条件，再根据这三个分支的内容取其后继，仅１４．　分支（．　．ｂ１）（．　ｂ３）的后继为ｃ，则 “ ｂ ”在索引库中有两个匹配。ａｃ在处理索引文件结构时，有两种办法。　　　　方法一：为每个字符预留一定的空间（　　　　称为基础块），如果某一个字符的基本块用完，则在文件末尾为其分配一附加块，在每一块中添加指针，指向该字符的下一个块。如图３，上面三行是基本块，当ａ－６的基本块满了，就为其在文件末尾分配一个附加块，指针由基本块指向附加块，再次满后，再次为其分配附加块。如果此时ｃ的基本块满了，则也为其分配一个附加块。￣一一１一ｂＣ一‘ 一一牌｛｝ｌｅ－图３　　　　　　　　　　　　　　　　　　　　　　　　－６索引文件分块结构Ｆｕ３Ｉｅｆｂｃｓｕｕ　　　　　　　　　　　　　　　　　　　　ｉｒ－ｎｘ　ｌｋ　ｃｒｇｅ　ｄｉｏｔｔｅ６　ｌｅ　ｒ但是该方法存在的缺点是在基本块没有写满的时候，仍需占用存储空间，而有些字符，如二级汉字，实际上很少会出现，所以如果基本块空间分配过大会浪费，而如果分配较小，一个字符后可能会出现很多个链接块，在文件中分散存储，将影响查询和原文生成的速度。方法二：　　　　在索引库中每加入一次文件，则为相应文本字符添加一块与该字符上一块连接。方法二的不足是块的数目　　　　和大小完全由每次加入文本库的文本内容决定。不同字符的块大小将极为不平衡。如回车、换行或汉字 “ 的”的索引块较大，而二级汉字的块将很小。且这也将限制每次索引库中加入文件不能过小，否则将会出现繁多的小块，因而也会影响查询和原文生成的速度。具体在处理索引文件结构时需要结合实际情况选择不同的索引创建方法，比　　　　如若是每个字符在所有文档中出现的概率相差不多，并且能够估计到文档的大小，则采用第一中预留的方案，能够快速的检索并且不会出现很多的 “ 碎片” 。若是文件的大小完全无法预料，则只能采用第二种。３１几种索引存储结构的比较．４．在上面的三个小节中提到了三种索引存储结构分别是正排表、倒排表和互关　　　　联后继数组模型。下面给出三种索引结构的简要分析。由３．的分析可以知道，　　　　．１１对正排表进行信息检索的时候，等于直接对源文件进行全文扫描，索引的建立并没有加快检索的速度，但是却在建立索引时耗费了空间和时间，这种方法没有实用的价值，一般不采用。相比来说倒排表就很是一种实用性很强的索引存储，倒排索引由于其组织结　　　　构的形式（具体分析见３．，．２　１）对信息的检索能够变的非常快，所以倒排表成为了一种主流的索引文件格式，在大部分的全文检索系统中的都采用这种索引结构。互关联后继数组模型是一种新颖的全文检索的模型，他的特点：　　　　１能理　　　　无结构的据（）够处数这点与ｐ树有一功能）ａｔ样的．２　　　　）创建的空间效率比较高。３　　　　）可以通过索引生成原文。不足之处：　　　　４　　　　）文件管理方面，由于所有的倒排文件都是通过树或是森林来管理，所以系统要维持整个森林要花费很大的代价。５　　　　）互关联后继数组在实现上的复杂度要远远大于倒排表。６　　　　）在处理不相邻的检索关键字方面比较吃力。７在文本预处理时，　　　　）互关联后继树模型对 “ｔｗｒ” ｓｐ　ｄ就无能为力。ｏｏ与之相比倒排表具有以下的优点：　　　　１倒排表技术是一种比　　　　）较普遍通用的技术，针对倒排表的研究也比较多，所以相关的技术也比较容易实现。２经过改　　　　进倒排表结构形式也能够达到比较好的检索效率，以弥补检索效率）的问题，在空间效率上可以利用索引压缩技术进行改进。３在网络上面，检索的返回结果只是一个链接，并不需要全文的还原，　　　　）所以互关联后继树模型这方面的优势并没有很明显。综合比较起来，　　　　本文采用倒排表格式的索引存储格式。３．，山基于单字的索引器构造全文检索的核心技术是将源文档中有的基本元素的出现信息记录到索引库中。在中文系统中，基本元素可以是单个汉字字符，也可以是词。因此，存在两种基本的索引库结构，即基于字表的索引库和基干词表的索引库。基于字表索引库的建造方法有很多种，不同的字表的构建方法会对应不同的检索策略。下面介绍中种表索引构方及索策［２其一字法库的造法检略２５４ｌ｝３．单字索引数据结构．１２单字的索引库数据结构一般采用字表法，字表法索引库的主要部分是每个字　　　　的字表信息。字表结构如表３所示，－１其中字符ｉ对应的字表记录了该字符在源文档中所出现的位置Ｐ。该位置采用了字符相对于文档头的偏移字符数表示，而不ｉｘ按通常情况采用相对于文档头的偏移字节数，这样可以大大减小位置的数值大小，有利于进一步采用压缩技术。建立字表索引时，需要扫描整个源文档，对出现的每一个有效字符，计算其在文档中出现的位置，并将该位置的值加入到对应的字表中。Ｔｂｅ　Ｃａａｔｔｌｓｕｔｒ　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　ａｌ３１　ｒｅａｅ　ｃｕｅ－ｈｃｒ　ｔｂｒ表３　　　　　　　　　　　　　　　　　　　　　　　　　　　－１字表结构啊阿Ｐ１１，１．１，２Ｐ３．Ｐ．Ｐ１２，２，２，２３二ＰＰ的Ｐ１ｉＰｉＰ２ｉ，，３中一．Ｐ１ｊ，３ｊ，２ｊＰＰ索引库中的一个字表记录了对应字符在源文档中的所有位置信息。考察一个　　　　字符串，个如两字的字符串Ｘ（Ｙ其中ｘＹ表示任意的，　汉字字）假设Ｘ的位置符，为Ｐ，）如果字符串ＸｘＹ在源文档中出则Ｙ的现，位置Ｐ必等Ｐ＋１（为两个ｙ定ｘ，　１汉的字间字符距离。）在索引库中Ｘ的字表中含Ｐ，将包ｘ而Ｙ的字表中也必然包含Ｐ十１ｘ。进行检索时，扫描Ｘ和Ｙ各自对应的字表，若文档中有该词出现，则必定有Ｘ对应的字表中存在位置ｘＹ对应的值Ｐ，　字表中在存位置值Ｐ使得Ｐ＝ｙｙＰ＋　ｘ１成立，每查到一对这样的位置值，就是检索到字串ＸＹ一次。扫描完两字的字表，就可检索出该字符串的所有出现。上面简要介绍了字表的用法，　　　　在具体实现的时候的数据结构要稍微复杂一些，因为某个字符的字表中不但要包含文档的信息还要有某字符在该文档中出现的位置信息，由于字符在每一个文档中出现的次数与位置都不一样，所以在实现的时候采用了一种比较复杂的数据结构，就是字表倒排文档。字表倒排文档的数据结构是每个汉字字符对应的字表中，包含该字符出现在　　　　所有文档中的全部位置。为了区分每个位置公到属于哪个文档，每个字符的字表被分为多个字表段，每段对应一个文档，记录该字符在此文档中的出现位置。字表采用倒排文件结构，如表３一所示。Ｔａｌ３２　ｈｒｃｅｔｂｅ　ｖｒｅｌｔｂｅ　Ｃａａｔｒ　ｌｉｅｄ　－ａｎｔｉｓ表３　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　－２字表倒排文档字段表１Ｉ一二｝字表段】｝文档编号｝字频｛位置序列每个字表段起始部分记录当前文档的编号，随后是该字符在文档中的出现频　　　　率，最后是该字符在文档中的所有出现位置序列。每个字符的所有字表段按文档编号递增的顺序排列，如果该字符在文档ｋ中没有出现，则不存在文档ｋ对应的字表段。３．单字索引的创建方法．２２上面简要介绍了基于字表的索引库的结构，下面给出基于单字索引的创建方法。该索引创建方法不需要排序，分为如下两步：　　　　第一步分析源文档，产生临时的中间文件，这个过程称为分析过程。当前只　　　　针对ＧＢ码字符［进行处理，２６１其中包含全部字符，既有汉字，又有一般的数字，标点符号等．Ｂ码第一个字节的范围是ＯＡ－ＯＦ，ＧＸＩＸ７第二个字节的范围是ＯＡＸ１－ＯＦ。汉字从 “ ＸＥ啊”开始，首字节为１６４，第二个字节为１１５。根据这７－７２６－４２种分布规律，可以方便地定位每个字符对应的字表信息。源文档经过处理，将其包含的每个字符的对应信息写到一个临时的中间文件中。对于每个字符，其在临时文件中的对应信息包括：该字所出现的当前文档编号、在该文档中的出现频率、出位置序列现的和该字符出现在下一个文档的数据的指针（数据在文件中的偏移值）．第二步处理临时文件，依次从临时文件中　　　　读取每个字符出现在每一篇文章中的数据信息，生成最终的倒排文件，在这里称为创建过程。生成的最终倒排文件中包含每个字符出现在所有文档中的信息。包含该字符出现的当前文档的编号、出现频率和相应的位置序列。处理过程如下图所示。分析临时文件卜Ｉ文档编号频率位置序列｝前向指针最终到排文件卜｛文档编号州频率位置序列图３７生成索引文件流程图　　　　－Ｆｇｒ３７ｌｃａｏｃａｎＩｄｘｉｕｅ　Ｆｏｈｒ　ｒｔｇ　ｅ－ｗｔｆ　ｉｎｅ３．优化的基于单字索引创建方法．３２在上面所论述的基于单字的索引创建方法中，对于源文件的分析过程本身需　　　　要一定的时间，随着处理数据集规模的增大，相应的分析时间增大，第二步（创建过程）所需的时间相应的迅速增大。该过程需要大量的随机读取操作来遍历每个字符对应的所有信息。当数据的规模增大时，遍历每个字符的临时数据的操作变得很慢。这是由于字符对应的每个字表的数据在临时文件中有一定距离，遍历需要不断地移动文件指针来读取这些数据。利用操作系　　　　统提供的虚拟内存技术ｒ优化索引的Ｉ可以ｎ创建过Ｗｎｏｓ程。ｉｗ操ｄ作系统用虚拟内存技术来动态管理运行时的交换文件。为了提供比实际物理内存还多的内存容量以供使用，ｎｏｓ操作系统占用了硬盘上的一部分空间作为虚Ｗｉｗｄ拟内存。当ＣＵ有要求时，首先会读取内存中的资料。当内存容量不够用时，ＰＷｉｏｓｎｗ就会将需要暂时储存的数据写入硬盘。内存映射文件技术是Ｗｉｏｓ　ｄｎｗＮｄＩ提供的一种新的文件数据存取机制。利用内存映射文件技术，系统可以在２Ｂ的Ｇ地址空间中为文件保留一部分空间，并将文件映射到这块保留空间。一旦文件被映射之后，Ｗｉｏｓ　ｎｗＮｄＴ将仔细管理页映射、缓冲以及高速缓冲等任务。通过把临时文件映射到虚拟内存中，可以大大加快对临时文件的访问速度。对于较小的源数据集，分析处理后生成的临时文件也较小，使用内　　　　存映射文件可以大大加快创建过程。但当数据规模增大时，该方法的性能迅速降低，甚至比没有使用内存映射文件都差。性能的降低一方面由于机器有限的内存，其小于临时文件的大小。另外一方面，同一个字符相邻的数据在临时文件中距离过大，导致大量的缺页中断，系统性能大大降低。解决该问题的有效方法是把原有的单个的大的中间文件分成多个小的临时文件，在分析过程中生成多个小的临时文件，创建过程依次处理每个临时文件，将其映射到虚拟内存中，可以充分利用直接内存访问的速度，并且减少缺页中断。在实际应用中，可以采用了统计的方法，通过对一个较大的数据集的分析，将原有的一个大的临时文件拆分成多个小的临时文件，每个字符的索引数据存放于其中的一个临时文件中。井且每个临时文件中存放的数据的大小相差很小。这样，每个小的临时文件的大小小于当前内存的大小，从而可以有效地使用虚拟内存技术加快存取。３基于词表的索引器构造．３由上文可以知道以中文的词组作为索引单元也是一种常用的索引文件构造方　　　　式１，８２基于分词的中文全文检索索引１器的构造［１词为索引项的２是以９．索引结构。３．词表索引．１３数据结构典型的基于词的倒排索引结构（　　　　见图３８－）包含两部分：１）中文词组成向量（称之为词汇表），它包含了词的基本信息和词索引在索引文件中的偏移量。２）对于词汇表中的每一个词，都有一个它出现过的文档列表，它包含了出现文档编号，在此文档中该词的词频和出现位置序列。词ｍ｛索引指针ｗｌ基本空间Ｗ１基本空间ＮｒｃｓＮｅｘｒ文献频率出现列表一产尸沪产文档ｍ　　字频｝位置序列ｗｌ基本空间ｗｌ基本空间ＮｒｅａＮ已１名图３词索引倒排文档　　　　　　　　　　　　　　一Ｆｕ３Ｉｅｅｉｅｂｅｏｏ　　　　　　　　　　ｓ－ｗｒｉｒ－ｎｒｄ　ｘ　ｄｎ　ｄ　ｇｅ　ｖｔｎａ８　ｄ图３一临时文件结构Ｆｕ３Ｔｍｆｓｕｔｉｒ－ｅｐ　ｔｃｒｇｅ　９　ｉｒｕｌｅ　ｅ词索引指针指向词的索引在索引文件中的偏移量，区域最开始保存的这个词　　　　出现过的文档数目（文献频率），这是为了在检索过程中读取索引前能够合适地分配内存空间，文献频率后面是出现文档列表。在这个结构中，除了字频用单字节之外，其他都用４个字节表示，而且出现在列表中的文档编号是升序排列的。３．一种词表索引创建流程．２３要建立词索引，首先需要对文档进行自　　　　动分词。首先将文本中的中文词、西文词和连续数字组合分析出来，然后对分词结果进行排序，合并相同词的信息，这样就得到一张文档中出现词的列表以及它们的出现位置序列。对于每个词，可以根据它们的计算机编码（中文Ｇ２１，西文和数字ＡＣＩＢ３２ＳＩ）映射到词表中的位置，更新词汇表及索引。下面是详细的流程描述：（）　　　　１对文档进行自动分词，对结果排序，合并相同词的信息。（）　　　　２定位词在词表中的位置，得到词索引区在临时文件中的偏移量，如果是以前未出现过的词，就在临时文件的末尾分配一个固定大小的基本空间，对于低频词来说太大的基本空间将造成浪费，所以需要分配合适大小的基本空间。在本系统中，基本空间大小正好能保存一个词出现一次的信息。（）如果这个词以现过，　　　　３前出将文档的读写指针定位到这个词的索引区的末尾。（）写入每个词的索引信息到临时文件。如果此时分配给该词的空间用完，　　　　４则在临时文件末尾给其分配新的溢出空间，出现次数越多的词分配的溢出空间也越大。索引写完后，将上一索引区的向前指针更新为新分配空间在临时文档中的偏移量。（）对于文档中的每个词，重复步骤（）（）　　　　５２到４，对于每篇文档重复步骤（）到（）１５ｅ（）所有文档处理完后，对于每个词，我们将分散在临时文档中的索引信息　　　　６合并在一起，然后按照图３－８的格式写入最终的倒排文档．３．常用分词技术的研究．３３以词为索引项的技术重点是词的切分问题。在本小节中对主流的一些分词技　　　　术３２１１３３１，进行了，３分析总结。目　　　　前采用的分词方法主要有：基于神经元网络和专家系统的算法、正向、逆向最大匹配法３、遍历法、［逐词４１最佳匹配词频法、统计法，此外还有穷多列层次举法、二次扫描法、基于期望的分词方法、双向扫描法、邻接约束方法、邻接知识约束方法、最少分词词频选择方法等。但归纳起来不外乎两类，第一类是在生成关键词时将语法、句法、语义结合起来，试图模仿人类的阅读过程。但有时语法、句法、语义连开发人员都不是很清楚，故一般情况下不采用。第二类由字典匹配法和基于频度方法组成，这些方法比起上一种来较具体实用。下面给出几种常用的分词方法：　　　　１、逐词遍历法该方法是将词典中的所有词按由长到短的顺序在文章中逐个搜索匹配整个待　　　　处理材料，直到把所有的词都切分出来为止。也就是说，不管文章有多短，词典有多大，都要将词典遍历一遍。如“ 　　　　他睡觉打奸” ，利用该方法切分这一句话，不论分词词典多大，都得把整个分词词典匹配一遍。故这种方法的时间复杂度比较高，是一种不可使用的分词方法。２正向、伽娜与（Ｍ）逆向ＲＭ最大匹配法正向最大匹配法是最早提出的自　　　　动分词方法，它的基本思想是先取一句话的前六个字查字典，若不是一个词，则删除六个字的最后一个字再查，这样一直下支，直到找到一个词为止，对句子剩余部分重复此操作，一直到把所有的词都分出来为止，逆向最大匹配法和ＭＭ法一样，不同之处在于它是从句子的最后六个字开始的，每次匹配不成功时去掉汉字串中最前面的一个字。两种方法思路清晰，易于用计算机实现，但是由于试图用相对稳定的词表来　　　　代替灵活多变、充满活力的词汇，把词表作为判别词的唯一标准，因而，为了查询的方便，Ｍ法要求配备逆序的分词词典，ＲＭ方这样的分词词典维护起来比较困难坏符合人们习）另外，Ｍ和ＲＭ法否惯．ＭＭ认词的组合递归性，因错率此出高。据统计表明，Ｍ方法的错误切分率为１６。Ｍ／９这两种方法一般都不单独使用，１而是与其它方法相结合使用在同一系统中。３、非用字后缀表示方法［３５１它是建立在中文自　　　　动抽取关键词基础上的中文分词方法。非用字后缀表示法将中文分为Ａ（外用字、（用字、类（件用字、类（类表）Ｂ类表内）Ｃ条）Ｄ非用字）它。从Ｇ２１－的６６个字中挑出Ｂ类、Ｂ３２０７３８Ｃ类、Ｄ类组成非用字后缀表。在抽词时，首先采用字的方法将文章变成由关键词组成的词段，然后分成１８种模式：（／＋Ｂ＋Ｂ＋）（Ｂ＋）（ｌＢ＋／）（＂ＡＢＣ。ＢＡＡ／，　Ｃ，　ＡＡＢ，　＋／十）如仍有长词，ＡＣ＋ＡＣ＋Ｃ则采用２，２措施解决．－２－２－２这种方法简单，而且速度快。４设立切分标志法［、６３１在　　　　着许多自汉语中存在然切分（标志文章的非文字符一号，标点符号等，）如另外还在一些非自切分标志词存然（缀和不构成词的，词）如只能词首字或词尾字充当的字、不构成词的单字词、复音节单纯词、拟声词等，词不能跨越这些标志而存在。设立切分标志法的基本思想是通过建立非自然切分标志的一张表来识别所有的非自然标志。这样，一个句子链就可以转化为若千字符串短链。然后用其它切分方法进行细加工，这样可以大大提高效率。这种分词方法后期处理时由于匹配长度较短，减少了比较次数，不过开始阶段寻找切分标志又增加了分词的时间复杂度。另外非自然切分标志随着词典中收集的词和字的个数而变动。词典中增加了一些词但是没有增加新字，可能减少非自然切分标志，增加了一些新字，但由于没有能够及时地增加相应的词，可能会增加非切分标志的数量。其实，设立切 “ 分标志方法”并不是真正意义上的一种分词方法，只不过是自动分词的一种前处理方式而己，而且这种处理并没有提高分词精度，却要额外消耗时间扫描切分标志，增加分词的时间复杂度，另外要花费存储空间存放那些所谓的非自然切分标志。因此，设立切分标志法一般很少被单独采用。５Ｏ，　Ｍ方法Ｏ（ＨＯＴＭＭ　ＣＩＧ　ＨＤ方法称为　　　　ＰＩＵＭＴＨＮＭＴＯ）Ｍ　Ｅ　ＴＡＥ最佳匹配法。Ｍ方法Ｏ《汉语》张公主编）提出，正向现代（志中来的分为最佳匹和逆向配法最佳匹配法．最佳匹配法的出发点是在词典中按词频的大小顺序排列词条，以求缩短分词词典的检索时间，达到最佳效果，从而降低分词的时间复杂度，加快分词速度。实质上，这种分词方法是预先对分词词典进行处理，而不是一种纯粹意义的　　　　分词方法。Ｍ方法的分词词典每条词前面必须有指明长度的数据项，Ｏ所以ＯＭ方法的空间复杂度稍有增加。Ｍ方法虽然降低了分词的时间复杂度，Ｏ但是并没有提高分词精度。但它的一个明显缺点是频度较低的词，永远被错误切分。如果仅考虑当前Ｉ　　　　Ｔ在处理文本的词频的话，将会得到良好的效果，其代价是增加了分词的空间复杂度。６、二次扫描法二次扫描法的基本思想是取待处理材料中两个切分标志之间的部分作为样本　　　　串，首先从该样本串中取两个汉字作为匹配串，检查分词词典中是否有一个词，它的前两个汉字和该样本串相同，若有的话，则取样本串的前三个汉字作为匹配串，重新在分词词典中找可以匹配串的词，若有则重复下去，直到进行Ｉ个汉字为止设Ｉ词典中长词所含汉字的）则切分出（为最个数，一个Ｉ字词；有则若没完成了一次扫描；把匹配中的最后一个汉字去掉，作为新的匹配串，进行第二次扫描，第二次扫描是用ＭＭ方法或ＲＭＭ方法进行。由于汉语中的平均词长为１３．，故８二次扫描法降低了分词的时间复杂度。二次扫描要求分词词典按国际递增的顺序存放词条，若不是这样存放，则二次扫描法的时间复杂度会增大。二次扫描法没有提高分词的精度，也没有增大分词的空间复杂度。它是一种切实可行的方法。７基于词频统计的分词方法、词频统计的结果揭示了社会的用词规律，因此利用词频统计的结果帮助分词，　　　　会产生一定的效果。这种分词方法不依靠词典，将文章中而是任意个字（数的小于等于最长词长Ｌ同时出频规定）现的率进行统计，越高越可能次数的是一个词。它不是纯粹意义上的机械分词方法，而是在分词过程中处理歧义字段的一种方法。例如：ＢＢ是两个词，Ａ，　Ｃ如果ＢＣ的频度比ＡＢ的大，Ｂ则ＡＣ这一歧义字段应切分为Ａ。这种方法可以很容易地将挑选出专有术语、ＢＣ人名、地名等，但它的一个明显缺点是频度较低的词，永远被错误切分。如果仅考虑当前正在处理文本的词频的话，将会得到良好的效果，其代价是增加了分词的空间复杂度。８联想一回溯法、联想一回溯法是山西大学计算机系提出来的，目的在于提高分词的精度。该　　　　方法可描述如下：首先将待切分的汉语言文本，依据特征库分割为若千子串，每个子串为词或　　　　词群几（个词组成的序列。合而线性）然后再用实词库和规则将词群细分为词。库这种方法实际上采用设立切分标志法和有穷多层次列举法的思想，由于实行分级建库，故增加了分词的空间复杂度，把分词过程分解成分割和细分两个过程，使得分词的时间复杂度增大。它能提高分词的精度，从而是一种可行的方法。它不是一种纯粹机械分词方法。这种方法己在山西大学计算机系设计的ＡＷＤ自Ｂ动分词系统上得以实现。９专家系统方法、专家系统方法从专家系统角度把分词的知识（　　　　包括常识性分词知识与消除歧义切分的启发性知歧义识即切分规则从实）现分词过程中的推理机中独立出来，使知识库的维护与推理机的实现互不干扰，从而使知识库易于维护和管理，它还具有发现交集型歧义字段和多义组合歧义字段的能力和一定的自学习功能。综上所述，由于中文的复杂性，很难以某种方法正确地、彻底地分词。在实际应用中，一般都是几种方法配合使用，以求达到最佳效果。在上文中对目　　　　前主流的一些分词技术方法做了简要的介绍，由此可以看出基于分词的全文检索具有以下的优点：１　　　　）检索速度较按字检索的快。在理想情况下，检索词语经分词后的检索单元数量一般要少于以字为检索项的检索系统，当检索词语较长时，检索效率的提高比较明显。２　　　　）查准率较高。系统可以利用语言学知识借助词典和分词规则避免歧义词，如检索 “ 华人”这个词，按字检索会将 “ 中华人民共和国”也检出，而分词系统可以借助分词规则和词典避免这一情况。３　　　　）可以借用英文全文检索系统中已有的理论及方法，英文全文检索中有许多成熟有效的方法可以直接借鉴。４　　　　）可以完成概念层次、主题的提取和检索。同时分词技术也有其不可避免的缺憾与不足：　　　　Ｄ构造一个可以　　　　跟上时代发展的词典是分词系统的一个难题。由于现代语言的发展和外来语的引进，符合新时代特色的词典的构造不是一件简单的事，成为分词检索系统开发的制约因素。添加新词语，建立众多词语的新概念模式、删除过时词语的维护工作量极大。从成本角度看，词典的更新维护加大了用户的使用成本，不利于系统的推广。２中文构词方法的复杂性使得人们难以　　　　）构造一个完全准确、合理的分词规则，因此查全率一直是分词算法难以解决的问题，影响了基于分词的全文检索系统的可靠性。迄今为止始终没有一种有效的分词规则可以彻底解决查全、查准率的问题。３在分词过程中大量的人名、地名和许多专有名词、新的语言词语、外来词　　　　）无法在词典中记录，而分词规则也无法识别这些词，只能借助按字索引的方式解决。在实务中有相当多的检索信息是这类名词，因此从实际看，降低了分词检索的效率，使得分词检索系统的检索效率优势大打折扣。３几种压缩技术的研究．４在本节中主要针对索引在编码级上的压缩进行了分析，研究和比较。主要讨论了位紧压法３８可节码ＥａＧｍａ　ｎ编法，ｏｍ按凑缩［１变字编法，ｌａｍｃｉ码方Ｇｌｂ７，３ｉｓ　ｏｇｄｏｃｉ编码法，ｉｒＩｅｏｔｅ　ｉ码方并对编特点ｏｎｄｇ方Ｂａ　ｒｌｖＣｄｇ编法，针不同码的说ｎｎｐａｏｎｙｔｉ明了其适用的范围。３．按位紧凑压缩法．１４在本小节中利用单字的倒排索引文档给出按位紧凑压缩法的详细说明。在建　　　　立倒排文档时，在得到每个字符在所有源文档中的全部位置信息后，直接将其写入倒排索引件中，位置信息它文这些都用在源文档中的绝对地址来表示可能（被调整过，与实际的物理位置并不完全一致．）虽然每个文档一般不会太大，虑到但考通用绝对址性，地应该用４ｙ来表示。同个ｂｔｅ样文档号也需个ｂｅ示。要４ｙ来表ｔ现在对上面阐述基于单字的倒排索引建立方法的空间存储效率进行一些分　　　　析。先只对一个文字在一篇文档中的索引情况进行讨论，假设 “ 啊”字在ＩＤ编号为５４（ｘＡ３文档中出５３　Ｄ２的８Ｏ）现了１次，信息分别为：０位置ＰＳ＝（５　　　　ｘ）ＯＯ５　０ＰＳ＝９　５　　　　０４）ＯＴ６（ｘＰ５＝００８　　　　（６）０２１４ｘＰＳ＝０６０８８Ｏ９２５（０）ｘ按本节－和３的述，例中设ｍ为４为１则照式３１－阐本均，，　０有２ｎ，Ｃｐ４　＝０　ａ＝　１４ｂｔＸ　ｙ０ｅＩｏ２　０２ｂｔｎ＝　１＝　ｙｆＸ　０　ｅ空间压缩比：Ｃｍ＝Ｃｐｏ４／ｏａＭｆ＝０２０叭．２ｍ．首次出现绝定地址Ｍ，绝对地址１绝对地址２图３１　　　　　　　　　　　　　　　　　　　　　　　　－０相对地址压缩格式示意图Ｆｕ３０　ａｖａｄｓｃｍｒｓｎ　ｃｒ　　　　　　　　　　　　　　　　　　ｉｒ－Ｒｌｅ　ｒｓ　ｐｓｏｓｕｔｅｇｅ　ｅｔｄｅｏｅｉｔｕ１ｉｒ从上面的分析可以看出，如果不对字符位置信息进行压缩，索引库的信息量　　　　会很大，尤其对中文来说，在源文档中用两个字节表示的一个汉字字符，在索引库中需要用４ｙ来记录其出ｂｔｅ现位置，库的总的信息量将是源文档信息量的两索引倍左右，显然必须采用适当的方法对其进行有效的压缩。由于对文档的扫描处理是顺序进行的，字符出现的位置必然是按升序排列的。根据这一特点，可以对位置序列进行压缩，采取差值编码的思想，对每一出现位置记录其相对于前一出现位置的相对地址，每一相对地址采取尽可能短的可变长度表示。字表段的压缩格式如图所示。对字符位置序列压缩时，　　　　将第一个出现位置Ｐｉ直接用绝对地址表示，从Ｐ２开始，用相对地址表示。每个相对地址用若干位表示，在保证尽可能短的地址编码长度的条件下，将数个编码长度相同的连续地址压缩为一个 “ 地址节” 一个，地址节中包含该节的地址编码长度、地址个数以及各地址编码按位紧凑存放的地址码位流，如下图所示。这样一个字符在一篇文档中的位置信息就由若干地址节构成。地址编码长度可以有４ｉ，　ｔ８ｉ，　ｉ等情况。当相对地址长度超过　　　　ｂｓ６ｉ，　ｔ１ｂｓｔｂｓｂｓ６ｔ１ｉ地址空间时，则直接用绝对地址表示。６ｔｂｓ一般的文档都比较小，极少用到超过６Ｋ的相对地址，因此每个字符的出现　　　　４地址的编码长度一般在８ｉ－ｂｓｂｓ６ｉ之间。由ｔ１ｔ此可见，使用这种方法压缩的索引库的数据量将保持在原文档的文本内容的数据量的５％０％０－１之间。０相对地址编码长度｝地址个数｝地址码位流图３１－１地址节示意图Ｆｕ３１Ａｄｓｓｔｎ　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　ｉｒ　１　ｒｓ　ｉｇｅ－ｄｅｅｏｃ另外，第一个出现位置要用绝对地址表示，而在绝大多数情况下，绝对地址　　　　用１ｉ表示就６ｔｂｓ足够了．此，因在索引可以库中根据具体情况，般用２ｙ表示一ｂｔｅ绝对地址，对于极情况，使ｂｔ个别再用４ｙ编码。ｅ这种编码方式最大限度地压缩了位置信息，但是它只有在位置信息里出现大　　　　量连续的相同位数的地址时才能够对位置信息进行高效的压缩。例如，只有当长度为４ｉ的地址码连续出现四个以６ｓｔ上，用这种编码方式才能够起到节省空间的目的；而当连续的４ｉ编码小于两个时反而浪费了空间。因为在不压缩的情况下，ｂｓｔ４ｉ的ｂｓ地址可以个字节表示，个连续４ｉ占ｔ用一四ｂｓ用了４ｙ，ｔｂｔ而经过ｅ这种编码压缩后，个地压缩到了个字节中每个字节有８ｉ，四址被两（６ｓ另外在ｔ）用一个字节记录地址节中地址的个数以解码，用于这样就总用了３ｙ，共占６ｔ节省了个字节。ｅ一当４ｉ地址连续出ｂｓｔ现两次和三次时，编码前后所占用的字节都是两个和三个，不节省也不浪费，而当４ｉ只出现一次时，这样编码后需占用两个字节，反而多用ｂｓｔ了一个字节。同样，ｂｓ６ｉ的地址编码需要连续出现八个才能达到节省空间的目的。ｔ而当采用英文词表和中文字表的倒排表组织方式的时候，这种情况出现的几率是非常小的，使用这种方式编码也是很不经济的。另外，由于这种编码方式比较复杂，在编码和解码时需要消耗一定的时间和资源，也会直接影响搜索引擎的快速响应。只有当采用英文字表组织倒排表的时候，即英文不按照单词，而是以２个６字母组织倒排表，这个时候由于所有的位置信息全都集中到了２张表中，才有可６能出现大量连续的４ｉ．　ｔ等同长度的地址，这个时候用这种按位紧凑压缩的ｂｓｏｉｔｂｓ方式编码才是行之有效的。３．可变字节．２４编码（ａａｌＢｔＣｄｇＶｒｂｙｏｉ）ｉｅ　ｅ　ｎ在本小节中另外一种索引压缩的方法，叫可变字节编码［。　　　　介绍３该压缩方法９［是基于传统的索引结构模型。索引完全是由整数值组成，整数值越小，就能用更少的字节来表示它。为了提高索引压缩比，需要减小索引中数值大小，因此在创建索引之前，需要对索引进行预处理。在３节的基于分词的索引建立的方法中已经提到，　　　　．２若词出现列表中的文档编号是升序排列的，因此可以采用增量编码的方法表示文档编号，文档编号只保存与上一篇文档编号的增量。词在文档中的出现位置序列必然是升序排列的，因此也可以采用同样的处理方法，同时出现位置可以用词编号来表示，而不用词相对于文件头的字节偏移量来表示，这样可以大大减少出现位置的数值。可变字节编码分为两类，　　　　一类是均匀变长编码，另一大类是非均匀变长编码。下面分别就这两种编码形式加以详细说明。（　　一）均匀变长编码在未压缩的索引中，除了词频是单字节表示以　　　　外，其他都是用４个字节来表示，大部分的数值根本不需要４个字节表示，造成了很大的浪费。设计一种整数变长编码，将双字的低字节的最低２位作为数值字节长度标志位。０１０－１分别表示数值需要１个字表示。－４节除了２位作为标志位，其它位字节都用来保存数据（图３匀－。由图３２１－可知字节长度和标志位是均匀映射，称之为均匀变长编码。１所以编码时，首先根据数值大小来判断字节长度标志位，然后将数值做左移２位运算，将标志位通过按位或运算写入数值的低２位中。在解码时，首先在当前指针处读取一个字节，和０３做按位与的运算获得此数值的标志位，Ｘ然后按照标志位读入相应的字节，最后将读入的数据整体做右移２位操作就能得到源数据。比如数值１，２用二进制表示为１１００通过大小比０１００，１较后可知需要２个字节来表示，均匀压缩编码后的二进制表示为〕００１１０００，可以看出大部分的增量数值只需）００１　００１１１个字节表示，而无需再用４－２字节。｝＿Ｌ＝　ｍ１　ａ　　Ａ－一Ｆａ－ｌ ― ｌｇ－ｕ一州Ｆａ＝ｌ１ｇＦａ－１ｌ１ｇ图３１　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　－２均匀变长编码Ｆｕ３１Ｕｉｒｖｒｂｃｄ　　　　　　　　　　　　　　　　　　　　　　　　　　ｉｒ　２　ｆｍ　ｉｌｏ吨ｇｅ－ｎｏａａｅ　（二）非均匀变长编码通过分析可以看出，大部分情况一篇文章包含的字词数在４万以下，那么出　　　　现位置数值的增量编码则会更小。对于数据量较大的高频词，其出现文档编码的相对增量值也不大。针对全文数据的这一特点，提出一种标志位和字节长度非均匀的映射编码方法。由于小数值出现的机会大，可以将小数值字节表示范围划分密集一些，而大数值字节表示范围划分粗略一点。双字的编码方式如图所示。在前面的方法中。表示词频的单字节不压缩，由分析可知，一个词在很大部分文章中出现频率都很低［，ｉｍ针对此加入了ｌ对词频单字节的压缩编码方法，单字节编码标志位为１位，０或Ｉ分别表示用半个或一个字节表示数值（３１）图－４。均匀变百一￣一月一 ―匕　　　　　　　　　　　　　　　　　　　　　　　　　　　　几ｇ１０Ｆｇ１一一　　　　　　　　　　　　　　ｂ＝ｏＦａ＝】Ｉ１一ｇ一－匕　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　图３３非均匀变长编码示意图　　　　　　　　　　　　　　　　　　　　　　　　　　－１Ｆｕ３３　－ｉｒｖｒｂｃｄｇ　　　　　　　　　　　　　　　　　　　　　　ｉｒ－Ｎｎｎｏａａｌｏｉｇｅ　ｏｕｆｍ　ｉｅ　ｎ１长编码读写时，都是以字节为单位的，因此其压缩和解压缩的算法较简单；非均匀变长编码由于会出现读写时字节不对齐的情况，因此算法较为复杂，解压缩的Ｒ昭１ｂｔ１ｉ一　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　ｎ鲍＝１图３４单字节非均匀变长编码示意图　　　　　　　　　　　　　　　　　　　　　　－１Ｆｕ３４　ｌｂｔｎｎｎｏｖｒｂｃｄｇ　　　　　　　　　　　　　　　　　　ｉｒ　Ｓｇｙｏ－ｉｒａａｌｏｉｇｅ－ｉｅ　１ｎｅ　ｕｆｍ　ｉｅ　ｎ时间也会更长。就索引的空间来说，原来大部分用２字节表示的数值现在都能用１倍的字节表示，这部分空间减少了２％，但是１．５５字节的表示长度没有变化，３字节现在需要４字节来表示，字频大部分用半个字节就能表示，从整体来说比均匀编码方式的空间缩减率在２％５左右。由此可以看出非均匀编码相对于均匀编码来说，用一个标志位状态表示１个字节长度，．个字节长度标志位合并为一个，．５３４使得在低数值字节表示范围上划分更细了，与实际系统中小数据出现概率大的情况十分匹配，因此可以获得更大的空间压缩率。本小节主要介绍了变长编码压缩方式的两种实现形式，　　　　一种是均匀变长编码，另外一种是非均匀变长编码，由以上的分析可以看出，由于实际上文档的数量和文档的大小都会在平均的一个水平，并且不会十分的大，在这种情况下非均匀编程编码就会在压缩率上胜过均匀变长编码。但是在相同的条件下非均匀变长编码的编码格式比均匀变长编码的要复杂，所以其在解压缩的时间上也要长于均匀变长编码。３．ｌｓ　ｍｃｄｇ．３　ｉＧｍａ　ｉ４　Ｅａａｏｎ倒排表可以非常长，而信息检索是以　　　　磁盘为界限的。从磁盘检索一个长的倒排表要比对它进行其他的操作花更多的时间。为了能增大从磁盘上检索的信息量，需要针对整形数进行更有效的编码方法。在伽马编码中，个整型　　　　一数被表示成两部分，是ｈｗｌ，头部ｏ个０尾部是ｘ的二表示。进制这样整表示为二０，０，数９０００１因为ｌｚ３所以１ｏｘ，头部是００尾ｇ＝０，部是１０００１伽马编码对于小丫些的整数其编码效率是很高的，因为头部的长度短。当数　　　　变大，存储空间也变大了。ＥａＧｍＣｄｇ种简压　　　　ａ　ｉ是一单的缩编码的ｌａｍｏｎｉｓ　方式，针对数较小的值比整数其编码效率很高，但是若是整数变得很大的时候该编码的方式就有一些不太实用了。３．ＧｌｍＣｄｇ．４　ｏｂ　ｉ４ｏｏｎ在Ｇｌｂ码中，　　　　编ｏｍｏ整数ｘ用两部分来表示，商和余数．计算公商的式为９＝Ｌｘ１／，（－）　余数的ｋＪ计算公式为、一＊，伪冷１在这里ｋｏｍ编码算法的是Ｇｌｂｏ基础。如果ｒ，　　　　＜整数可以ｏｚ（于该值的ｐ用Ｕｇｊ取大ｋ最小整位存储，则它数）来否将需要ｌ２（于该上数）在里ｐ分（ｇｊ取大值的整，这是界点，算法为ｐ２ｏｋ１　ｏｋ计方＝ｌｇ＋Ｊ．ｌ２－ｋ当ｒ时，ｏｍ编码用４１　，　　　　Ｇｌｂ＜ｐｏ个０１个１还有ｒ进表示。的二制否则表示方法为９，　，以＋的进制个０１个１及ｒ二表示．ｐ这样，整数９用ｋ３编码为可以＝的０，１００１１，对于这套编码方案来说，ｋ的选择是至关重要的，如果选择的不好，编码后　　　　的整数会变的非常大，需要很长时间来解压。ｔｎ　ｌ（９４认为假定倒排表Ｗｉｅａ１９）ｔｔ　ｅ．　中整数符合Ｂｍｕｉｅｏｌ模型，则一列整数ａ值用ｋ０９　ｌ的ｋ－．Ｘ平均值（）来计算。６ａ对这些实验的ｋ　　　　　　值的选择用的是Ｗｉｎｔ的近似法，每一个倒排表都用自己ｅ的ｋ来压缩。存储ｋ的花费未被计算并且也没有包含在结果中。Ｗｉａｓ　Ｚｂｌ　　　　　　ｅ描述了ｏｍ编码实施优化的方法，ｌｍａｏｌｎｉｄ　对Ｇｌｂｏ并且认为常规的对整数的Ｇｌｂｏｍ编码比Ｅａｇｍ编码和Ｅａｄｌ编码解码更加节省空间。ｏｌｓ　ａｉａｍｌｓ　ａｉｅｔ本小节说明了Ｇｌ　　　　　　　　ｂ编码的原理，并且指出了该编码方案的关键点主要ｏｍｏ在于ｋ值的选择，因为ｋ值的大小与解压的时间关系很大，若是没有选择好一个合适的ｋ值那么解压的时间将变的很大，这样压缩算法就失去了意义。３５　ｉｒＩｅｏｔｅ　ｉ（进制．　　ａ　ｒｌｖＣｄｇ４Ｂｎｎｐａｏｎ二插入编码ｙｔｉ）二进制插入码４Ｍｆｔｔｖ２０用　　　　编［（ｏａ和Ｓｉｒ　）相邻数的１１　ｕｅ００信息来编码一个单调递增的整数数列。如果在整数数列Ｘ中，对于任意给定的一个整数Ｘ　　　　；ｉ，前一个数Ｘ１；和后一个＿数Ｘ１ｉ是已知的，＋那么通过减法运算我们可以得到存储Ｘ所需要的最大位数。因ｉ为Ｘ大小是（＿ｌＸ，１的ｉ的在Ｘ＋，　一）范围内所需的大位数为１２　１Ｘ１ｊ　ｉｌ＋，最０（ｉ－ｉ９Ｘ＋－－２。）解码时需要Ｘ１Ｘ１ｉ和ｉ的信息，所以数列Ｘ是从原先的Ｘ得到的，也就是＿＋２１说每个从表Ｘ得到的整数都在Ｘ中，１２这样也就可以递归地进行编码。中心最小二进制编码也是二进制插入编码的一种实现形式。它是指当压缩一　　　　个列１．需ｆ　位但有２ｒ－位编就浪掉。些浪序．，要ｌｎ，是ｆｌ。的码被费了这被．ｎｏｌ＆０＇，ｎ２费掉的编码可以被缩短成一位并被使用（只要这些短的编码不是长编码的前缀）。这些最小化的二进制编码被置于编码范围的中心，在进一步处理过程中，当数列的长度不断缩小，数列的密度也就增大了。压缩倒排文件表和词出现的倒排表直接在倒排表上进行操作，不需要取差值。　　　　通过计算每个文件上累加和来得到频率值，而由频率值可以产生一个单调递增的数列。在本小节中主要探讨了二进制插入编码的编码策略，它主要用来对一个单调　　　　递增的整数数列进行压缩编码。４中文全文检索系统的索引器设计实例分析从上文的分析可以知道，中文全文检索的索引库的组织结构不同其涉及的索　　　　引的创建，索引的维护方案也不同，带来的索引创建，检索效率，维护整个索引库的代价都是不同的，在本章中给出基于单字的倒排表索引系统的实现。４总体设计．１该系统共有三部分功能模块组成，分别是索引的创建，索引更新，索引删除，　　　　具体的结构图如下：源文本集图４　　　　　　　　　　　　　　　　　　　　　　　　　　　　　１索引系统结构图Ｆｕ今１　ｘ　ｔｓｕｔｅ　　　　　　　　　　　　　　　　　　　　　　　　　　ｉｒＩｅＳｓｍ　ｃｒｇｅｎｙｅｔｕｄｒ由上图可知：该系统由三个功能模块、一个可调用的索引压缩类和一个索引　　　　文件库组成，其中文本预处理模块是对文本集进行预处理，索引压缩是在创建索引和更新索引时用到的一个内部类模块，所以在此特别的列出。由第３章的分析知道基于字的索引系统创建方便，并且在检索方面的查全率和检索效率方面有比较好的效果。与之相比基于分词的索引结构需要比较多的资源来动态的维护一个词表，而且自然语言的自动分词技术还没有十分成熟。综合考虑，本系统采用了基于单字的倒排索引文件结构。在本章的各节中分别介绍了索引组织结构的形式、索引的创建方法以及索引的维护策略。同时还给出了索引结构的一种改进的方案和其相关的维护策略。４．２称文本预处理为什么要进行文本预处理？原因是待检索文本中所含有的并不全部是中文字可能含有英文字符、其它外语字符、或者一些特殊的符号，针对这些特殊字符创建索引的过程以及检索的策略与中文字符不同。所以在针对源文本集创建索引时需要将这些特殊的字符分离出来，分别对其进行索引的创建。由于本文主要讨论中文全文检索的索引构建，所以对于西文和其它字符的索引的创建不在详细叙述。除了将其它的特殊字符，外文字符分离出来，在索引的创建时还有一个很重　　　　要的题一停词 “ｏｗｒ１” 处这词没实的义，问一“ 止ｔｏ）　的理，些并有际意但ｐ　ｄ４２１是在文本中却大量的存在，比如中文字符中的 “ ，是” “ 的” “ ，得”等，英文中也有类似的词 “ｎ＂＂ｓａｄ，　 ”还有动词的过去式，过去分词等。这些词在文本中出现ｉ的概率很大，总量很多。但是其对实际的检索意义不是很大，若要是对这些词全部建立索引，将会耗费资所以很多源，在索引创建之前将这些 “ｔｗｒ移除。ｓｐ　ｄｏｏ” ＂ｏｗｒ” 设定根据统计的ｓｐ　ｄ的是ｔｏ规律事先设定一个ｃｓ数组．好的ｏｔｎ在具体处理时采用的策略是扫描文本时判断该字符是否为停止词，若是直接跳到下一个词进行处理。该部分在系统中其实是和索引创建紧紧相扣，文本预处理在索引创建时第一　　　　次扫描时进行各项预处理操作，然后分别处理。具体实现流程如下图：日月图４２文本预处理流程图Ｆｇｒ今２ｉｅｕｏｔｘｆ　ｔｅ４３．索引创建索引组织结构形式４３１．．该实现方案中索引文件采用倒排表的索引格式，索引单位采用了单字。倒排　　　　表的具体的形式和工作原理在前文中已经讨论了，在本节中采用了传统的倒排表的形式具体介绍如下：完整的倒排表模型的索引由两部分组成（　　　　见图４）－：３索引头：是一个一维数组，以　　　　字符内码为下标，记录各个字符的索引在索引体中的开始位置。索引体：　　　　３图４中的索引体示意图仅为方便理解，实际的索引体是示意图中各行数据依次首尾连接形成的一维数据流。图中的每一行存放一个字符Ｑ（ｓｓ）ｌｉｎ的索引数据，其结构为：（ｉ　ｔＯ．ｉ．，Ｔ，　（，　．，……，　　　　（ｎＯｌ．｝｛ｉＮ，　ＭＯ，｝ＴＮ，　，　ｎＪｌｉｚＯＯｉ．ａ．）｛ｉＮ，〔．ｉ二　　　　ｑ，Ｏ．” Ｔ，　，ｉ，ｂ．其ｙ　ｓ）示有符Ｃ的本内代，ｉ示本Ｔ中　　　　ｊｍ表含字ｉ文的部号Ｎ表文ｉ字中Ｔ（Ｉｓ　ｌｌ符Ｇ出次（ｉ　．〕现的数，Ｏ　ｙ．指出了本Ｔ中符Ｃ出具位置。ｌＯ．ｂ文ｉ字Ｇ现的体ｌ由于每个字符的索引数据的长度是不同的，因此需要索引头中的指针来指出　　　　开始位置。索引头　　　　　　　　　　　　　　索引体图４３简单倒排索引示意图Ｆｕ４Ｓｍｌｉｅｅｌｔ　　　　　　　　　　　　　　　　　　　　　　　　　　　　ｉｒ３　ｐｎｒｄ　ｓｇｅ　ｉｅ　ｔｉｖｓ下面就该索引库组织形式的检索要求进行简要的介绍：在检索时，设待查字　　　　符串为ＣＣ．Ｃ．，首先通过索引头定位各字符的索引数据，然后对数据进行ＩＺ．．．ｉ．Ｑ分析：Ｃ．ｃ索引数据均含有文本Ｔ的若１　的．．Ｃ索引记在ｒ录，个关于文本Ｔ的索引记录又含有０．　．０（ｉ１Ｏ，　，　是属于字符Ｇ的索引数据）Ｚ．Ｏ．，且Ｏ和Ｏ１　ｓｓｉｉ（ｉｒ十ｌ－１的差值刚好是）字符Ｑ所占的字节数，则文本Ｔ为一个命中文本。找到所有的命中文本后（或是分析完毕后仍找不到命中文本），检索完成。在下一小节中将介绍基于该索引组织结构的索引创建的方法。４．索引的创建方法．２３在该节中主要介绍了一中传统的倒排表索引的创建算法一一排序合并式。　　　　记文本集｛Ｉ　ｒ…，ｎ为，　　　　Ｔ，　Ｔ２Ｔ｝ａ它是有Ｔ，　ＩＴ．…，．个文本组成的２Ｔ等ｎ集合，由本集该文有一个唯倒一的排表ｐ之对应，据结构如图４。与其数－在全文３检索时，检索是直接依据倒排表０来进行所有的检索工作，这就要求由倒排表可以直接对应到原上，即有ｐａ显然，文本得到。一个文本集ａ和一个倒排表Ｐ是具有一一对应的关系，。即一Ｐ倒排表的索引“ 。排序合并” 创建的思路正是基于上述的分析。它把源文件当成一个三元组数组，倒排表也是一个三元组数组。创建文本索引实质就是找到由文本三元组数组建立倒排表三元组数组的方法。下面就一个实际的例子给出上述过程的详细说明，即倒排索引的创建过程。现有一文本集，它有两个文本组成，文本Ｉ　　　　和文本Ｉ，它的倒排表如图４．－４算法的关键是由文本Ｉ、文本ｎ建立它们的倒排表。文本１ “个双字节的汉字）：一人一个文本ｎ　个双字节的汉字）：一人一张（４索弓头１个－人几 “体｛ｌ６（）．　（．　）１２（ｌ１１．　４２）（０１．　０６）（．　），（４ｎ０ｎ．　）图４示例文本索引示意图　　　　　　　　　　　　　　　　　　　　　　　　　　　　－４Ｆｕ４Ｅａｐｔｔ　ｘｇ　　　　　　　　　　　　　　　　　　　　　　　　　　ｉｒ　ｘｍｌｅＩｅｉｇｅ－４　ｅ　ｎｎｘｄ当然，真正在计算机内存储倒排表时，为了节省索引空间，倒排表的数据结　　　　构并不像图４，而是如图４所示（－４－５在这里，暂且认为倒排表是顺序存储的，为了简明起见，图中字符出现的次数没填）。个－人图４实际索引数据结构示意图　　　　　　　　　　　　　　　　　　　　　　　　　　－５Ｆｕ今Ｒａｉｅｄｔｓｕｔ　　　　　　　　　　　　　　　　　　　　　　　　　　ｉｒ５　ｌ　ｘ　ｔｃｒｇｅｅｎａｒｕｄｅ　ｅ在本算法中，　　　　把源文本当成是一个三元组数组，而倒排表是另一三元组数组，由三元组数组１和三元组数组２之间的关系，可以看出它们是同一个三元组集的两个不同的顺序的排序。由此可以得出创建倒排表的方法一一把文本三元组集以字符内码作为主关键字，文本编号为次主关键字进行重新排序，得到的新三元组数组即为倒排三元组数组。实质上，可以把倒排表看成是源文本字符集重新排序而得到的新文本，它们的区别在于关键字不同。源文本的关键字依次是（文本号一文中位置一内，而倒排文件的关键字依次是（码）内码一文本号一文中位置）．具体创建时，依次扫描ｎ个文本。对一个文本中出现的每个字符，填写 “ 　　　　文本号一字符一文中位置”三元组。该文本扫描完成后，在内存中以 “ 字符”内码（拼音序）排序，并在磁盘上新创一个相应的临时索引文件用于保存数据。在所有的文本扫描完成后，根据倒排表索引的数据格式合并ｎ个文本对应的临时索引文件。三元组数组１　　　　　　　　：文本三元组数组文本号文中位置　　　　　　　　字符（Ｉ（Ｉ（Ｉ（Ｉ（ＩＩ（ＩＩ（ＩＩ（ＩＩ２４６０２４６０三元组数组２：文本三元组数文本号文中位置字符个、少６（Ｉ（Ｉ（１１（Ｉ（Ｉ（ＩＩ（ＩＩ（ＩＩ刁劫刁们２２０４４０６人人一二』、产、．矛、．户、少、产排序　　　　　　一月一）　　　　人）　　一）　　　　一、张）　　　　张、．产少图４６三元组１－与三元组２关系图Ｆｇｒ４６　ｒａｏｓ中ｏｔｌａｄ　ｌ２ｉｅ　ｔｅｌｉｂｆ　ｅｎｔｅ　ｕ－ｈｅｔｎｉｒｌ　ｒｐｉｐ用上例说明为简明起见，本章的例子均假设已经将英文标点等其它字符处　　　　（理完毕，所处理的仅为汉字）文本Ｉ　个双字节的汉字）（４：一人一个文本Ｉ（个双字节的汉字）Ｉ　４：一人一张索引的创建过程如下：１）扫描文本Ｉ得到，三元组，见表４．１２ “ ）以字符”内（码拼音序）排序后，得到表４．作为文本Ｉ２的索引存盘。表今１文档１原始三元组表４文档Ｉ－２排序三元组表４文档２－３排序三元组Ｔｂ今ｌｒｉｌ　ｅ　ｉｌ　ｌ２　ｇａｔｌｏｆｅＴｂ３　ｇａｔｌｏ}

常信村百科网