网络信息检索中关键词语言的应用研究

2008-03-26 05:05     字号:

  吴东辰  (福建省图书馆 福州 350001)

 

        文章论述网络信息检索中关键词语言在网络搜索引擎、光盘数据库检索、网络数据库检索和智能多媒体系统中的应用,并以大量的实例来分析和说明,最后对关键词语言的优点与不足之处进行了总结。

    关键词  网络  信息检索  关键词  搜索引擎

 

    关键词是直接从原文的标题、摘要或全文中抽选出来,具有实质意义,未经规范化处理的自然语言词汇,作为信息存贮和检索依据的一种检索语言。各大搜索引擎和网络数据库除了提供分类法检索外,几乎都提供关键词检索法。运用关键词检索查询简捷方便,只需输入查询内容就可以得到相关资料,还可以输入更多关键词来缩小检索范围。使用关键词选项检索时,可以同时检索到标题、文摘和叙词。如果数据库中有标识词,那么也可以被检索。如果在输入关键词后得到的检索结果太少或者太多,可以在相关词或具有相似含义的词间使用布尔操作符“or”来扩大检索范围,也可以在词与词之间使用布尔操作符“and”来缩小检索范围。如果用特定的字段限制检索,会得到更为精确的检索结果。由于简单的关键词检索方法命中记录过多,检准率很低,虽然命中多也同样可能漏检有用信息,面对着庞大的信息量难以使网络用户满意。所以,目前网络信息检索工具不单单使用简单的关键词检索,而是辅以各种各样增强关键词检索功能的措施。例如Google等搜索引擎都提供高级检索,对检索用关键词进行限定。网络搜索引擎中关键词语言的高级检索方法有布尔逻辑检索法、加权检索法、截词检索、字段查询、模糊查询等。

1 关键词法在主要几种搜索引擎中的应用实例

1.1 新浪搜索(查博士)

    新浪网搜索引擎是面向全球华人的网上资源查询系统,是互联网上最大规模的中文搜索引擎之一。新浪搜索提供关键词查询,查询时在检索框内键入关键词,单击旁边的搜索按纽,新浪搜索会返回目录、网站、网页、新闻4种检索结果。新浪搜索支持多个关键词的查询,对网站进行多个关键词查询时,当表示“且”的关系(同时匹配多个关键词的内容),使用空格、逗号、加号和&。例如,要查找情报检索语言中有关主题语言的信息,输入“主题语言 情报检索语言”。当表示“非”的关系(查询某个关键词的匹配内容,但又不包含其中的一部分)时,使用减号搜索。当表示表达式是一个整体单元时,使用字符“()”。对新闻全文进行多个关键词查询时,如果表示“与”的关系,把多个关键词用空格隔开;如果表示“非”的关系,使用减号搜索。例如:使用关键词搜索“主题语言”,相关网站共找到 17.7万个,检索结果过于庞大。使用“且”再进行“主题语言 情报检索语言”检索,相关网站共找到245个,检准率得以极大的提高。

1.2 百度搜索

    你可以在搜索框中输入任何文字,关键词的内容可以是人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文等等,也可以是任何中文、英文、数字,或中文英文数字的混合体。可以输入一个,也可以输入两个、三个,甚至可以输入一句话,多个关键词之间必须留一个空格。输入多个关键词搜索,可以获得更精确更丰富的搜索结果,多数情况下,输入两个关键词搜索,就已经有很好的搜索结果。百度的关键词高级搜索功能提供减除无关资料的功能,用于排除含有某些词语的资料,有利于缩小查询范围。如搜索“情报检索语言”不包括“主题语言”,可以输入“情报检索语言–主题语言”进行检索。并行搜索功能:使用“A | B”来搜索“或者包含关键词A,或者包含关键词B”的网页。相关检索功能:如果你无法确定输入什么关键词才能找到满意的资料,百度相关检索可以帮助你。先输入一个简单词语搜索,然后,百度搜索引擎会为你提供“其他用户搜索过的相关搜索词”作参考。点击任何一个相关搜索词,都能得到那个相关搜索词的搜索结果。

1.3 Google

    Google查询简捷方便,严谨细致。Google自动使用“and”进行查询,只返回那些符合你的全部查询条件的网页,不需要在关键词之间加上“and”或“+”。如果你想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行了。Google运用智能型汉字简繁自动转换系统进行简繁转换,运用智软件系统对拼音关键词进行自动中文转换并提供相应提示(需用简体中文界面)。对于拼音和中文混和关键词,系统也能进行有效转换。

2 关键词语言在光盘数据库检索与网络数据库检索中的应用

    关键词语言在光盘数据库中的应用以《中国学术期刊(光盘版)(下称《光盘版》)为例。《光盘版》是由清华大学光盘国家工程中心研制,是我国第一个连续出版的大规模集成化的大型学术期刊全文数据库。它集学术期刊全文的快速检索、导读与评价于一体,对于我国学术期刊的检索、利用、评价提供了极大的方便,成为高校及各情报信息部门文献检索服务的主要工具之一。在《光盘版》中,利用文献主题的关键词进行检索,用户只要输入一个关键词,既可以通过关键词本身进行检索,也可以通过中英文摘要和篇名及全文进行检索。采用关键词检索,如果检索出的文献数量很少,可以随时通过篇名、摘要甚至全文进行扩检;而当检索文献内容过多,可采用关键词之间或同其他检索途径的复合检索(and关系)进行缩检,因而检索效果较好。所以当用户只知道某一主题的情况下,关键词可以作为首选的检索途径。

    在网络数据库方面,关键词应用更为广泛。如中国科技部西南信息中心、重庆维普资讯公司与悠游网的“期刊网”栏目联合推出的权威中文期刊咨询网站——《中文期刊数据库》,它是与悠游网智能中文搜索引擎的完美结合。数据库支持关键词检索,用户可直接输入关键词,也可使用双引号进行限定,提高检索精度。在国外,网络数据库中关键词的应用更早。Ei CompendexWeb是美国工程信息公司1995年推出的网络信息集成服务站点Ei Village中的第二部分,是《工程索引》的网络版。传统检索方式提供了Keyword (关键词)Ei Subject terms (主题词)Author (作者)Author Affiliations (作者地址)Serial Title (连续出版物)Choose a field (字段选择)6个检索框,即6种检索途径。可视其需要在一个或多个检索框内输入检索词,在Keyword (关键词)输入框中,可输入单词,也可输入短语,系统能自动在标题(title)、主题词(subject terms)、标识词(identifiers)和文摘(abstract)4个字段进行检索。词与词之间可使用布尔算符(andornot),也可使用截词符(*),扩大检索范围。

3 关键词语言在智能多媒体系统中的应用

    当今的信息资源大量的以超文本文件、多媒体文件等非结构化文件形式存在,简单的检索已不能满足需要,信息检索的智能化要求日益迫切。知识检索引入了知识组织的规则、分类树、语义网络、超文本以及其他的逻辑方法和可视化,并模拟人类关于知识处理与利用的智能行为和认识思维方法,成为信息检索发展的新理念。它综合应用信息管理科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源(文本、图像、视频、声音等),从而准确精选用户需要的结果,以弥补关键词搜索中过大的信息返回量带来的有用性评价困难。我们生活的信息环境日益多样化,并全方位的发展。包括了音频媒体、VRML数据以及图形、动画等的多媒体信息和合成媒体信息越来越多地用于因特网、企事业、商业和科研系统之中,如今的网络信息资源里可获取的图像、音乐和其他多媒体数据也越来越多。用户最常用的是提交文本方式查询,即用关键词和关键词逻辑组合来表达查询的概念。系统根据数据库的文件将关键字映射为网站或网页地址,并以最终结果出现。当词语难以完全表达描述视觉或听觉感知时,用户可以利用基于内容的多媒体信息检索,对媒体呈现的视觉和听觉特性进行查询。在进行搜索时,系统会先进行采样,然后与数据库中的文件相比较,最后将内容相似的媒体文件返回并作为最终搜索页面出现。另外还有排除与自动标注方式,这种检索吸收了前面两种技术的优点,大幅度地提高了媒体搜索的精确度。

    随着计算机软硬件设备的快速更新和网络宽频服务的广泛应用,多媒体资料在互联网上更为丰富。多媒体检索要充分利用文本、关键字和其他客观属性,综合其他学科领域的成果,并结合现有的文本检索(关键词检索)功能,集成到基于内容的检索系统中,利用特征之间的互补能力来提高检索效率。如视频检索时结合音频的变化,考虑到特定的声音与关键词语言,将能更为准确地定位图像。

4 关键词语言的优点与不足

    关键词语言是未经加工、规范的自然语言,在关键词语言检索过程中,计算机对给定的检索词在数据库相关的字段,借助截词检索等各种方法直接查找(如在正文中查找则称为全

文检索),然后将匹配记录罗列,也就是各大搜索引擎中常用的关键词检索。使用关键词语言检索无繁琐规则的约束,词量又大,检索标识可从文献题名、文摘或正文中抽取,检索用词符合用户日常表达的习惯,用户可以自由选择能准确反映自己意图的词语作为检索标识用于检索文献。因为系统是从用户认知能力出发构建的,所以也能接受用户以自己的语言所表述的需求,这就在很大程度上增加了检索系统的易用性。冲破复杂、繁琐的人工语言规则的束缚,检索系统也不再生硬,可以得心应手地操纵检索。对自己原本不太熟悉的检索问题亦可通过友好的人机检索界面,随着检索的逐步深入对检索策略不断及时地修正,或扩大或缩小或改变路向检索相关问题,使用户真正实现检索过程的自我控制,充分体现用户为中心的人本思想。从Google的成功我们可以看到,如果说YAHOO成功于用人工标引的供分类浏览检索数据库,Google成功自然少不了得益于它过硬的搜索技术下所提供的关键词检索,也就是自然语言检索。从YAHOOGoogle,我们可以看到关键词语言已经在情报检索语言中占领主导地位。

参考文献

1 张琪玉.网络信息检索工具增强关键词检索功能的措施[J.图书馆杂志,2001(1):7-10.

2 曹青.情报检索中对自然语言的控制[J.北京教育学院学报,2001(1):53-55.

3 张琪玉.网络信息检索用语言的发展趋势[J.图书馆杂志,2001(3):5-7,22.

4 刘萍.图书馆检索系统利用关键词检索的必要性[J.图书馆学研究,2004(2):91-93.

5 罗骏,欧智坚.一种高效的语音关键词检索系统[J.通信学报,2006(2):113-118.

    吴东辰 女,福建省图书馆馆员。

  (收稿日期:2007-01-22。龚永年编发。)

附件下载

相关链接