精确搜索的关键(1)-道琼斯Factiva白皮书系列 

kelvinzhang 发表于 2008-4-26 1:10:43

隐蔽信息

 

没有人能够准确描述出21世纪初信息时代的成败。我们可以获得海量的数字化信息,有着连接数百万台电脑的全球化网络,但要想找到特定信息却比以往更像是大海捞针。

 

那么,信息检索为何如此困难呢?其中一个主要原因在于语言是有弹性的:一词可以表示多义,同样一个概念也可以用各种不同的词汇去描述。人类的理解能力之所以强于机器,就是因为人类的大脑中储存着一个庞大、复杂的词汇关联网络,在这个庞大的网络中,没有任何一个词汇以孤岛的形式独立存在。

 

在查询大量数据集时,文本搜索算不上是一个令人满意的方法,而且随着数据集继续呈指数级增长,这种搜索方法将越来越令人失望。

 

数十年来,文本搜索存在的缺陷在信息科学领域一直被看作是精准率与召回率的折衷。

 

实证研究表明,精准率和召回率不可两全,当召回率上升时,精准率就会下降,反之亦然;这种此消彼长是文本搜索的固有特性。

 

换言之,如果你需要尽可能地看到所有的相关信息,那么这就意味着你要不可避免地费力浏览大量的不相关数据。要想提高搜索结果的全面性,你就必须以牺牲搜索结果的精准度为代价。

 

  整个世界都被信息网络所覆盖,没有什么可以遁逃。但海量的信息使信息本身更加分散,我们无法做到包罗万象。-- Günther Grass

 

人类学范式

 

人类大脑约有1000亿个神经元,但这并不是人类之所以高级的理由。人类无穷无尽的能力源自大脑内一种由神经键组成的复杂网络。这个网络内部的联系方式是不能用数十亿来衡量的,其数量要大于整个宇宙中所有的基本粒子,例如电子、质子、中子等。

 

相互关联性是理解人类大脑活动方式的关键,同时也是解决信息系统中存在的精准率与召回率难题的根本。

 

与机器不同的是,在人类大脑中,语言并不是孤立的。每一个想法、词汇和图像都通过多种微妙的联系与其他相关语言和概念形成错综复杂的关系。如果我们希望机器可以理解人类的信息请求并提供全面相关的结果,那么我们就需要为它们建立一个知识库,其结构应该与人类大脑相似。

 

机器相关性

 

 “关联”这个词意味着绑在一起或相互连接;在信息科学领域,“关联”指的是用来描述代表各种联系的词汇交叉指示。

 

利用控制词集建立信息系统概念间联系的标准方法论经历了一段时期的发展。总体而言,其中包括属分关系、等同关系和类缘关系。

 

最终,控制词集的目标是用一个并且仅用一个精确的索引项代表每个真实世界的独立物体或者唯一的抽象概念,然后对这些索引项进行交叉指示用以代表概念或真实世界关联性内在的丰富互联关系。

 

同形多义词需要消除歧义。同义词需要映射到一个常用词。

 

概念被安排在一个或是几个层级结构中,用以代表不同的范畴组织。同时概念还通过与其他相关概念间的自由联合相互关联,如此便进一步丰富了这个关联网络。以下三个部分将对此做出更详尽的阐述。

 

(未完待续...)

发表评论:

    昵称:
    密码:
    主页:
    标题:
Powered by Oblog.