精确搜索的关键(3) --道琼斯Factiva白皮书系列

kelvinzhang 发表于 2008-5-5 3:34:13

名称实体控制

 

到目前为止,讨论主要集中在概念词集方面,但词集控制技术也同样适用于其他种类的词集,例如人名、组织名称、地理实体以及其他专有名词表。

 

名称实体的权限控制属于信息科学的一个分支,它利用了概念词集控制的原则。名称实体权限控制的目标是:

1.消除不同个人、组织或其他实体因拥有类似或相同名称而产生的误会;

2.将他们使用的所有名称变体形式联系在一起;

3.组织适当的实体层级结构;

4.   表现实体间其他种类的联系。

 

无论不同的信息来源正在使用多少种变体名称,也不管查询者是否了解某一特定形式,有了这样一个知识库后,机器便可以呈现出关于个体、组织和其他实体的更为完整的情况。

 

有时我们需要使用特殊方法,以允许特定的变体形式用于特定联系。例如:由萨缪尔-克莱门斯创作的部分书籍署名为该法定姓名,而另一些书籍的署名就变成了他的笔名—马克-吐温。

 

尽管允许这些变体关系的存在,但我们需要将实体的所有关联集中成一体。

 

个体名称

 

假名、别名、昵称、婚后名、婚前名、工作时使用的名字、短名、长名、代码名称、法定名称、笔名、艺名和绰号,这些都可能使得信息系统中个人或组织实体的真正身份出现混淆。以上所有名称或许只是某个真实名称正当、合法的不同表现形式而已。而当个人或组织故意隐瞒真实身份的时候,问题将会变得更加复杂化。

 

在正式与非正式关系以及人与人之间的交往中,例如婚姻关系、父母关系、朋友关系以及商业关系,姓名也可以利用个性化的关系而进行表示。

 

消除相似名或同名引起的个体间的误会,可能需要引入规则确认,它指的是一些可控的元数据元素,例如出生地、住所、生卒日期、国籍和其他一些官方证明数据,以及许多其他数据。

 

组织名称

 

组织名称适用于正规实体,例如企业、学术机构、非赢利组织、地方和全国性政府机构及其执行部门。不太正规的团体也可以有组织名称,例如行为艺术组织和文化圈等。另外犯罪集团、政治集团和恐怖主义组织等也同样适用。

 

与人名一样,组织名称也面临着别名、假名和其他多种变体形式的困扰。组织经常通过并购和合作更改名称。许多组织还存在一定的层级结构,例如公司部门/分部结构。

 

组织间的主要关系可以这样描述:例如,A公司与B公司合并,C公司是D公司的客户等。

 

人名也可能与组织名称相关联,以反映具体个人是特定组织中的成员。

 

地理名称

 

地理名称可以描述国家、州、地区、城市、领土、海域、河流、山脉、沙漠、树木、丛林、平原以及其他诸多地理及地质实体。这些实体也有着各种形式的名称,同样的名称也可用于不同的地点,而且名称会随着历史发生变化。

 

大部分地质实体都有自己的层级结构和其他关联关系。

 

企业知识库

 

对于大部分大型企业和政府机构而言,目标是建立一个中心控制词库,目的在于将组织中所有的数据来源都统一起来。企业可能包括多个业务部门,各部门可能各自使用专业、私人、传统或第三方词汇。

 

六度空间理论

 

六度空间这个词最早是由John Guare1991在他的同名舞台剧中提出的。六度空间概念是指通过六个中间人你就能够认识地球上的任何一个陌生人。最初这种观点听起来让人觉得难以置信,但在1967年,哈佛大学教授斯坦利-米尔格兰姆设计了一个实验。他从美国随机选择了两个人,目标是让这两个人素不相识的人最终产生联系。最后的结果是,中间平均通过了5.5个人后两人结识。

 

我们从六度空间现象中可以获得这样的启示:复杂网络的节点间都存在着紧密的关系,不同地点间取得联系只需通过几步就可以完成,迅速且便捷,例如打个电话、点点鼠标就可以轻松实现。

 

结论

 

对于文本搜索而言,由于语言弹性的存在,精准与全面必然不能两全。人类大脑就可以克服这一问题,因为人类拥有一套复杂的知识库,其中没有一个词是孤立存在的。为了使机器也能在信息搜索时达到同样水平的精准召回率,就需要为他们设计一个具有大量连接网络的控制词库。

 

分级至关重要。简单的分类法不足以用来访问大型企业和政府机构管理的、迅速增长的信息知识库。

 

然而,关联网络可以消除类似概念和名称产生的误会,将不同的变体形式组合在一起,捕捉多语言中词汇的共同点,将概念、实体分成多层级结构,并抓住概念和名称实体间的微妙关联。

 

词集内部及词集间的交叉指示网络越是丰富,该关联网络在准确、全面、快速解答用户搜索提问方面的效果就愈加卓著。

 

© 2006 Factiva, Inc. All rights reserved.

发表评论:

    昵称:
    密码:
    主页:
    标题:
Powered by Oblog.