语言的弹性
第一本英文同义词辞典的作者Peter Roget博士描述了一种被他称作是“语言弹性”的现象。简而言之就是:一个词可表达多种意思(同形异义),一个事物可以用许多不同的词来描述(同义词)。
例如,“mercury”就是一词多义,其中含义包括:罗马众神的信使、太阳系中的一个星球、一种化学元素以及一种汽车的品牌。
再举个同义词的例子:用来装水的桶可称作“bucket”或“pail”。
如果说解决这种差异似乎并不难的,那是因为人类的大脑可以在信息
传输过程中即刻并下意识地转换同义词,并通过内部知识库根据语境区分一词多义。但当谈到信息检索系统时,这种差异性简直就是一大难题。
试想当你走进一家由机器人经营的五金商店、想购买一个bucket时。。。
机器人店员可能会态度坚决地告诉你,他们那里不卖bucket,但事实上,屋内堆着许多pail。
这是文本系统中语言弹性导致的最直接的结果:相关信息经常隐身。在一个控制词集中,等同关系用于映射同义词,并挑选出其中的一个词作为索引功能的首选术语。
例如,在线搜索关于Mercury的天文类文章时,用户可能会被迫浏览数千条关于神、汽车和化学领域的不相关信息。建立一个布尔搜索,例如“水星”和“星球”,这样就可以提高搜索的精准度了。然而,如此一来,信息的全面性势必会受到影响,一些相关结果由于不包含“星球”这个关键词而被系统过滤掉了。在一个控制词集中,插入修饰语则可以消除一词多义所产生的歧义,例如,“水星(星球)”。在分类学结构中,上下文和语境也可以解决语言歧义的问题。
除了同义词外,等同关系还可以用作其他种类的连接,例如拼写变体、地区和多语种等价词、机构特定优先术语、缩略词和缩写等。
分层角度
属分关系用于概念的分级,它们提供了任何知识领域中有关某一实体各种概念的自上而下的组织结构。在表示层级关系的树形结构中,每个分支既与其母体有着共同点又存在差异。差异关系可分为三种类型:类属关系、总括关系和实例关系。
类属关系指的是每一个下位概念都属于上位概念的一种。例如,仙人掌属于肉质植物的一种。
植物
肉质植物
仙人掌
总括关系指的是每一个下位概念属于上位概念的一部份,例如火花塞是汽车点火系统的一部份。
汽车电气系统
点火系统
火花塞
实例关系指的是下位概念是上位概念的一个例证。上位概念通常是一个普通名词,而下位概念可能是一个专有名词。例如,贝灵哲创始者庄园是红酒中子范畴梅洛的一个例子。
红酒
梅洛
贝灵哲创始者庄园
通常一个词可以在逻辑上属于多层分级,例如乐器可以分为弦乐器和打击乐器;钢琴既属于弦乐器也属于打击乐器,因此,钢琴这个词就需要分属于两个结构。 这种现象被称作多层属分关系。
属分关系存在着一个问题,这就是不同的信息用户会有不同的分级方式。分级结构取决于每个用户的审视角度。
例如,当描述一个医学本体时,人们会从不同的角度考虑问题,因此分级结构也会因人而异。
疾病
腹部疾病
心血管疾病
内分泌疾病
症状
发烧
恶心
皮疹
疗法
针刺疗法
解毒疗法
放射疗法
通过建立单一层级结构、构建所有的概念排列并满足不同的用户角度,这是不可能实现的。在这种情况下,我们或许有必要创建一套独立层级结构,描述知识领域的每个主要方面。
“方面”为我们带来了用户界面设计上的新挑战,因为多种层级结构需要导航和动态重组。其中一种可行的解决方案可以被比作平行宇宙和虫洞。
以下是两个例证:
酒的种类>酒质>产区
酒
红酒
梅洛
浓情
纳帕产区
贝灵哲
产区>酒质>酒的种类
美国酿酒厂
纳帕产区
贝灵哲
浓情
红酒
梅洛
联想思维
除了属分和等同关系外,还存在着一种更丰富、更微妙的联想关系。这些相关基于各种语境将概念和物体联系起来。例如,温度与温度计相关,收获与庄稼相关,死亡与哀丧相关,甚至与反义词生命相关。
以上所有例子之间的关系都代表着非常重要的关联性,但它们都是不能用属分关系或等同关系来描述的。这种关系是最难定义的,但却提供了概念之间一种最丰富、最微妙的联系,它可以使机器越来越接近人类的知识库。
电子叙词表
电子叙词表代表的是终极机器智能知识库,它能存储概念间存在的各种形式的关联。
与分类法只能存储属分关系不同的是,电子叙词表可以将分类法中的范畴顺序、等同和映射关系以及更多的直觉上的联系相互连接在一起。目前已经有了为构建这种叙词表提供指导的国内和国际标准,例如ANSI/NISO Z39.19 、ISO 2788 和5984。 |