词汇表
访问方法 (access method)
etx
是辅助访问方法的一个例子。
近似词组搜索 (approximate phrase search)
这种搜索中的搜索文本必须包含与线索相同的词组或是一个或多个线索词。 线索中词的顺序并不重要。例如,如果线索是
buy
three
dolls
,那么搜索引擎将返回包含精确词组的文档,也会返回包含词组
three
dolls
、
buy
dolls
或
dolls
buy
的文档。
BLOB
另请参阅
智能大对象 (smart large object)
。
布尔搜索 (Boolean search)
一种使用布尔表达式(逻辑运算符)&(AND)、|(OR)或 ! 和 ^(NOT)的搜索。如果要搜索包含关键字列表中所有词的文档,请使用 & 布尔运算符;如果要搜索至少包含列表中一个词的文档,请使用 |;如果要搜索不包含指定词的文档,请使用 ! 或 ^。可以组合布尔运算符以形成更复杂的表达式。 这种类型的搜索通过将 SEARCH_TYPE 调整参数设置为
BOOLEAN_SEARCH
进行激活。
CLOB
存储文本项块(比如 ASCII 或 PostScript
®
文件)的智能大对象数据类型。
另请参阅
智能大对象 (smart large object)
。
线索
想要搜索的数据,作为
etx_contains()
运算符的第二个参数指定。
文档分数 (document score)
文本搜索引擎分配给模糊搜索每个返回行的值,该值指定线索与每个返回行之间的相似程度。 分数范围从 0 到 100,其中 0 表示不匹配,100 表示完全匹配。通过
etx_contains()
运算符的第三个参数(即语句局部变量 (SLV))来访问分数信息。SLV 的数据类型是 etx_ReturnType,这是由
GBase 8s
定义的行类型,并由三个字段组成。 分数信息包含在
score
字段中。
过滤 (filtering)
GBase 8s Excalibur Text Search DataBlade 模块
的一个组件,用于从格式化文档中自动过滤掉所有专用格式信息,然后将其转换为 ASCII 格式。
精确词组搜索 (exact phrase search)
精确匹配线索的文本搜索。 当文本搜索引擎以指定的精确顺序找出包含线索中所有词的词组时,精确词组搜索才算成功。
模糊搜索 (fuzzy search)
与线索近似匹配(而不是精确匹配)的文本搜索。 模糊搜索会考虑替换、调换和基本模式匹配。 当搜索
editor
时返回包含词
editer
的文档的搜索,就是模糊搜索的一个例子。
命中 (hit)
文本搜索的结果(行)。
命中列表 (hitlist)
命中(行)的列表。
突出显示 (highlighting)
检索搜索文本中线索的每个实例的位置的过程。
GBase 8s Excalibur Text Search DataBlade 模块
以有序的整数对的形式(描述相应文档中所有出现线索的位置及长度)返回突出显示的信息。
索引参数 (index parameter)
用于指定
etx
索引特征的变量,以支持计划执行的搜索。索引参数示例:
WORD_SUPPORT='EXACT'
。
关键字 (keyword)
在搜索文本或线索中找到的任意连续的字符组,以不可索引的字符(如空格或制表符)来定界。
关键字搜索 (keyword search)
将线索中的词视为单独实体(关键字)而不是一个单元(词组)的搜索。 当文本搜索引擎执行关键字搜索时,只要它遇到线索中的一个或多个词,都会返回一行。
运算符类 (operator class)
数据库服务器将其与辅助访问方法相关的运算符集。 创建索引时,就会将该索引与特定运算符类相关。
模式搜索 (pattern search)
请参阅
模糊搜索 (fuzzy search)
。
词组搜索 (phrase search)
将线索中的词视为一个单元(词组)而不是单独实体(关键字)的搜索。 存在下列两种类型的词组搜索:精确搜索和近似搜索。
近似搜索 (proximity search)
这种搜索指定可以出现在两个或多个搜索词之间的非搜索词数量。 例如,您在搜索包含词
editor
和
multimedia
的词组,但不想要四个以上的非搜索词将这两个关键字隔开时,就可以使用近似搜索。 该类型的搜索通过将调整参数
PROX_SEARCH
设置为 SEARCH_TYPE 进行激活。
排名 (rank)
根据每个返回行的分数为命中列表指定的顺序。
根字 (root word)
同义词列表中为其定义了一个或多个同义词的词。 这是同义词列表中单行最左边的词。当激活同义词匹配时,搜索关键字必须是根词,以返回其同义词。
行数据类型 (row data type)
由一组相同或不同数据类型的有序数据元素(字段)组成的复杂数据类型。 行类型的字段可以是任意受支持的内置或扩展数据类型,包括复杂数据类型,但 SERIAL、SERIAL8 和 BIGSERIAL 除外,在某些情况下 TEXT 和 BYTE 也除外。
行数据类型分为两类:
已命名行类型,通过 CREATE ROW TYPE 语句创建
未命名行类型,通过 ROW 构造函数创建
智能大对象空间 (sbspace)
包含一个或多个只存储智能大对象数据的块的逻辑存储器区域。
分数
请参阅
文档分数 (document score)
和
词分数 (word score)
。
搜索字符串 (search string)
请参阅
线索 (clue)
。
搜索文本 (search text)
存储在表列中、要搜索的数据。
SLV
语句局部变量 (statement local variable)
的缩写。
智能大对象 (smart large object)
这种大对象:
存储在智能大对象空间中,而智能大对象空间是包含一个或多个块的逻辑存储器区域。
具有与 UNIX
®
文件类似的读、写和寻道属性。
是可恢复的。
与事务隔离方式兼容。
可通过应用程序按分段检索。
智能大对象包括 CLOB 和 BLOB 两种数据类型。
语句局部变量 (statement local variable,SLV)
用于存储某个函数通过指针间接返回的值以及该函数直接返回的值的变量。SLV 的作用域限制为使用它的语句。
etx_contains()
运算符的第三个参数(可选)是一个 SLV,用于存储分数和突出显示信息。 SLV 的数据类型是 etx_ReturnType。
非索引字 (stopword)
想要从索引或搜索中排除的关键字。 非索引字通常是常见词,如
and
、
or
、
the
和
to
,也可以是在文档中频繁出现但又希望排除的任何词。
替换 (substitution)
词的一种错误拼写形式,用另一个不正确的字母替换了词中的某个字母。 例如,将
search
错误拼写为
searck
,就是替换的一个例子。
同义词 (synonym)
对于具有相同含义或者含义部分或完全相似的两个或多个词或表达式,其中任何一个都可以称为同义词。词
java
就是词
coffee
的同义词。
文本搜索引擎 (text search engine)
GBase 8s Excalibur Text Search DataBlade 模块
的组件,用于调用 Excalibur Technologies 的文本检索库(TRL)以执行搜索。 TRL 是 C 语言对象模块库,旨在执行对文本数据的快速检索和自动索引。 每当执行文本搜索或对文本数据建立索引时,文本搜索引擎都会动态地链接到
GBase 8s
。
调换 (transposition)
词的一种错误拼写形式,词中的两个相邻字母互换了位置。 例如,将
search
错误拼写为
saerch
,就是调换的一个例子。
调整参数 (tuning parameter)
用于指导文本搜索引擎如何执行搜索的变量。 调整参数通过
etx_contains()
运算符的
Row()
构造函数的第二个参数传递给文本搜索引擎。例如,
SEARCH_TYPE = WORD
就是调整参数的一个例子。
词分数 (word score)
搜索引擎使用模糊逻辑来确定是否将模式匹配视为命中。它根据其内部规则为候选匹配项分配分数。 缺省情况下,只有与搜索线索相对匹配度为 70%(词分数为 70 或更高)的词才考虑为命中。
父主题:
附录