本部分描述了可能使 etx 索引比需要的大小更大,进而导致查询运行速度比需要的速度更慢的各种因素。
如果文档包含大量数字数据(例如,在财务报告中找到的数据)并且您指定了对数字字符建立索引的字符集,那么会将每个数字串视为词来建立索引。这会增加索引中唯一词的数量。
指定 PHRASE_SUPPORT=MEDIUM 或 PHRASE_SUPPORT=MAXIMUM 时的索引将比指定 PHRASE_SUPPORT=NONE 时的索引要大 2 至 4 倍。
使用非索引字列表(由 STOPWORD_LIST='my_stopwordlist' 指定)构建的 etx 索引通常比包含文档中所有词的索引稍小。但是,如果您还指定 INCLUDE_STOPWORDS='TRUE',那么此时的索引将比不包括非索引字列表时的索引约大 50%。
索引参数 | 总索引大小(以磁盘页面为单位,针对包含 100,000 个文档的 etx 索引) | |||
---|---|---|---|---|
词支持 | 词组支持 | 非索引字列表 | 包含非索引字 | |
Exact | None | No | False | 29 KB |
Exact | None | Yes | False | 28 KB |
Exact | Medium | No | False | 69 KB |
Exact | Maximum | No | False | 87 KB |
Exact | Maximum | Yes | False | 62 KB |
Exact | Maximum | Yes | True | 87 KB |
Pattern | None | No | False | 34 KB |
Pattern | None | Yes | True | 34 KB |
Pattern | Medium | No | False | 73 KB |
Pattern | Maximum | No | False | 92 KB |
Pattern | Maximum | Yes | False | 67 KB |
Pattern | Maximum | Yes | True | 92 KB |