Soundex 分析器使用 Soundex 算法,根据词语的辅音字母的英语发音将词语转换为四字符代码。
除非元音字母是词语的第一个字母,否则不包括元音字母的发音。忽略前四个语音之外的其他语音。如果词语的语音不到四个,那么将使用零来填充四字符代码。Soundex 分析器与 eSoundex 分析器相似,只是 Soundex 分析器在其代码中使用四个字符,而不管词语的长度如何。如果您要根据词语开头部分的发音来搜索文本,那么 Soundex 分析器将非常有用。由于文本会转换为代码,因此无法执行近似搜索和范围搜索,也不能指定同义词词典。
Soundex 分析器通过以下方式处理文本字符:
在这些示例中,输入字符串显示在第一行,生成的标记显示在第二行,每个标记均以方括号括住。所有代码都由四个字符组成。
在以下示例中,词语“the”不会转换为标记,因为它们是非索引字,而其余词语将转换为从词语首字母开始的 Soundex 代码:
The Quick Brown Fox Jumped Over The Lazy Dog [q200] [b650] [f200] [j513] [o160] [l200] [d200]
在以下示例中,冒号将视为空格,并会忽略反斜杠:
c:/gbasedbt [c000] [i516]
在以下示例中,将忽略 & 符号:
XY&Z Corporation [x200] [c616]
在以下示例中,电子邮件地址将视为一个词语:
xyz@example.com [x225]
在以下示例中,将忽略数字:
1abc 12abc abc1 abc12 [a120] [a120] [a120] [a120]
在以下示例中,具有相同主干词的三个词语具有相同的代码:
accept [a213] acceptable [a213] acceptance [a213]