eSoundex 或扩展的 Soundex 分析器使用 Soundex 算法,根据词语的辅音字母的英语发音将词语转换为代码。
除非元音字母是词语的第一个字母,否则不包括元音字母的发音。eSoundex 分析器与 Soundex 分析器相似,只是 eSoundex 分析器允许根据词语的长度,在其代码中使用少于四个或多于四个的字符。如果您要根据词语的发音来搜索文本,那么 eSoundex 分析器将非常有用。由于文本会转换为代码,因此无法执行近似搜索和范围搜索,也不能指定同义词词典。
eSoundex 分析器通过以下方式处理文本字符:
在这些示例中,输入字符串显示在第一行,生成的标记显示在第二行,每个标记均以方括号括住。
在以下示例中,词语“the”不会转换为标记,因为它们是非索引字,而其余词语将转换为从词语首字母开始的 eSoundex 代码:
The Quick Brown Fox Jumped Over The Lazy Dog [q2] [b65] [f2] [j513] [o16] [l2] [d2]
在以下示例中,冒号将视为空格,并会忽略反斜杠:
c:/gbasedbt [c] [i51652]
在以下示例中,将忽略 & 符号:
XY&Z Corporation [x2] [c61635]
在以下示例中,电子邮件地址将视为一个词语:
xyz@example.com [x2251425]
在以下示例中,将忽略数字:
1abc 12abc abc1 abc12 [a12] [a12] [a12] [a12]
在以下示例中,具有相同主干词的三个词语具有不同的代码:
accept [a213] acceptable [a21314] acceptance [a21352]