eSoundex 分析器

eSoundex 或扩展的 Soundex 分析器使用 Soundex 算法,根据词语的辅音字母的英语发音将词语转换为代码。

除非元音字母是词语的第一个字母,否则不包括元音字母的发音。eSoundex 分析器与 Soundex 分析器相似,只是 eSoundex 分析器允许根据词语的长度,在其代码中使用少于四个或多于四个的字符。如果您要根据词语的发音来搜索文本,那么 eSoundex 分析器将非常有用。由于文本会转换为代码,因此无法执行近似搜索和范围搜索,也不能指定同义词词典。

eSoundex 分析器通过以下方式处理文本字符:

示例

在这些示例中,输入字符串显示在第一行,生成的标记显示在第二行,每个标记均以方括号括住。

在以下示例中,词语“the”不会转换为标记,因为它们是非索引字,而其余词语将转换为从词语首字母开始的 eSoundex 代码:

The Quick Brown Fox Jumped Over The Lazy Dog
[q2] [b65] [f2] [j513] [o16] [l2] [d2]

在以下示例中,冒号将视为空格,并会忽略反斜杠:

c:/gbasedbt 
[c] [i51652]

在以下示例中,将忽略 & 符号:

XY&Z Corporation 
[x2] [c61635]

在以下示例中,电子邮件地址将视为一个词语:

xyz@example.com
[x2251425]

在以下示例中,将忽略数字:

1abc 12abc abc1 abc12
[a12] [a12] [a12] [a12]

在以下示例中,具有相同主干词的三个词语具有不同的代码:

accept
[a213]
acceptable
[a21314]
acceptance
[a21352]