Soundex 分析器

Soundex 分析器使用 Soundex 算法,根据词语的辅音字母的英语发音将词语转换为四字符代码。

除非元音字母是词语的第一个字母,否则不包括元音字母的发音。忽略前四个语音之外的其他语音。如果词语的语音不到四个,那么将使用零来填充四字符代码。Soundex 分析器与 eSoundex 分析器相似,只是 Soundex 分析器在其代码中使用四个字符,而不管词语的长度如何。如果您要根据词语开头部分的发音来搜索文本,那么 Soundex 分析器将非常有用。由于文本会转换为代码,因此无法执行近似搜索和范围搜索,也不能指定同义词词典。

Soundex 分析器通过以下方式处理文本字符:

示例

在这些示例中,输入字符串显示在第一行,生成的标记显示在第二行,每个标记均以方括号括住。所有代码都由四个字符组成。

在以下示例中,词语“the”不会转换为标记,因为它们是非索引字,而其余词语将转换为从词语首字母开始的 Soundex 代码:

The Quick Brown Fox Jumped Over The Lazy Dog
[q200] [b650] [f200] [j513] [o160] [l200] [d200]

在以下示例中,冒号将视为空格,并会忽略反斜杠:

c:/gbasedbt 
[c000] [i516]

在以下示例中,将忽略 & 符号:

XY&Z Corporation 
[x200] [c616]

在以下示例中,电子邮件地址将视为一个词语:

xyz@example.com
[x225]

在以下示例中,将忽略数字:

1abc 12abc abc1 abc12
[a120] [a120] [a120] [a120]

在以下示例中,具有相同主干词的三个词语具有相同的代码:

accept
[a213]
acceptable
[a213]
acceptance
[a213]