CJK 分析器将中文、日语和韩语字符处理为建立索引的标记。
CJK 分析器通过以下方式处理文本字符:
- 将字符集变换为 UTC-4。转换半宽和全宽格式,以使它们具有同等字符。例如,fullwidth_digit_zero 和 digit_zero 将视为同一个字符。
- 在重叠对中,对中文、日语和韩语字符建立索引。
- 对拉丁字母、数字和特殊字符(_、+ 和 #)建立索引。
- 不对非索引字建立索引。
- 如果分析器名称为 cjk,那么不处理补充代码点,
- 如果分析器名称为 cjk.ws,那么将补充代码点处理为代理对,
示例
在以下示例中,第一行显示输入字符串,其中的 C1、C2、C3 和 C4 代表中文、日语或韩语字符。第二行显示生成的标记,每个标记均以方括号括住:
sailC1C2C3C4boat
[sail] [C1C2] [C2C3] [C3C4] [boat]