13、学习Lucene3.5索引之通过TokenStream显示分词

本文介绍了如何使用Lucene分词器进行文本分词,并展示了如何获取分词后的词汇及详细信息,包括词汇的位置增量、偏移量和类型等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.显示分词词汇

public static void displayToken(String str, Analyzer analyzer){
    try {
        /**
         * TokenStream tokenStream(String fieldName, Reader reader):
         * 获取TokenStream(分词流)
         * 参数一:域名(这里没有什么实际意义)
         * 参数二:输入流
         */
        TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(str));

        //创建一个属性(里面有分词后的词汇),这个属性添加到TokenStream中,随TokenStream移动而增加
        CharTermAttribute cta = tokenStream.addAttribute(CharTermAttribute.class);

        //遍历TokenStream
        while (tokenStream.incrementToken()){
            System.out.print("["+cta+"]");
        }
        System.out.println("");
        System.out.println("--------------------------------");
    } catch (IOException e) {
        e.printStackTrace();
    }
}

2.显示分词所有信息

public static void displayAllTokenInfo(String str, Analyzer analyzer){
    try {
        TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(str));
        //位置增量的属性,存储语汇单元之间的距离
        PositionIncrementAttribute pia = tokenStream.addAttribute(PositionIncrementAttribute.class);
        //每个语汇单元的位置偏移量
        OffsetAttribute oa = tokenStream.addAttribute(OffsetAttribute.class);
        //使用的分词器的类型信息
        TypeAttribute ta = tokenStream.addAttribute(TypeAttribute.class);
        //存储每一个语汇单元的信息(分词单元信息)
        CharTermAttribute ca = tokenStream.addAttribute(CharTermAttribute.class);
        while (tokenStream.incrementToken()){
            System.out.println("位置增量:"+pia+" 词汇的偏移量:"+oa.startOffset()+"--"+oa.endOffset()+" 类型:"+ta+" 分词:"+ca);
        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值