博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Lucene】Apache Lucene全文检索引擎架构之中文分词和高亮显示4
阅读量:4516 次
发布时间:2019-06-08

本文共 5897 字,大约阅读时间需要 19 分钟。

  前面总结的都是使用Lucene的标准分词器,这是针对英文的,但是中文的话就不顶用了,因为中文的语汇与英文是不同的,所以一般我们开发的时候,有中文的话肯定要使用中文分词了,这一篇博文主要介绍一下如何使用smartcn中文分词器以及对结果的高亮显示。

1. 中文分词

使用中文分词的话,首先到添加中文分词的jar包。

 

org.apache.lucene
lucene-analyzers-smartcn
5.3.1

 

然后弄一些数据,使用中文分词器来生成一下索引,以便于后面搜索用到。

public class Indexer {    private Directory dir; //存放索引的位置    //准备一下用来测试的数据    private Integer ids[] = {1, 2, 3}; //用来标识文档    private String citys[] = {"上海", "南京", "青岛"};    private String descs[] = {        "上海是个繁华的城市。",        "南京是一个有文化的城市。",        "青岛是一个美丽的城市。"    };    //生成索引    @Test    public void index(String indexDir) throws Exception {           dir = FSDirectory.open(Paths.get(indexDir));        IndexWriter writer = getWriter();        for(int i = 0; i < ids.length; i++) {            Document doc = new Document();            doc.add(new IntField("id", ids[i], Field.Store.YES));            doc.add(new StringField("city", citys[i], Field.Store.YES));            doc.add(new TextField("desc", descs[i], Field.Store.YES));            writer.addDocument(doc); //添加文档        }        writer.close(); //close了才真正写到文档中    }    //获取IndexWriter实例    private IndexWriter getWriter() throws Exception {        SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();//使用中文分词器        IndexWriterConfig config = new IndexWriterConfig(analyzer); //将标准分词器配到写索引的配置中        IndexWriter writer = new IndexWriter(dir, config); //实例化写索引对象        return writer;    }    public static void main(String[] args) throws Exception {        new Indexer().index("D:\\lucene2");         }}

建立好了索引,接下来就是查询了。

public class Searcher {    public static void search(String indexDir, String q) throws Exception {        Directory dir = FSDirectory.open(Paths.get(indexDir)); //获取要查询的路径,也就是索引所在的位置        IndexReader reader = DirectoryReader.open(dir);        IndexSearcher searcher = new IndexSearcher(reader);        SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer(); //使用中文分词器        QueryParser parser = new QueryParser("desc", analyzer); //查询解析器        Query query = parser.parse(q); //通过解析要查询的String,获取查询对象        long startTime = System.currentTimeMillis(); //记录索引开始时间        TopDocs docs = searcher.search(query, 10);//开始查询,查询前10条数据,将记录保存在docs中        long endTime = System.currentTimeMillis(); //记录索引结束时间        System.out.println("匹配" + q + "共耗时" + (endTime-startTime) + "毫秒");        System.out.println("查询到" + docs.totalHits + "条记录");        for(ScoreDoc scoreDoc : docs.scoreDocs) { //取出每条查询结果            Document doc = searcher.doc(scoreDoc.doc); //scoreDoc.doc相当于docID,根据这个docID来获取文档            System.out.println(doc.get("city"));             System.out.println(doc.get("desc"));             String desc = doc.get("desc");        }        reader.close();    }    public static void main(String[] args) {        String indexDir = "D:\\lucene2";        String q = "上海繁华"; //查询这个字符        try {            search(indexDir, q);        } catch (Exception e) {            e.printStackTrace();        }    }}

看一下查询结果:

匹配上海繁华共耗时15毫秒 

查询到1条记录 
上海 
上海是个繁华的城市。

2. 高亮显示

  一般查询出来的效果都要高亮显示的,例如百度里查出来的结果都会标红啥的,Lucene中也可以这么干。首先要引入高亮显示的jar包。

 

org.apache.lucene
lucene-highlighter
5.3.1

 

然后要在上面搜索的代码中添加以下高亮显示的部分。

public class Searcher {    public static void search(String indexDir, String q) throws Exception {        //省略……        System.out.println("匹配" + q + "共耗时" + (endTime-startTime) + "毫秒");        System.out.println("查询到" + docs.totalHits + "条记录");        SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("",""); //如果不指定参数的话,默认是加粗,即        QueryScorer scorer = new QueryScorer(query);//计算得分,会初始化一个查询结果最高的得分        Fragmenter fragmenter = new SimpleSpanFragmenter(scorer); //根据这个得分计算出一个片段        Highlighter highlighter = new Highlighter(simpleHTMLFormatter, scorer);        highlighter.setTextFragmenter(fragmenter); //设置一下要显示的片段        for(ScoreDoc scoreDoc : docs.scoreDocs) { //取出每条查询结果            Document doc = searcher.doc(scoreDoc.doc); //scoreDoc.doc相当于docID,根据这个docID来获取文档            System.out.println(doc.get("city"));             System.out.println(doc.get("desc"));             String desc = doc.get("desc");            //显示高亮            if(desc != null) {                TokenStream tokenStream = analyzer.tokenStream("desc", new StringReader(desc));                String summary = highlighter.getBestFragment(tokenStream, desc);                System.out.println(summary);            }        }        reader.close();    }    public static void main(String[] args) {        String indexDir = "D:\\lucene2";        String q = "上海繁华"; //查询这个字符        try {            search(indexDir, q);        } catch (Exception e) {            e.printStackTrace();        }    }}

看一下查询结果: 这是浏览器结果 

匹配上海繁华共耗时15毫秒 

查询到1条记录 
上海 
上海是个繁华的城市。 
上海是个繁华的城市。

console里面是 

匹配上海繁华共耗时15毫秒

查询到1条记录
上海
上海是个繁华的城市
<font color="red">上海</font>是个<font color="red">繁华</font>的城市

 这里简单解释一下上面程序中的那个得分,也就是说,在一段文本中,可能搜出来有关键字的地方不止一处,所以Lucene会自动计算每一处的得分,也就是最接近用户搜索,然后显示该位置附近的一些片段。上面的例子中描述部分太少了,就一句话,体现不出来,我把对南京的描述加长一点,如下:

南京是一个文化的城市南京,简称宁,是江苏省会,地处中国东部地区,长江下游,濒江近海。全市下辖11个区,总面积6597平方公里,2013年建成区面积752.83平方公里,常住人口818.78万,其中城镇人口659.1万人。[1-4] “江南佳丽地,金陵帝王州”,南京拥有着6000多年文明史、近2600年建城史和近500年的建都史,是中国四大古都之一,有“六朝古都”、“十朝都会”之称,是中华文明的重要发祥地,历史上曾数次庇佑华夏之正朔,长期是中国南方的政治、经济、文化中心,拥有厚重的文化底蕴和丰富的历史遗存。[5-7] 南京是国家重要的科教中心,自古以来就是一座崇文重教的城市,有“天下文枢”、“东南第一学”的美誉。截至2013年,南京有高等院校75所,其中211高校8所,仅次于北京上海;国家重点实验室25所、国家重点学科169个、两院院士83人,均居中国第三。[8-10] 。

这下够长了,如果我搜索“南京文化”,看一下结果:

南京是一个文化的城市南京,简称宁,是江苏省会,地处中国东部地区,长江下游,濒江近海。全市下辖11个区,总面积6597平方公里,2013年建成区面积752.83平方公里,常住人口818.78万,其中

如果我搜索“南京文明”,再看一下结果:

城镇人口659.1万人。[1-4] “江南佳丽地,金陵帝王州”,南京拥有着6000多年文明史、近2600年建城史和近500年的建都史,是中国四大古都之一,有“六朝古都”、“十朝都会”之称,是中华文明

  这就是Lucene中所谓的得分,其实也就是最匹配的片段。可以看出,Lucene的中文检索也是很强大的,当然咯,如果是专业搞搜索的,那还得好好研究研究,一般开发中站内搜索已经够使用了。 

 

转载于:https://www.cnblogs.com/shanheyongmu/p/5896402.html

你可能感兴趣的文章
linux kernel map
查看>>
我要曝光!CDN 省钱大法!
查看>>
ASP.Net FAQ长期更新...
查看>>
js对象中in和hasOwnProperty()区别
查看>>
[转]QT项目生成流程例图
查看>>
JsonOperate 帮助类
查看>>
hdfs的读写数据流
查看>>
.net知识体系
查看>>
数据库分表分库策略和原则
查看>>
数据库系统原理及应用教程复习笔记(第3 版)
查看>>
环境传感器的组成及使用方法
查看>>
表和视图之间的区别
查看>>
void及void指针含义的深刻解析
查看>>
标准差(standard deviation)和标准误差(standard error)你能解释清楚吗?
查看>>
南阳oj 题目722 数独
查看>>
小米平板6.0以上系统如何不用Root激活Xposed框架的步骤
查看>>
Elliptical Arcs with SVG
查看>>
做好微博营销的技巧与步骤
查看>>
Docker从入门到实战(二)
查看>>
自定义相机
查看>>