前面总结的都是使用Lucene的标准分词器,这是针对英文的,但是中文的话就不顶用了,因为中文的语汇与英文是不同的,所以一般我们开发的时候,有中文的话肯定要使用中文分词了,这一篇博文主要介绍一下如何使用smartcn中文分词器以及对结果的高亮显示。
1. 中文分词
使用中文分词的话,首先到添加中文分词的jar包。
org.apache.lucene lucene-analyzers-smartcn 5.3.1
然后弄一些数据,使用中文分词器来生成一下索引,以便于后面搜索用到。
public class Indexer { private Directory dir; //存放索引的位置 //准备一下用来测试的数据 private Integer ids[] = {1, 2, 3}; //用来标识文档 private String citys[] = {"上海", "南京", "青岛"}; private String descs[] = { "上海是个繁华的城市。", "南京是一个有文化的城市。", "青岛是一个美丽的城市。" }; //生成索引 @Test public void index(String indexDir) throws Exception { dir = FSDirectory.open(Paths.get(indexDir)); IndexWriter writer = getWriter(); for(int i = 0; i < ids.length; i++) { Document doc = new Document(); doc.add(new IntField("id", ids[i], Field.Store.YES)); doc.add(new StringField("city", citys[i], Field.Store.YES)); doc.add(new TextField("desc", descs[i], Field.Store.YES)); writer.addDocument(doc); //添加文档 } writer.close(); //close了才真正写到文档中 } //获取IndexWriter实例 private IndexWriter getWriter() throws Exception { SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();//使用中文分词器 IndexWriterConfig config = new IndexWriterConfig(analyzer); //将标准分词器配到写索引的配置中 IndexWriter writer = new IndexWriter(dir, config); //实例化写索引对象 return writer; } public static void main(String[] args) throws Exception { new Indexer().index("D:\\lucene2"); }}
建立好了索引,接下来就是查询了。
public class Searcher { public static void search(String indexDir, String q) throws Exception { Directory dir = FSDirectory.open(Paths.get(indexDir)); //获取要查询的路径,也就是索引所在的位置 IndexReader reader = DirectoryReader.open(dir); IndexSearcher searcher = new IndexSearcher(reader); SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer(); //使用中文分词器 QueryParser parser = new QueryParser("desc", analyzer); //查询解析器 Query query = parser.parse(q); //通过解析要查询的String,获取查询对象 long startTime = System.currentTimeMillis(); //记录索引开始时间 TopDocs docs = searcher.search(query, 10);//开始查询,查询前10条数据,将记录保存在docs中 long endTime = System.currentTimeMillis(); //记录索引结束时间 System.out.println("匹配" + q + "共耗时" + (endTime-startTime) + "毫秒"); System.out.println("查询到" + docs.totalHits + "条记录"); for(ScoreDoc scoreDoc : docs.scoreDocs) { //取出每条查询结果 Document doc = searcher.doc(scoreDoc.doc); //scoreDoc.doc相当于docID,根据这个docID来获取文档 System.out.println(doc.get("city")); System.out.println(doc.get("desc")); String desc = doc.get("desc"); } reader.close(); } public static void main(String[] args) { String indexDir = "D:\\lucene2"; String q = "上海繁华"; //查询这个字符 try { search(indexDir, q); } catch (Exception e) { e.printStackTrace(); } }}
看一下查询结果:
匹配上海繁华共耗时15毫秒
查询到1条记录 上海 上海是个繁华的城市。2. 高亮显示
一般查询出来的效果都要高亮显示的,例如百度里查出来的结果都会标红啥的,Lucene中也可以这么干。首先要引入高亮显示的jar包。
org.apache.lucene lucene-highlighter 5.3.1
然后要在上面搜索的代码中添加以下高亮显示的部分。
public class Searcher { public static void search(String indexDir, String q) throws Exception { //省略…… System.out.println("匹配" + q + "共耗时" + (endTime-startTime) + "毫秒"); System.out.println("查询到" + docs.totalHits + "条记录"); SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("",""); //如果不指定参数的话,默认是加粗,即 QueryScorer scorer = new QueryScorer(query);//计算得分,会初始化一个查询结果最高的得分 Fragmenter fragmenter = new SimpleSpanFragmenter(scorer); //根据这个得分计算出一个片段 Highlighter highlighter = new Highlighter(simpleHTMLFormatter, scorer); highlighter.setTextFragmenter(fragmenter); //设置一下要显示的片段 for(ScoreDoc scoreDoc : docs.scoreDocs) { //取出每条查询结果 Document doc = searcher.doc(scoreDoc.doc); //scoreDoc.doc相当于docID,根据这个docID来获取文档 System.out.println(doc.get("city")); System.out.println(doc.get("desc")); String desc = doc.get("desc"); //显示高亮 if(desc != null) { TokenStream tokenStream = analyzer.tokenStream("desc", new StringReader(desc)); String summary = highlighter.getBestFragment(tokenStream, desc); System.out.println(summary); } } reader.close(); } public static void main(String[] args) { String indexDir = "D:\\lucene2"; String q = "上海繁华"; //查询这个字符 try { search(indexDir, q); } catch (Exception e) { e.printStackTrace(); } }}
看一下查询结果: 这是浏览器结果
匹配上海繁华共耗时15毫秒
查询到1条记录 上海 上海是个繁华的城市。 上海是个繁华的城市。console里面是
匹配上海繁华共耗时15毫秒
查询到1条记录上海上海是个繁华的城市<font color="red">上海</font>是个<font color="red">繁华</font>的城市这里简单解释一下上面程序中的那个得分,也就是说,在一段文本中,可能搜出来有关键字的地方不止一处,所以Lucene会自动计算每一处的得分,也就是最接近用户搜索,然后显示该位置附近的一些片段。上面的例子中描述部分太少了,就一句话,体现不出来,我把对南京的描述加长一点,如下:
南京是一个文化的城市南京,简称宁,是江苏省会,地处中国东部地区,长江下游,濒江近海。全市下辖11个区,总面积6597平方公里,2013年建成区面积752.83平方公里,常住人口818.78万,其中城镇人口659.1万人。[1-4] “江南佳丽地,金陵帝王州”,南京拥有着6000多年文明史、近2600年建城史和近500年的建都史,是中国四大古都之一,有“六朝古都”、“十朝都会”之称,是中华文明的重要发祥地,历史上曾数次庇佑华夏之正朔,长期是中国南方的政治、经济、文化中心,拥有厚重的文化底蕴和丰富的历史遗存。[5-7] 南京是国家重要的科教中心,自古以来就是一座崇文重教的城市,有“天下文枢”、“东南第一学”的美誉。截至2013年,南京有高等院校75所,其中211高校8所,仅次于北京上海;国家重点实验室25所、国家重点学科169个、两院院士83人,均居中国第三。[8-10] 。
这下够长了,如果我搜索“南京文化”,看一下结果:
南京是一个文化的城市南京,简称宁,是江苏省会,地处中国东部地区,长江下游,濒江近海。全市下辖11个区,总面积6597平方公里,2013年建成区面积752.83平方公里,常住人口818.78万,其中
如果我搜索“南京文明”,再看一下结果:
城镇人口659.1万人。[1-4] “江南佳丽地,金陵帝王州”,南京拥有着6000多年文明史、近2600年建城史和近500年的建都史,是中国四大古都之一,有“六朝古都”、“十朝都会”之称,是中华文明的
这就是Lucene中所谓的得分,其实也就是最匹配的片段。可以看出,Lucene的中文检索也是很强大的,当然咯,如果是专业搞搜索的,那还得好好研究研究,一般开发中站内搜索已经够使用了。