- 博客(30)
- 收藏
- 关注
原创 spark集群安装部署(spark on yarn)
spark集群安装部署(spark on yarn)1.前提已经部署了Hadoop 2.2集群2.下载并安装scala2.1下载scalahttp://www.scala-lang.org/download/2.2安装scalamkdir -p /usr/local/myspark/scalacd /opttar
2015-01-17 17:35:03
809
原创 spark应用程序开发
应用程序开发1.将spark的jar加入到项目的lib中,并加入到项目的classpath中依赖spark-core org.apache.spark spark-core_2.10 1.0.2如果操作hdfs的话,还依赖hdfs org.apache.hadoop hadoop-
2015-01-17 14:04:50
810
翻译 Spark的核心概念
spark的一些核心概念Application 构建在spark上的应用程序,由driver program 和集群上的executor组成。是SparkContext的实例。每一个Application都运行在一组独立的Executor进程上。Application jar 包含spark应用程序的jar。有时候用户需要创建一个包含其应用程序和其依赖的jar。该jar不包含
2015-01-17 13:46:27
772
翻译 SolrCloud架构整理
1.总体架构2.内部结构3.shard结构4.索引的创建分布式索引的过程如下:1.用户可以把创建文档索引的请求提交给任一个Replica或Leader2.如果它不是Leader,它会把请求转交给和自己同Shard的Leader3.Leader把文档路由给本Shard的每个Replica,各自做索
2015-01-17 12:32:49
3028
原创 Lucence的各种查询
package org.adv.lucene.util;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.
2015-01-17 01:04:25
649
原创 Lucence自定义评分查询
package org.adv.lucene.util;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.lucene.document.Document;import org.apache.lucene.ind
2015-01-17 00:43:23
790
原创 Lucence自定义查询解析器
package org.adv.lucene.util;import java.text.SimpleDateFormat;import java.util.regex.Pattern;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.queryparser.classic.Par
2015-01-17 00:38:38
727
1
原创 Lucence自定义过滤器查询
package org.adv.lucene.util;import java.io.IOException;import java.text.SimpleDateFormat;import org.apache.lucene.document.Document;import org.apache.lucene.index.CorruptIndexException
2015-01-17 00:32:23
606
1
原创 基于Lucence的同义词分词器
package org.lucene.util;import java.io.Reader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.Tokenizer;
2015-01-17 00:23:14
763
原创 Lucence自定义分词器
package org.lucene.util;import java.io.Reader;import java.util.Set;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.a
2015-01-17 00:14:16
620
原创 输出Lucence的分词信息
package org.lucene.util;import java.io.IOException;import java.io.StringReader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.
2015-01-17 00:04:54
471
原创 Lucence搜索实例
package org.test.searcher;import java.io.File;import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.HashMa
2015-01-16 23:54:11
628
1
原创 Lucence创建索引实例
package org.test.index;import java.io.File;import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.HashMap;
2015-01-16 23:49:12
708
原创 Lucence入门实例
package org.test.lucence;import java.io.File;import java.io.FileReader;import java.io.IOException;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene
2015-01-16 23:43:38
523
原创 增加elasticsearch-head
增加elasticsearch-head1.下载https://github.com/mobz/elasticsearch-head2.安装2.1以插件的形式安装 %ES_HOME%/bin/plugin -install mobz/elasticsearch-head 访问 http://localhost:9200/_plug
2015-01-16 14:31:37
1473
原创 为elastic添加中文分词
添加中文分词可以直接使用配置好的es中文版:https://github.com/medcl/elasticsearch-rtf可以可以自己集成中文分词组件,medcl为es写了三个中文分词插件,一个是ik的,一个是mmseg的,一个是pinyin4j的。下面介绍这三个插件与es的集成:1.ik与es的集成1.1下载https://github.com/medcl/elas
2015-01-16 14:26:51
6277
原创 elastic客户端开发
es客户端开发1.将%ES_HOME%/lib目录下的jar包加入到项目的CLASSPATH中2.代码实例package org.test.es;import java.io.IOException;import java.util.Date;import java.util.Map;import java.util.Set;im
2015-01-16 14:09:00
1192
原创 elasticsearch集群的部署
elasticsearch集群的部署1.部署4个节点的elasticsearch10.41.2.84 es210.41.2.85 es310.41.2.86 es42.集群配置2.1配置10.41.2.84上的esvi /usr/local/search/elasticsearch-1.3.1/config/elasticse
2015-01-16 14:04:13
7541
原创 elastic单节点安装部署
elastic单机安装部署:1.安装Java7注意设置环境变量JAVA_HOME2.下载http://www.elasticsearch.org/overview/elkdownloads/3.解压安装解压elasticsearchmkdir -p /usr/local/searchcp /opt/ela
2015-01-16 13:42:36
2892
原创 solr客户端程序开发
使用solrj开发solr的java客户端程序注意:每个document中必须有一个id的field,id为string类型的。id一样时,后面加入的document会覆盖前面的document。id是document的唯一主键,当多次添加的时候,最后添加的相同id的域会覆盖前面的域document中的各个field可以在solr的schema.xml(%SOLR_HOME%/conf/s
2015-01-15 18:19:30
939
原创 solrCloud配置目录结构
solrCloud配置目录结构1.目录结构solr服务器目录结构:---solr_home_dir------solr.xml--------- core_name--------- --- conf/--------- --- --- schema.xml--------- --- --- solrconfig.xml--------- ---data/
2015-01-15 18:15:12
915
原创 添加中文分词(mmseg4j)
添加中文分词(mmseg4j)1.下载mmseg4jhttp://code.google.com/p/mmseg4j/2.下载sogou的中文词库http://www.sogou.com/labs/dl/w.html3.将中文分词的jar包拷贝到solr的server的lib目录下3.1由于mmseg4j-1.9.1与solr4.9结合时有一个小bug,需要
2015-01-15 18:10:27
771
原创 solrCloud分布式集群安装配置
solrCloud分布式集群安装配置1.前提安装Zookeeper集群2.安装部署多个solr节点10.41.2.8210.41.2.8310.41.2.8410.41.2.86mkdir -p /usr/local/searchscp -r 10.41.2.82:/usr/local/search/solr /
2015-01-15 18:03:57
1538
原创 solr安装(solr与tomcat整合)
solr安装(solr与tomcat整合)1.前提1.1安装JDK7,并配置环境变量JAVA_HOMEjava -versionjavac -version1.2安装tomcat71.2.1下载http://tomcat.apache.org/http://tomcat.apache.org/1.2.2安装mkdir -p /u
2015-01-15 18:01:46
500
翻译 Lucence索引的存储
Lucence存储索引的文件目录,包含若干文件,其存储的内容说明如下:*.frm:保存域的信息*.fdx,*.fdt:保存域的值,保存存储选项为YES的数据*.frq:出现次数,用来做评分和排序的*.nrm:存储评分信息*.prx:存储偏移量*.tii,*.tis:存储索引里面所有内容信息的segment:存储索引段*.del:存储删除的文档索引
2015-01-15 17:20:05
685
翻译 Lucence的Field属性整理
Field属性1.存储选项Field.Store.YES表示会把这个域中的内容完全存储到索引文件中,方便进行域内容的还原Field.Store.NO表示这个域的内容不会存储到索引文件中,但是可以被索引,此时该域的内容无法完全还原2.分词选项Field.Index.ANALYZED:表示对域进行分词和索引,使用于标题,内容等域Field.Index.NOT_A
2015-01-15 17:15:41
537
原创 近实时搜索
近实时搜索 也可以称为内存搜索 创建的索引还没有提交,存放在内存中,也能被搜索到。 实际项目中,创建的索引不会立马提交的,因为commit操作需要flush到文件,磁盘IO很耗性能,所以一般会隔一段时间提交一次索引。这样IndexReader所读取到的索引库可能不是最新的,故搜索不到最新的内容。近实时搜索就是用于解决这个问题的 具体做法是:通过IndexWr
2015-01-15 17:04:28
438
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人