1、从kylin官网下载kylin4
因为看到版本4使用spark构建cube存与parquet中,更快更省更先进,且官网写支持cdh6
实际中kylin4要想跑起来还是很不顺利的
过程中还试验了kylin3,效果更差,启动都不行
2、选择1个kerberos认证过的用户,需要有hdfs权限?登录主机
配置kylin的整个目录的own和group都是这个用户(chgown)
配置kylin.properties,修改其中mysql数据库的配置(前提是要安装好mysql,分配好库和用户权限等)
3、执行bin/download-spark.sh 下载spark
cdh中自带有spark,通过配置spark_home来直接使用cdh的spark一直不行,应该还是版本兼容问题。最后迫于无赖根据上述命令下载了spark,成功后它会自动解压到kylin的spark目录下
4、这时候如果启动kylin,应该能成功,界面能打开并能登录进入操作,但是想载入cdh内hive中的表,还是不行,后台logs/kylin.log中会各种报错。针对此类问题,根据错误日志,逐个排查。基本都是版本不兼容导致,也很难解决
5、最终解决办法:备份并删掉kylin/spark/jars/spark*.jar,然后复制 cdh/lib/spark/jars/spark*.jar 到kylin/spark/jars/ 下,再重启kylin
6、成功!
7、后续使用中遇到的问题
7.1 构建cube时error,提示的还是class找不到等问题,经过排查,确实了hive的几个包以及spark的几个包,具体:
hive-beeline-1.2.1.spark2.jar
hive-cli-1.2.1.spark2.jar
hive-exec-2.1.1-cdh6.3.2.jar
hive-jdbc-1.2.1.spark2.jar
hive-metastore-1.2.1.spark2.jar
以上几个包从cdh的hive目录下找到复制到kylin/spark/jars下
spark-mesos_2.11-2.4.7.jar 这个包cdh也没有,就不复制了