对于小公司来说,superset这款BI工具相当优秀,丰富的数据源,炫酷的dashboard,满足基本业务查询展示需求
现在关注下查询hive,superset可以直接对接hive或者通过presto
由于公司大数据yarn集群设置有资源队列,即 mapred.job.queue.name,在直连hive的时,如果不配置此参数,任务无法提交到yarn上解析运行
如何配置呢?
环境:集成了ldap的hive,资源队列划分
在这个URI里是配置不了资源队列的,资源队列配置如下
"connect_args":{"configuration": {"mapred.job.queue.name":"root.zm_yarn_pool.development"}}
这么搞一搞,superset就可以愉快的运行hive sql了
福利--------------------------福利 连hive送spark
上面的是连接hiveThrift,在 https://blog.csdn.net/qq_34864753/article/details/102729859 这篇博客里面我们在CDH上启动了sparkThrift服务,来,连一连
注意:spark这里是kerberos验证,所以zmbd-vpc-wk01以及我们安装superset机器用户上的hive票据要有效,比如我在host01的admin用户下安的,那么admin用户下hive票据必须是有效的,这里我们使用crontab 定时去刷新票据,以防过期
然后就可以耍起来了,而且spark比hive快很多
福利--------------------------福利 连spark送presto
福利--------------------------福利 连presto送superset安装
https://blog.csdn.net/qq_34864753/article/details/93517511 也按照官网安装一样简单,不过博客写了还是希望有人看的
另外360检测低版本的superset存在安全风险,建议升级到最新的0.37.1版本,上述安装的是0.28.1版本