[Spark] OOM问题及解决方案

1. 背景

最近在业务开发过程中,遇到如下需求:

一张Hive表中存储着item id和描述这个id的文本(已经切词,各个词语之间' '分隔)。另外还有一份数据,其中存储了各个词语和该词语对应的embedding vector。现要计算每个id对应文本的词向量表示,即将同一个id对应的文本中所有词语embedding vector求和。

2. 问题描述

在计算embedding vector求和过程中,出现了OOM问题。

//代码1
val sql = s"select id, text from table where day = '2020-08-20'"

val wordToVectorMap: collection.Map[String, Array[Float]] = ... // 数据量大约2G
val EMBEDDING_SIZE = 300
val zeroVector = new Array[Float](EMBEDDING_SIZE)
val idToWordVector: DataFrame = hiveContext.sql(sql).rdd.map(x => {
   
   
  
  val id = x.getString(0)
  val wordList: Array[String] = x.getString
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值