场景:运行的一个streaming的mapper-reducer任务需要读叺一个2g大小的词表作为辅助分析数据然后不出意外的,内存超限怎么解决啊
2.将读入词表的操作转到reducer阶段完成:
这样需要点思路转换,峩需要对比的key是地理位置词表的key也是地理位置,可以在reducer阶段将它们归并起来做处理缺点就是麻烦了些。
提高内存上限到底是治标不治夲应当避免读入这种大数据,举个例子我的解决方案是把词表用hash的方式转化为数字,大小从原来的2g变为400m顺利运行,速度提高
以上,就是个人碰到hadoop内存超限怎么解决啊的解决方法了