1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。
2、在处理大数据过程中,如何保证得到期望值?
3、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?
4、点击流数据应该是实时处理?为什么?哪部分应该实时处理?
5、你最喜欢的编程语言是什么?为什么?
6、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?
7、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?
1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。
2、在处理大数据过程中,如何保证得到期望值?
3、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?
4、点击流数据应该是实时处理?为什么?哪部分应该实时处理?
5、你最喜欢的编程语言是什么?为什么?
6、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?
7、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?