Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。

hadoop本身是用来存储和处理数据的。这里hadoop不是重点,重点是数据。主要包括基于hadoop建企业级数据仓库、基于Mapreduce做数据处理程序。数据仓库是把数据整合进来,重点衡量指标是数据仓库的数据质量是不是好;数据处理程序的重点是分析出来的东西是不是有价值。

hadoop/spark虽然是java/scala开发 但是没必然联系
python javascript sql也能写业务算法(估计99.99%多人不会改引擎一行代码)
这个就简单了 本科生就能搞定
另外大数据是 传统 数据获取(爬虫)+分析+处理(商业智能)+预测+判断(机器学习)
加上大而全的数据
因为有开源的hadoop/spark 涉及大数据业务逻辑 很多时候一个人可以搞定
(以前要一堆人)aws azure都有大数据处理paas 开箱即用 运维都省了

大数据目前应用场景有限 主要原因是数据量不足 低过12tb的数据处理sql数据库够用了。

想转型的话尽量早点转型,越早越好,如果到了大数据满大街都是的时候,你就不值钱了!

 

 

 


 

转载请注明来源网站:www.itxm.cn谢谢!

发布评论

分享到:

IT虾米网

微信公众号号:IT虾米 (左侧二维码扫一扫)欢迎添加!

linux下MySql操作常用命令汇总和详解大全
你是第一个吃螃蟹的人
发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。