注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

移动Labs

http://labs.chinamobile.com/

 
 
 

日志

 
 
关于我

移动Labs(labs.chinamobile.com):中国移动研究院主办的通信行业汇聚门户,专注于移动通信和互联网领域,核心会员是中移动广大员工及ICT行业用户。提供资讯、博客、讨论组、专业报告、视频、电子日报等信息及知识服务,以及研究院主办的每周线下活动“无限论坛”。

网易考拉推荐

沙聚:勇于开拓,大象亦能翩翩起舞  

2012-07-25 10:52:49|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

独家供稿:@移动Labs 

一、企业数据变成了“大象”

       回想十年前:当时很少有TB级的企业数据仓库。在2009年之前,有三分之二的企业数据仓库(EDW)处于1-10 TB范围。而到2015年,预计大多数大型组织的EDW会达到100TB以上,“电信、金融服务和电子商务领域会出现PB级EDW”。 企业已经被这种超级规模的数据重重包围。

       “超级规模”数据,形象喻为“大象”,包含4个方面特点:容量(从几百TB到PB)、速度(达到实时、秒级交付水平)、多样性(多样结构、无结构或半结构格式)和波动性(存储大量涉及新应用程序、新服务、新社交网络的新数据源)。

当前传统用于分析企业数据的传统数据库和商业智能工具已经无法胜任大数据处理任务,应对大数据的存储与处理分析(解决海量、高性能、高扩展性与高可用性)的新工具新方法成为研究热点。

二、如何让大象翩翩起舞

       最近几年最受关注的方法之一是Apache Hadoop。这是一个开源软件框架,支持上千个节点和PB级数据的数据密集型分布式分析。

       它的底层技术源于谷歌内部开发者发明的搜索引擎。他们使用它查找有用的索引数据及其他“富”信息,然后将结果通过各种方法返回给用户。他们将这种技术称为MapReduce——而现在的Hadoop是一个开源版本,可供数据架构师用于实现计算密集型深度分析。

       Hadoop在设计上支持在大量低端服务器之上(这是一个显著的成本优势)运行,然后将数据容量分散到集群中,使用Hadoop分布式文件系统(HDFS)跟踪各部分的数据。分析负载的执行发生在集群中,它使用Pig和Hive等工具和采用大并发处理(MPP)模式。同时,执行结果采用统一的格式。

目前Hadoop仍然是一项小生态技术,但是由于Cloudera和MapR等创业公司推出的商业授权和支持Hadoop产品,它逐步取得了很大进步,目前在广大互联网公司,如淘宝、Facebook都已得到了较广泛的应用 。

三、数据专业积极突围大数据包围

       随着移动互联网的迅猛发展,XX移动运营商同样面临大数据的包围:

(1)   IT基础架构瓶颈 :传统计算与存储方式导致高端磁盘阵列存储带来较大的存储与扩容投资成本压力;

(2) 计费系统瓶颈:基础话单快速增长, BOSS系统详单数量快速增长,查询效率下降,传统RMDBS 遭遇“数据库天花板”

(3) 客服支撑瓶颈:用户因为流量计费的不透明,投诉逐步增加:无法深度了解用户的浏览内容,用户对于消费使用的流量信息不清楚,客服也无法手段予以解释。

      设计院作为移动公司技术支撑单位,帮助这只“大象”伙伴走出运营支撑的困境责无旁贷。重庆分院数据专业自2011年开始就对分布式系统架构、分布式数据库等进行了持续的技术学习积累与跟踪,在2012年,终于在工程项目上得到了实际的落地运用。

      首先是经分系统建设。经分系统数据仓库是典型的大数据存储平台,在海量数据场景下,传统Unix小型机与高端磁盘阵列导致项目扩容成本鸭梨山大,数据专业在项目里考虑采用分布式数据库对传统数据库的替代方案,构建云化经分的ETL、数据挖掘、数据集市等。较好地符合了分析型系统的需求特点。用x86架构代替Unix小型机架构,大大降低了服务器、存储以及数据库license的成本,有效缓解了系统扩容带来的高成本压力; 

       其次是GPRS经营过程中对支撑系统的优化改造。2012年的由于GPRS流量的快速增长引发重庆公司流量话单快速增长,一方面导致BOSS详单库硬件资源紧张;另一方面由于大量的GPRS流量消费记录得不到有效记录,导致流量消费后当客户有消费疑问时,客服部门无技术支撑手段来快速回复客户,影响了客户满意度。

       针对上述困境,移动公司启动了“BOSS详单压缩改造项目”和“GPRS上网日志查询项目”。在“BOSS详单压缩改造项目“中,通过引入分布式X86集群替代小型机与磁盘阵列,建设后降低了项目存储与计算资源投资,同时使系统具备了较好的可扩展性与容错性。在“GPRS上网日志查询项目”中数据专业积极开拓创新,在技术路线上积极倡导引入分布式的Hadoop平台,建成统一的基础数据源架构,适用于多种应用场景,满足多类型(结构化和非结构化)、大数据(TB甚至是PB级)高速并行处理能力需求。整体平台具备良好的可扩展性与高效率的多类别业务数据查询处理能力。

四、结语

        当我们数据还是轻盈的角羚时,或许它能轻盈起舞,但当它变成硕壮的大象时,传统的墨守成规必将困死“大象“,我们需要用新的技术方法与思路来让它灵活运转,Map-Reduce分布式的集群,Hadoop或许只是其中之一,但不会是唯一的终极解决之道,今天我们还走在探索的路上,Keep going!

       新环境需要新思路,洗心革面,在日新月异的今天,你准备好了与大象一起翩翩起舞吗? 

本博文发表在移动Labs的原文链接是:
http://labs.chinamobile.com/mblog/699187/179910

【相关博文】
云计算与IT支撑小组与业务支撑中心进行分布式数据库技术交流
覃涛对数据专业发展的畅想

【精彩推荐】
热门盘点:平板电脑未来展望!超薄+折叠
科技界10大最具影响力的女性:梅耶尔居首
什么是“云计算”?两则小故事就能让你懂
想进Facebook工作么?内部员工为你指点迷津
七大妙计度过职场困难期
亚马逊向员工推出培训计划,是裁员前的准备还是员工福利?
亚马逊做智能手机靠谱吗?
大家在挑选智能手机最看重的是哪个方面的性能?
微软Windows Phone在中国的发展之路会怎样?

  评论这张
 
阅读(290)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017