专访本土数据库CTO武新:谈如何发力细分大数据市场
- 2013-09-28 09:38:23 | 新闻来源:叶凡网络 | 点击量:980
IT经济社会出现之后,并不陌生。数据自身是什么。数据成了大家火热关注的问题。从行业角度看,互联网高速发展的十几年中,数据处置技术日新月异,加上移动互联和物联网技术和商业模式的新机遇,加速了数据的发生速度,数据存储量开始爆炸式增长。大数据”概念应运而生。
数据分析、数据处置等数据库领域技术在不温不火中持续发展。也出现了数据仓库、BI等新技术概念。但从媒体角度看却没有获得关注焦点。直到大数据”概念呈现, 然而“大数据”概念出现之前。将整个数据领域推至最高点,成为全球关注的热点概念。
武新表示:互联网的呈现,对于这一现象。从技术角度和商业模式上颠覆了激进行业的经营状况,每个人的生活方式,也在互联网和移动互联网的推动下发生根本变化。除去概念炒作的影响外,可以说“大数据”概念提升了数据自身的价值。数据自身没有模型,或者说没有一个量化的方法。因此,无法给出一个明确的价格;但是大数据的推动下,企业对数据的重视水平进一步提升,让我看到数据的价值体现和资源地位。
数据仓库、BI等早早出现的技术,除此之外。大数据”带动下在应用上更加活跃。接下来的大数据时代,人类信息社会的收官阶段。之前的计算机时代和互联网时代,都是为大数据时代做铺垫和准备的计算机时代的核心是计算能力,极大提高了人们对数据的处置能力;互联网时代解决了信息移动和连接的问题;而大数据时代,可将世界万事万物通通数据化,让人们数据利用中优化现实操作和行为,令全球系统的运行更为高效。
不只开启了数据领域的极速发展。对该领域的开发者而言,所以说“大数据”呈现。也迎来了最佳发展阶段。
促使数据分析使用门槛降低多方面因素。
行业里面有这样一种说法:大数据分析是有钱人的游戏”
武新谈了自己的观点:如果时间倒退5年,关于这一说法。这个观点是成立的过去,去做数据仓库,做BI确实需要很大的投资,不只是软件和硬件的大量投入;高端人才的招揽上,也要投入大量的资金和精力。但是随着互联网行业的推动,数据生产速度加快,数据分析和数据处置技术也日益完善,大数据分析的门槛慢慢降低。究其原因,主要有三点。
云计算的呈现
开源力量凸显 互联网技术的飞速发展。
大批高技能人才涌现
大数据分析所需投入资源下降,基于以上原因。国内各大行业公司普遍使用大数据分析技术。然而,随之而来的问题就是大数据市场的竞争状态加据,单位生存空间变窄。如何定位自我位置,抓取独特身份,显得尤为重要,也成了数据库公司的思考难题。
特色产品面对专用市场错位竞争。
南大通用的整体战略定位。错位竞争”特色产品面对专用市场。
董事长崔维力先生提出了这样的战略方式。看到激进数据库市场IBM微软等几家大型公司占据了几乎整个市场份,武新解释说:南大通用创立之初。行存储技术领域做到极致,技术市场达到饱和状态。因此,这种情况下,很难在激进市场里分得一杯羹。但是新兴的数据分析领域,可以与国际巨头站在同一个起跑线,产品可以在市场上比他表示的还要好。这就是所谓的错位竞争’做专用数据库,发力细分市场。
存储方式上,做为专业数据库产品。南大通用采用列存储模式。数据上,更快捷的进行聚合、增组、关联;更加便于进行大规模的数据分析、数据统计。对IO要求也大大下降,拥有较高的数据压缩比,适合做B型运算。架构上,不同于激进数据库的垂直架构,而是像Hadoop一样的横向扩展,相对于激进数据来说在计算能力有明显的优势。
几乎一种数据库平台,过去20年。就能满足所有应用类型。但是随着数据类型的细分,这样的数据处置模式渐渐无法满足用户需求,发生越来越多瓶颈。演变到现在数据处置和应用形成了朝细分市场发展的模式,再次肯定了南大通用战略方针的正确性。所谓细分,就是对某一类数据或某一类应用,做专门的处置技术。精通特定领域的数据分析,特色产品面对专用市场 根据不同需求,做不同产品。
专用数据库产品:分析数据库GBase8a
打破了以往提高性能只能靠增加数据库的容量,GBase8a南大通用投入最大的一款分析数据库产品。GBase8a采用了列存、智能查询、高效压缩、双向并行、自适应优化等多项新技术。建很多索引的惯例,使得GBase8a既有高性能又有很高的数据压缩比。
典型分析型应用中表现出:1高性价比:几乎不用调优就可以达到高性能,不需要考虑如何建索引,如何分区等问题。占有磁盘空间大大降低, 武新指出:经过用户实际测试。节省大量存 储设备费用,激进数据库的1/5甚至更高,使用通用、中低端的存储设备和服务器就可以达到很高的性能;2高性能:与国际激进数据库相比在批量聚集、统计性能;即席查询性能、模糊查询性能等方面都有几倍到几十倍的提高;3高可用性:装置、调优、维护、扩展非常简单,好用。
协助用户解决Hadoop平台问题添加非结构性数据处置技术。
激进行业用户积累了大量数据。其中结构化数据占大多数。ERP等各种系统发生的数据, 经过几十年信息化发展。也基本上都是结构化数据类型。然而最近几年,不难发现,半结构化数据和非结构化数据数量迅猛增长,尤其是半结构化数据的数量。
武新认为:今天的大数据概念里,对此。从数据特征看,半结构化数据和非结构化数据的比重占到90%以上。半结构化数据,有类似文档这样的东西;非结构化数据以视频为主。针对这一类数据的处置,基于Hadoop平台更为擅长。目前,Gbase8a集群,已经将全文检索—一种半结构化数据处置技术,加入到其中去;一步一步的朝处置半结构化、非结构化数据的方向发展。目标,要做一个面向企业和行业,全数据处置产品和平台。未来我研发目标,将把非结构化数据的处置,做为首要任务。尽可能多的跟开源进行对接。因为在这个领域,开源已经有了很多非常优秀的内容。对接之后,以这两种技术的优势,为用户提供一个平台,全面处置各种类型数据。
得到大家的广泛认可和共识。Hadoop作为一个云计算平台,Hadoop分布式计算平台以其在处置海量数据中的高可靠性、高扩展性等诸多优点。呈现,解决了单个PC机计算能力单薄的问题,可以同时在几百、几千个PC机上提供强大的计算能力。企业中,作为一种ETL工具,处置海量数据上,有着非常明显的优势。保守的数据库无法做到复杂的数据模型挖掘、预测模型的计算上,也占有霸主地位。但是不可否认的使用过程中,依然存在某些问题。这也是南大通在结合这样一个产品的同时,亟需解决的问题之一。
所要做的有两点:第一,南大通用的很多用户已经开始尝试使用Hadoop技术进行数据处置和进行一些项目实验。武新表示:面对这样一个优秀的平台。努力将Hadoop平台企业化。Hadoop企业化,就是要把Hadoop平台变成一款真正的产品,更加方便的供用户使用;未来几年或许能实现,但就目前而言还没有达到这样的幼稚度。第二,解决技术更新和用户想要稳定环境之间的矛盾,为用户的稳定使用提供服务。
开始新技术应用实践坚持通用数据库发展。
国内行业大数据市场中,目前为止。政府的金融、电信等行业的整个IT架构,还是建立在基于小型机的激进架构基础上;核心业务,依旧采用激进数据库模式。随着非结构和半结构数据的大规模增长,这一两年开始,一局部架构开始尝试基于分布式计算模型,例如HadoopMPP等技术的尝试。对于这一变化趋势,武新认为:HadoppMPP等分布式计算模型在处置某些业务上的明显优势,促使金融、电信领域愿意去尝试这项技术。除此之外,数据量上,无论是金融、电信还是政府部门,都在进行从TBPB级别迁升;数据量级上将迎来一个新的里程碑,所以对数据处置技术上的要求,也促使了投入分布式计算模型的应用的步伐。
虽然微软、IBM等公司占据了整个市场,对于未来的国内数据库市场发展。但在通用数据库产品上,仍然要坚持去投入。武新觉得:经过几十年的技术积累,国内数据分析领域在数据仓库、BI等技术上有了绝对性的建设。目前要做的思考如何进行行业转型?新一代数据仓库怎么做?新一代BI什么样子的BI方面,南大通用也将进行投入,做一款动态BI产品,实现人机交互模式,这也是未来大数据发展的方向,对传统BI也将起到良好的推进作用。
国产数据库在继续投入通用数据库市场的同时,因此。努力开发下一代新型技术,新的数据分析领域开辟自己的领地,激烈的数据库市场中切割出自己的细分市场,提升自我市场竞争力和改进自身现状的最佳选择。
武新,南大通用公司高级副总裁兼CTO法国奥尔良大学博士。国家“千人计划”专家。毕业于法国奥尔良大学带热数据产业链大数据”概念价值提升。
武新于2010年获得中组部实施的国家“千人计划”荣誉,工信部认可的数据库专家。2008年7月,武新回到国内,任南大通用高级副总裁兼CTO南大通用GBase8a分析型数据库及其配套工具总设计师。
上一篇:印尼附近海域一艘难民船沉没至少21死70余失踪
下一篇:SDN架构的特征分析