首页 币圈新闻 分布式存储与大数据应用

分布式存储与大数据应用

随着互联网的蓬勃兴起,云计算,大数据、人工智能、物联网这些专业名词在大众的视野内出现的越来越频繁,很对人对于这些名词都一知半解,所以笔者准备针对于这些热门、前沿的技术出一个专题模块,模块总共分为三篇文章,本片文章主要和大家聊一聊,分布式存储与大数据应用。

云计算基于分布式存储提供大容量的存储,提供计算的效率;大数据基于分布式计算对提供的数据进行分析;人工智能利用云计算与大数据提供的资料进行学习,通过人工智能,实现物联网。云计算与大数据就像硬币的两面一样密不可分,云计算、大数据的重点都是分布式存储与分布式计算,云计算注重服务,而更注重数据的价值化操作。

什么是大数据

“数据”人人都熟悉,比如银行户头的转帐纪录、网页的浏览纪录、购物网站中的消费纪录,种种资料都可被称为数据,而大数据就是这些资料的增量版。不少人对大数据的定义是“大规模的数据”,这其实是不够准确的。

根据MBA智库百科的定义,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。

通俗来说,大数据主要指用户间的信息交换,用户对资料、文件的信息存储以及对海量信息进行整理、加工和分析三个方面能力的大幅增长而产生的数据。“大规模”只是针对于数据的数据量来说,并不能代表数据具有分析的价值。就淘宝购物来说,淘宝平台掌握着大量的客户购物数据,这些数据本身的意义并不大,但是,淘宝平台可以根据用户的搜索和浏览记录来分析用户的喜好,为用户推荐感兴趣的产品;同时品牌商可以根据用户的这些记录来确定产品的规划方向,通过大数据的分析来帮助平台和品牌商提升交易量。这些海量、低密度的数据,通过大数据成为了有价值的数据。

大数据可以取代传统意义上的抽样调查、可以实时获取、混合了来自多个数据源的多维度信息,大数据的价值在于数据分析以及分析基础上的数据挖掘和智能决策。

大数据具有大量、高速、多样化、密度低四大特性。

大量性:大数据与传统数据最大的差异在于资料量,资料量远大于传统数据,例如抖音数据流、百度点击流,面对的是海量低密度的数据,大数据的数据量通常高达数十PB。也因为资料量大,无法以传统的方式储存处理,因此衍生出大数据这一新兴科学。

高速性:大数据与传统数据最大的不同点,就是生成速度快。由于网际网路兴起与资讯设备普及,以用户突破20亿人的脸书为例,如果每个用户每天发一条消息,就会有20亿笔资料。每一个人随时随地都可以创造数据,数据生成的速度已非过去可比拟。

多样性:多样化是指可用的数据类型众多,随着大数据的兴起,文本、音频和视频等数据类型不断涌现,它们需要经过额外的预处理操作才能真正提供洞察和支持性元数据。由于形式多元复杂,大数据储存也需要不同于传统数据的储存技术。

密度低:数据价值密度相对较低,随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。

大数据的应用

1.规划产品方向

在当今时代,大型的互联网公司普遍利用大数据预测客户需求,规划产品的方向。他们对过去和当前产品或服务的关键属性进行分类,并对那些属性和成功商业产品之间的关系进行建模,从而为新产品和服务构建预测模型。

FaceBook的创始人扎克伯格一手创建了及时监控流行新科技、鉴别潜在威胁的“早鸟预警系统”,通过大数据,让自己能够对可能会火的企业先下手为强。2012年,Instagram被FaceBook用10亿美元收购,并在此后为FaceBook创造超过10亿的用户,每年超过200亿美元的收入,大数据的作用不可谓不大。

2.提升运营效率

大数据可以取代传统意义上的抽样调查,借助大数据,可以深入分析和评估生产、客户反馈,预测未来产品的需求,对未来需求量大的产品进行及时补充,并削减市场需求较小的产品,利用大数据根据目前市场需求改善决策。

3.改善用户体验

通过大数据来实现精准营销、个性化服务、个性化推荐,从而来改善用户的体验。

4.机器学习

机器学习是当今的一个热门话题,而数据(特别是大数据)正是这一现象背后的一大重要推动因素。通过利用大数据训练机器学习模型,我们能够“训练”机器使之具备特定能力而无需为其编写程序。正是可供训练机器学习模型的大数据促成了这一转变。

大数据的挑战

1.安全挑战

尽管大数据由于应用范围广泛,已成为各领域的发展趋势,但数据的公布有时会伴随使用者隐私的曝光,比如FaceBook资料外泄、Google+个人外泄风波等因数据外泄而引发隐私问题的事件层出不穷。用户的哪些数据是可以获取、哪些是不允许读取,始终存在侵犯用户隐私的法律风险。

2..技术创新

大数据需要从底层芯片到基础软件再到应用分析软件等信息产业全产业链的支撑,无论是新型计算平台、分布式计算架构,还是大数据处理、分析和呈现方面与国外均存在较大差距,对开源技术和相关生态系统的影响力仍然较弱,总体上难以满足各行各业大数据应用需求。

3.成本过高

运营商需要处理的数据量巨大,基本都是以PB为单位,处理这些数据需要巨大的投入。

4.实时性

具有实时性的数据才有价值,存储的数据数据时间越长,数据的价值就越低。在如今这个快节奏的社会,每一天的市场都瞬息万变,品牌商通过大数据分析用户的需求,如果得到的用户数据太过陈旧,参考这些数据来规划产品的方向,可能会对企业的发展造成毁灭性的打击。

无论哪个行业,想要在当今的形势下取得成功,都必须能够不断地从数据中挖掘业务价值。

BMJ主要以分布式储存文件系统技术服务、服务器开发,芯片投资合作研发、分布式存储研发、数据中心提供基础建设技术、企业存储与相关应用的落地、电子计算机软件开发为主,致力于打造通过云存储技术实现全球百万设备有效链接,为互联网企业提供最廉价且高效的存储、网络加速、边缘计算等服务,以此形成以云计算、云存储、云物联三位一体的云服务生态。

◆◆◆

参考资料:

[1].https://cloud.google.com/what-is-big-data?hl=zh-cn

[2].https://www.oracle.com/cn/big-data/what-is-big-data.html

[3].https://iot.ofweek.com/2017-03/ART-132209-11000-30113766.html

[4].https://www.oracle.com/technetwork/cn/community/developer-day/f5-big-data-technol-and-app-2256272-zhs.pdf

关于作者: szhbsd

热门文章