专属客服号
微信订阅号
全面提升数据价值
赋能业务提质增效
作为全球最大的搜索引擎公司,Google也是我们公认的大数据鼻祖,它存储着大量能够进行访问的网页,数目可能已经达到了万亿规模,如果要将这些数据全部存储起来,大约需要数万块磁盘。
大数据应用的搜索引擎时代
针对数据的存储问题,Google开发了GFS文件系统,将数千台的服务器同时进行管理,并将其作为一个文件系统,存储所有的网页文件。
在发展文件存储以外,谷歌还设计了PageRank算法,在对文件系统中文件发生的词汇进行整理和统计之后,利用PageRank进行词汇排名,MapReduce的大数据框架也是为了进行数据的规划和统计而出现的。
在当时,Google的大数据技术和PageRank也让当时的它超过了当时的Yahoo,成为当时的搜索引擎巨头。而Google后期对于Hadoop平台的积极建设,也为它的后期发展增添了一份力量。
大数据应用的数据仓库时代
如果MapReduce的推出是为了进行数据的关键排名,那么后期Hive的推出,则为使用数据库语言进行MapReduce的数据分析提供了方法,Hive的出现大大简化了使用大数据进行数据分析的过程,为我们进行海量数据处理提供了可能。
成本的降低,方式的便利,意味着我们能够进行分析的数据类型在逐渐增多,我们不仅可以分析各词汇出现的频率进行排名,还可以对浏览器的运行日志、应用采集数据、数据库数据进行综合分析。
Hive的发展推动了大数据的实际应用,同时为大数据的挖掘做了铺垫。
大数据应用的数据挖掘时代
除了数据统计,我们自然希望发掘更多的数据价值,这就是数据的挖掘时代。
在商业环境中,通过解读商品和商品,商品和用户的关联关系,就可以进行关联分析,最终目的是让用户尽可能看到想购买的商品。
数据挖掘将高性能计算、机器学习、人工智能、模式识别、统计学、数据可视化、数据库技术和专家系统等多个范畴的理论和技术融合在一起。大数据时代对数据挖掘而言,既是机遇也是挑战,分析大数据,建立适当的体系,不断地优化,提高决策的准确性,从而更利于掌握并顺应市场的多端变化。
在大数据时代下,数据挖掘作为最常用的数据分析手段得到了各个领域的认可,目前国内外学者主要研究数据挖掘中的分类、优化、识别、预测等技术在众多领域中的应用。
大数据应用的机器学习时代
比如,把历史上人类围棋对弈的棋谱数据都存储起来,针对每一种盘面记录何种落子可以得到更高的赢面。得到这个统计规律以后,就可以利用这个规律和人下棋,每一步都计算落在何处将得到更大的赢面,于是我们就得到了一个会下棋的机器人,这就是前两年轰动一时的AlphaGo,以压倒性优势下赢了人类的顶尖棋手。
要进行机器学习首先,我们需要在计算机中存储历史的数据。接着,我们将这些 数据通过机器学习算法进行处理,这个过程在机器学习中叫做“训练”,处理的结果可以被我们用来对新的数据进行预测,这个结果一般称之为“模型”。对新数据 的预测过程在机器学习中叫做“预测”。“训练”与“预测”是机器学习的两个过程,“模型”则是过程的中间输出结果,“训练”产生“模型”,“模型”指导 “预测”。
通过对机器学习的关系对应,我们会发现,机器学习只是对人类行为的分析和总结。它的结论不是计算机计算获取,而是通过机器学习分析到的,归纳法得到的事件相关关系。
本文由五度数科整理,转载请标明出处,违者必究!
请完善以下信息,我们的顾问会在1个工作日内与您联系,为您安排产品定制服务
评论