得到的大数据怎么处理(收到大数据信息如何处理?)
收到大数据信息如何处理?
1 .大数据处理之一:采集。大数据的收集是指使用多个数据库从客户端(Web、App或传感器等)接收数据。),用户可以通过这些数据库进行简单的查询和处理。例如,电子商务公司使用传统的关系数据库如MySQL和Oracle来存储每笔交易的数据。此外,Redis和MongoDB等NoSQL数据库也常用于数据收集。
在大数据采集过程中,其主要特点和挑战是高并发,因为可能会有成千上万的用户同时访问和操作,比如火车票售票网站和淘宝,其并发访问量高峰时达到数百万,因此需要在采集端部署大量的数据库来支撑。而如何在这些数据库之间进行负载均衡和碎片化,确实需要深入的思考和设计。
2.大数据处理II:导入/预处理
虽然采集端本身会有很多数据库,但是要想有效的分析这些海量数据,还是要把这个
前端的一些数据导入到一个集中式的大型分布式数据库或者分布式存储集群中,在导入的基础上可以做一些简单的清理和预处理工作。也有一些用户在导入时使用来自Twitter的Storm来流式传输数据,以满足一些业务的实时计算需求。
导入和预处理过程的特点和挑战主要是导入数据量大,往往达到每秒百兆甚至千兆的水平。
3.大数据处理III:统计/分析
统计和分析主要使用分布式数据库或分布式计算集群,对其中存储的海量数据进行普通利用。
为了满足最常见的分析需求,一些实时需求将使用EMC的GreenPlum、Oracle的Exadata、基于MySQL的Infobright,一些批处理或半结构化数据需求可以使用Hadoop。
统计与分析的主要特点和挑战是分析涉及的数据量大,会占用大量的系统资源,尤其是I/O。
4.大数据处理IV:挖掘
不同于以往的统计和分析过程,数据挖掘一般没有预设的主题,主要基于各种算法对现有数据进行计算,从而达到预测的效果,实现一些高层次数据分析的要求。典型的算法包括用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes。使用的主要工具是Hadoop 看象人。这个过程的特点和挑战是,用于挖掘的算法非常复杂,涉及的数据量和计算量非常大。常用的数据挖掘算法都是基于单线程占优势。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。