2016 - 2024

感恩一路有你

如何修改hive表的存储格式 orc表优缺点?

浏览量:4857 时间:2023-06-27 16:46:17 作者:采采

orc表优缺点?

Hive的ORC表和Parquet表除了直接配置MapReduce压缩功能,还直接支持表的压缩属性。

但是,支持的压缩格式有限。ORC表支持Non

数据分析一般包括哪些内容?

数据分析是一个比较大的框架。从字面上讲,就是从数据中提取有用的规则或逻辑。

工作中数据分析的功能主要分为以下六个步骤:

数据收集

数据清理

数据存储

指数计算

数据的统计分析和建模

数据可视化

第一步是数据收集:当我们的数据还没有形成一个具体的系统的时候,或者当我们的业务正在进行时,我们需要通过各种渠道获取数据。数据采集的方法有很多种,包括程序自动采集(数据嵌入点、网络爬虫、ERP或CRM系统自动生成等。)、人工统计(Excel统计)、从第三方网站提取(通过公共数据网站、API等下载。),等等。方法的选择遵循商业形式。

第二步是数据清洗:采集的数据是脏数据,需要进行清洗,即取其精华,去其糟粕,这样数据才能正常使用。这一步的操作主要使用正则表达式进行数据清理。采集的数据有各种格式,需要转码成特定的格式并编码。

第三步:数据存储:作为公司 s数据越来越大,互联网时代已经从IT变成了DT。现在各个公司的业务数据都是几何级增长,所以在存储数据的时候肯定不能再用以前那个用纸笔记录的时代了。目前数据量不大的公司一般都是用Excel文件进行数据存储。许多公司也使用数据库产品进行数据存储。市场上也有很多性能不错的数据库产品,如Oracle、MySQL、SqlServer等。现在针对大数据也有相应的蜂巢数据仓库产品。这些产品非常容易使用,其中一些是开源产品。就我们公司而言,之前使用的Oracle、MySQL、SqlServer数据库,由于业务线的调整,已经从。单一数据库转向蜂巢数据仓库存储,更方便技术、业务、分析师等角色提取数据。

第四步是指标计算:在进行指标计算之前,数据分析师需要建立当前部门的KPI指标,对应的是业务部门 不同业务场景的好的或坏的数据和规则的反馈。这一步复杂而持续,可能会贯穿整个数据分析生涯。什么是指标?指标是衡量目标的方法,如商品管理中常用的存货周转率、毛利率,运营中经常见到的路径转换,营销中经常见到的ROI等。相应的指标反映了不同业务场景的质量。随着业务和企业阶段的变化,指标总是会变化的。

第五步是数据的统计分析和建模:这个环节是整个数据分析过程中最有趣的一个,没有之一。与前一个环节相比,你在这个环节会面临各种各样的挑战。什么假设检验,什么线性回归,什么特征工程,什么贝叶斯等等。都会遇到。在这里你会看到各种数据背后的逻辑,以及数据产生的价值。而且在数据分析的过程中,你可能会遇到数据清洗过程的第二步,处理缺失值,处理异常值等等。

第六步是数据可视化:即数据呈现,需要将第五步统计分析建模的结果以图形的形式反映出来。俗话说,文字不如表格,表格不像图片。Tableau、PowerBI、finebi、PPT等数据可视化产品在市场上应用广泛。其中,前三种主要是交互形式,即在线存储的报告,而PPT主要是以报告的形式呈现。

目前的数据分析按照功能可以简单的分为几个方向:

业务数据分析师

数据挖掘工程师

大数据开发工程师

以上职位在现在的招聘时间里比较常见,之前每个职位都不一样。业务数据分析师主要面向业务,将数据应用于企业决策。主要工具有Python,R,Excel,SPSS,tableau,PowerBI等。数据挖掘工程师更注重技术方向,主要是反欺诈、垃圾邮件识别等数据应用,主要工具有Python、Java、C、C等。大数据开发工程师主要负责搭建数据平台,开发适合公司的数据平台;;的数据流通过使用hadoop、hive、spark、Python、Java、C、C等工具。数据分析是目前为止比较新的岗位,所以大部分人都在不断学习和提高。

以上是我的一些拙见。如有不足,欢迎补充交流。

数据 业务 存储 分析 指标

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。