大数据建模平台 数据仓库数据建模的几种思路?
数据仓库数据建模的几种思路?
说到建模,我们不得不说有两个好人,一个是数据仓库之父inmon,他提倡ER模型,另一个是Kimball,他提倡维度模型。事实上,这两种建模方法各有优势。ER模型是一种实体关系模型,对建模者要求高,实现周期长。施工完成后,数据之间的关系清晰,没有冗余。它在保证数据的一致性和准确性方面有着天然的优势,但不能应对后期的业务变化。维度模型将业务数据分为维度表和事实表。维度表主要用于存储一些不随业务发展而变化的公共数据,如员工信息、合同信息等事实表。用于存储维度表的一些键值和度量值,如员工ID、交易金额等。维度建模不需要建模者了解全局数据,只需要了解相关数据,在面对业务变化时具有天然的优势。另外,还有Inman在ER模型上改进的datavault模型,但是datavault不能简单地称为一个模型,它是一个整体的解决方案。
统计建模和机器学习建模,有什么区别?
统计建模和机器学习建模可用于数据分析和数据挖掘。不同的是,统计建模是基于传统的统计方法,如回归分析、聚类分析、主成分分析等,侧重于对已知现象或数据的描述。虽然机器学习建模也是基于统计的,但它侧重于对未知现象或数据的预测,对数据的大小有一定的要求。
统计建模是指基于统计知识的建模。常用的统计知识包括参数估计、假设检验、方差分析、回归分析、时间序列、聚类分析、主成分分析和因子分析,如下图所示。
机器学习建模是指利用机器学习算法进行建模。常用的机器学习算法有:k近邻算法、决策树、逻辑回归、SVM、随机林、聚类分析、关联分析等,实现这些算法的语言有Python和r,具体如下图所示。!不管是统计建模还是机器学习建模,我们都需要有一个好的数学基础,主要是微积分、线性代数和概率论。
就是这样!欢迎关注[数据科学孙斌],分享数据科学相关知识
什么是数据建模?数据建模有什么优点和缺点?
最流行的如下
1。最基本的Excel:操作简单,易学,数据量小,使用方便
2。SPSS:内置了很多现成的分析工具,不能直接编码应用数据分析模式,可以大大提高数据量,结论报告也很专业;缺点,不太好定制分析模式SAS和R语言:需要一定的代码库,网上有开源的代码包,你可以用,入门门槛比较高
最后,根据你需要处理的数据量和分析方法,选择自己的软件进行分析
希望对你有所帮助
我不知道你想比较两组数据是什么,但这种方法在许多国家是常用的元统计分析方法,如聚类分析、贝叶斯分类等。建议阅读有关多元统计分析的书籍。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。