数据仓库建模的三种模式 统计建模和机器学习建模,有什么区别?
统计建模和机器学习建模,有什么区别?
对于传统的数据建模方法,如统计分析、回归分析、机器学习等,都比较注重未知数据的建模,对数据量有一定的要求。
统计建模是指基于统计知识的建模。常用的统计知识包括参数估计、假设检验、方差分析、回归分析、时间序列、聚类分析、主成分分析和因子分析,如下图所示。
机器学习建模是指利用机器学习算法进行建模。常用的机器学习算法有:k近邻算法、决策树、逻辑回归、SVM、随机林、聚类分析、关联分析等,实现这些算法的语言有Python和r,具体如下图所示。!不管是统计建模还是机器学习建模,我们都需要有一个好的数学基础,主要是微积分、线性代数和概率论。
就是这样!欢迎关注[数据科学孙斌],分享数据科学相关知识
数据仓库数据建模的几种思路?
说到建模,我们不得不说有两个好人,一个是数据仓库之父——inmon,他提倡ER模型,另一个是Kimball,他提倡维度模型。事实上,这两种建模方法各有优势。ER模型是一种实体关系模型,对建模者要求高,实现周期长。施工完成后,数据之间的关系清晰,没有冗余。它在保证数据的一致性和准确性方面有着天然的优势,但不能应对后期的业务变化。维度模型将业务数据分为维度表和事实表。维度表主要用于存储一些不随业务发展而变化的公共数据,如员工信息、合同信息等事实表。用于存储维度表的一些键值和度量值,如员工ID、交易金额等。维度建模不需要建模者了解全局数据,只需要了解相关数据,在面对业务变化时具有天然的优势。另外,还有Inman在ER模型上改进的datavault模型,但是datavault不能简单地称为一个模型,它是一个整体的解决方案。
统计建模与数学建模的区别?
事实上,大多数统计建模都是为了分析数据,统计知识也会用到。但是,数学建模的范围很广,遇到的问题也不尽相同,解决的方法也不尽相同,统计知识可能不会用到,遇到的问题也多种多样。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。