2016 - 2024

感恩一路有你

数仓一般用哪个数据库 bu数仓与数仓区别?

浏览量:1371 时间:2023-04-29 14:43:34 作者:采采

bu数仓与数仓区别?

业务部门编号仓库是业务部门编号仓库,编号仓库是编号仓库。

高质量的数据一般包括哪些指标特征?

1)功能性:软件提供用户需要的功能。次要特征包括:适用性、准确性、互操作性和安全性。就数据而言,我个人认为重要的应该属于准确性和安全性。

A.对于准确性,一句话,先要有数据,再要数据完整,再要数据准确。相应的,可以在这个大项下看到相应的事件:

数据要有-gt数据时效性:数据要按照约定的时间产生。

数据要完整——gt数据完整性:数据不能少,不能缺失。当然,不多。

数据必须准确-gt数据准确性:值必须准确。

这些次要特征可能已经在许多学生中被写过和讨论过。;文章。这里只从数据质量的整体体系来阐述。需要注意的是,很多文章里也写了数据一致性。数据一致性的概念非常广泛,比如关系数据库中的外键一致性,CAP理论中的强弱一致性。个人认为,数据不一致最终影响的是数据的完整性或准确性。如果业务认为不一致是可以接受的,那就不是问题。所以我更愿意把数据一致性看作是一个根本原因,而不是质量模型的一个子项。

B.对于安全,尤其是数据安全,命题也很大,所以我赢了 这里就不重复了。但需要提到的是,数据安全涉及隐私或防止差分密码分析,也可能是商科学生考虑的,所以在数据质量模型中不能忽略。

2)易用性:指软件产品在规定条件下使用时,被用户理解、学习、使用和吸引的能力。对于数据,我认为数据的易用性可以分为两个方面:是否理解,是否需要。更多的是和日常沟通、产品需求、规划有关。

是否理解,是指目前我们对数据的定义是否被业界认可,团队之间,用户和开发者之间是否存在不一致。

是否需要,是指我们目前提供的数据是否真的能满足用户的需求,是否达到了数据的真实效果。比如我们给用户提供的是自己品牌的数据,但是用户可能需要行业下的数据来做进一步的市场规划。

3)可靠性:软件产品在特定条件下使用时保持特定性能水平的能力。例如,上游数据可以 依赖关系的强度配置不正确,可能会影响数据的可及性。;不定期生产。可靠性是一个根本原因,它最终会影响功能。

4)效率:指软件产品在规定的时间内,相对于规定条件下使用的资源量,提供适当性能的能力。比如计算倾斜或者计算资源不足导致数据失效。效率也是一个根本原因,最终影响功能。

5)可维护性:指修改或添加需求时的当前开发架子。结构是否足够灵活是开发阶段主要考虑的。比如几个仓库的开发,新的上游来的时候,如果采用自下而上的烟囱开发,肯定对新的需求不友好。如果换成Hub或者bazaar模式,可能只需要开发ETL代码访问数据,剩下的完全可以重用,这是一种提高可维护性的手段。

6)可移植性:指软件产品从一个环境迁移到另一个环境的能力,这也是开发阶段主要考虑的因素。大家对服务或者网站的可移植性了解的比较多。数据可移植性是什么意思?我个人认为可移植性更强调跨技术平台移植,而不是模块间的数据重用。数据可以直接从一个计算平台迁移到另一个计算平台,或者SQL代码可以从一个计算平台迁移到另一个计算平台。在便携性方面,我还没有 t遇到了令人信服的导致质量问题的案例。如果有相关的例子,可以交流。

数据 质量 需求 产品

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。