做数据挖掘的必备知识 数据挖掘的主要研究有哪些方向?
数据挖掘的主要研究有哪些方向?
数据挖掘的主要研究方向包括算法研究和应用研究。
1.数据挖掘算法研究。目前数据挖掘的主流算法有统计学习算法和机器学习算法(监督学习、半监督学习、强化学习等。),而最流行的机器学习算法是深度神经网络算法,其主要任务是寻找更高级的算法或改进。这些算法使得它在数据挖掘中效率更高,或者把这些算法做成工具,使用起来更方便,降低了算法的门槛。
2.应用研究,主要在大数据分析领域。数据挖掘在人文社会科学、经济、医疗、科学与工程等领域有着很强的应用前景。
第一步,选择一个自己擅长的领域,想办法获取这个领域的数据。这一步看似简单,其实很难。一方面需要的数据量非常大,非常全面,另一方面需要尽可能保证获得数据的真实性。这个前提没有做好,下面的分析就没有意义了。。
第二步,数据清洗,必须了解数据清洗的常用算法,冗余清洗,数据的标准化。
第三步,选择合适的算法,不断做实验,得出实验结论。
第四步,建立适当的结论评价标准,判断第三步的结论是否具有现实意义。如果结论明显错误或不一致,则重新选择算法。如果换了多个算法结论还是没有意义,就认为数据有问题,很可能需要重新找数据或者考试。考虑到前期资料不充分,需要补充其他资料进行再分析。
另外,数据挖掘需要的知识体系至少包括统计分析、机器学习、神经网络和数据库。推荐的入学门槛是985硕士 本科或以上学历。
没有计算机基础应该如何学习大数据知识?
学习程序开发可以在一些开源平台上浏览更多的项目、博客、问答。知名平台如github,stackoverflow。
在github上搜索大数据,会出现相关项目。有大数据入门指南的项目挺好的,可以借鉴一下。地址:如果限制访问,可以点赞评论。
以下是取自项目的插图和章节导航。
附:项目相关知识点如下
序
大数据学习路线
大数据技术堆栈思维导图
大数据常用软件安装指南
一、Hadoop
分布式文件存储系统-HDFS
MapReduce,一个分布式计算框架
集群资源管理器-yarn
Hadoop单机伪集群环境的构建
Hadoop集群环境构建
HDFS通用Shell命令
HDFS Java API的使用
基于Zookeeper构建Hadoop高可用性集群
Second, the hive
Hive简介和核心概念
Linux环境下Hive的安装和部署
Hive CLI和Beeline命令行的基本用法
配置单元公共DDL操作
蜂巢分区表和桶表
配置单元视图和索引
Hive常用的DML操作
蜂巢数据查询详解
Third, sparks
Spark core :
Spark简介
星火开发环境建设
弹性数据集RDD
RDD常用运算符详解
Spark操作模式和作业提交
火花累加器和广播变量
基于Zookeeper构建Spark高可用性集群
Spark SQL :
数据框架和数据集
结构化API的基本用法
Spark SQL外部数据源
Spark SQL的常用聚合函数
Spark SQL connection operation
Spark flow:
Brief introduction of spark flow
Basic operation of spark flow
Spark flow integrated waterway
Spark flow integration Kafka
Fourth, the storm
暴雨和河流处理简介
风暴核心概念详解
风暴单机环境建设
风暴集群环境建设
风暴规划模型详解
风暴工程三种包装的对比分析
暴风集成Redis详解
Storm integration HDFS/HBase
Storm integration Kafka
动词 (verb的缩写)弗林克
Flink核心概念概述
Flink开发环境建设
Flink data source
Flink data conversion
Flink数据接收器
Flink窗口模型
Flink状态管理和检查点机制
Flink standalone cluster deployment
六、HBase
Hbase简介
HBase系统架构和数据结构
Basic environment construction of HBase (independent/pseudo-distributed mode)
HBase集群环境的构建
HBase常见Shell命令
HBase Java API
HBase过滤器的详细说明
HBase协处理器的详细说明
h基本灾难恢复和备份
The middle layer of structured query language of HBase-Phoenix
Spring /Spring Boot Integration of Mibatis Phoenix
Seven, Kafka
卡夫卡简介
基于Zookeeper构建Kafka高可用性集群
卡夫卡制作人详解
卡夫卡消费者详解
深刻理解卡夫卡的复制机制
Eight city zoo.
Zookeeper简介和核心概念
Zookeeper单机环境和集群环境构建
City zoo often uses shell commands.
City zoo Java Client-Apache Curator
City zoo ACL access control
Nine, sink
水槽的简介和基本用途
Linux环境下Flume的安装和部署
Waterway integration Kafka
十、Sqoop
Sqoop的介绍和安装
Sqoop的基本用法
Xi. Azkaban
Introduction to Azkaban
Azkaban3.x的编译和部署
Use of Azkaban Process 1.0
Use of Azkaban Process 2.0
十二。斯卡拉
Scala介绍及开发环境配置
基本数据类型和运算符
过程控制语句
阵列-阵列
器械包类型汇总
列表集,常用的集合类型之一
常见的集合类型之一——map tuple
班级
继承和特点
函数闭包的cori化
模式匹配
类型参数
隐式转换和隐式参数
十三。公共内容
大数据应用程序的常见打包方法
附言
推荐数据共享和开发工具
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。