2016 - 2024

感恩一路有你

做数据挖掘的必备知识 数据挖掘的主要研究有哪些方向?

浏览量:3122 时间:2023-07-17 20:32:37 作者:采采

数据挖掘的主要研究有哪些方向?

数据挖掘的主要研究方向包括算法研究和应用研究。

1.数据挖掘算法研究。目前数据挖掘的主流算法有统计学习算法和机器学习算法(监督学习、半监督学习、强化学习等。),而最流行的机器学习算法是深度神经网络算法,其主要任务是寻找更高级的算法或改进。这些算法使得它在数据挖掘中效率更高,或者把这些算法做成工具,使用起来更方便,降低了算法的门槛。

2.应用研究,主要在大数据分析领域。数据挖掘在人文社会科学、经济、医疗、科学与工程等领域有着很强的应用前景。

第一步,选择一个自己擅长的领域,想办法获取这个领域的数据。这一步看似简单,其实很难。一方面需要的数据量非常大,非常全面,另一方面需要尽可能保证获得数据的真实性。这个前提没有做好,下面的分析就没有意义了。。

第二步,数据清洗,必须了解数据清洗的常用算法,冗余清洗,数据的标准化。

第三步,选择合适的算法,不断做实验,得出实验结论。

第四步,建立适当的结论评价标准,判断第三步的结论是否具有现实意义。如果结论明显错误或不一致,则重新选择算法。如果换了多个算法结论还是没有意义,就认为数据有问题,很可能需要重新找数据或者考试。考虑到前期资料不充分,需要补充其他资料进行再分析。

另外,数据挖掘需要的知识体系至少包括统计分析、机器学习、神经网络和数据库。推荐的入学门槛是985硕士 本科或以上学历。

没有计算机基础应该如何学习大数据知识?

学习程序开发可以在一些开源平台上浏览更多的项目、博客、问答。知名平台如github,stackoverflow。

在github上搜索大数据,会出现相关项目。有大数据入门指南的项目挺好的,可以借鉴一下。地址:如果限制访问,可以点赞评论。

以下是取自项目的插图和章节导航。

附:项目相关知识点如下

大数据学习路线

大数据技术堆栈思维导图

大数据常用软件安装指南

一、Hadoop

分布式文件存储系统-HDFS

MapReduce,一个分布式计算框架

集群资源管理器-yarn

Hadoop单机伪集群环境的构建

Hadoop集群环境构建

HDFS通用Shell命令

HDFS Java API的使用

基于Zookeeper构建Hadoop高可用性集群

Second, the hive

Hive简介和核心概念

Linux环境下Hive的安装和部署

Hive CLI和Beeline命令行的基本用法

配置单元公共DDL操作

蜂巢分区表和桶表

配置单元视图和索引

Hive常用的DML操作

蜂巢数据查询详解

Third, sparks

Spark core :

Spark简介

星火开发环境建设

弹性数据集RDD

RDD常用运算符详解

Spark操作模式和作业提交

火花累加器和广播变量

基于Zookeeper构建Spark高可用性集群

Spark SQL :

数据框架和数据集

结构化API的基本用法

Spark SQL外部数据源

Spark SQL的常用聚合函数

Spark SQL connection operation

Spark flow:

Brief introduction of spark flow

Basic operation of spark flow

Spark flow integrated waterway

Spark flow integration Kafka

Fourth, the storm

暴雨和河流处理简介

风暴核心概念详解

风暴单机环境建设

风暴集群环境建设

风暴规划模型详解

风暴工程三种包装的对比分析

暴风集成Redis详解

Storm integration HDFS/HBase

Storm integration Kafka

动词 (verb的缩写)弗林克

Flink核心概念概述

Flink开发环境建设

Flink data source

Flink data conversion

Flink数据接收器

Flink窗口模型

Flink状态管理和检查点机制

Flink standalone cluster deployment

六、HBase

Hbase简介

HBase系统架构和数据结构

Basic environment construction of HBase (independent/pseudo-distributed mode)

HBase集群环境的构建

HBase常见Shell命令

HBase Java API

HBase过滤器的详细说明

HBase协处理器的详细说明

h基本灾难恢复和备份

The middle layer of structured query language of HBase-Phoenix

Spring /Spring Boot Integration of Mibatis Phoenix

Seven, Kafka

卡夫卡简介

基于Zookeeper构建Kafka高可用性集群

卡夫卡制作人详解

卡夫卡消费者详解

深刻理解卡夫卡的复制机制

Eight city zoo.

Zookeeper简介和核心概念

Zookeeper单机环境和集群环境构建

City zoo often uses shell commands.

City zoo Java Client-Apache Curator

City zoo ACL access control

Nine, sink

水槽的简介和基本用途

Linux环境下Flume的安装和部署

Waterway integration Kafka

十、Sqoop

Sqoop的介绍和安装

Sqoop的基本用法

Xi. Azkaban

Introduction to Azkaban

Azkaban3.x的编译和部署

Use of Azkaban Process 1.0

Use of Azkaban Process 2.0

十二。斯卡拉

Scala介绍及开发环境配置

基本数据类型和运算符

过程控制语句

阵列-阵列

器械包类型汇总

列表集,常用的集合类型之一

常见的集合类型之一——map tuple

班级

继承和特点

函数闭包的cori化

模式匹配

类型参数

隐式转换和隐式参数

十三。公共内容

大数据应用程序的常见打包方法

附言

推荐数据共享和开发工具

数据 环境 大数据 集群 算法

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。