0%

概述

  • 研究观测变量变动的共同原因和特殊原因, 从而达到简化变量结构目的的多元统计方法

应用

  • 寻求变量的基本结构, 简化变量系统
  • 用于分类, 根据因子得分值, 在因子轴所构成的空间中将变量或者样本进行分类(能够分析样品间差异的原因)

类型

  • R型因子分析
  • Q型因子分析

概述

  • 主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标, 同时根据实际需要从中取几个较少的综合指标尽可能多地反映原来指标的信息。
  • 这种将多个指标转化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。

几何意义

  • 代数观点:
    • p个原始变量的一些特殊的线性组合
  • 几何意义:
    • 这些线性组合通过把由$X_1,X_2,\cdots,X_p$构成的坐标系旋转而产生的新坐标系。这样的新坐标轴使其通过样本变差最大的方向(或者说具有最大的样本方差)。

概述

  • 判别分析是判别样品所属类型的一种分析方法,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
  • 判别分析于聚类分析的功能差不多,区别在于,聚类分析之前,没有人知道具体的是怎么分的类,分了哪几大类。而判别分析是已经把类别给分好,要做的是把没有分好类的数据观测,按照之前分好的类再进行分类。这里不同于生活中常见的分类先有具体的分类逻辑(这里叫做判别函数)。所以判别分的难点在于先由分好类的数据观测找到一个或者多个判别函数,然后对未进行分类的观测按照该判别公式进行分类。

概述

  • 聚类分析是研究如何将研究对象按照多个方面的特征进行综合分类的一种统计方法
  • 聚类分析就是分析如何对样品(或变量)按照他们在性质上的亲疏程度进行量化分类的问题
  • 聚类分析有效解决了科学研究中多因素、多指标的分类问题

类别

Q型聚类

  • 对样品进行分类处理

R型聚类

  • 对变量进行分类处理

概述

相关概念

  1. 随机变量:
    • 设随机试验的样本空间为S(e) = {e}. X = X(e)是定义在样本空间S上的实值单值函数. 称X = X(e)为随机变量.
  2. 离散型随机变量:
    • 有些随机变量, 它全部可能取到的值是有限个或可列无限多个, 这种随机变量称为离散型随机变量.

普通调优

jvm调优

数据倾斜

  • 数据倾斜只会发生在 shuffle 过程中
  • 在进行 shuffle 的时候,必须将各个节点上相同的 key 拉取到某个节点上的一个 task 来进行处理,比如按照 key 进行聚合或 join 等操作。此时如果某个 key 对应的数据量特别大的话,就会发生数据倾斜。

概述

  • 简介:
    • 源自Google的GFS论文的巨大分布式文件系统
  • 特点:
    1. 扩展性
    2. 容错性
    3. 海量数据存储
  • 优缺点:
    • 优点:
      1. 数据冗余, 硬件容错
      2. 处理流式(一次写入多次读取)的数据访问
      3. 适合存储大文件
      4. 构建在廉价机器上
    • 缺点:
      1. 不满足低延迟的数据访问
      2. 不适合小文件的存储
  • 存储:
    • 将文件切分成指定大小的数据块并以多副本的存储在多个机器上
    • 数据的切分,多副本,容错等操作对用户透明
    NameNode (Filename, numReplicas, block-ids)
    

环境

系统环境

  1. CentOS7 3台
# host
192.168.237.100 hadoop001
192.168.237.110 hadoop002
192.168.237.120 hadoop003
  1. SSH免密登录
  2. 关闭防火墙
# 关闭防火墙
systemctl stop firewalld
# 关闭开启自启
systemctl disable firewalld
  1. SELINUX关闭
setenforce 0
sed -i "s/SELINUX=enforcing/SELINUX=disabled/" /etc/selinux/config
iptables --flush
reboot  #重启生效

快速入门

  • Elasticsearch是一个实时分布式搜索和分析引擎

环境

  • java 1.8+
  • ubuntu 14.04/16.04

版本说明

  • 5.X之后的字段类型不再支持string,由text或keyword取代
  • 6.3支持sql