Patrick's Blog

机器学习之决策树

发表于： 2019-05-19 更新于： 2024-04-04 分类于：数据科学评论：

概述

是一种基本的分类与回归方法, 模型呈树形结构.
学习步骤:
1. 特征选择
2. 决策树的生成
3. 决策树的修剪

多元统计之因子分析

发表于： 2019-03-30 更新于： 2024-04-04 分类于：数据科学评论：

概述

研究观测变量变动的共同原因和特殊原因, 从而达到简化变量结构目的的多元统计方法

应用

寻求变量的基本结构, 简化变量系统
用于分类, 根据因子得分值, 在因子轴所构成的空间中将变量或者样本进行分类(能够分析样品间差异的原因)

类型

R型因子分析
Q型因子分析

多元统计之主成分分析

发表于： 2019-03-02 更新于： 2024-04-04 分类于：数据科学评论：

概述

主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标, 同时根据实际需要从中取几个较少的综合指标尽可能多地反映原来指标的信息。
这种将多个指标转化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。

几何意义

代数观点:
- p个原始变量的一些特殊的线性组合
几何意义:
- 这些线性组合通过把由$X_1,X_2,\cdots,X_p$构成的坐标系旋转而产生的新坐标系。这样的新坐标轴使其通过样本变差最大的方向(或者说具有最大的样本方差)。

多元统计之判别分析

发表于： 2019-02-23 更新于： 2024-04-04 分类于：数据科学评论：

概述

判别分析是判别样品所属类型的一种分析方法，是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
判别分析于聚类分析的功能差不多，区别在于，聚类分析之前，没有人知道具体的是怎么分的类，分了哪几大类。而判别分析是已经把类别给分好，要做的是把没有分好类的数据观测，按照之前分好的类再进行分类。这里不同于生活中常见的分类先有具体的分类逻辑（这里叫做判别函数）。所以判别分的难点在于先由分好类的数据观测找到一个或者多个判别函数，然后对未进行分类的观测按照该判别公式进行分类。

多元统计之聚类分析

发表于： 2019-02-17 更新于： 2024-04-04 分类于：数据科学评论：

概述

聚类分析是研究如何将研究对象按照多个方面的特征进行综合分类的一种统计方法
聚类分析就是分析如何对样品(或变量)按照他们在性质上的亲疏程度进行量化分类的问题
聚类分析有效解决了科学研究中多因素、多指标的分类问题

类别

Q型聚类

对样品进行分类处理

R型聚类

对变量进行分类处理

统计中常用的分布

发表于： 2019-01-06 更新于： 2024-04-04 分类于：数据科学评论：

概述

Spark程序相关调优整理

发表于： 2018-07-29 更新于： 2024-04-04 分类于：数据科学评论：

普通调优

jvm调优

数据倾斜

数据倾斜只会发生在 shuffle 过程中
在进行 shuffle 的时候，必须将各个节点上相同的 key 拉取到某个节点上的一个 task 来进行处理，比如按照 key 进行聚合或 join 等操作。此时如果某个 key 对应的数据量特别大的话，就会发生数据倾斜。

HDFS快速入门

发表于： 2018-04-15 更新于： 2024-04-04 分类于：数据科学评论：

概述

简介:
- 源自Google的GFS论文的巨大分布式文件系统
特点:
1. 扩展性
2. 容错性
3. 海量数据存储
优缺点:
- 优点:
  1. 数据冗余, 硬件容错
  2. 处理流式(一次写入多次读取)的数据访问
  3. 适合存储大文件
  4. 构建在廉价机器上
- 缺点:
  1. 不满足低延迟的数据访问
  2. 不适合小文件的存储
存储:
- 将文件切分成指定大小的数据块并以多副本的存储在多个机器上
- 数据的切分,多副本,容错等操作对用户透明
```
NameNode (Filename, numReplicas, block-ids)
```

大数据集群CDH5.11.0搭建及配置

发表于： 2018-03-31 更新于： 2024-04-04 分类于：数据科学评论：

环境

系统环境

CentOS7 3台

# host
192.168.237.100 hadoop001
192.168.237.110 hadoop002
192.168.237.120 hadoop003

SSH免密登录
关闭防火墙

# 关闭防火墙
systemctl stop firewalld
# 关闭开启自启
systemctl disable firewalld

SELINUX关闭

setenforce 0
sed -i "s/SELINUX=enforcing/SELINUX=disabled/" /etc/selinux/config
iptables --flush
reboot  #重启生效

ElasticSearch6.3搭建快速入门

发表于： 2018-02-25 更新于： 2024-04-04 分类于：数据科学评论：

快速入门

Elasticsearch是一个实时分布式搜索和分析引擎

环境

java 1.8+
ubuntu 14.04/16.04

版本说明

5.X之后的字段类型不再支持string，由text或keyword取代
6.3支持sql

概述

概述

应用

类型

概述