Patrick's Blog

Once start, goes forward!

  • 首页
  • 文章归档
  • 关于页面

多元统计之主成分分析

发表于 2019-03-02 | 分类于 数据科学 | 0 | 阅读次数 582
1.概述主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标转化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。1.1几何意义代数观点:p个原始变量的一些特殊的线性组合
阅读全文 »

多元统计之判别分析

发表于 2019-02-23 | 分类于 数据科学 | 0 | 阅读次数 541
1.概述判别分析是判别样品所属类型的一种分析方法,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。判别分析于聚类分析的功能差不多,区别在于,聚类分析之前,没有人知道具体的是怎么分的类,分了哪几大类。而判别分析是已经把类别给分好,要做的是把没有分好类的数据
阅读全文 »

多元统计之聚类分析

发表于 2019-02-17 | 分类于 数据科学 | 0 | 阅读次数 627
1.概述聚类分析是研究如何将研究对象按照多个方面的特征进行综合分类的一种统计方法聚类分析就是分析如何对样品(或变量)按照他们在性质上的亲疏程度进行量化分类的问题聚类分析有效解决了科学研究中多因素、多指标的分类问题1.1类别1.1.1Q型聚类对样品进行分类处理1.1.2R型聚类对变量进行分类处理1.2
阅读全文 »

统计中常用的分布

发表于 2019-01-06 | 分类于 数据科学 | 0 | 阅读次数 519
1.概述1.1相关概念随机变量:设随机试验的样本空间为S(e)=.X=X(e)是定义在样本空间S上的实值单值函数.称X=X(e)为随机变量.离散型随机变量:有些随机变量,它全部可能取到的值是有限个或可列无限多个,这种随机变量称为离散型随机变量.2.三种重要的离散型随机变量2.1(0-1)分布定义:设
阅读全文 »

Spark程序相关调优整理

发表于 2018-07-29 | 分类于 数据科学 | 0 | 阅读次数 495
普通调优jvm调优数据倾斜数据倾斜只会发生在shuffle过程中在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。shuffle调优Spark是根据sh
阅读全文 »

HDFS快速入门

发表于 2018-04-15 | 分类于 数据科学 | 0 | 阅读次数 413
概述简介:源自Google的GFS论文的巨大分布式文件系统特点:扩展性容错性海量数据存储优缺点:优点:数据冗余,硬件容错处理流式(一次写入多次读取)的数据访问适合存储大文件构建在廉价机器上缺点:不满足低延迟的数据访问不适合小文件的存储存储:将文件切分成指定大小的数据块并以多副本的存储在多个机器上数据
阅读全文 »

大数据集群CDH5.11.0搭建及配置

发表于 2018-03-31 | 分类于 数据科学 | 0 | 阅读次数 678
环境系统环境CentOS73台#host192.168.237.100hadoop001192.168.237.110hadoop002192.168.237.120hadoop003SSH免密登录关闭防火墙#关闭防火墙systemctlstopfirewalld#关闭开启自启systemctldi
阅读全文 »

ElasticSearch6.3搭建快速入门

发表于 2018-02-25 | 分类于 数据科学 | 0 | 阅读次数 439
一、快速入门Elasticsearch是一个实时分布式搜索和分析引擎1.1环境java1.8+ubuntu14.04/16.041.2版本说明5.X之后的字段类型不再支持string,由text或keyword取代6.3支持sql1.3基本概念1.2.1索引(Indices):同msql的db每个索
阅读全文 »
1 2 3
帕提克

帕提克

29 日志
5 分类
9 标签
E-mail
Creative Commons
Links
  • 宇宙湾
0%
© 2015 — 2023 帕提克