Spark程序相关调优整理 发表于 2018-07-29 | 分类于 数据科学 | 0 | 阅读次数 535 普通调优jvm调优数据倾斜数据倾斜只会发生在 shuffle 过程中在进行 shuffle 的时候,必须将各个节点上相同的 key 拉取到某个节点上的一个 task 来进行处理,比如按照 key 进行聚合或 join 等操作。此时如果某个 key 对应的数据量特别大的话,就会发生数据倾斜。shuff 阅读全文 »
HDFS快速入门 发表于 2018-04-15 | 分类于 数据科学 | 0 | 阅读次数 451 概述简介:源自Google的GFS论文的巨大分布式文件系统特点:扩展性容错性海量数据存储优缺点:优点:数据冗余, 硬件容错处理流式(一次写入多次读取)的数据访问适合存储大文件构建在廉价机器上缺点:不满足低延迟的数据访问不适合小文件的存储存储:将文件切分成指定大小的数据块并以多副本的存储在多个机器上数 阅读全文 »
大数据集群CDH5.11.0搭建及配置 发表于 2018-03-31 | 分类于 数据科学 | 0 | 阅读次数 746 环境系统环境CentOS7 3台# host192.168.237.100 hadoop001192.168.237.110 hadoop002192.168.237.120 hadoop003SSH免密登录关闭防火墙# 关闭防火墙systemctl stop firewalld# 关闭开启自启sy 阅读全文 »
ElasticSearch6.3搭建快速入门 发表于 2018-02-25 | 分类于 数据科学 | 0 | 阅读次数 497 一、快速入门Elasticsearch是一个实时分布式搜索和分析引擎1.1 环境java 1.8+ubuntu 14.04/16.041.2 版本说明5.X之后的字段类型不再支持string,由text或keyword取代6.3支持sql1.3 基本概念1.2.1 索引(Indices): 同msq 阅读全文 »
数据结构基础之图 发表于 2017-12-24 | 分类于 数据结构与算法 | 0 | 阅读次数 460 简介概念:由顶点的有穷非空集合和顶点之间边的集合组成, 通常表示为: G(V,E), 其中, G表示一个图, V是图G中顶点的集合, E是图G中边的集合异同:线性表中把数据元素叫做元素, 树中将数据元素叫结点, 在图中数据元素叫做顶点(Vertex)线性表中可以没有数据元素,称为空表; 树中可以没有 阅读全文 »
数据结构基础之树 发表于 2017-11-18 | 分类于 数据结构与算法 | 0 | 阅读次数 462 简介概念: 为n(n>=0)个结点的有限集。n=0时为空树。特点: 在任意一棵非空树中有且仅有一个特定的称为根(Root)的结点当n>1时, 其余结点可以分为m(m>0)个互不相交的有限集T1、T2、......、Tm, 其中每一个集合本身又是一棵树, 并且称为根的子树(SubTr 阅读全文 »
数据结构之线性表 发表于 2017-10-15 | 分类于 数据结构与算法 | 0 | 阅读次数 482 简介概念: 零个或多个数据元素的有限序列抽象数据类型定义ADT 线性表ListData线性表的数据对象集合为{a1,a2,...,an}, 每个元素的类型均为DataType, 除第一个元素a1外,每一个元素有且只有一个直接前驱元素, 除了最后一个元素an外, 每一个元素有且只有直接后驱元素。数据元 阅读全文 »
Pyhton中的时间模块 发表于 2016-10-15 | 分类于 编程语言 | 0 | 阅读次数 633 1.获取当前日期和时间1.1使用time模块importtimeprint(time.strftime('%Y-%m-%d%H:%M:%S',time.localtime(time.time())))#Out:2016-12-0817:14:291.2使用datetime模块fromdatetime 阅读全文 »