Flink QuickStart 发表于 2020-11-16 | 分类于 数据科学 | 0 | 阅读次数 1057 1.简介ApacheFlink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。1.1有界与无界数据流无界流:有定义流开始,未定义流的结束;持续产生数据,需要以特定顺序摄取事件(如事件的发生顺序),以便能 阅读全文 »
Oracle GoldenGate 实时同步Oracle数据到Kafka安装及配置 发表于 2020-10-31 | 分类于 数据科学 | 0 | 阅读次数 905 简介MySQL实时同步到Kafk可以采用canal,Oracle实时同步到Kafka可以采用OGG,配置过程比canal略复杂OGG即OracleGoldenGate是Oracle的同步工具,能够实现大量交易数据的实时捕捉、变换和投递,实现源数据库与目标数据库的数据同步,保持亚秒级的数据延迟。相关进 阅读全文 »
单双因素方差分析及Python实现 发表于 2020-04-26 | 分类于 数据科学 | 0 | 阅读次数 1746 1.概述方差分析(analysisofvariance,ANOVA)在20世纪20年代发展起来的一种统计方法,由英国统计学家费希尔在进行试验设计时为解释试验数据而首先引入.方差分析就是通过检验个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。从表面上看,方差分析是检验多个总体均值是 阅读全文 »
机器学习中的特征工程 发表于 2020-02-03 | 分类于 数据科学 | 1 | 阅读次数 1443 1.概述机器学习将数据拟合到数学模型中来获得结论或者做出预测。这些模型吸纳特征作为输入。特征就是原始数据某方面的数学表现。在机器学习流水线中特征位于数据和模型之间。特征工程是一项从数据中提取特征,然后转换成适合机器学习模型的格式的艺术。这是机器学习流水线关键的一步,因为正确的特征可以减轻建模的难度, 阅读全文 »
机器学习中的评估指标 发表于 2019-09-08 | 分类于 数据科学 | 0 | 阅读次数 1407 1.分类问题当正负样本分布极不均衡时,准确率将失去意义,通常使用AUC作为指标1.1混淆矩阵(ConfusionMatrix)矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。真正(TruePositive,TP):被模型预测为正的正样本。假正(FalsePositive,FP):被模型预 阅读全文 »
数据仓库建模分层设计 发表于 2019-07-28 | 分类于 数据科学 | 0 | 阅读次数 900 1.概述数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策.将所有的业务数据经汇总处理,构成数据仓库(DW)1.1趋势数据仓 阅读全文 »
机器学习之决策树 发表于 2019-05-19 | 分类于 数据科学 | 0 | 阅读次数 991 1.概述是一种基本的分类与回归方法,模型呈树形结构.学习步骤:特征选择决策树的生成决策树的修剪2.决策树模型与学习3.特征选择3.1信息增益3.1.1相关概念熵(entropy)定义:表示随机变量不确定性的度量.公式:设X是一个取有限个值得离散随机变量,其概率分布为:$$P(X=x_i)=p_i,\ 阅读全文 »
多元统计之因子分析 发表于 2019-03-30 | 分类于 数据科学 | 0 | 阅读次数 1012 1.概述研究观测变量变动的共同原因和特殊原因,从而达到简化变量结构目的的多元统计方法1.1应用寻求变量的基本结构,简化变量系统用于分类,根据因子得分值,在因子轴所构成的空间中将变量或者样本进行分类(能够分析样品间差异的原因)1.2类型R型因子分析Q型因子分析2.因子分析模型2.1因子分析的数学模型2 阅读全文 »