机器学习中的评估指标 发表于 2019-09-08 | 分类于 数据科学 | 0 | 阅读次数 1554 1.分类问题当正负样本分布极不均衡时,准确率将失去意义,通常使用AUC作为指标1.1混淆矩阵(ConfusionMatrix)矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。真正(TruePositive,TP):被模型预测为正的正样本。假正(FalsePositive,FP):被模型预 阅读全文 »
数据仓库建模分层设计 发表于 2019-07-28 | 分类于 数据科学 | 0 | 阅读次数 1011 1.概述数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策.将所有的业务数据经汇总处理,构成数据仓库(DW)1.1趋势数据仓 阅读全文 »
机器学习之决策树 发表于 2019-05-19 | 分类于 数据科学 | 0 | 阅读次数 1116 1.概述是一种基本的分类与回归方法,模型呈树形结构.学习步骤:特征选择决策树的生成决策树的修剪2.决策树模型与学习3.特征选择3.1信息增益3.1.1相关概念熵(entropy)定义:表示随机变量不确定性的度量.公式:设X是一个取有限个值得离散随机变量,其概率分布为:$$P(X=x_i)=p_i,\ 阅读全文 »
多元统计之因子分析 发表于 2019-03-30 | 分类于 数据科学 | 0 | 阅读次数 1192 1.概述研究观测变量变动的共同原因和特殊原因,从而达到简化变量结构目的的多元统计方法1.1应用寻求变量的基本结构,简化变量系统用于分类,根据因子得分值,在因子轴所构成的空间中将变量或者样本进行分类(能够分析样品间差异的原因)1.2类型R型因子分析Q型因子分析2.因子分析模型2.1因子分析的数学模型2 阅读全文 »
多元统计之主成分分析 发表于 2019-03-02 | 分类于 数据科学 | 0 | 阅读次数 679 1.概述主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标转化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。1.1几何意义代数观点:p个原始变量的一些特殊的线性组合 阅读全文 »
多元统计之判别分析 发表于 2019-02-23 | 分类于 数据科学 | 0 | 阅读次数 612 1.概述判别分析是判别样品所属类型的一种分析方法,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。判别分析于聚类分析的功能差不多,区别在于,聚类分析之前,没有人知道具体的是怎么分的类,分了哪几大类。而判别分析是已经把类别给分好,要做的是把没有分好类的数据 阅读全文 »
多元统计之聚类分析 发表于 2019-02-17 | 分类于 数据科学 | 0 | 阅读次数 727 1.概述聚类分析是研究如何将研究对象按照多个方面的特征进行综合分类的一种统计方法聚类分析就是分析如何对样品(或变量)按照他们在性质上的亲疏程度进行量化分类的问题聚类分析有效解决了科学研究中多因素、多指标的分类问题1.1类别1.1.1Q型聚类对样品进行分类处理1.1.2R型聚类对变量进行分类处理1.2 阅读全文 »
统计中常用的分布 发表于 2019-01-06 | 分类于 数据科学 | 0 | 阅读次数 592 1.概述1.1相关概念随机变量:设随机试验的样本空间为S(e)=.X=X(e)是定义在样本空间S上的实值单值函数.称X=X(e)为随机变量.离散型随机变量:有些随机变量,它全部可能取到的值是有限个或可列无限多个,这种随机变量称为离散型随机变量.2.三种重要的离散型随机变量2.1(0-1)分布定义:设 阅读全文 »