patrick 发布的文章

机器学习中常用的评估指标

1. 分类问题

1.1 混淆矩阵(Confusion Matrix)

  • 矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。
    img
    真正(True Positive , TP):被模型预测为正的正样本。
    假正(False Positive , FP):被模型预测为正的负样本。
    假负(False Negative , FN):被模型预测为负的正样本。
    真负(True Negative , TN):被模型预测为负的负样本。
    真正率(True Positive Rate,TPR):TPR=TP/(TP+FN),即被预测为正的正样本数 /正样本实际数。 召回率
    假正率(False Positive Rate,FPR) :FPR=FP/(FP+TN),即被预测为正的负样本数 /负样本实际数。
    假负率(False Negative Rate,FNR) :FNR=FN/(TP+FN),即被预测为负的正样本数 /正样本实际数。
    真负率(True Negative Rate,TNR):TNR=TN/(TN+FP),即被预测为负的负样本数 /负样本实际数/2

- 阅读剩余部分 -

统计中常用的分布

1. 概述

1.1 相关概念

  1. 随机变量:
    • 设随机试验的样本空间为S(e) = {e}. X = X(e)是定义在样本空间S上的实值单值函数. 称X = X(e)为随机变量.
  2. 离散型随机变量:
    • 有些随机变量, 它全部可能取到的值是有限个或可列无限多个, 这种随机变量称为离散型随机变量.

- 阅读剩余部分 -

多元统计分析之因子分析

1. 概述

  • 研究观测变量变动的共同原因和特殊原因, 从而达到简化变量结构目的的多元统计方法

1.1 应用

  • 寻求变量的基本结构, 简化变量系统
  • 用于分类, 根据因子得分值, 在因子轴所构成的空间中将变量或者样本进行分类(能够分析样品间差异的原因)

- 阅读剩余部分 -

多元统计分析之主成分分析

1. 概述

  • 主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标, 同时根据实际需要从中取几个较少的综合指标尽可能多地反映原来指标的信息。
  • 这种将多个指标转化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。

- 阅读剩余部分 -

多元统计分析之判别分析(贝叶斯判别和费歇判别)

1. 概述

  • 判别分析是判别样品所属类型的一种分析方法,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
  • 判别分析于聚类分析的功能差不多,区别在于,聚类分析之前,没有人知道具体的是怎么分的类,分了哪几大类。而判别分析是已经把类别给分好,要做的是把没有分好类的数据观测,按照之前分好的类再进行分类。这里不同于生活中常见的分类先有具体的分类逻辑(这里叫做判别函数)。所以判别分的难点在于先由分好类的数据观测找到一个或者多个判别函数,然后对未进行分类的观测按照该判别公式进行分类。

- 阅读剩余部分 -

多元统计分析之聚类分析

1. 概述

  • 聚类分析是研究如何将研究对象按照多个方面的特征进行综合分类的一种统计方法
  • 聚类分析就是分析如何对样品(或变量)按照他们在性质上的亲疏程度进行量化分类的问题
  • 聚类分析有效解决了科学研究中多因素、多指标的分类问题

- 阅读剩余部分 -

HFDS的搭建和基本使用

一、概述

  • 简介:
    • 源自Google的GFS论文的巨大分布式文件系统
  • 特点:
    1. 扩展性
    2. 容错性
    3. 海量数据存储
  • 优缺点:
    • 优点:
      1. 数据冗余, 硬件容错
      2. 处理流式(一次写入多次读取)的数据访问
      3. 适合存储大文件
      4. 构建在廉价机器上
    • 缺点:
      1. 不满足低延迟的数据访问
      2. 不适合小文件的存储
  • 存储:
    • 将文件切分成指定大小的数据块并以多副本的存储在多个机器上
    • 数据的切分,多副本,容错等操作对用户透明
      NameNode (Filename, numReplicas, block-ids)

- 阅读剩余部分 -