0%

描述

力扣1870

给你一个浮点数 hour ,表示你到达办公室可用的总通勤时间。要到达办公室,你必须按给定次序乘坐 n 趟列车。另给你一个长度为 n 的整数数组 dist ,其中 dist[i] 表示第 i 趟列车的行驶距离(单位是千米)。每趟列车均只能在整点发车,所以你可能需要在两趟列车之间等待一段时间。例如,第 1 趟列车需要 1.5 小时,那你必须再等待 0.5 小时,搭乘在第 2 小时发车的第 2 趟列车。
 
 返回能满足你准时到达办公室所要求全部列车的 最小正整数 时速(单位:千米每小时),如果无法准时到达,则返回 -1 。
 
 生成的测试用例保证答案不超过 10^7 ,且 hour 的小数点后最多存在两位数字 。

描述

牛客网题目: 合唱队 N 位同学站成一排,音乐老师要请最少的同学出列,使得剩下的 K 位同学排成合唱队形。 通俗来说,能找到一个同学,他的两边的同学身高都依次严格降低的队形就是合唱队形。

描述

牛客网题目: 四则运算 输入一个表达式(用字符串表示), 求这个表达式的值. 保证字符串中的有效字符包括[‘0’-‘9’],‘+’,‘-’, ‘*’,‘/’ ,‘(’, ‘)’,‘[’, ‘]’,‘{’ ,‘}’. 且表达式一定合法.

数据范围:表达式计算结果和过程中满足∣val∣≤1000 ,字符串长度满足 1≤n≤1000

废话

  • 在使用 Flink DataStream API 进行流式数据聚合统计时, sink操作时, 都会用到 Trigger.
  • 以 Flink 1.11.x 版本为例, 查看 Trigger 的实现类主要有以下常用的 7 种:
    • EventTimeTrigger: 事件时间触发器
    • ProcessTimeTrigger: 处理时间触发器
    • ContinuousEventTimeTrigger: 连续的事件时间触发器
    • ContinuousProcessingTimeTrigger: 连续的处理时间触发器
    • CountTrigger: 窗口数据条数触发器
    • DeltaTrigger: 窗口Delta指标触发器
    • PurgingTrigger: 窗口清除触发器
  • 在实际的业务场景中, 使用最多的当属 ContinuousEventTimeTrigger 这个类了.

简介

  • Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。
  • Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。

有界与无界数据流

  • 无界流: 有定义流开始, 未定义流的结束; 持续产生数据, 需要以特定顺序摄取事件 (如事件的发生顺序), 以便能够推断结果的完整性.
  • 有界流: 既定义流的开始, 又定义流的结束; 可以在摄取所有的数据后进行排序计算, 并需要有序摄取, 有界流处理通常被称为批处理.

简介

  • MySQL实时同步到Kafk可以采用canal, Oracle实时同步到Kafka可以采用OGG, 配置过程比canal略复杂
  • OGG即Oracle GoldenGate是Oracle的同步工具, 能够实现大量交易数据的实时捕捉、变换和投递,实现源数据库与目标数据库的数据同步,保持亚秒级的数据延迟。

概述

  • 方差分析 (analysis of variance, ANOVA) 在20世纪20年代发展起来的一种统计方法, 由英国统计学家费希尔在进行试验设计时为解释试验数据而首先引入.
  • 方差分析就是通过检验个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
  • 从表面上看, 方差分析是检验多个总体均值是否相等的方法, 但本质上是它所研究的是分类型自变量对数值型因变量的影响. 例如, 变量之间有没有关系, 关系的强度如何等.
  • 根据所分析的分类型自变量多少, 可以分为单因素方差分析 (one-way analysis of variance) 和 双因素方差分析 (two-way analysis of variance) .

概述

  • 机器学习将数据拟合到数学模型中来获得结论或者做出预测。这些模型吸纳特征作为输入。特征就是原始数据某方面的数学表现。在机器学习流水线中特征位于数据和模型之间。
  • 特征工程是一项从数据中提取特征,然后转换成适合机器学习模型的格式的艺术。这是机器学习流水线关键的一步,因为正确的特征可以减轻建模的难度,并因此使流水线能输出更高质量的结果。
  • 数据和特征决定了机器学习的上限, 而模型和算法只是逼近这个上限而已.
  • 流程: img

分类问题

  • 当正负样本分布极不均衡时, 准确率将失去意义, 通常使用AUC作为指标

混淆矩阵(Confusion Matrix)

  • 矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。 img
真正(True Positive , TP):被模型预测为正的正样本。
假正(False Positive , FP):被模型预测为正的负样本。
假负(False Negative , FN):被模型预测为负的正样本。
真负(True Negative , TN):被模型预测为负的负样本。

真正率(True Positive Rate,TPR):TPR=TP/(TP+FN),即被预测为正的正样本数 /正样本实际数。 召回率
假正率(False Positive Rate,FPR) :FPR=FP/(FP+TN),即被预测为正的负样本数 /负样本实际数。
假负率(False Negative Rate,FNR) :FNR=FN/(TP+FN),即被预测为负的正样本数 /正样本实际数。
真负率(True Negative Rate,TNR):TNR=TN/(TN+FP),即被预测为负的负样本数 /负样本实际数/2

概述

  • 数据仓库 (DataWarehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合, 用于支持管理决策.
  • 将所有的业务数据经汇总处理, 构成数据仓库(DW)

趋势

  • 数据仓库是伴随着企业信息化发展起来的, 在企业信息化的过程中, 随着信息化工具的升级和新工具的应用, 数据量变的越来越大, 数据格式越来越多, 决策要求越来越苛刻, 数据仓库技术也在不停的发展.
  1. 实时数据仓库以满足实时化&自动化决策需求.
  2. 大数据&数据湖以支持大量&复杂数据类型(文本、图像、视频、音频).