(注:博客属个人复习笔记,不会介绍基础概念,仅记录个人遗忘的部分知识点)

机器学习 概述

  • “机器学习是对能通过经验自动改进的计算机算法的研究”
  • “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准”
  • 机器学习和深度学习的最大区别在神经网络,深度学习使用神经网络去提取事物的深层或者说是隐性的一些特征

常见的模型指标

  • 正确率 —— 提取出的正确信息条数 / 提取出的信息条数
  • 召回率 —— 提取出的正确信息条数 / 样本中的信息条数
  • F 值 —— 正确率 * 召回率 * 2 / (正确率 + 召回率)(F值即为正确率和召回率的调和平均值)

特征工程

  • 特征选择-也叫特征子集选择(FSS,Feature Subset Selection)。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集纬度的过程,是提高算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。
  • 特征提取-特征提取是计算机视觉和图像处理中的一个概念。它指的是计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是吧图像上的点分为不同的子集,这些子集往往属于孤立的点,连续的曲线或者连续的区域。
  • 特征使用方案
    • 要实现我们的目标需要那些数据?基于业务理解,尽可能找出对因变量有影响的所有自变量
    • 可用性评估
      • 获取难度
      • 覆盖率
      • 准确率
  • 特征获取方案
    • 如何获取这些特征
    • 如何存储
  • 特征处理
    • 特征清晰
      • 清洗异常样本
      • 采样
        • 数据不均衡
        • 样本权重
    • 预处理
      • 单个特征
        • 归一化
        • 离散化
        • dummy coding
        • 缺失值
        • 数据变换
          • log
          • 指数
          • box-cox
      • 多个特征
        • 降维
          • PCA
          • LDA
        • 特征选择
          • filter
            • 思路:自变量和目标变量之间的关联
            • 相关系数
            • 卡方检验
            • 信息增益,互信息
          • wrapper
            • 思路:通过目标函数来决定是否加入一个变量
            • 迭代:产生特征子集,评价
              • 完全搜索
              • 启发式搜索
              • 随机搜索
                • GA
                • SA
          • Embedding
            • 思路:学习起自身自动选择特征
            • 正则化
              • L1:Lasso
              • L2:Ridge
            • 决策树-熵信息增益
            • 省都学习
      • 衍生变量
        • 对原始数据加工,生成有商业意义的变量
  • 特征监控
    • 特征有效性分析-特征重要性,权重
    • 特征监控-监控重要特征-防止特征质量下降,影响模型效果

监督学习

  • 有标签

KNN

线性回归

朴素贝叶斯算法

局部加权线性回归

支持向量机

Ridge回归

决策树

最小回归系数估计

无监督学习

  • 无标签

K-均值

最大期望算法

马尔可夫决策过程