1、首先说一下KDD模型的概念

  知识发现(KDD:Knowledge Discovery in Database)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。

   这里不得不提一下数据挖掘的概念,数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是KDD中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
  数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

  2、跨行业数据挖掘标准流程

  CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘标准流程",CRISP-DM 模型是KDD模型的一种,最近几年在各种KDD过程模型中占据领先位置,它是由戴姆勒-克莱斯勒、SPSS和NCR的分析人员共同开发的。CRISP提供了一种开放的、可自由使用的数据挖掘标准过程,使数据挖掘适合于商业或研究单位的问题求解策略。

如图流程图

数据挖掘标准流程CRISP-DM-LMLPHP

CRISP-DM为一个KDD工程或者说是一个数据挖掘项目提供了一个完整的过程描述。它把这个过程定义为六个标准阶段,分别是商业理解、数据理解、数据准备、建立模型、模型评估和模型发布,以下分别加以简介:

(一)商业理解阶段

    商业理解也可以说是业务/研究理解的并确定分析目标的一个阶段。

    首先明确目标:明确要达到的业务目标,并将其转化为数据挖掘主题。

    其次转换数据挖掘定义:要从商业角度对业务部门的需求进行理解,并把业务需求的理解转化为数据挖掘的定义,拟定达成业务目标的初步方案。具体包括商业背景分析、商业成功标准的确定、形势评估、获得企业资源清单、获得企业的要求和设想、评估成本和收益、评估风险和意外、初步理解行业术语。

    最后确定目标与策略:确定数据挖掘的目标和制定数据挖掘计划。

  • 确定商业目标:明确商业背景、商业目标、可衡量的成功标准
  • 评估环境:明确企业资源、需求、约束,风险,沟通,成本代价分析
  • 确定数据挖掘目标:明确目标以及可衡量的成功标准
  • 制定项目计划

(二)数据理解阶段

     首先收集数据:找出可能的影响主题的因素,确定这些影响因素的数据载体、数据体现形式和数据存储位置。

     其次熟悉数据,具体包括以下工作内容:检测数据质量,对数据进行初步理解,简单描述数据,探测数据意义,

     最后提前数据:分析数据中潜藏的信息和知识提出拟用数据加以验证的假设。

  • 收集原始数据:撰写数据收集报告(充分理解数据来源,注意数据集有效时间)
  • 描述数据:数据描述报告
  • 探索数据:数据探索报告
  • 检验数据质量:数据质量报告

(三)数据准备阶段

     数据准备是将前面找到的数据进行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。数据准备阶段要从原始数据中形成作为建模分析对象的最终数据集。数据准备阶段的具体工作主要包括数据制表、记录处理、变量选择、数据转换、数据格式化和数据清理等,各项工作并不需要预先规定好执行顺序,而且数据准备工作还有可能多次执行。

  • 数据准备:数据集和数据集描述
  • 选择数据:包含/排除数据的准则
  • 清洗数据:数据清洗报告,一定要记录数据清洗方法
  • 构造数据:派生属性,数据转化、离散、产生新纪录化等等
  • 整合数据:合并数据,匹配数据
  • 格式化数据:去量纲等

(四)建立模型阶段

    建立模型是应用软件工具,选择合适的建模方法,处理准备好的数据表,找出数据中隐藏的规律。在建立模型阶段,将选择和使用各种建模方法,并将模型参数进行优化。对同样的业务问题和数据准备,可能有多种数据挖掘技术方法可供选用,此时可优选提升度高、置信度高、简单而易于总结业务政策和建议的数据挖掘技术方法。在建模过程中,还可能会发现一些潜在的数据问题,要求回到数据准备阶段。建立模型阶段的具体工作包括:选择合适的建模技术、进行检验设计、建造模型。

  • 选择建模技术:建模算法,模型建立
  • 生成测试设计:撰写测试设计文档
  • 生成模型:使用的参数、模型以及模型描述
  • 模型评价: 评估模型并完善参数

(五)模型评估阶段

    模型评估是要从业务角度和统计角度进行模型结论的评估。要求检查建模的整个过程,以确保模型没有重大错误,并检查是否遗漏重要的业务问题。当模型评估阶段结束时,应对数据挖掘结果的发布计划达成一致。

  • 结果评价:依据商业成功标准评价模型结果、审核模型
  • 过程在检验:审核模型建立过程
  • 后续阶段检验:最终决定

(六)模型发布阶段

    模型发布又称为模型部署,建立模型本身并不是数据挖掘的目标,虽然模型使数据背后隐藏的信息和知识显现出来,但数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来,并用来改善运营和提高效率。当然,在实际的数据挖掘工作中,根据不同的企业业务需求,模型发布的具体工作可能简单到提交数据挖掘报告,也可能复杂到将模型集成到企业的核心运营系统中去。

  • 树立执行计划:部署计划
  • 树立调控/维持计划:计划书
  • 编写最终报告书:得到最终报告或陈述
  • 项目再检验:经验文档

总结

Crisp-DM标准流程:

商业理解(行业)->数据理解(关系)->数据准备(质量)->建立模型(算法)->模型评估(标准)->发布模型

合理的翻译一个挖掘主题:业务问题->数据问题->数据模型->解决方案  (沟通能力+表达能力+理解能力+建模能力)

数据挖掘标准流程CRISP-DM-LMLPHP

参考文章:

https://blog.csdn.net/shuke1991/article/details/51959567

https://blog.csdn.net/shuke1991/article/details/51959567

http://www.360doc.com/content/16/0220/09/3852985_535892105.shtml

https://blog.csdn.net/evillist/article/details/73275188

 

10-03 17:50