Python数据挖掘——基础知识
数据挖掘又称从数据中 挖掘知识、知识提取、数据/模式分析
即为:从数据中发现知识的过程
1、数据清理 (消除噪声,删除不一致数据)
2、数据集成 (多种数据源 组合在一起)
3、数据选择 (从数据库中提取和分析任务相关的数据)
4、数据变换 (通过汇总或聚焦操作,把数据变换和统一成适合挖掘的形式)
5、数据挖掘 (基本步骤,使用智能化方法提取数据)
6、模式评估 (根据某种兴趣度量,识别代表知识的真正的有趣模式)
7、知识表示 (使用可视化和知识表示技术,向用户提供数据挖掘的知识)
广义:从大量的数据中挖掘有趣模式和知识的过程
数据挖掘的模式:
描述性:描述性挖掘任务刻画目标数据中数据的一般性质
预测性:预测性挖掘任务在当前数据上进行归纳,以便作出预测
数据挖掘功能
离群点分析
特征化与区分
数据特征化 是目标类数据的一般性/特性的汇总
数据区分是将目标数据对象的一般性 与一个/多个对比类对象的一般性进行比较
频繁模式、关联和相关性
频繁模式包括频繁项集、序列模式和频繁子结构
频繁项集挖掘是频繁模式的基础
聚类分析
最大化类内相似性
最小化类间相似性
分类与回归
数据挖掘使用的技术
统计学
数据库系统
数据仓库
信息检索
机器学习
模式识别
可视化
算法
高性能计算
应用
数据挖掘的主要问题
挖掘方法
用户交互
有效性与伸缩性
数据类型的多样性
数据挖掘与社会