当前位置: 首页 > news >正文

上海个人网站备案wordpress采集视频插件

上海个人网站备案,wordpress采集视频插件,公司做网站有意义么,房产网站开发用什么语言好参考#xff1a;https://blog.csdn.net/u013232035/article/details/48281659?spm1001.2014.3001.5506 和《数据挖掘导论》学习笔记#xff08;第1-2章#xff09;_时机性样本_schdut的博客-CSDN博客 第1章 绪论 数据挖掘是一种技术#xff0c;它将传统的数据分析方法…参考https://blog.csdn.net/u013232035/article/details/48281659?spm1001.2014.3001.5506 和《数据挖掘导论》学习笔记第1-2章_时机性样本_schdut的博客-CSDN博客  第1章 绪论 数据挖掘是一种技术它将传统的数据分析方法与处理大量数据的复杂算法相结合。 数据分析技术的应用 商务借助POS销售点数据收集技术【条码扫描器、射频识别RFID和智能卡技术】零售商可以在其商店的收银台收集顾客购物的最新数据。零售商可以利用执行信息加上电子商务网站的日志、电购中心的顾客服务记录等其他的重要商务数据更好地理解顾客的需求做出明志的商务决策。数据挖掘技术可以用来支持广泛的商务智能应用如顾客分析、定向营销、工作流管理、商店分布和欺诈检测等。医学、科学与工程传统的方法常常不适合分析地表、海洋和大气的全球观测数据这些数据规模大和具有时空特性。数据挖掘不仅能够分析基因序列数据而且还能用来处理生物学的其他难题如蛋白质结构预测、多序列校准、生物化学路径建模和种系发生学。 1.1 什么是数据挖掘 KDDKnowledge Discovery in Database 数据库中知识发现KDD不可缺少的一部分 即从大量数据中提取或“挖掘”知识。 过程如下 输入数据可以以各种形式存储平展文件、电子数据表或关系表并且可以驻留在集中的数据存储库中或分布在多个站点上。 数据预处理的目的是将未加工的输入数据转换为适合分析的形式。数据预处理涉及的步骤包括融合来自多个数据源的数据清洗数据以消除噪声和重复的观测值选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的方式多种多样数据预处理可能是整个知识发现过程中最费力、最耗时的步骤。 “结束循环”通常值将数据挖掘结构集成到决策支持系统的过程。例在商业应用中数据挖掘的结果所揭示的规律可以结合商业活动管理工具从而开展或测试有效的商品促销活动。这样的结合需要后处理步骤确保只将那些有效的和有用的结果集成到决策支持系统中。后处理的一个例子是可视化它使得数据分析者可以从不同的视角探查数据和数据挖掘结果。在后处理阶段还能使用统计度量或假设检验删除虚假的数据挖掘结果。 1.2 数据挖掘要解决的问题 可伸缩着眼于数据量剧烈增长的问题高维性对象拥有数量不少的属性异种数据和复杂数据数据来源广泛而且结构复杂XML格式文本格式流格式等数据的所有权与分布分布式数据处理非传统的分析数据挖掘要求自动产生和评估假设并且数据挖掘数据集多是时机性样本而非随机性样本 1.3 数据挖掘的起源 1.4 数据挖掘任务 一般情况下数据挖掘任务可以分为描述和预测两类。描述性挖掘主要用来刻画数据集合的一般特性预测挖掘则是根据当前数据进行分析推算从而达到预测的目的。 数据挖掘任务通常分为两大类 预测任务根据其他属性的值预定特定属性的值。其中用来预测的属性称为说明性属性explanatory variable或自变量independent variable被预测的属性被称为目标变量target variable或因变量dependent variable。如回归、分类、离群点检测描述任务导入数据中的潜在的模式即寻找概况数据中潜在联系的模式如相关、趋势、聚类和异常等即如聚类分析、关联分析、演化分析、序列模式挖掘。更详细的说有如下几大任务 预测建模predictive modeling以自变量为因变量建立模型从而使得因变量的预测值与实际值误差越小越好。其中针对离散型变量的称为分类classification针对连续性变量的称为回归regression关联分析association analysis用来描述数据中强相关的模式聚类分析cluster analysis旨在发现紧密相关的对象群使得同一 簇中的对象尽可能相似不同簇之间的对象则尽可能相异异常检测anomaly analysis识别其属性值明显不同于其他数据的对象这样对象被称为异常值anomaly或离群点outline         1分类Classification分析 分类分析就是通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则然后用这个分类模型或规则对数据库中的其他记录进行分类。分类分析已广泛应用于用户行为分析受众分析、风险分析、生物科学等领域。 2聚类Clustering分析 “物以类聚人以群分”。聚类分析技术试图找出数据集中数据的共性和差异并将具有共性的对象聚合在相应的簇中。聚类分析可以帮助判断哪些组合更有意义聚类分析已广泛应用于客户细分、定向营销、信息检索等领域。聚类与分类是容易混淆的两个概念。聚类是一种无指导的观察式学习没有预先定义的类。而分类问题是有指导的示例式学习预先定义类。分类是训练样本包含有分类属性值而聚类则是在训练样本中找到这些分类属性值。其主要区别如表1-1所示。  表1-1 聚类与分类的主要区别 聚类分类监督指导与否无指导信息没有预先定义的类有指导信息有预先定义的类是否建立模型或训练集否旨在发现实体属性间的函数关系是具有预测功能 例子通过扑克牌的划分与垃圾邮件的识别之间的差异来说明聚类与分类之间的差异。扑克牌的划分属于聚类问题没有预先定义的类标号信息基于不同的相似性度量对扑克牌进行分组。在不同的扑克游戏中采用不同的划分方式图1-2为十六张牌基于不同相似性度量花色、点数或颜色的划分结果。而垃圾邮件的识别属于分类问题所有训练用邮件预先被定义好类标号信息即训练集中的每封邮件预先被标记为垃圾邮件或合法邮件信息同时为了能够对未来未知邮件进行分类需要利用已有的训练邮件建立预测模型然后利用预测模型来对未来未知邮件进行预测。 3回归Regression分析 回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种分析方法常应用于风险分析、作文自动评分等领域。 4关联Association分析 关联分析是发现特征之间的相互依赖关系通常是在给定的数据集中发现频繁出现的模式知识又称为关联规则。关联分析广泛用于市场营销、事务分析等领域。 5离群点Outlier检测 离群点检测就是发现与众不同的数据已广泛应用于商业、金融、保险等领域欺诈行为的检测、网络入侵检测、反洗钱、犯罪嫌疑人调查、海关、税务稽查等领域。 6演化Evolving分析 演化分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述。演化分析常应用于商品销售的周期季节性变化描述、股票行情描述。 7序列模式Sequential Pattern挖掘 序列模式挖掘是指分析数据间的前后序列关系包括相似模式发现、周期模式发现等应用于客户购买行为模式预测、Web访问模式预测、疾病诊断、网络入侵检测等领域。 1.5 数据挖掘功能补充 ◆ 分类它是指将数据映射到预先定义好的群组或类。由于分析测试数据之前类别就确定了所以分类常称为有指导的学习。分类算法要求基于数据属性来定义类别通过观察已知所属的数据的特征来描述类别。 ◆ 回归回归是指将数据映射到一个实值预测变量它首先假设一些已知类型的函数可以拟合目标数据然后利用某种误差分析确定一个与目标数据拟合程度最好的函数。 ◆ 时间序列分析在时间序列分析中数据的属性值是随着时间不断变化的。一般是通过时间序列图将时间序列数据可视化然后用一些方法完成时间序列建模或者时间序列预测。 ◆ 预测预测可以看做一种分类它是基于过去的和当前的数据对未来的数据状态进行预测。它和分类的主要差别是预测主要是预测未来数据的状态而不是当前状态。 ◆ 聚类聚类和分类很相似主要区别是聚类的类别没有预先定义是指无指导的学习。可以将聚类看成将数据划分或分割成相交或者不相交的群组的过程将相似的数据聚集成簇。 ◆ 汇总汇总就是将数据映射到伴有简单描述的子集中有时也称为特征化或泛化。汇总就是从数据库中抽取或得到有代表性的信息也可以通过检索部分数据来完成得到一些总结性信息将数据库的内容特征化。 ◆ 关联规则关联规则也称关联分析是指揭示数据之间相互关系的一项数据挖掘任务而这种关系在数据中没有直接表示。关联规则可以识别出特殊类型的数据关联的模型。这些关联通常用于零售业了解哪些商品频繁地被顾客同时购买。 ◆ 序列发现序列发现用于确定数据与时间相关的序列模式这些模式与在数据中发现的相关的关联规则很相似只是这些序列模式是与时间相关的。例如在购物篮分析中关联分析的重点是一次购买商品记录的不同序列发现要求购买的商品记录是按照时间次序登记的。 1.6 数据挖掘对象补充 从应用领域的角度看数据挖掘对象主要包括以下几大类型。 1关系数据库 关系数据库是建立在关系数据库模型基础上的数据库借助于集合代数等概念和方法来处理数据库中的数据。关系数据库可以通过数据库查询、获取信息当数据挖掘应用于关系数据库时可以进一步搜索趋势或数据模式。关系数据库广泛应用于各行各业是数据挖掘最常见、最丰富的数据源。 2数据仓库Data Warehouse 数据仓库是一个从多个数据源收集的信息存储库存放在一个一致的模式下。数据仓库是一个面向主题的Subject Oriented、集成的Integrated、相对稳定的Non-Volatile、反映历史变化的Time Variant数据集合用于支持管理决策Decision Making Support适合于联机分析处理On-Line Analysis ProcessingOLAP。银行、电信等行业数据集中后通常需要保存在数据仓库中。 3事务数据库 在事务数据库中每个记录代表一个事务。通常一个事务包含唯一的事务标识号和组成该事务的项的列表如在超市中购买的商品。超市的销售数据是典型的事务型数据。事务数据库可能有一些与之关联的附加表如包含关于销售的其他信息事务的日期、顾客的编号、销售者的编号、连锁分店的编号等。 4空间数据库Spatial Database 空间数据库是指在关系数据库内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征、对象在时间上的状态变化。常见的空间数据库的数据类型包括地理信息系统、遥感图像数据医学图像数据。空间数据库的特点有数据量庞大空间数据模型复杂属性数据和空间数据联合管理应用范围广泛。 5时态数据库和时间序列数据库Temporal Database and Time-Series Database 时态数据库和时间序列数据库都存放与时间有关的数据。时态数据库通常存放与时间相关的属性值如与时间相关的职务、工资等个人信息及个人简历信息等。时间序列数据库存放随时间变化的值序列如零售行业的产品销售数据、股票数据、气象观测数据等。时态数据库和时间序列数据库的数据挖掘研究事物发生、发展的过程有助于揭示事物发展的本质规律可以发现数据对象的演变特征或对象变化趋势。 6流数据Stream Data 与传统数据库中的静态数据不同流数据是连续的、有序的、变化的、快速的、大量的输入数据主要应用场合包括网络监控、网页点击流、股票市场、流媒体等。与传统数据库相比流数据在存储、查询、访问、实时性的要求等方面都有很大区别。流数据具有以下特点数据实时到达数据到达次序独立不受应用系统控制数据规模宏大且不能预知其最大值数据一经处理除非特意保存否则不能被再次取出处理或者再次提取数据的代价昂贵。 7多媒体数据库Multimedia Database 多媒体数据库是数据库技术与多媒体技术相结合的产物。多媒体数据库不是对现有的数据进行界面上的包装而是从多媒体数据和信息本身的特性出发。多媒体数据库用计算机管理庞大复杂的多媒体数据主要包括图形graphics、图像image、音频audio、视频video等现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。多媒体数据库的数据挖掘需要将存储和检索技术相结合处理方式不同于数值、文本数据的处理。目前对多媒体数据的挖掘包括构造多媒体数据立方体、多媒体数据的特征提取和基于相似性的模式匹配等。 8文本数据库Text Database 文本数据库是一种常用的数据库之一也是最简单的数据库。任何文件都可以存入文本数据库。文本数据库存储的是对对象的文字性描述。文本数据类型包括无结构类型大部分的文本资料和网页、半结构类型XML数据、结构类型图书馆数据——对应于通常的关系型数据库。文本数据的处理广泛应用于办公资料的处理如法院、检察院的案件资料的处理。文本数据库存在以下缺点一是并发访问麻烦无法实现多个程序同时修改数据库里面的不同记录二是查询、修改、删除非常麻烦只能顺序查找修改、删除需要更新整个文件。文本数据库的优点显而易见程序简单数据库管理方便。 9万维网数据 万维网Word Wide WebWWW被看成是最大的文本数据库。随着Internet的广泛使用万维网这一巨大的海洋中蕴藏着极其丰富的有用信息。面向万维网的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多这是由互联网上异构数据源环境、数据结构的复杂性、动态变化的应用环境等特性决定的。 补充知识点数据湖与数据仓库的区别 数据湖与数据仓库的概念 1什么是数据湖 数据湖定义将其解释为高度可扩展的数据存储区域以原始格式存储大量原始数据直到需要使用为止。数据湖可以存储所有类型的数据对帐户大小或文件没有固定限制也没有定义特定用途。数据来自不同的来源可以是结构化的、半结构化的甚至是非结构化的数据可按需查询。 数据湖的核心概念是允许收集和存储大量数据而无需立即处理或分析所有数据。 数据湖的最终用户是数据科学家和工程师。 2什么是数据仓库 数据仓库是从广泛的运营和外部数据源中积累的组织数据的大型存储库。数据经过结构化、过滤并已针对特定目的进行处理。数据仓库会定期从各种内部应用程序和外部合作伙伴系统中提取处理过的数据以进行高级查询和分析。 大中型企业使用数据仓库是基于跨部门特定的数据库共享数据和内容。数据仓库的目的可以是存储有关产品、订单、客户、库存、员工等的信息。数据仓库的最终用户是企业家和商业用户。 二、数据湖与数据仓库类型的区别 1数据湖的类型 数据湖的类型可以是结构化、非结构化、半结构化和二进制等。 1结构化包含来自关系数据库的结构化数据即行和列 2非结构化包含来自电子邮件、文档、PDF 的非结构化数据 3半结构化包含半结构化数据如 CSV、日志、XML、JSON 4二进制包含图像、音频、视频 2数据仓库的主要类型 1企业数据仓库 (EDW) 这种类型的数据仓库充当帮助企业内决策支持服务的主数据库。EDW 提供对跨组织信息的访问一种数据表示的集成方法并且可以运行复杂的查询。 2操作数据存储 (ODS)ODS 实时刷新并用于运行例行任务包括存储员工记录。存储在这里的数据可以被清理冗余检查和解决。它还可以用于整合来自不同来源的对比数据以便业务运营、分析和报告能够顺利运行。 3数据集市数据集市是数据仓库的子集因为它存储特定部门、地区或业务单位的数据。数据集市有助于增加用户响应并减少分析数据量。此处的数据存储在 ODS 中然后ODS将其发送到 EDW并在其中存储和使用。 更多相关知识点 https://baijiahao.baidu.com/s?id1743278706922189137wfrspiderforpc 第2章 数据 2.1 数据类型 数据是数据库存储的基本对象。数字只是数据的一种传统的、狭义的理解是最简单的数据形式。无论是从数学的角度还是从计算机处理的角度来看数据的内涵随着时间的推移而扩展。 广义地可以把数据理解为记录在不同场合也可以称为数据对象、点、向量、模式、事件、案例、样本、观测或实体等在介质中的信息是数据对象及其属性的集合其表现形式可以是数字、符号、文字、图像或计算机代码等。 数据的语义是指对数据含义的说明是数据对象记录所有属性的集合。而数据集是具有相同属性的数据对象的集合。 数据集通常可以看为数据对象的集合。数据对象有时也可以称为记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象由一组刻画对象基本特性的属性描述。属性又可称为变量、特性、字段、特征或者维。 2.1.1 属性和度量 我们给出如下定义 属性(attribute)也称为特征、维或字段一个对象的某方面性质或特性。一个对象通过若干属性来刻画。 补充知识点 例如在表2-1中每一列表示一个属性每一行表示一个对象而整个样本集则由多个具有相同属性的记录组成。在同一列中各行的取值不完全相同这是因为不同数据对象在同一个属性上体现的属性值不一样。 测量标度(measurement scale)将数值或符号值与对象的属性相关联的规则函数如清点教室中的座位数等。 属性的值往往有如下几种性质 1. 相异性  和  2. 序 、、和 3. 加法 和 4. 乘法 和 根据这些性质可将属性分为四种类型标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio) 另外根据属性的可能取值可将属性分为离散的(discrete)连续的(continuous) 根据属性具有的不同性质属性可分为4种标称Nominal、序数Ordinal、 区间Interval和比率Ratio。 ① 标称Nominal属性其属性值只提供足够的信息以区分对象如颜色、性别、产品编号等这种属性值没有实际意义如三个对象可以用甲乙丙来区分也可以用ABC来区分。② 序数Ordinal属性其属性值提供足够的信息以区分对象的序如成绩等级优、良、中、及格、不及格、年级一年级、二年级、三年级、四年级、职称助教、讲师、副教授、教授、学生本科生、硕士生、博士生等。 ③ 区间Interval属性其属性值之间的差是有意义的如日历日期、摄氏温度。 ④ 比率Ratio属性其属性值之间的差和比率都是有意义的如长度、时间和速度等。 属性可以进一步归类为2种。 ① 标称和序数属性统称为分类的Categorical或定性的Qualitative属性取值为集合。 ② 区间和比率属性统称为数值的Numeric或定量的Quantitative属性取值为区间。注意定量属性可以是整数值或者连续值。 对于非对称的属性(asymmetric attribute)出现非零值才重要考虑如下数据集每个对象为一个学生每个属性记录该学生是否选修了某项大学课程。 2.1.2 数据集的类型 数据集可以看做具有相同属性的数据对象的集合。 一般特性维度稀疏性、分辨率记录数据事务数据或购物篮数据、数据矩阵、稀疏数据矩阵基于图形的数据带有对象之间联系的数据类似图论、具有图形对象的数据有序数据时序数据、序列数据、时间序列数据、空间数据非记录数据 在数据挖掘领域数据集具有三个重要特性维度、稀疏性和分辨率。 ① 维度Dimensionality指数据集中的对象具有的属性个数总和。根据数据集的维度大小数据集可以分为高、中、低维数据集。在面对高维数据集时经常会碰到维数灾难Curse of Dimensionality的情况。正因为如此数据预处理的一个重要技术就是维归约Dimensionality Reduction。 ② 稀疏性Sparsity指在某些数据集中有意义的数据非常少对象在大部分属性上的取值为0非零项不到1%。超市购物记录或事务数据集、文本数据集具有典型的稀疏性。 ③ 分辨率Resolution可以在不同的分辨率或粒度下得到数据而且在不同的分辨率下对象的性质也不同。例如在肉眼看来一张光滑的桌面是十分平坦的在显微镜下观察则发现其表面十分粗糙。数据的模式依赖于分辨率分辨率太高、太低都得不到有效的模式针对具体应用需要选择合适的分辨率或粒度。例如我们分析不同大学网络用户假定每个人使用不同的IP地址的行为特性时如果使用每个具体地址则难以体现群体的特性使用部分IP地址如前三个IP地址段则容易发现不同群体的行为特性。 随着数据挖掘技术的发展和成熟数据集的类型呈现出多样化的趋势。为方便起见我们将数据集分为三类记录数据、基于图形的数据和有序的数据集。 1记录数据 一般的数据挖掘任务都是假定数据集是记录数据对象的集合每个记录都由相等数目的属性构成见表2-1。记录之间或属性之间没有明显的联系。记录数据通常存放在平面文件或关系数据库中。根据数据挖掘任务的不同要求记录数据可以有不同种类的变体。 ① 事务数据或购物篮数据 事务数据Transaction Data是一种特殊类型的记录数据其中每个记录涉及一个项的集合。典型的事务数据如超市零售数据顾客一次购物所购买的商品的集合就构成一个事务而购买的商品就是项。 ② 数据矩阵Data Matrix 如果一个数据集中的所有数据对象都具有相同的数值属性集则该数据对象可以看做多维空间中的点向量其中每一维代表描述对象的不同属性。这样的数据对象集可以用一个n×m的矩阵来表示其中n表示行数一个对象一行m表示列数一个属性一列也可将行和列的表示反过来。数据矩阵是记录数据的变体可以使用标准的矩阵操作对数据进行变换和操纵因此对于大部分统计数据数据矩阵是一种标准的数据格式。 2基于图形的数据 有时图形可以方便而有效地表示对象之间的关系。我们考虑两种特殊情况图形捕获数据对象之间的联系数据对象本身用图形表示。 ① 带有对象之间联系的数据对象之间的联系常常携带重要的信息。在这种情况下数据常常用图形表示。特殊地数据对象映射到图的结点而对象之间的联系用对象之间的链、方向、权值等表示。例如万维网的网页上包含文本和指向其他页面的链接电话通信中形成不同的社会网络群。 ② 具有图形对象的数据如果对象具有结构即对象包含具有联系的子对象则这样的对象常常用图表示。例如化合物的结构可以图形表示其中结点是原子结点之间的链是化学键。 3有序数据对于某些数据类型属性具有涉及时间或空间序的联系。 ① 时序数据sequential data或时态数据temporal data ② 序列数据sequence data ③ 时间序列数据time series data ④ 空间数据spatial data ⑤ 流数据stream data 2.2 数据质量  数据挖掘所使用的数据往往是为其他用途收集的或在收集时没有明确目的的。因而数据的质量往往不高。故数据处理着眼于两方面(1)数据质量问题的检测与纠正(2)使用可以容忍低质量数据的算法 2.2.1 测量和数据收集问题 测量误差测量过程中的问题如系统误差随机误差等噪声测量误差的随机部分伪像数据的确定性失真如一组图像在相同的位置出现条纹精度同一量的重复测量值之间的接近程度偏倚测量值与被测量值之间的系统变差准确度测量值与实际值之间的接近程度准确率的一个重要方面是有效数字离群点离群点与噪音不同它往往是合法的值并且可能是人们关注的重点如信用卡欺诈、网络进攻等遗漏值解决方法有 a.删除对象和属性 b.估计遗漏值 c. 在分析时忽略遗漏值 不一致的值重复数据去重复方法解决 2.2.2 关于应用的问题 时效性相关性常见问题有 抽样偏倚2关于数据的背景知识 2.3 数据预处理 数据预处理是为了改善数据挖掘的效果减少分析时间降低成本和提高质量。常用技术可以分为两类(1)选择分析所需要的数据对象, (2)创建/改变属性 2.3.1 聚集 聚集(aggregation) 将两个或多个对象合并成单个对象。即对数据进行汇总或聚集。考虑如下数据集一个记录一年中不同日期在不同地区的商店的日销售情况可以用一个商店事务替换掉该商店的所有事务。通常聚集用来为多粒度数据分析构建数据立方体。 2.3.2 抽样 在数据挖掘中抽样是选择数据子集进行分析的常用方法数据挖掘使用抽样是因为处理所有数据的费用太高借助抽样压缩样本量优化数据挖掘算法的性能。 有效抽样的原理如果样本是有代表性的则使用样本与使用整个数据集的效果几乎一样。 常见抽样方法有简单随机抽样包括有放回抽样、无放回抽样分层抽样渐进抽样3。 2.3.3 维归约 维度数据特征的数目归约是指通过使用数据编码或变换得到原始数据的归约或“压缩”表示。如果原始数据可以由压缩数据重新构造而不丢失任何信息则该数据归约是无损的。如果只能重新构造原始数据的近似表示则该数据归约是有损的。使用维归约可以降低数据挖掘算法的时间和空间复杂度。 当数据集中包含大量特征属性时维归约就愈加显现其好处。其主要的作用是如果维度较低许多数据挖掘算法的效果会更好可以避免维灾难4并且使得模型更易理解。 维归约的常用方法是使用线性代数技术将数据从多维空间投影到低维空间主要技术有 主成分分析(Principal Component Analysis, PCA) 和奇异值分解(Singual Value Decomposition, SVD)。 2.3.4 特征子集选择 通过选择属性集中的部分属性的方法达到降低维度的目的。当存在冗余特征或不相关特征时往往并不会损失太多信息从而也是一种有效的降维方法。特征选择feature selection从一组已知特征集合中选择最具有代表性的特征子集使其保留原有数据的大部分信息即所选择的特征子集可以像原来的全部特征一样用来正确区分数据集中的每个数据对象。通过特征选择一些与任务无关或者冗余的特征被删除从而提高数据处理的效率简化学习模型。由集合论可知n个属性有2n−1个非空子集故而穷举属性子集的方法是计算不可行的实际中往往采用如下方法 嵌入方法(embedded approach)特征选择作为数据挖掘的一部分存在过滤方法(filter approach)使用某种独立于数据挖掘的方法在数据挖掘算法运行之前进行特征选择包装方法(wrapper approach)将目标数据挖掘算法作为黑盒使用类似穷举的方法但通常并不枚举所有子集 特征子集选择由四部分组成子集度量评估、控制新的特征子集产生的搜索策略、停止搜索判断和验证过程。过滤方法和包装方法不同在与 子集评估度量 。 另外除了上述三种特征子集选择的方法还可以通过 特征加权 来保留或删除特征。 根据特征选择过程与后续数据挖掘算法的关联特征选择方法可分为过滤、封装和嵌入。 ① 过滤方法Filter Approach使用某种独立于数据挖掘任务的方法在数据挖掘算法运行之前进行特征选择即先过滤特征集产生一个最有价值的特征子集。 ② 封装方法Wrapper Approach将学习算法的结果作为特征子集评价准则的一部分根据算法生成规则的分类精度选择特征子集。该类算法具有使得生成规则分类精度高的优点但特征选择效率较低。 ③ 嵌入方法embedded approach特征选择作为数据挖掘算法的一部分自然地出现。在数据挖掘算法运行期间算法本身决定使用哪些属性和忽略哪些特征如决策树C4.5分类算法。 根据特征选择过程是否用到类信息的指导特征选择可分为监督式特征选择、无监督式特征选择和半监督式特征选择。 ① 监督式特征选择supervised feature selection使用类信息来进行指导通过度量类信息与特征之间的相互关系来确定子集大小。 ② 无监督式特征选择unsupervised feature selection在没有类信息的指导下使用样本聚类或特征聚类对聚类过程中的特征贡献度进行评估根据贡献度的大小进行特征选择。③ 半监督式特征选择semi-supervised feature selection有类信息的数据是“昂贵”的通常情况下没有足够的有类信息的数据。如果有类信息的数据太少以致不能提供足够的信息的时候我们可以使用少量的有类信息的数据和无类信息的大量数据组合成数据集而进行特征选择。 特征选择过程可以看做由4部分组成子集评估度量、控制新的特征子集产生的搜索策略、停止策略和验证过程。 从概念上讲特征子集选择是一个搜索所有可能的特征子集的过程。可以使用许多类型的搜索策略但是搜索策略的计算花费应当较低并且应当能找到最优或近似最优的特征子集。通常不可能同时满足这两个要求因此需要折中权衡。 特征子集选择的搜索策略主要包括以下技术。 ① 逐步向前选择从空属性集作为归约集开始确定原属性集中最好的属性并将它添加到归约集中。在其后的每次迭代中将剩下的原属性集中最好的属性添加到该集合中。 ② 逐步向后删除由整个属性集开始在每一步删除尚在属性集中最差的属性。 ③ 向前选择和向后删除的结合将逐步向前选择和向后删除方法结合在一起每一步选择一个最好的属性并在剩余属性中删除一个最差的属性。 ④ 决策树归纳构造一个类似于流程图的结构其中每个内部节点表示一个属性的测试每个分支对应于测试的一个输出每个外部节点表示一个类预测在每个节点算法选择“最好”的属性将数据划分成类。图2-12展示了三种搜索策略选择特征的过程。 2.3.5 特征创建 常常可以用原有的属性创建新的属性集更有效地捕获数据集中的重要信息。与之相关的方法有 特征提取(feature extraction)如由相片提取人脸的特征点映射数据到新的空间如将时间域的变量变换到频率域参见 傅里叶变换特征构造由原始属性提取出易于数据挖掘的属性如根据密度分辨木头金块 2.3.6 离散化和二元化 某些数据挖掘算法只适用于分类属性此时就需要用到离散化(discretization)或二元化(binarization) 2.3.7 变量变换 变量变换(variable transformation) 是指用于变量的所有值的变换包括简单函数变换标准化(standardization) 或 规范化(normalization) 2.4相似性和相异性的度量 相似性度量是衡量变量间相互关系强弱、联系紧密程度的重要手段 时间序列数据 是一种特殊的时序数据它的每一个记录都是一个时序数据如北京地区从1982年到1994年每年的月平均气温数据。抽象偏倚(sample bias) 是指样本包含的不同类型的对象与它们的总体中的出现情况不成比例。合适的样本容量常常很难确定此时就有可能使用渐进抽样(progressive sampling)该方法从一个小样本开始然后逐渐增加样本容量直至得到足够容量的样本。维灾难是指随着数据维度的增加许多数据分析变得困难特别是随着维度增加数据在它所占据的空间中越来越稀疏。 通常具有若干属性的对象之间的相似性用单个属性的相似性组合来定义。 具有单个属性的对象之间的相似性 1.标称和区间属性 标称属性只携带了对象的相异性信息因此我们只能说两个对象有相同的值或者没有。因而在这种情况下如果属性值匹配则相似度定义为1否则为0相异度用相反的方法定义如果属性值匹配相异度为0否则为1。对于区间属性两对象间的相异性的自然度量是它们的值之差的绝对值。 2.序数和比例数值属性 1序数属性 序数属性变量Ordinal Variable有分类的和连续的两种。分类序数属性与标称属性类似不同的是M对应M个状态的个顺序值是按一定次序排列的有助于记录一些不便于客观度量的主观评价。 2比例数值属性 比例数值变量Ratio-scaled Variable是在非线性尺度上取得的测量值。 在计算比例数值变量所描述对象间的距离时有三种处理方法。 ① 将比例数值变量当做区间间隔数值变量来进行计算处理。该方法可能导致非线性的比例尺度被扭曲。 ② 将比例数值变量看成是连续的序数属性进行处理。 ③ 利用变换如对数转换yflogxf来处理属性f的值xf得到yf将yf当做间隔数值变量进行处理。这里的变换需要根据具体定义或应用需求而选择log或log-log或其他变换。相对来说该方法效果较好。 对象之间的相似性度量 1.数值属性相似性度量 1距离度量① Minkowski距离② 马氏Mahalanobis距离③ Canberra距离 2相似系数① 余弦相似度② 相关系数③ 广义Jaccard系数 2.二值属性的相似性 一个二值属性变量binary variable只有两种状态0或1表示属性的存在与否。一种差异计算方法就是根据二值数据计算。 二值属性存在对称的和不对称的两种。如果一个二值属性的两个状态值所表示的内容同等重要则它是对称的否则为不对称的。 3.混合属性相似性度量 4.由距离度量转换而来的相似性度量
http://www.ho-use.cn/article/10814412.html

相关文章:

  • 网站语言是什么五金模具技术支持 东莞网站建设
  • 做网站怎么做的怎样新建一个网页
  • wordpress漫画网站做网站的绿色背景图
  • 给公司做网站这个工作怎么样天津网站优化公司电话
  • 开源企业建站系统哪个好网络彩票建立网站
  • 保定网站模板建站企业vi设计公司上海设计公司
  • 广平专业做网站wordpress迁移后插件消失
  • 网站后台维护月薪多少湖南响应式网站哪家好
  • 北京南站附近的景点广东品牌网站建设报价表
  • 网站开发顶岗实践总结网站网站制作多少钱
  • 什么叫网页什么叫网站提供零基础网站建设教学
  • 成都网站建设:望城建设局网站
  • 县直门户网站建设管理pc网站建设意见
  • 平面设计自学网站有哪些宣传片拍摄思路
  • 有做企业网站的吗黑马it培训班出来现状
  • 404网站怎么做中山皇冠建设开发有限公司网站
  • 武进网站建设好么最便宜的域名注册商
  • wordpress导购站主题做烘焙的网站
  • 网站服务器租用一般费用腾讯云建设网站
  • 公司怎么与网站进行活动推广seo网站推广优化费用
  • 信息发布的网站怎么做广告推广代运营公司
  • 如何加强高校网站建设西安汇友网站建设
  • 网站建设期末实践报告东莞寮步伟易达电子厂
  • 南京旅游网站建设公司网站推广排名最新报价
  • 网站后台样式模板营销网站的推广
  • 贵阳监理建设网站网站建设设计理念
  • 哈尔滨营销网站建设公司哪家好红动中国免费素材网
  • 做网站笔记本2014怎样用虚拟主机建网站
  • 江苏网站建设wordpress支付免签约插件
  • 制作网站制作公司直播平台如何搭建