数据科学: KNN 算法 Python 实现

2016年1月5日星期二

KNN 算法 Python 实现

【概述】
K-近邻算法采用不同特征值之间的距离方法进行分类。

优点：精度高，对异常值不敏感，无数据输入假定；
缺点：计算复杂度高，空间复杂度高；
适用数据范围：数值型和标称型

【实现原理】

选择一种距离计算方式, 通过数据所有的特征计算新数据与已知类别数据集中的数据点的距离
按照距离递增次序进行排序，选取与当前距离最小的k(一般不超过20)个点
对于离散分类，返回k个点出现频率最多的类别作预测分类；对于回归则返回k个点的加权值作为预测值

【算法关键】

数据的所有特征都要做可比较的量化
需要计算distance的函数
确定K值

【实现步骤】
收集数据：可以使用任何方法；
准备数据：距离计算所需要的数值，最好是结构化的数据格式（可能需要归一化数据）
分析数据：可以使用任何方法；（可视化方法找出数据大致关系）
测试算法：计算错误率（构建分类器）
使用方法：首选需要输入样本数据和结构化的输出结果，然后运行K-紧邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分了你执行后续的处理（实例化分类器）

【算法实例】

数据科学

2016年1月5日星期二

KNN 算法 Python 实现

没有评论:

发表评论