array(2) {
  ["docs"]=>
  array(10) {
    [0]=>
    array(10) {
      ["id"]=>
      string(3) "428"
      ["text"]=>
      string(77) "Visual Studio 2017 单独启动MSDN帮助（Microsoft Help Viewer）的方法"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(8) "DonetRen"
      ["tagsname"]=>
      string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer"
      ["tagsid"]=>
      string(23) "[401,402,403,"300",404]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400964"
      ["_id"]=>
      string(3) "428"
    }
    [1]=>
    array(10) {
      ["id"]=>
      string(3) "427"
      ["text"]=>
      string(42) "npm -v；报错 cannot find module "wrapp""
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "zzty"
      ["tagsname"]=>
      string(50) "node.js|npm|cannot find module &quot;wrapp“|node"
      ["tagsid"]=>
      string(19) "[398,"239",399,400]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400760"
      ["_id"]=>
      string(3) "427"
    }
    [2]=>
    array(10) {
      ["id"]=>
      string(3) "426"
      ["text"]=>
      string(54) "说说css中pt、px、em、rem都扮演了什么角色"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(12) "zhengqiaoyin"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400640"
      ["_id"]=>
      string(3) "426"
    }
    [3]=>
    array(10) {
      ["id"]=>
      string(3) "425"
      ["text"]=>
      string(83) "深入学习JS执行--创建执行上下文（变量对象，作用域链，this）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "Ry-yuan"
      ["tagsname"]=>
      string(33) "Javascript|Javascript执行过程"
      ["tagsid"]=>
      string(13) "["169","191"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511399901"
      ["_id"]=>
      string(3) "425"
    }
    [4]=>
    array(10) {
      ["id"]=>
      string(3) "424"
      ["text"]=>
      string(30) "C# 排序技术研究与对比"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "vveiliang"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(8) ".Net Dev"
      ["catesid"]=>
      string(5) "[199]"
      ["createtime"]=>
      string(10) "1511399150"
      ["_id"]=>
      string(3) "424"
    }
    [5]=>
    array(10) {
      ["id"]=>
      string(3) "423"
      ["text"]=>
      string(72) "【算法】小白的算法笔记：快速排序算法的编码和优化"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "penghuwan"
      ["tagsname"]=>
      string(6) "算法"
      ["tagsid"]=>
      string(7) "["344"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511398109"
      ["_id"]=>
      string(3) "423"
    }
    [6]=>
    array(10) {
      ["id"]=>
      string(3) "422"
      ["text"]=>
      string(64) "JavaScript数据可视化编程学习（二）Flotr2，雷达图"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "chengxs"
      ["tagsname"]=>
      string(28) "数据可视化|前端学习"
      ["tagsid"]=>
      string(9) "[396,397]"
      ["catesname"]=>
      string(18) "前端基本知识"
      ["catesid"]=>
      string(5) "[198]"
      ["createtime"]=>
      string(10) "1511397800"
      ["_id"]=>
      string(3) "422"
    }
    [7]=>
    array(10) {
      ["id"]=>
      string(3) "421"
      ["text"]=>
      string(36) "C#表达式目录树（Expression）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "wwym"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(4) ".NET"
      ["catesid"]=>
      string(7) "["119"]"
      ["createtime"]=>
      string(10) "1511397474"
      ["_id"]=>
      string(3) "421"
    }
    [8]=>
    array(10) {
      ["id"]=>
      string(3) "420"
      ["text"]=>
      string(47) "数据结构 队列_队列实例：事件处理"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "idreamo"
      ["tagsname"]=>
      string(40) "C语言|数据结构|队列|事件处理"
      ["tagsid"]=>
      string(23) "["246","247","248",395]"
      ["catesname"]=>
      string(12) "数据结构"
      ["catesid"]=>
      string(7) "["133"]"
      ["createtime"]=>
      string(10) "1511397279"
      ["_id"]=>
      string(3) "420"
    }
    [9]=>
    array(10) {
      ["id"]=>
      string(3) "419"
      ["text"]=>
      string(47) "久等了,博客园官方Android客户端发布"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(3) "cmt"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511396549"
      ["_id"]=>
      string(3) "419"
    }
  }
  ["count"]=>
  int(200)
}
222<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8" />
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="content-language" content="zh-CN" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" /> 
    <title>kNN最邻近规则分类 - 爱码网</title>
     
<meta name="keywords" content="kNN最邻近规则分类" />
<meta name="description" content="目录ECharts异步加载ECharts数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。chart.setOption({    color: [" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<link rel="stylesheet" type="text/css" href="/statics/css/base.css?v=2.7" />
<script src="/statics/js/detail.min.js?v=2.2"></script>   
<script>
   $(document).ready(function () { 
		$("img").error(function () {
			$(this).hide();
		}); 
	}); 
</script>
</head>
<body class="home-template dtpg">
<nav class="main-nav clearfix">
    <div class="inner">
        <ul class="nav">
            <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/" title="爱码网">首页</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/1.html" title="前端技术">前端技术</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/9.html" title="编程语言">编程语言</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/31.html" title="人工智能">人工智能</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/41.html" title="运维知识">运维知识</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/52.html" title="资源下载">资源下载</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/68.html" title="常用小工具">常用小工具</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/72.html" title="技术问答">技术问答</a></li>
                    </ul>            
	 
    </div>
</nav><div class="site-wrapper">
 
    <header style="height: auto;padding: 10px 0px;" class="main-header">
        <div style="max-width:910px" class="main-header-content inner">
                        <h1 class="page-title"><a href="/show-306519167.html" title="kNN最邻近规则分类">kNN最邻近规则分类</a></h1>
            
        </div>

    </header>
    <main class="content" role="main">
	

        <div class="leftbox">
    <article class="post tag-uifont tag-webview">
        <header class="post-header">
            <footer class="tc">  
                <time class="post-date" datetime="2021-07-15">2021-07-15</time>
            </footer>
        </header>
        <section class="post-content">
            <div class="contentbef">  
                  
                              </div>

            
<h3>原理介绍：</h3>
<p>         这一个月来恶补了一下大学的数学知识，把高数、线代、概率论、复变函数和积分变换又温习了一遍，大学里学的差一点就忘光了。大学时每次上数学课可都是昏昏欲睡啊！哈哈！学习人工智能中关于分类的知识，碰到很多数学描述都看不太懂，才意识到自己的数学在不拾一拾就剩加减乘除了。</p>
<p>         一个同事，也是搞C++ 的，对预测彩票非常感兴趣。我们认为这是个数学问题。做游戏开发，碰到数学问题还真不多，大部分都是逻辑问题，如A打伤了B，B打死了C诸如此类。然后提到如何实现通过程序为人们推荐手机，发现主要也是数学问题。总结来，在日常的软件开发中，主要涉及逻辑控制和数学建模两大部分，为了实现逻辑控制，我们精通编程语法，熟记API，优雅的涉及模块和类，高效的传输和存储数据。是的，这确实已经是很复杂的学问了。但对于我们来说，数学问题更让人着迷。</p>
<p>         其实今天是要记录一下k-NN最近邻规则算法的。最近养成了一个习惯，将一个数学模型掌握以后，应用到一个例子中，并把它用Blog记录下来。K-NN是一种非常朴素的分类算法，但是在步入正题之前，还是要抛个转。</p>
<p>         比如要实现一个模型为人人们推荐购买哪一款手机。为简化模型我们只基于协同过滤做推荐（洒家也是在推荐系统论坛长期潜水之人，常用的推荐策略还是略知一二的）。举个例子，已知A、B二人，A是月薪15k年龄28的帅哥，而B是月薪3K的年龄23的实习生，还知道A购买了Iphone， 而B购买了小米。如果C是月薪13K年龄27，那么你十分有可能和A进行相同的选择，也去购买Iphone。数学上认为C的函数值更解决于A。这就是k-NN最近邻规则的思想，找到和目标属性最接近的样本，并把它们归为同一类别。物以类聚，人以群分嘛。</p>
<p>         如果已知100 个各个收入阶层、各个年龄段的手机购买数据，把其作为训练样本，从中选择一个和目标情况最为接近的一个样本，并把该样本使用的手机推荐给目标，这种分类方法称之为1-NN最近邻规则。进行推广之，从100 人中选出5个最接近目标情况的样本，并把他们使用最多的一款手机推荐给目标，则称之为k-NN最近邻规则，此时k=5。</p>
<p>         设计k-NN最近邻规则时，最重要的是确定k值和设计计算样本之间距离（或相似度）的度量函数。</p>
<p>         首先说计算k值。有时可以根据经验。比如上面推荐手机的例子，k=1 显然不合适，比如月薪20k的大牛可能就喜欢android，非要买个三星也是有的，如果目标和此大牛情况相近就会被推荐三星，但是实际上这一类人大部分都在使用iphone。而若选择5，那么虽然这个大牛使用了三星，但是其他四个人都是使用iphone，那么系统仍然会推荐iphone，这就非常符合现实情况了。但是k值又不能太大，太大计算量增大，并且有可能会出现给一个20k的大牛推荐山寨机的结果。更科学的方法是尝试几种最有可能的k值，计算该k值下的误差率，选择误差率最小k值。</p>
<p>         下面再说一下如何计算两个样本之间的距离，即确定一个度量函数D。任意两个样本a、b，D(a, b) 得到a、b之间的距离。而a样本又有各个属性，数学表示X=(x1, x2,…..)。最简单计算距离的方法是欧几里得公式：</p>
<p>        </p>
<p>         但是欧几里得法有一个缺陷，若属性的单位发生变化，可能会影响原来各个样本之间的相对距离。如把月薪20k改成月薪20000那么可能会造成原来A更接近于B，但是变成A更接近于C。这里也能说明k值不宜选的太小。</p>
<p>         下面附一个小示例：</p>
<p>已知20个样本：</p>
<table border="1" cellspacing="0" cellpadding="0"><tbody>
<tr>
<td valign="top" width="142">
<p align="center">样本</p>
</td>
<td valign="top" width="142">
<p align="center">月收入</p>
</td>
<td valign="top" width="142">
<p align="center">年龄</p>
</td>
<td valign="top" width="142">
<p align="center">手机</p>
</td>
</tr>
<tr>
<td valign="top" width="142">
<p align="center">1</p>
</td>
<td valign="top" width="142">
<p align="center">2k</p>
</td>
<td valign="top" width="142">
<p align="center">18</p>
</td>
<td valign="top" width="142">
<p align="center">Iphone6</p>
</td>
</tr>
<tr>
<td valign="top" width="142">
<p align="center">…….</p>
</td>
<td valign="top" width="142">
<p align="center"> </p>
</td>
<td valign="top" width="142">
<p align="center"> </p>
</td>
<td valign="top" width="142">
<p align="center"> </p>
</td>
</tr>
<tr>
<td valign="top" width="142">
<p align="center">10</p>
</td>
<td valign="top" width="142">
<p align="center">5k</p>
</td>
<td valign="top" width="142">
<p align="center">23</p>
</td>
<td valign="top" width="142">
<p align="center">小米</p>
</td>
</tr>
<tr>
<td valign="top" width="142">
<p align="center">……</p>
</td>
<td valign="top" width="142">
<p align="center"> </p>
</td>
<td valign="top" width="142">
<p align="center"> </p>
</td>
<td valign="top" width="142">
<p align="center"> </p>
</td>
</tr>
<tr>
<td valign="top" width="142">
<p align="center">50</p>
</td>
<td valign="top" width="142">
<p align="center">10k</p>
</td>
<td valign="top" width="142">
<p align="center">25</p>
</td>
<td valign="top" width="142">
<p align="center">Iphone</p>
</td>
</tr>
</tbody></table>
<p> </p>
<p>又已知10个测试样本：</p>
<table border="1" cellspacing="0" cellpadding="0"><tbody>
<tr>
<td valign="top" width="142">
<p align="center">样本</p>
</td>
<td valign="top" width="142">
<p align="center">月收入</p>
</td>
<td valign="top" width="142">
<p align="center">年龄</p>
</td>
<td valign="top" width="142">
<p align="center">手机</p>
</td>
</tr>
<tr>
<td valign="top" width="142">
<p align="center">1</p>
</td>
<td valign="top" width="142">
<p align="center">6k</p>
</td>
<td valign="top" width="142">
<p align="center">22</p>
</td>
<td valign="top" width="142">
<p align="center">三星</p>
</td>
</tr>
<tr>
<td valign="top" width="142">
<p align="center">…….</p>
</td>
<td valign="top" width="142">
<p align="center"> </p>
</td>
<td valign="top" width="142">
<p align="center"> </p>
</td>
<td valign="top" width="142">
<p align="center"> </p>
</td>
</tr>
<tr>
<td valign="top" width="142">
<p align="center">2</p>
</td>
<td valign="top" width="142">
<p align="center">9k</p>
</td>
<td valign="top" width="142">
<p align="center">25</p>
</td>
<td valign="top" width="142">
<p align="center">Iphone</p>
</td>
</tr>
</tbody></table>
<p> </p>
<p>距离度量函数选择欧几里得公式，不同的K值测试的误差对比如下：</p>
<table border="1" cellspacing="0" cellpadding="0"><tbody>
<tr>
<td valign="top" width="57">
<p>K值</p>
</td>
<td valign="top" width="57">
<p> 1</p>
</td>
<td valign="top" width="57">
<p> 2</p>
</td>
<td valign="top" width="57">
<p> 3</p>
</td>
<td valign="top" width="57">
<p> 4</p>
</td>
<td valign="top" width="57">
<p> 5</p>
</td>
<td valign="top" width="57">
<p> 6</p>
</td>
<td valign="top" width="57">
<p>7</p>
</td>
<td valign="top" width="57">
<p> 8</p>
</td>
<td valign="top" width="57">
<p> 9</p>
</td>
</tr>
<tr>
<td valign="top" width="57">
<p>误差率</p>
</td>
<td valign="top" width="57">
<p> 19%</p>
</td>
<td valign="top" width="57">
<p> 19%</p>
</td>
<td valign="top" width="57">
<p> 10%</p>
</td>
<td valign="top" width="57">
<p> 28%</p>
</td>
<td valign="top" width="57">
<p> 19%</p>
</td>
<td valign="top" width="57">
<p> 28%</p>
</td>
<td valign="top" width="57">
<p> 28%</p>
</td>
<td valign="top" width="57">
<p> 28%</p>
</td>
<td valign="top" width="57">
<p> 28%</p>
</td>
</tr>
</tbody></table>
<p> </p>
<p>所以选择K值为3，</p>
<p>运行代码如下：</p>
<div class="likecs_code">
<pre>train_data =<span style="color: rgba(0, 0, 0, 1)"> []
test_data  </span>=<span style="color: rgba(0, 0, 0, 1)"> []

</span><span style="color: rgba(0, 0, 255, 1)">def</span><span style="color: rgba(0, 0, 0, 1)"> init_data():
    f </span>= open(<span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">train_data.txt</span><span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(0, 0, 0, 1)">)
    dest </span>=<span style="color: rgba(0, 0, 0, 1)"> train_data
    </span><span style="color: rgba(0, 0, 255, 1)">for</span> line <span style="color: rgba(0, 0, 255, 1)">in</span><span style="color: rgba(0, 0, 0, 1)"> f.readlines():
        </span><span style="color: rgba(0, 0, 255, 1)">if</span> len(line) ==<span style="color: rgba(0, 0, 0, 1)"> 0:
            </span><span style="color: rgba(0, 0, 255, 1)">continue</span>
        <span style="color: rgba(0, 0, 255, 1)">if</span> line[0] == <span style="color: rgba(128, 0, 0, 1)">'</span><span style="color: rgba(128, 0, 0, 1)">#</span><span style="color: rgba(128, 0, 0, 1)">'</span><span style="color: rgba(0, 0, 0, 1)">:
            </span><span style="color: rgba(0, 0, 255, 1)">if</span> -1 != line.find(<span style="color: rgba(128, 0, 0, 1)">'</span><span style="color: rgba(128, 0, 0, 1)">test_data</span><span style="color: rgba(128, 0, 0, 1)">'</span><span style="color: rgba(0, 0, 0, 1)">):
                dest </span>=<span style="color: rgba(0, 0, 0, 1)"> test_data
            </span><span style="color: rgba(0, 0, 255, 1)">continue</span><span style="color: rgba(0, 0, 0, 1)">
        line_array </span>=<span style="color: rgba(0, 0, 0, 1)"> line.strip().split()
        </span><span style="color: rgba(0, 0, 255, 1)">if</span> len(line_array) == 3<span style="color: rgba(0, 0, 0, 1)">:
            line_array[0] </span>=<span style="color: rgba(0, 0, 0, 1)"> float(line_array[0])
            line_array[</span>1] = int(line_array[1<span style="color: rgba(0, 0, 0, 1)">])
            line_array.append(0)
            dest.append(line_array)
    f.close()

</span><span style="color: rgba(0, 0, 255, 1)">def</span><span style="color: rgba(0, 0, 0, 1)"> select_k_neighbour(k, income, age):
    </span><span style="color: rgba(0, 0, 255, 1)">def</span><span style="color: rgba(0, 0, 0, 1)"> my_cmp(E1, E2):
        </span><span style="color: rgba(0, 0, 255, 1)">return</span> -cmp(E2[3], E1[3<span style="color: rgba(0, 0, 0, 1)">]) 

    distance </span>=<span style="color: rgba(0, 0, 0, 1)"> []
    </span><span style="color: rgba(0, 0, 255, 1)">for</span> item <span style="color: rgba(0, 0, 255, 1)">in</span><span style="color: rgba(0, 0, 0, 1)"> train_data:
        income2 </span>=<span style="color: rgba(0, 0, 0, 1)"> item[0]
        age2    </span>= item[1<span style="color: rgba(0, 0, 0, 1)">]
        item[</span>3] = (income - income2) * (income - income2) + (age - age2) * (age -<span style="color: rgba(0, 0, 0, 1)"> age2)
        distance.append(item)

    distance.sort(my_cmp)
    select_k </span>=<span style="color: rgba(0, 0, 0, 1)"> {}
    </span><span style="color: rgba(0, 0, 255, 1)">for</span> k <span style="color: rgba(0, 0, 255, 1)">in</span><span style="color: rgba(0, 0, 0, 1)"> range(0, k):
        phone </span>= distance[k][2<span style="color: rgba(0, 0, 0, 1)">]
        </span><span style="color: rgba(0, 0, 255, 1)">if</span> False ==<span style="color: rgba(0, 0, 0, 1)"> select_k.has_key(phone):
            select_k[phone] </span>= 1
        <span style="color: rgba(0, 0, 255, 1)">else</span><span style="color: rgba(0, 0, 0, 1)">:
            select_k[phone] </span>= select_k[phone] + 1<span style="color: rgba(0, 0, 0, 1)">

    ret_phone </span>= <span style="color: rgba(128, 0, 0, 1)">''</span><span style="color: rgba(0, 0, 0, 1)">
    max       </span>=<span style="color: rgba(0, 0, 0, 1)"> 0
    </span><span style="color: rgba(0, 0, 255, 1)">for</span> k <span style="color: rgba(0, 0, 255, 1)">in</span><span style="color: rgba(0, 0, 0, 1)"> select_k:
        </span><span style="color: rgba(0, 0, 255, 1)">if</span> select_k[k] &gt;<span style="color: rgba(0, 0, 0, 1)"> max:
            max </span>=<span style="color: rgba(0, 0, 0, 1)"> select_k[k]
            ret_phone </span>=<span style="color: rgba(0, 0, 0, 1)"> k

    </span><span style="color: rgba(0, 0, 255, 1)">return</span><span style="color: rgba(0, 0, 0, 1)"> ret_phone

</span><span style="color: rgba(0, 0, 255, 1)">def</span><span style="color: rgba(0, 0, 0, 1)"> knn_train(k):
    right </span>= 0.0<span style="color: rgba(0, 0, 0, 1)">
    wrong </span>= 0.0
    <span style="color: rgba(0, 0, 255, 1)">for</span> item <span style="color: rgba(0, 0, 255, 1)">in</span><span style="color: rgba(0, 0, 0, 1)"> test_data:
        income </span>=<span style="color: rgba(0, 0, 0, 1)"> item[0]
        age    </span>= item[1<span style="color: rgba(0, 0, 0, 1)">]
        phone  </span>= item[2<span style="color: rgba(0, 0, 0, 1)">]
        ret_phone </span>=<span style="color: rgba(0, 0, 0, 1)"> select_k_neighbour(k, income, age)
        </span><span style="color: rgba(0, 0, 255, 1)">if</span> ret_phone ==<span style="color: rgba(0, 0, 0, 1)"> phone:
            right </span>= right + 1
        <span style="color: rgba(0, 0, 255, 1)">else</span><span style="color: rgba(0, 0, 0, 1)">:
            wrong </span>= wrong + 1
    <span style="color: rgba(0, 0, 255, 1)">return</span> right / (right +<span style="color: rgba(0, 0, 0, 1)"> wrong)

init_data()
</span><span style="color: rgba(0, 0, 255, 1)">print</span>(<span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">train_data</span><span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(0, 0, 0, 1)">, train_data)
</span><span style="color: rgba(0, 0, 255, 1)">print</span>(<span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">test_data</span><span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(0, 0, 0, 1)">, test_data)

ret </span>=<span style="color: rgba(0, 0, 0, 1)"> []
</span><span style="color: rgba(0, 0, 255, 1)">for</span> i <span style="color: rgba(0, 0, 255, 1)">in</span> range(0, 10<span style="color: rgba(0, 0, 0, 1)">):
    rate </span>= 1 - float(int(knn_train(i+1) * 100 )) / 100<span style="color: rgba(0, 0, 0, 1)">
    ret.append(str(rate))
</span><span style="color: rgba(0, 0, 255, 1)">print</span>(<span style="color: rgba(128, 0, 0, 1)">''</span><span style="color: rgba(0, 0, 0, 1)">)
</span><span style="color: rgba(0, 0, 255, 1)">print</span>(ret)</pre>
</div>
<p> 数据文件为：</p>
<div class="likecs_code">
<pre>#<span style="color: rgba(0, 0, 0, 1)"> train_data
</span>#<span style="color: rgba(0, 0, 0, 1)"> income    age     phone
    </span><span style="color: rgba(128, 0, 128, 1)">2</span>       <span style="color: rgba(128, 0, 128, 1)">20</span><span style="color: rgba(0, 0, 0, 1)">      N
    </span><span style="color: rgba(128, 0, 128, 1)">3</span>       <span style="color: rgba(128, 0, 128, 1)">21</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">3</span>       <span style="color: rgba(128, 0, 128, 1)">22</span><span style="color: rgba(0, 0, 0, 1)">      N
    </span><span style="color: rgba(128, 0, 128, 1)">3.5</span>     <span style="color: rgba(128, 0, 128, 1)">22</span><span style="color: rgba(0, 0, 0, 1)">      N
    </span><span style="color: rgba(128, 0, 128, 1)">4</span>       <span style="color: rgba(128, 0, 128, 1)">23</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">4</span>       <span style="color: rgba(128, 0, 128, 1)">24</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">5</span>       <span style="color: rgba(128, 0, 128, 1)">24</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">5.5</span>     <span style="color: rgba(128, 0, 128, 1)">25</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">6</span>       <span style="color: rgba(128, 0, 128, 1)">25</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">7</span>       <span style="color: rgba(128, 0, 128, 1)">26</span><span style="color: rgba(0, 0, 0, 1)">      I
    </span><span style="color: rgba(128, 0, 128, 1)">7.5</span>     <span style="color: rgba(128, 0, 128, 1)">25</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">7.5</span>     <span style="color: rgba(128, 0, 128, 1)">28</span><span style="color: rgba(0, 0, 0, 1)">      I
    </span><span style="color: rgba(128, 0, 128, 1)">8</span>       <span style="color: rgba(128, 0, 128, 1)">27</span><span style="color: rgba(0, 0, 0, 1)">      I
    </span><span style="color: rgba(128, 0, 128, 1)">9</span>       <span style="color: rgba(128, 0, 128, 1)">27</span><span style="color: rgba(0, 0, 0, 1)">      I
    </span><span style="color: rgba(128, 0, 128, 1)">10</span>      <span style="color: rgba(128, 0, 128, 1)">29</span><span style="color: rgba(0, 0, 0, 1)">      I
    </span><span style="color: rgba(128, 0, 128, 1)">11</span>      <span style="color: rgba(128, 0, 128, 1)">28</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">12</span>      <span style="color: rgba(128, 0, 128, 1)">27</span><span style="color: rgba(0, 0, 0, 1)">      I
    </span><span style="color: rgba(128, 0, 128, 1)">13</span>      <span style="color: rgba(128, 0, 128, 1)">28</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">14</span>      <span style="color: rgba(128, 0, 128, 1)">30</span><span style="color: rgba(0, 0, 0, 1)">      I
    </span><span style="color: rgba(128, 0, 128, 1)">15</span>      <span style="color: rgba(128, 0, 128, 1)">30</span><span style="color: rgba(0, 0, 0, 1)">      I      
    </span><span style="color: rgba(128, 0, 128, 1)">16</span>      <span style="color: rgba(128, 0, 128, 1)">30</span><span style="color: rgba(0, 0, 0, 1)">      I
    
</span>#<span style="color: rgba(0, 0, 0, 1)"> test_data
    </span><span style="color: rgba(128, 0, 128, 1)">2.5</span>     <span style="color: rgba(128, 0, 128, 1)">23</span><span style="color: rgba(0, 0, 0, 1)">      N
    </span><span style="color: rgba(128, 0, 128, 1)">3</span>       <span style="color: rgba(128, 0, 128, 1)">24</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">3.5</span>     <span style="color: rgba(128, 0, 128, 1)">24</span><span style="color: rgba(0, 0, 0, 1)">      N
    </span><span style="color: rgba(128, 0, 128, 1)">4</span>       <span style="color: rgba(128, 0, 128, 1)">25</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">4.5</span>     <span style="color: rgba(128, 0, 128, 1)">26</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">5.5</span>     <span style="color: rgba(128, 0, 128, 1)">26</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">6</span>       <span style="color: rgba(128, 0, 128, 1)">27</span><span style="color: rgba(0, 0, 0, 1)">      I
    </span><span style="color: rgba(128, 0, 128, 1)">7</span>       <span style="color: rgba(128, 0, 128, 1)">26</span><span style="color: rgba(0, 0, 0, 1)">      M
    </span><span style="color: rgba(128, 0, 128, 1)">8</span>       <span style="color: rgba(128, 0, 128, 1)">28</span><span style="color: rgba(0, 0, 0, 1)">      I
    </span><span style="color: rgba(128, 0, 128, 1)">9</span>       <span style="color: rgba(128, 0, 128, 1)">30</span><span style="color: rgba(0, 0, 0, 1)">      I
    </span><span style="color: rgba(128, 0, 128, 1)">12</span>      <span style="color: rgba(128, 0, 128, 1)">31</span><span style="color: rgba(0, 0, 0, 1)">      I
    </span></pre>
</div>
<p> </p>
<h3>k-NN 算法的优化：</h3>
<p>         很显然的一个问题是k-NN要求遍历所有的训练样本，若训练样本非常庞大，那么计算量可能是不能接受的。针对k-NN算法的优化方法有：</p>
<p> </p>
<h4>裁剪训练样本</h4>
<p>         既然训练样本太多，那么我们就把训练样本比较接近的合并成一项，如月薪10k-12k的统一化为10k之类，减少训练样本数量。</p>
<h4>建立搜索树</h4>
<p>         思想就是先分几个大类，在再小类中找相似的，如&gt;10k的在某一类别中，那么一次可以淘汰N多不太可能的计算。</p>
<h4>属性降维法</h4>
<p>         本文中只选择了收入和年龄作为人的属性，实际让远远应比此大的多的多，在遍历训练样本时，可以从中选择有代表性的属性用于计算，或者可以通过变换减少属性。</p>
<p> </p>
 
                    
                <div style="margin-top: 10px;">
                  </div> 
        </section>
	 
        <footer class="post-footer">
            <section class="author">
                                            </section>
        </footer>
        <p class="mt10">相关文章：</p>
        <div style="width: 100%;" class="contentcard">
      
            <div style="width: 100%;height: auto;" class="carditem litem clearfix"> 
                    <ul style="padding-left: 0rem;" class="cardcont">
                                            </ul>
               </div>   
         </div>
    </article>

  
</div>

<div class="rigthbox contentcard mt10">
 
          <div style="height: auto;" class="carditem litem">
    <div class="cardtit">猜你喜欢 </div>
        <ul class="cardcont">
                        </ul>
   </div> 

<div style="height: auto;" class="carditem litem">
    <div class="cardtit">相关资源 </div>
        <ul class="cardcont">
              
                            </ul>
   </div>
   
    <div style="height: auto;" class="carditem litem">
     <div class="cardtit">相似解决方案 </div>
         <ul class="cardcont">
                          </ul>
    </div>
  
   <div style="height: auto;background-color: #ddd;text-align: center;" class="carditem litem">
    <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
</div> 
   <div  style="height: auto;" class="carditem litem mt20">
    <div class="cardtit">热门标签  </div>
    <div class="tagbox">
                    <a target="_blank" title="Java" href="/default/index/tags?cid=164&cname=Java" >Java</a>
                        <a target="_blank" title="Python" href="/default/index/tags?cid=367&cname=Python" >Python</a>
                        <a target="_blank" title="linux" href="/default/index/tags?cid=274&cname=linux" >linux</a>
                        <a target="_blank" title="javascript" href="/default/index/tags?cid=169&cname=javascript" >javascript</a>
                        <a target="_blank" title="Mysql" href="/default/index/tags?cid=237&cname=Mysql" >Mysql</a>
                        <a target="_blank" title="C#" href="/default/index/tags?cid=187&cname=C%23" >C#</a>
                        <a target="_blank" title="Docker" href="/default/index/tags?cid=243&cname=Docker" >Docker</a>
                        <a target="_blank" title="算法" href="/default/index/tags?cid=344&cname=%E7%AE%97%E6%B3%95" >算法</a>
                        <a target="_blank" title="前端" href="/default/index/tags?cid=160&cname=%E5%89%8D%E7%AB%AF" >前端</a>
                        <a target="_blank" title="SpringBoot" href="/default/index/tags?cid=168&cname=SpringBoot" >SpringBoot</a>
                        <a target="_blank" title="Redis" href="/default/index/tags?cid=227&cname=Redis" >Redis</a>
                        <a target="_blank" title="Vue" href="/default/index/tags?cid=236&cname=Vue" >Vue</a>
                        <a target="_blank" title="spring" href="/default/index/tags?cid=696&cname=spring" >spring</a>
                        <a target="_blank" title="设计模式" href="/default/index/tags?cid=632&cname=%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F" >设计模式</a>
                        <a target="_blank" title=".net core" href="/default/index/tags?cid=381&cname=.net+core" >.net core</a>
                        <a target="_blank" title=".net" href="/default/index/tags?cid=300&cname=.net" >.net</a>
                        <a target="_blank" title="kubernetes" href="/default/index/tags?cid=2179&cname=kubernetes" >kubernetes</a>
                        <a target="_blank" title="c++" href="/default/index/tags?cid=312&cname=c%2B%2B" >c++</a>
                        <a target="_blank" title="数据库" href="/default/index/tags?cid=284&cname=%E6%95%B0%E6%8D%AE%E5%BA%93" >数据库</a>
                        <a target="_blank" title="数据结构" href="/default/index/tags?cid=247&cname=%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84" >数据结构</a>
                        <a target="_blank" title="大数据" href="/default/index/tags?cid=888&cname=%E5%A4%A7%E6%95%B0%E6%8D%AE" >大数据</a>
                        <a target="_blank" title="js" href="/default/index/tags?cid=159&cname=js" >js</a>
                        <a target="_blank" title="机器学习" href="/default/index/tags?cid=171&cname=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0" >机器学习</a>
                        <a target="_blank" title="微服务" href="/default/index/tags?cid=832&cname=%E5%BE%AE%E6%9C%8D%E5%8A%A1" >微服务</a>
                        <a target="_blank" title="Android" href="/default/index/tags?cid=282&cname=Android" >Android</a>
                        <a target="_blank" title="Go" href="/default/index/tags?cid=839&cname=Go" >Go</a>
                        <a target="_blank" title="程序员" href="/default/index/tags?cid=327&cname=%E7%A8%8B%E5%BA%8F%E5%91%98" >程序员</a>
                        <a target="_blank" title="面试" href="/default/index/tags?cid=637&cname=%E9%9D%A2%E8%AF%95" >面试</a>
                        <a target="_blank" title="JVM" href="/default/index/tags?cid=727&cname=JVM" >JVM</a>
                        <a target="_blank" title="ASP.net core" href="/default/index/tags?cid=179&cname=ASP.net+core" >ASP.net core</a>
                        <a target="_blank" title="云原生" href="/default/index/tags?cid=22056&cname=%E4%BA%91%E5%8E%9F%E7%94%9F" >云原生</a>
                        <a target="_blank" title="人工智能" href="/default/index/tags?cid=270&cname=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD" >人工智能</a>
                        <a target="_blank" title="后端" href="/default/index/tags?cid=1089&cname=%E5%90%8E%E7%AB%AF" >后端</a>
                        <a target="_blank" title="PHP" href="/default/index/tags?cid=281&cname=PHP" >PHP</a>
                        <a target="_blank" title="git" href="/default/index/tags?cid=226&cname=git" >git</a>
                        <a target="_blank" title="CSS" href="/default/index/tags?cid=817&cname=CSS" >CSS</a>
                        <a target="_blank" title="golang" href="/default/index/tags?cid=409&cname=golang" >golang</a>
                        <a target="_blank" title="k8s" href="/default/index/tags?cid=5067&cname=k8s" >k8s</a>
                        <a target="_blank" title="Nginx" href="/default/index/tags?cid=373&cname=Nginx" >Nginx</a>
                        <a target="_blank" title="Django" href="/default/index/tags?cid=634&cname=Django" >Django</a>
                        <a target="_blank" title="mybatis" href="/default/index/tags?cid=720&cname=mybatis" >mybatis</a>
                        <a target="_blank" title="深度学习" href="/default/index/tags?cid=345&cname=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0" >深度学习</a>
                        <a target="_blank" title="多线程" href="/default/index/tags?cid=986&cname=%E5%A4%9A%E7%BA%BF%E7%A8%8B" >多线程</a>
                        <a target="_blank" title="React" href="/default/index/tags?cid=560&cname=React" >React</a>
                        <a target="_blank" title="架构" href="/default/index/tags?cid=2070&cname=%E6%9E%B6%E6%9E%84" >架构</a>
                        <a target="_blank" title="devops" href="/default/index/tags?cid=2662&cname=devops" >devops</a>
                        <a target="_blank" title="爬虫" href="/default/index/tags?cid=905&cname=%E7%88%AC%E8%99%AB" >爬虫</a>
                        <a target="_blank" title="云计算" href="/default/index/tags?cid=361&cname=%E4%BA%91%E8%AE%A1%E7%AE%97" >云计算</a>
                        <a target="_blank" title="Spring Boot" href="/default/index/tags?cid=201&cname=Spring+Boot" >Spring Boot</a>
                        <a target="_blank" title="LeetCode" href="/default/index/tags?cid=342&cname=LeetCode" >LeetCode</a>
                </div>
       
   </div>
   
        <div id="rightadbox" style="height: 300px;background-color: #ddd;text-align: center;" class="carditem litem">
            <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
        </div> 
</div>
<div class="clearfix"></div>
</main>
    
<div class="yllinks alink"></div>
 

<footer class="site-footer clearfix">
<section class="copyright">By &copy; 2026 <a href="/" title="www.likecs.com">likecs</a> 版权所有,<br/>本站所有数据收集于网络如有侵犯到您的权益请联系 进行下架处理1。 </section>
<section class="poweredby">  <a target="_blank" href="https://beian.miit.gov.cn/">粤ICP备22038628号</a>Powered By  WordPress </section>
<script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script>
<script>LA.init({id: "Je3PjbvUssp6BbvY",ck: "Je3PjbvUssp6BbvY"})</script>
<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?2eb031e42d29b7c1a1f16948d2ae2a9f";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>
</footer>  
</div>
<script>
    $(function(){
                    $(".post-content").append('<p style="padding: 20px;color: #cacaca;">原文链接：https://www.cnblogs.com/zhiranok/archive/2012/05/02/knn.html</p>')  
            }) 
</script> 
</body>
</html>