array(2) {
  ["docs"]=>
  array(10) {
    [0]=>
    array(10) {
      ["id"]=>
      string(3) "428"
      ["text"]=>
      string(77) "Visual Studio 2017 单独启动MSDN帮助（Microsoft Help Viewer）的方法"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(8) "DonetRen"
      ["tagsname"]=>
      string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer"
      ["tagsid"]=>
      string(23) "[401,402,403,"300",404]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400964"
      ["_id"]=>
      string(3) "428"
    }
    [1]=>
    array(10) {
      ["id"]=>
      string(3) "427"
      ["text"]=>
      string(42) "npm -v；报错 cannot find module "wrapp""
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "zzty"
      ["tagsname"]=>
      string(50) "node.js|npm|cannot find module &quot;wrapp“|node"
      ["tagsid"]=>
      string(19) "[398,"239",399,400]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400760"
      ["_id"]=>
      string(3) "427"
    }
    [2]=>
    array(10) {
      ["id"]=>
      string(3) "426"
      ["text"]=>
      string(54) "说说css中pt、px、em、rem都扮演了什么角色"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(12) "zhengqiaoyin"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400640"
      ["_id"]=>
      string(3) "426"
    }
    [3]=>
    array(10) {
      ["id"]=>
      string(3) "425"
      ["text"]=>
      string(83) "深入学习JS执行--创建执行上下文（变量对象，作用域链，this）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "Ry-yuan"
      ["tagsname"]=>
      string(33) "Javascript|Javascript执行过程"
      ["tagsid"]=>
      string(13) "["169","191"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511399901"
      ["_id"]=>
      string(3) "425"
    }
    [4]=>
    array(10) {
      ["id"]=>
      string(3) "424"
      ["text"]=>
      string(30) "C# 排序技术研究与对比"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "vveiliang"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(8) ".Net Dev"
      ["catesid"]=>
      string(5) "[199]"
      ["createtime"]=>
      string(10) "1511399150"
      ["_id"]=>
      string(3) "424"
    }
    [5]=>
    array(10) {
      ["id"]=>
      string(3) "423"
      ["text"]=>
      string(72) "【算法】小白的算法笔记：快速排序算法的编码和优化"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "penghuwan"
      ["tagsname"]=>
      string(6) "算法"
      ["tagsid"]=>
      string(7) "["344"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511398109"
      ["_id"]=>
      string(3) "423"
    }
    [6]=>
    array(10) {
      ["id"]=>
      string(3) "422"
      ["text"]=>
      string(64) "JavaScript数据可视化编程学习（二）Flotr2，雷达图"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "chengxs"
      ["tagsname"]=>
      string(28) "数据可视化|前端学习"
      ["tagsid"]=>
      string(9) "[396,397]"
      ["catesname"]=>
      string(18) "前端基本知识"
      ["catesid"]=>
      string(5) "[198]"
      ["createtime"]=>
      string(10) "1511397800"
      ["_id"]=>
      string(3) "422"
    }
    [7]=>
    array(10) {
      ["id"]=>
      string(3) "421"
      ["text"]=>
      string(36) "C#表达式目录树（Expression）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "wwym"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(4) ".NET"
      ["catesid"]=>
      string(7) "["119"]"
      ["createtime"]=>
      string(10) "1511397474"
      ["_id"]=>
      string(3) "421"
    }
    [8]=>
    array(10) {
      ["id"]=>
      string(3) "420"
      ["text"]=>
      string(47) "数据结构 队列_队列实例：事件处理"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "idreamo"
      ["tagsname"]=>
      string(40) "C语言|数据结构|队列|事件处理"
      ["tagsid"]=>
      string(23) "["246","247","248",395]"
      ["catesname"]=>
      string(12) "数据结构"
      ["catesid"]=>
      string(7) "["133"]"
      ["createtime"]=>
      string(10) "1511397279"
      ["_id"]=>
      string(3) "420"
    }
    [9]=>
    array(10) {
      ["id"]=>
      string(3) "419"
      ["text"]=>
      string(47) "久等了,博客园官方Android客户端发布"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(3) "cmt"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511396549"
      ["_id"]=>
      string(3) "419"
    }
  }
  ["count"]=>
  int(200)
}
222<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8" />
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="content-language" content="zh-CN" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" /> 
    <title>【机器学习笔记08】分类器（softmax回归) - 爱码网</title>
     
<meta name="keywords" content="【机器学习笔记08】分类器（softmax回归)" />
<meta name="description" content="目录ECharts异步加载ECharts数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。chart.setOption({    color: [" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<link rel="stylesheet" type="text/css" href="/statics/css/base.css?v=2.7" />
<script src="/statics/js/detail.min.js?v=2.2"></script>   
<script>
   $(document).ready(function () { 
		$("img").error(function () {
			$(this).hide();
		}); 
	}); 
</script>
</head>
<body class="home-template dtpg">
<nav class="main-nav clearfix">
    <div class="inner">
        <ul class="nav">
            <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/" title="爱码网">首页</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/1.html" title="前端技术">前端技术</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/9.html" title="编程语言">编程语言</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/31.html" title="人工智能">人工智能</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/41.html" title="运维知识">运维知识</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/52.html" title="资源下载">资源下载</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/68.html" title="常用小工具">常用小工具</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/72.html" title="技术问答">技术问答</a></li>
                    </ul>            
	 
    </div>
</nav><div class="site-wrapper">
 
    <header style="height: auto;padding: 10px 0px;" class="main-header">
        <div style="max-width:910px" class="main-header-content inner">
                        <h1 class="page-title"><a href="/show-204497165.html" title="【机器学习笔记08】分类器（softmax回归)">【机器学习笔记08】分类器（softmax回归)</a></h1>
            
        </div>

    </header>
    <main class="content" role="main">
	

        <div class="leftbox">
    <article class="post tag-uifont tag-webview">
        <header class="post-header">
            <footer class="tc">  
                <time class="post-date" datetime="2021-10-20">2021-10-20</time>
            </footer>
        </header>
        <section class="post-content">
            <div class="contentbef">  
                  
                              </div>

            
<p>【参考资料】<br>
【1】<a href="http://deeplearning.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92" rel="nofollow" target="_blank">http://deeplearning.stanford.edu/wiki/index.php/Softmax回归</a><br>
【2】《统计学习方法》<br>
【3】《深度学习》花书 3.13<br>
【4】<a href="http://deeplearning.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92" rel="nofollow" target="_blank">http://deeplearning.stanford.edu/wiki/index.php/Softmax回归</a></p>
<h5>
<a target="_blank" rel="nofollow"></a>基本定义</h5>
<hr>
<p>首先给出softmax的数学定义，如下:</p>
<p><span><span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>θ</mi></msub><mo>(</mo><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo>)</mo><mo>=</mo><mrow><mo fence="true">[</mo><mtable><mtr><mtd><mstyle scriptlevel="0" displaystyle="false"><mrow><mi>p</mi><mo>(</mo><msup><mi>y</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo>=</mo><mn>1</mn><mi mathvariant="normal">∣</mi><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo separator="true">;</mo><mi>θ</mi><mo>)</mo></mrow></mstyle></mtd></mtr><mtr><mtd><mstyle scriptlevel="0" displaystyle="false"><mrow><mi>p</mi><mo>(</mo><msup><mi>y</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo>=</mo><mn>2</mn><mi mathvariant="normal">∣</mi><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo separator="true">;</mo><mi>θ</mi><mo>)</mo></mrow></mstyle></mtd></mtr><mtr><mtd><mstyle scriptlevel="0" displaystyle="false"><mi mathvariant="normal">⋮</mi><mrow></mrow></mstyle></mtd></mtr><mtr><mtd><mstyle scriptlevel="0" displaystyle="false"><mrow><mi>p</mi><mo>(</mo><msup><mi>y</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo>=</mo><mi>k</mi><mi mathvariant="normal">∣</mi><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo separator="true">;</mo><mi>θ</mi><mo>)</mo></mrow></mstyle></mtd></mtr></mtable><mo fence="true">]</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><munderover><mo>∑</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><msup><mi>e</mi><mrow><msubsup><mi>θ</mi><mi>j</mi><mi>T</mi></msubsup><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup></mrow></msup></mrow></mfrac><mrow><mo fence="true">[</mo><mtable><mtr><mtd><mstyle scriptlevel="0" displaystyle="false"><msup><mi>e</mi><mrow><msubsup><mi>θ</mi><mn>1</mn><mi>T</mi></msubsup><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup></mrow></msup></mstyle></mtd></mtr><mtr><mtd><mstyle scriptlevel="0" displaystyle="false"><msup><mi>e</mi><mrow><msubsup><mi>θ</mi><mn>2</mn><mi>T</mi></msubsup><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup></mrow></msup></mstyle></mtd></mtr><mtr><mtd><mstyle scriptlevel="0" displaystyle="false"><mi mathvariant="normal">⋮</mi><mrow></mrow></mstyle></mtd></mtr><mtr><mtd><mstyle scriptlevel="0" displaystyle="false"><msup><mi>e</mi><mrow><msubsup><mi>θ</mi><mi>k</mi><mi>T</mi></msubsup><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup></mrow></msup></mstyle></mtd></mtr></mtable><mo fence="true">]</mo></mrow></mrow><annotation encoding="application/x-tex">
h_{\theta}(x^{(i)})=\begin{bmatrix}
p(y^{(i)}=1|x^{(i)};\theta) \\
p(y^{(i)}=2|x^{(i)};\theta) \\
\vdots \\
p(y^{(i)}=k|x^{(i)};\theta)
\end{bmatrix}=\dfrac{1}{\sum_{j=1}^ke^{\theta_j^Tx^{(i)}}}\begin{bmatrix}
e^{\theta_1^Tx^{(i)}} \\
e^{\theta_2^Tx^{(i)}} \\
\vdots \\
e^{\theta_k^Tx^{(i)}}
\end{bmatrix}
</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.188em; vertical-align: -0.25em;"></span><span><span>h</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.02778em;">θ</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>(</span><span><span>x</span><span><span><span><span style="height: 0.938em;"><span style="top: -3.113em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span><span>)</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 5.604em; vertical-align: -2.552em;"></span><span><span><span><span><span><span style="height: 2.95301em;"><span style="top: -1.34999em;"><span style="height: 3.155em;"></span><span><span>⎣</span></span></span><span style="top: -2.50499em;"><span style="height: 3.155em;"></span><span><span>⎢</span></span></span><span style="top: -3.10599em;"><span style="height: 3.155em;"></span><span><span>⎢</span></span></span><span style="top: -3.70699em;"><span style="height: 3.155em;"></span><span><span>⎢</span></span></span><span style="top: -4.95301em;"><span style="height: 3.155em;"></span><span><span>⎡</span></span></span></span><span>​</span></span><span><span style="height: 2.45003em;"><span></span></span></span></span></span></span><span><span><span><span><span><span style="height: 3.052em;"><span style="top: -5.8515em;"><span style="height: 3.6875em;"></span><span><span>p</span><span>(</span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span><span>1</span><span>∣</span><span><span>x</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span><span>;</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.02778em;">θ</span><span>)</span></span></span><span style="top: -4.6035em;"><span style="height: 3.6875em;"></span><span><span>p</span><span>(</span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span><span>2</span><span>∣</span><span><span>x</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span><span>;</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.02778em;">θ</span><span>)</span></span></span><span style="top: -2.7435em;"><span style="height: 3.6875em;"></span><span><span><span>⋮</span><span style="border-right-width: 0em; border-top-width: 1.5em; bottom: 0em;"></span></span></span></span><span style="top: -1.4955em;"><span style="height: 3.6875em;"></span><span><span>p</span><span>(</span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span><span style="margin-right: 0.03148em;">k</span><span>∣</span><span><span>x</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span><span>;</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.02778em;">θ</span><span>)</span></span></span></span><span>​</span></span><span><span style="height: 2.552em;"><span></span></span></span></span></span></span></span><span><span><span><span><span style="height: 2.95301em;"><span style="top: -1.34999em;"><span style="height: 3.155em;"></span><span><span>⎦</span></span></span><span style="top: -2.50499em;"><span style="height: 3.155em;"></span><span><span>⎥</span></span></span><span style="top: -3.10599em;"><span style="height: 3.155em;"></span><span><span>⎥</span></span></span><span style="top: -3.70699em;"><span style="height: 3.155em;"></span><span><span>⎥</span></span></span><span style="top: -4.95301em;"><span style="height: 3.155em;"></span><span><span>⎤</span></span></span></span><span>​</span></span><span><span style="height: 2.45003em;"><span></span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 6.0591em; vertical-align: -2.77955em;"></span><span><span></span><span><span><span><span style="height: 1.32144em;"><span style="top: -2.11em;"><span style="height: 3.0136em;"></span><span><span><span style="position: relative; top: -5e-06em;">∑</span><span><span><span><span style="height: 0.989008em;"><span style="top: -2.40029em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.05724em;">j</span><span>=</span><span>1</span></span></span></span><span style="top: -3.2029em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.03148em;">k</span></span></span></span><span>​</span></span><span><span style="height: 0.435818em;"><span></span></span></span></span></span></span><span style="margin-right: 0.166667em;"></span><span><span>e</span><span><span><span><span style="height: 1.0136em;"><span style="top: -3.13057em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.02778em;">θ</span><span><span><span><span style="height: 0.832893em;"><span style="top: -2.17771em; margin-left: -0.02778em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span style="margin-right: 0.05724em;">j</span></span></span><span style="top: -2.8448em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span style="margin-right: 0.13889em;">T</span></span></span></span><span>​</span></span><span><span style="height: 0.461171em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.822036em;"><span style="top: -2.82204em; margin-right: 0.0714286em;"><span style="height: 2.53571em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span style="top: -3.2436em;"><span style="height: 3.0136em;"></span><span style="border-bottom-width: 0.04em;"></span></span><span style="top: -3.6906em;"><span style="height: 3.0136em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 1.33941em;"><span></span></span></span></span></span><span></span></span><span style="margin-right: 0.166667em;"></span><span><span><span><span><span><span style="height: 3.254em;"><span style="top: -1.04998em;"><span style="height: 3.155em;"></span><span><span>⎣</span></span></span><span style="top: -2.20498em;"><span style="height: 3.155em;"></span><span><span>⎢</span></span></span><span style="top: -2.80598em;"><span style="height: 3.155em;"></span><span><span>⎢</span></span></span><span style="top: -3.40698em;"><span style="height: 3.155em;"></span><span><span>⎢</span></span></span><span style="top: -4.00798em;"><span style="height: 3.155em;"></span><span><span>⎢</span></span></span><span style="top: -5.254em;"><span style="height: 3.155em;"></span><span><span>⎡</span></span></span></span><span>​</span></span><span><span style="height: 2.75004em;"><span></span></span></span></span></span></span><span><span><span><span><span><span style="height: 3.27955em;"><span style="top: -5.92735em;"><span style="height: 3.6875em;"></span><span><span><span>e</span><span><span><span><span style="height: 1.0397em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.02778em;">θ</span><span><span><span><span style="height: 0.919093em;"><span style="top: -2.214em; margin-left: -0.02778em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span>1</span></span></span><span style="top: -2.931em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span style="margin-right: 0.13889em;">T</span></span></span></span><span>​</span></span><span><span style="height: 0.286em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.966714em;"><span style="top: -2.96671em; margin-right: 0.0714286em;"><span style="height: 2.53571em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span style="top: -4.52765em;"><span style="height: 3.6875em;"></span><span><span><span>e</span><span><span><span><span style="height: 1.0397em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.02778em;">θ</span><span><span><span><span style="height: 0.919093em;"><span style="top: -2.214em; margin-left: -0.02778em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span>2</span></span></span><span style="top: -2.931em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span style="margin-right: 0.13889em;">T</span></span></span></span><span>​</span></span><span><span style="height: 0.286em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.966714em;"><span style="top: -2.96671em; margin-right: 0.0714286em;"><span style="height: 2.53571em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span style="top: -2.66765em;"><span style="height: 3.6875em;"></span><span><span><span>⋮</span><span style="border-right-width: 0em; border-top-width: 1.5em; bottom: 0em;"></span></span></span></span><span style="top: -1.26795em;"><span style="height: 3.6875em;"></span><span><span><span>e</span><span><span><span><span style="height: 1.0397em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.02778em;">θ</span><span><span><span><span style="height: 0.919093em;"><span style="top: -2.214em; margin-left: -0.02778em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span style="margin-right: 0.03148em;">k</span></span></span><span style="top: -2.931em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span style="margin-right: 0.13889em;">T</span></span></span></span><span>​</span></span><span><span style="height: 0.286em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.966714em;"><span style="top: -2.96671em; margin-right: 0.0714286em;"><span style="height: 2.53571em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 2.77955em;"><span></span></span></span></span></span></span></span><span><span><span><span><span style="height: 3.254em;"><span style="top: -1.04998em;"><span style="height: 3.155em;"></span><span><span>⎦</span></span></span><span style="top: -2.20498em;"><span style="height: 3.155em;"></span><span><span>⎥</span></span></span><span style="top: -2.80598em;"><span style="height: 3.155em;"></span><span><span>⎥</span></span></span><span style="top: -3.40698em;"><span style="height: 3.155em;"></span><span><span>⎥</span></span></span><span style="top: -4.00798em;"><span style="height: 3.155em;"></span><span><span>⎥</span></span></span><span style="top: -5.254em;"><span style="height: 3.155em;"></span><span><span>⎤</span></span></span></span><span>​</span></span><span><span style="height: 2.75004em;"><span></span></span></span></span></span></span></span></span></span></span></span></span></p>
<p>softmax是用于进行多目标分类的，也就是当我们得到一堆输入样本x（x是一个包含多个特征的向量）时，它可能属于类型A、也可能属于类型B。就想多层神经网络最后添加的softmax层一样，输出的是一个概率。比如输入的人脸，在输出时可以是张三的概率0.4，李四的概率0.6。</p>
<p>回到上面数学公式，模型<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>θ</mi></msub><mo>(</mo><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo>)</mo></mrow><annotation encoding="application/x-tex">h_{\theta}(x^{(i)})</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.138em; vertical-align: -0.25em;"></span><span><span>h</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.02778em;">θ</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>(</span><span><span>x</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span><span>)</span></span></span></span></span>是这样一批条件概率的组合，即参数为 <span><span><span><math><semantics><mrow><mi>θ</mi></mrow><annotation encoding="application/x-tex">\theta</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span style="margin-right: 0.02778em;">θ</span></span></span></span></span>（注意这里的<span><span><span><math><semantics><mrow><mi>θ</mi></mrow><annotation encoding="application/x-tex">\theta</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span style="margin-right: 0.02778em;">θ</span></span></span></span></span>不是随机变量）下，输出<span><span><span><math><semantics><mrow><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup></mrow><annotation encoding="application/x-tex">x^{(i)}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.888em; vertical-align: 0em;"></span><span><span>x</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span></span></span></span></span>关于<span><span><span><math><semantics><mrow><msup><mi>y</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup></mrow><annotation encoding="application/x-tex">y^{(i)}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.08244em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span></span></span></span></span>为某一个分类的<mark>条件概率</mark>。后面增加<span><span><span><math><semantics><mrow><msubsup><mo>∑</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></msubsup><msup><mi>e</mi><mrow><msubsup><mi>θ</mi><mi>j</mi><mi>T</mi></msubsup><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup></mrow></msup></mrow><annotation encoding="application/x-tex">\sum_{j=1}^ke^{\theta_j^Tx^{(i)}}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.51769em; vertical-align: -0.435818em;"></span><span><span style="position: relative; top: -5e-06em;">∑</span><span><span><span><span style="height: 0.989008em;"><span style="top: -2.40029em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.05724em;">j</span><span>=</span><span>1</span></span></span></span><span style="top: -3.2029em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.03148em;">k</span></span></span></span><span>​</span></span><span><span style="height: 0.435818em;"><span></span></span></span></span></span></span><span style="margin-right: 0.166667em;"></span><span><span>e</span><span><span><span><span style="height: 1.08187em;"><span style="top: -3.10517em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.02778em;">θ</span><span><span><span><span style="height: 0.919093em;"><span style="top: -2.214em; margin-left: -0.02778em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span style="margin-right: 0.05724em;">j</span></span></span><span style="top: -2.931em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span style="margin-right: 0.13889em;">T</span></span></span></span><span>​</span></span><span><span style="height: 0.424886em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.966714em;"><span style="top: -2.96671em; margin-right: 0.0714286em;"><span style="height: 2.53571em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span>是为了做归一化，也就是所有概率加起来是1。</p>
<h5>
<a target="_blank" rel="nofollow"></a>代价函数</h5>
<hr>
<p>这里要单独把代价函数拿出来，其实logistic回归的问题也一样，即要回答在概率情况下我们用什么样的方式来表示代价？好比在一个距离空间里我们用什么来定义距离。</p>
<p><strong>1. 自信息</strong></p>
<p>在信息论基础下，认为信息中包含一个事件，其发生概率越小越有用。例如“今天天晴”和“今天台风”相比，后者发生概率更小，信息量更大。<em>用白话说就是大家都知道的就是废话。</em> 自信息用数学公式表示如下: <span><span><span><math><semantics><mrow><mi>I</mi><mo>(</mo><mi>x</mi><mo>)</mo><mo>=</mo><mo>−</mo><mi>l</mi><mi>n</mi><mi>P</mi><mo>(</mo><mi>x</mi><mo>)</mo></mrow><annotation encoding="application/x-tex">I(x)=-ln P(x)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.07847em;">I</span><span>(</span><span>x</span><span>)</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>−</span><span style="margin-right: 0.01968em;">l</span><span>n</span><span style="margin-right: 0.13889em;">P</span><span>(</span><span>x</span><span>)</span></span></span></span></span>,单位是奈特（nats），即用概率1/e发生的事件。</p>
<p><strong>2. 香农熵</strong></p>
<p>自信息只是一个信息单个的，而我们定义整个分布的信息为香农熵（在连续时也称为微分熵）：<span><span><span><math><semantics><mrow><mi>H</mi><mo>(</mo><mi>X</mi><mo>)</mo><mo>=</mo><msub><mi>E</mi><mrow><mi>X</mi><mo>∼</mo><mi>P</mi></mrow></msub><mo>[</mo><mi>I</mi><mo>(</mo><mi>X</mi><mo>)</mo><mo>]</mo><mo>=</mo><mo>−</mo><msub><mi>E</mi><mrow><mi>X</mi><mo>∼</mo><mi>p</mi></mrow></msub><mo>[</mo><mi>l</mi><mi>o</mi><mi>g</mi><mo>(</mo><mi>P</mi><mo>(</mo><mi>X</mi><mo>)</mo><mo>]</mo></mrow><annotation encoding="application/x-tex">H(X) = E_{X \sim P}[I(X)]=-E_{X \sim p} [log(P(X)]</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.08125em;">H</span><span>(</span><span style="margin-right: 0.07847em;">X</span><span>)</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.05764em;">E</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.05764em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.07847em;">X</span><span>∼</span><span style="margin-right: 0.13889em;">P</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>[</span><span style="margin-right: 0.07847em;">I</span><span>(</span><span style="margin-right: 0.07847em;">X</span><span>)</span><span>]</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.03611em; vertical-align: -0.286108em;"></span><span>−</span><span><span style="margin-right: 0.05764em;">E</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.05764em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.07847em;">X</span><span>∼</span><span>p</span></span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span><span>[</span><span style="margin-right: 0.01968em;">l</span><span>o</span><span style="margin-right: 0.03588em;">g</span><span>(</span><span style="margin-right: 0.13889em;">P</span><span>(</span><span style="margin-right: 0.07847em;">X</span><span>)</span><span>]</span></span></span></span></span>也就是<span><span><span><math><semantics><mrow><mo>−</mo><msub><mo>∑</mo><mi>x</mi></msub><mi>P</mi><mo>(</mo><mi>x</mi><mo>)</mo><mi>l</mi><mi>n</mi><mo>(</mo><mi>P</mi><mo>(</mo><mi>X</mi><mo>)</mo><mo>)</mo></mrow><annotation encoding="application/x-tex">-\sum_xP(x)ln(P(X))</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.04971em; vertical-align: -0.29971em;"></span><span>−</span><span style="margin-right: 0.166667em;"></span><span><span style="position: relative; top: -5e-06em;">∑</span><span><span><span><span style="height: 0.001682em;"><span style="top: -2.40029em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>x</span></span></span></span><span>​</span></span><span><span style="height: 0.29971em;"><span></span></span></span></span></span></span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.13889em;">P</span><span>(</span><span>x</span><span>)</span><span style="margin-right: 0.01968em;">l</span><span>n</span><span>(</span><span style="margin-right: 0.13889em;">P</span><span>(</span><span style="margin-right: 0.07847em;">X</span><span>)</span><span>)</span></span></span></span></span></p>
<p><em>举例：对于二项分布其香农熵相对于概率p为：</em> <span><span><span><math><semantics><mrow><mo>−</mo><mo>(</mo><mn>1</mn><mo>−</mo><mi>p</mi><mo>)</mo><mo>∗</mo><mi>l</mi><mi>n</mi><mo>(</mo><mn>1</mn><mo>−</mo><mi>p</mi><mo>)</mo><mo>−</mo><mi>p</mi><mo>∗</mo><mi>l</mi><mi>o</mi><mi>g</mi><mo>(</mo><mi>p</mi><mo>)</mo></mrow><annotation encoding="application/x-tex">-(1-p)*ln(1-p)-p*log(p)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>−</span><span>(</span><span>1</span><span style="margin-right: 0.222222em;"></span><span>−</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>p</span><span>)</span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.01968em;">l</span><span>n</span><span>(</span><span>1</span><span style="margin-right: 0.222222em;"></span><span>−</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>p</span><span>)</span><span style="margin-right: 0.222222em;"></span><span>−</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.65972em; vertical-align: -0.19444em;"></span><span>p</span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.01968em;">l</span><span>o</span><span style="margin-right: 0.03588em;">g</span><span>(</span><span>p</span><span>)</span></span></span></span></span></p>
<p><strong>3. KL散度</strong></p>
<p>如果同一个随机变量有两种独立的概率分布P(X)和Q(X)，则两种分布的差异定义为：<span><span><span><math><semantics><mrow><msub><mi>D</mi><mrow><mi>K</mi><mi>L</mi></mrow></msub><mo>(</mo><mi>P</mi><mi mathvariant="normal">∣</mi><mi mathvariant="normal">∣</mi><mi>Q</mi><mo>)</mo><mo>=</mo><mo>−</mo><msub><mi>E</mi><mrow><mi>X</mi><mo>∼</mo><mi>p</mi></mrow></msub><mo>[</mo><mi>l</mi><mi>o</mi><mi>g</mi><mo>(</mo><mfrac><mrow><mi>P</mi><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mrow><mi>Q</mi><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mfrac><mo>)</mo><mo>]</mo></mrow><annotation encoding="application/x-tex">D_{KL}(P||Q) =-E_{X \sim p} [log(\dfrac{P(x)}{Q(x)})]</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.02778em;">D</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.07153em;">K</span><span>L</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>(</span><span style="margin-right: 0.13889em;">P</span><span>∣</span><span>∣</span><span>Q</span><span>)</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 2.363em; vertical-align: -0.936em;"></span><span>−</span><span><span style="margin-right: 0.05764em;">E</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.05764em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.07847em;">X</span><span>∼</span><span>p</span></span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span><span>[</span><span style="margin-right: 0.01968em;">l</span><span>o</span><span style="margin-right: 0.03588em;">g</span><span>(</span><span><span></span><span><span><span><span style="height: 1.427em;"><span style="top: -2.314em;"><span style="height: 3em;"></span><span><span>Q</span><span>(</span><span>x</span><span>)</span></span></span><span style="top: -3.23em;"><span style="height: 3em;"></span><span style="border-bottom-width: 0.04em;"></span></span><span style="top: -3.677em;"><span style="height: 3em;"></span><span><span style="margin-right: 0.13889em;">P</span><span>(</span><span>x</span><span>)</span></span></span></span><span>​</span></span><span><span style="height: 0.936em;"><span></span></span></span></span></span><span></span></span><span>)</span><span>]</span></span></span></span></span><br>
当KL散度为0时，则认为两者具有相同的分布形式。也可以写为<span><span><span><math><semantics><mrow><msub><mi>D</mi><mrow><mi>K</mi><mi>L</mi></mrow></msub><mo>(</mo><mi>P</mi><mi mathvariant="normal">∣</mi><mi mathvariant="normal">∣</mi><mi>Q</mi><mo>)</mo><mo>=</mo><msubsup><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mi>P</mi><mo>(</mo><mi>x</mi><mo>)</mo><mo>∗</mo><mi>l</mi><mi>o</mi><mi>g</mi><mo>(</mo><mi>P</mi><mo>(</mo><mi>x</mi><mo>)</mo><mi mathvariant="normal">/</mi><mi>Q</mi><mo>(</mo><mi>x</mi><mo>)</mo><mo>)</mo></mrow><annotation encoding="application/x-tex">D_{KL}(P||Q)=\sum_{i=1}^nP(x)*log(P(x)/Q(x))</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.02778em;">D</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.07153em;">K</span><span>L</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>(</span><span style="margin-right: 0.13889em;">P</span><span>∣</span><span>∣</span><span>Q</span><span>)</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.104em; vertical-align: -0.29971em;"></span><span><span style="position: relative; top: -5e-06em;">∑</span><span><span><span><span style="height: 0.804292em;"><span style="top: -2.40029em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>=</span><span>1</span></span></span></span><span style="top: -3.2029em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>n</span></span></span></span><span>​</span></span><span><span style="height: 0.29971em;"><span></span></span></span></span></span></span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.13889em;">P</span><span>(</span><span>x</span><span>)</span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.01968em;">l</span><span>o</span><span style="margin-right: 0.03588em;">g</span><span>(</span><span style="margin-right: 0.13889em;">P</span><span>(</span><span>x</span><span>)</span><span>/</span><span>Q</span><span>(</span><span>x</span><span>)</span><span>)</span></span></span></span></span></p>
<p>举例：<br><span><span><span><math><semantics><mrow><msub><mi>D</mi><mrow><mi>k</mi><mi>l</mi></mrow></msub><mo>(</mo><mi>o</mi><mi>b</mi><mi>s</mi><mi>e</mi><mi>r</mi><mi>v</mi><mi>e</mi><mi>d</mi><mi mathvariant="normal">∣</mi><mi mathvariant="normal">∣</mi><mi>u</mi><mi>n</mi><mi>i</mi><mi>f</mi><mi>o</mi><mi>r</mi><mi>m</mi><mo>)</mo><mo>=</mo><mi>a</mi></mrow><annotation encoding="application/x-tex">D_{kl}(observed||uniform)=a</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.02778em;">D</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.03148em;">k</span><span style="margin-right: 0.01968em;">l</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>(</span><span>o</span><span>b</span><span>s</span><span>e</span><span style="margin-right: 0.02778em;">r</span><span style="margin-right: 0.03588em;">v</span><span>e</span><span>d</span><span>∣</span><span>∣</span><span>u</span><span>n</span><span>i</span><span style="margin-right: 0.10764em;">f</span><span>o</span><span style="margin-right: 0.02778em;">r</span><span>m</span><span>)</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span>a</span></span></span></span></span> 采用均匀分布来近似观察分布的KL散度为a<br><span><span><span><math><semantics><mrow><msub><mi>D</mi><mrow><mi>k</mi><mi>l</mi></mrow></msub><mo>(</mo><mi>o</mi><mi>b</mi><mi>s</mi><mi>e</mi><mi>r</mi><mi>v</mi><mi>e</mi><mi>d</mi><mi mathvariant="normal">∣</mi><mi mathvariant="normal">∣</mi><mi>b</mi><mi>i</mi><mi>n</mi><mi>o</mi><mi>m</mi><mi>i</mi><mi>n</mi><mi>a</mi><mi>l</mi><mo>)</mo><mo>=</mo><mi>b</mi></mrow><annotation encoding="application/x-tex">D_{kl}(observed||binominal)=b</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.02778em;">D</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.03148em;">k</span><span style="margin-right: 0.01968em;">l</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>(</span><span>o</span><span>b</span><span>s</span><span>e</span><span style="margin-right: 0.02778em;">r</span><span style="margin-right: 0.03588em;">v</span><span>e</span><span>d</span><span>∣</span><span>∣</span><span>b</span><span>i</span><span>n</span><span>o</span><span>m</span><span>i</span><span>n</span><span>a</span><span style="margin-right: 0.01968em;">l</span><span>)</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span>b</span></span></span></span></span>采用二项分布来近似观察分布的KL散度为b<br>
若a &gt; b，则认为二项分布与观测分布更加接近，因为KL散度更小。</p>
<h5>
<a target="_blank" rel="nofollow"></a>对于softmax的代价损失函数及梯度</h5>
<hr>
<p>对于训练集<span><span><span><math><semantics><mrow><mo fence="true">{</mo><mo>(</mo><msup><mi>x</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msup><mo separator="true">,</mo><msup><mi>y</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msup><mo>)</mo><mo separator="true">,</mo><mo>(</mo><msup><mi>x</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msup><mo separator="true">,</mo><msup><mi>y</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msup><mo>)</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo>(</mo><msup><mi>x</mi><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow></msup><mo separator="true">,</mo><msup><mi>y</mi><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow></msup><mo>)</mo><mo fence="true">}</mo></mrow><annotation encoding="application/x-tex">\left\{ (x^{(1)}, y^{(1)}),(x^{(2)}, y^{(2)})...(x^{(m)}, y^{(m)}) \right\}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.23801em; vertical-align: -0.35001em;"></span><span><span style="top: 0em;"><span>{</span></span><span>(</span><span><span>x</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>1</span><span>)</span></span></span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>1</span><span>)</span></span></span></span></span></span></span></span></span><span>)</span><span>,</span><span style="margin-right: 0.166667em;"></span><span>(</span><span><span>x</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>2</span><span>)</span></span></span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>2</span><span>)</span></span></span></span></span></span></span></span></span><span>)</span><span>.</span><span>.</span><span>.</span><span>(</span><span><span>x</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>m</span><span>)</span></span></span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>m</span><span>)</span></span></span></span></span></span></span></span></span><span>)</span><span style="top: 0em;"><span>}</span></span></span></span></span></span></span>，其中<span><span><span><math><semantics><mrow><msup><mi>y</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo>∈</mo><mrow><mo fence="true">{</mo><mn>1</mn><mo separator="true">,</mo><mn>2</mn><mo separator="true">,</mo><mn>3...</mn><mi>k</mi><mo fence="true">}</mo></mrow></mrow><annotation encoding="application/x-tex">y^{(i)} \in \left\{1,2,3...k \right\}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.08244em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>∈</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="top: 0em;">{</span><span>1</span><span>,</span><span style="margin-right: 0.166667em;"></span><span>2</span><span>,</span><span style="margin-right: 0.166667em;"></span><span>3</span><span>.</span><span>.</span><span>.</span><span style="margin-right: 0.03148em;">k</span><span style="top: 0em;">}</span></span></span></span></span></span></p>
<p>我们定义参数<span><span><span><math><semantics><mrow><mi>θ</mi></mrow><annotation encoding="application/x-tex">\theta</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span style="margin-right: 0.02778em;">θ</span></span></span></span></span>下，将x分类到<span><span><span><math><semantics><mrow><mi>y</mi><mo>=</mo><mi>j</mi></mrow><annotation encoding="application/x-tex">y=j</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.625em; vertical-align: -0.19444em;"></span><span style="margin-right: 0.03588em;">y</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.85396em; vertical-align: -0.19444em;"></span><span style="margin-right: 0.05724em;">j</span></span></span></span></span>的概率为:</p>
<p><span><span><span><math><semantics><mrow><mi>p</mi><mo>(</mo><msup><mi>y</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo>=</mo><mi>j</mi><mi mathvariant="normal">∣</mi><msup><mi>x</mi><mo>(</mo></msup><mi>i</mi><mo>)</mo><mo separator="true">;</mo><mi>θ</mi><mo>)</mo><mo>=</mo><mfrac><msup><mi>e</mi><mrow><msubsup><mi>θ</mi><mi>j</mi><mi>T</mi></msubsup><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup></mrow></msup><mrow><msubsup><mo>∑</mo><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></msubsup><msup><mi>e</mi><mrow><msubsup><mi>θ</mi><mi>l</mi><mi>T</mi></msubsup><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup></mrow></msup></mrow></mfrac></mrow><annotation encoding="application/x-tex">p(y^{(i)}=j|x^(i);\theta)=\dfrac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.138em; vertical-align: -0.25em;"></span><span>p</span><span>(</span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.138em; vertical-align: -0.25em;"></span><span style="margin-right: 0.05724em;">j</span><span>∣</span><span><span>x</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>(</span></span></span></span></span></span></span></span><span>i</span><span>)</span><span>;</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.02778em;">θ</span><span>)</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 2.93759em; vertical-align: -1.17872em;"></span><span><span></span><span><span><span><span style="height: 1.75887em;"><span style="top: -2.20286em;"><span style="height: 3.08187em;"></span><span><span><span style="position: relative; top: -5e-06em;">∑</span><span><span><span><span style="height: 0.989008em;"><span style="top: -2.40029em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.01968em;">l</span><span>=</span><span>1</span></span></span></span><span style="top: -3.2029em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.03148em;">k</span></span></span></span><span>​</span></span><span><span style="height: 0.29971em;"><span></span></span></span></span></span></span><span style="margin-right: 0.166667em;"></span><span><span>e</span><span><span><span><span style="height: 0.933835em;"><span style="top: -3.05081em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.02778em;">θ</span><span><span><span><span style="height: 0.832893em;"><span style="top: -2.15277em; margin-left: -0.02778em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span style="margin-right: 0.01968em;">l</span></span></span><span style="top: -2.8448em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span style="margin-right: 0.13889em;">T</span></span></span></span><span>​</span></span><span><span style="height: 0.347229em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.822036em;"><span style="top: -2.82204em; margin-right: 0.0714286em;"><span style="height: 2.53571em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span style="top: -3.31187em;"><span style="height: 3.08187em;"></span><span style="border-bottom-width: 0.04em;"></span></span><span style="top: -3.75887em;"><span style="height: 3.08187em;"></span><span><span><span>e</span><span><span><span><span style="height: 1.08187em;"><span style="top: -3.10517em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.02778em;">θ</span><span><span><span><span style="height: 0.919093em;"><span style="top: -2.214em; margin-left: -0.02778em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span style="margin-right: 0.05724em;">j</span></span></span><span style="top: -2.931em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span style="margin-right: 0.13889em;">T</span></span></span></span><span>​</span></span><span><span style="height: 0.424886em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.966714em;"><span style="top: -2.96671em; margin-right: 0.0714286em;"><span style="height: 2.53571em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 1.17872em;"><span></span></span></span></span></span><span></span></span></span></span></span></span></p>
<p>通过上一部分香农熵的概念，我们定义softmax的损失函数如下：</p>
<p><span><span><span><math><semantics><mrow><mi>J</mi><mo>(</mo><mi>θ</mi><mo>)</mo><mo>=</mo><mo>−</mo><mn>1</mn><mi mathvariant="normal">/</mi><mi>m</mi><msubsup><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup><msubsup><mo>∑</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></msubsup><mn>1</mn><mrow><mo fence="true">{</mo><msup><mi>y</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo>=</mo><mi>j</mi><mo fence="true">}</mo></mrow><mi>l</mi><mi>o</mi><mi>g</mi><mo>(</mo><mi>p</mi><mo>(</mo><msup><mi>y</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo>=</mo><mi>j</mi><mi mathvariant="normal">∣</mi><msup><mi>x</mi><mo>(</mo></msup><mi>i</mi><mo>)</mo><mo separator="true">;</mo><mi>θ</mi><mo>)</mo><mo>)</mo></mrow><annotation encoding="application/x-tex">J(\theta)=-1/m\sum_{i=1}^m\sum_{j=1}^k1\left\{y^{(i)}=j\right\}log(p(y^{(i)}=j|x^(i);\theta))</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.09618em;">J</span><span>(</span><span style="margin-right: 0.02778em;">θ</span><span>)</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.42483em; vertical-align: -0.435818em;"></span><span>−</span><span>1</span><span>/</span><span>m</span><span style="margin-right: 0.166667em;"></span><span><span style="position: relative; top: -5e-06em;">∑</span><span><span><span><span style="height: 0.804292em;"><span style="top: -2.40029em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>=</span><span>1</span></span></span></span><span style="top: -3.2029em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>m</span></span></span></span><span>​</span></span><span><span style="height: 0.29971em;"><span></span></span></span></span></span></span><span style="margin-right: 0.166667em;"></span><span><span style="position: relative; top: -5e-06em;">∑</span><span><span><span><span style="height: 0.989008em;"><span style="top: -2.40029em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.05724em;">j</span><span>=</span><span>1</span></span></span></span><span style="top: -3.2029em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.03148em;">k</span></span></span></span><span>​</span></span><span><span style="height: 0.435818em;"><span></span></span></span></span></span></span><span style="margin-right: 0.166667em;"></span><span>1</span><span style="margin-right: 0.166667em;"></span><span><span style="top: 0em;"><span>{</span></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span><span style="margin-right: 0.05724em;">j</span><span style="top: 0em;"><span>}</span></span></span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.01968em;">l</span><span>o</span><span style="margin-right: 0.03588em;">g</span><span>(</span><span>p</span><span>(</span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>i</span><span>)</span></span></span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.138em; vertical-align: -0.25em;"></span><span style="margin-right: 0.05724em;">j</span><span>∣</span><span><span>x</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>(</span></span></span></span></span></span></span></span><span>i</span><span>)</span><span>;</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.02778em;">θ</span><span>)</span><span>)</span></span></span></span></span>，对此公式求<span><span><span><math><semantics><mrow><mi>θ</mi></mrow><annotation encoding="application/x-tex">\theta</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span style="margin-right: 0.02778em;">θ</span></span></span></span></span>偏导</p>
<p><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpVM05DODVZVGcxWldJd1pHWmhPVFEwWmpKbU9EZ3pOREJoWVRNNFlXSXlaREEyWlM1d2JtYz0=" alt="【机器学习笔记08】分类器（softmax回归)" title="【机器学习笔记08】分类器（softmax回归)"></p>
<p><em>备注：上面那个推导实在没经历写latex公式，也比较简单，就是复合函数求导，希望以后还能看明白</em></p>
<h5>
<a target="_blank" rel="nofollow"></a>softmax例子（基于sklearn）</h5>
<hr>
<pre><code># -*- coding: utf-8 -*-
import numpy  as np
import matplotlib.pyplot as plt
from   sklearn import linear_model


def _test_softmax():

    """
    虚拟构造数据，我们假设构造一个x1, x2的二维特征平面，其范围都是10
    假定x1为水平方向、x2为垂直方向
    存在两个分割线

        1）2*x1 + 5 = x2
        2）2*x1 - 5 = x2

        当特征点在直线1上方时，为分类1，在直线1和2之间时为分类2，在直线2下方时为分类3 
    """

    x1 = np.linspace(0, 10, 500)

    x2 = np.random.random_sample(500)*25

    y  = np.zeros(500)

    for i in range(0, 500) :
        if x2[i] &gt;= (2 * x1[i] + 5):
            y[i] = 1
        elif x2[i] &gt;= (2 * x1[i] - 5):
            y[i] = 2
        else :
            y[i] = 3

    #构造二维特征的输入矩阵
    h = np.transpose(np.vstack((x1, x2)))

    """
    构筑softmax回归模型
    """
    clf = linear_model.LogisticRegression(multi_class="multinomial", solver="lbfgs", C=10.0)
    clf.fit(h, y)

    """
    测试结果如下
    预测为： [1.] 各类概率为 [[1.00000000e+00 1.98641177e-24 5.38851421e-61]]
    预测为： [2.] 各类概率为 [[6.66670055e-10 9.99999985e-01 1.43504834e-08]]
    预测为： [3.] 各类概率为 [[1.52911535e-63 1.58007802e-21 1.00000000e+00]]
    """

    predict = clf.predict([[1, 20]])
    predict_pro = clf.predict_proba([[1, 20]])
    print('预测为：', predict, '各类概率为', predict_pro)

    predict = clf.predict([[10, 20]])
    predict_pro = clf.predict_proba([[10, 20]])
    print('预测为：', predict, '各类概率为', predict_pro)

    predict = clf.predict([[10, 2]])
    predict_pro = clf.predict_proba([[10, 2]])
    print('预测为：', predict, '各类概率为', predict_pro)

    pass

"""
说明：

softmax分类代码实现，对应的笔记《分类器（softmax回归）》

作者：fredric

日期：2018-9-4

"""
if __name__ == "__main__":

    _test_softmax()
</code></pre>
 
                    
                <div style="margin-top: 10px;">
                  </div> 
        </section>
	 
        <footer class="post-footer">
            <section class="author">
                                            </section>
        </footer>
        <p class="mt10">相关文章：</p>
        <div style="width: 100%;" class="contentcard">
      
            <div style="width: 100%;height: auto;" class="carditem litem clearfix"> 
                    <ul style="padding-left: 0rem;" class="cardcont">
                                            </ul>
               </div>   
         </div>
    </article>

  
</div>

<div class="rigthbox contentcard mt10">
 
          <div style="height: auto;" class="carditem litem">
    <div class="cardtit">猜你喜欢 </div>
        <ul class="cardcont">
                        </ul>
   </div> 

<div style="height: auto;" class="carditem litem">
    <div class="cardtit">相关资源 </div>
        <ul class="cardcont">
              
                            </ul>
   </div>
   
    <div style="height: auto;" class="carditem litem">
     <div class="cardtit">相似解决方案 </div>
         <ul class="cardcont">
                          </ul>
    </div>
  
   <div style="height: auto;background-color: #ddd;text-align: center;" class="carditem litem">
    <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
</div> 
   <div  style="height: auto;" class="carditem litem mt20">
    <div class="cardtit">热门标签  </div>
    <div class="tagbox">
                    <a target="_blank" title="Java" href="/default/index/tags?cid=164&cname=Java" >Java</a>
                        <a target="_blank" title="Python" href="/default/index/tags?cid=367&cname=Python" >Python</a>
                        <a target="_blank" title="linux" href="/default/index/tags?cid=274&cname=linux" >linux</a>
                        <a target="_blank" title="javascript" href="/default/index/tags?cid=169&cname=javascript" >javascript</a>
                        <a target="_blank" title="Mysql" href="/default/index/tags?cid=237&cname=Mysql" >Mysql</a>
                        <a target="_blank" title="C#" href="/default/index/tags?cid=187&cname=C%23" >C#</a>
                        <a target="_blank" title="Docker" href="/default/index/tags?cid=243&cname=Docker" >Docker</a>
                        <a target="_blank" title="算法" href="/default/index/tags?cid=344&cname=%E7%AE%97%E6%B3%95" >算法</a>
                        <a target="_blank" title="前端" href="/default/index/tags?cid=160&cname=%E5%89%8D%E7%AB%AF" >前端</a>
                        <a target="_blank" title="SpringBoot" href="/default/index/tags?cid=168&cname=SpringBoot" >SpringBoot</a>
                        <a target="_blank" title="Redis" href="/default/index/tags?cid=227&cname=Redis" >Redis</a>
                        <a target="_blank" title="Vue" href="/default/index/tags?cid=236&cname=Vue" >Vue</a>
                        <a target="_blank" title="spring" href="/default/index/tags?cid=696&cname=spring" >spring</a>
                        <a target="_blank" title="设计模式" href="/default/index/tags?cid=632&cname=%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F" >设计模式</a>
                        <a target="_blank" title=".net core" href="/default/index/tags?cid=381&cname=.net+core" >.net core</a>
                        <a target="_blank" title=".net" href="/default/index/tags?cid=300&cname=.net" >.net</a>
                        <a target="_blank" title="kubernetes" href="/default/index/tags?cid=2179&cname=kubernetes" >kubernetes</a>
                        <a target="_blank" title="c++" href="/default/index/tags?cid=312&cname=c%2B%2B" >c++</a>
                        <a target="_blank" title="数据库" href="/default/index/tags?cid=284&cname=%E6%95%B0%E6%8D%AE%E5%BA%93" >数据库</a>
                        <a target="_blank" title="数据结构" href="/default/index/tags?cid=247&cname=%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84" >数据结构</a>
                        <a target="_blank" title="大数据" href="/default/index/tags?cid=888&cname=%E5%A4%A7%E6%95%B0%E6%8D%AE" >大数据</a>
                        <a target="_blank" title="js" href="/default/index/tags?cid=159&cname=js" >js</a>
                        <a target="_blank" title="机器学习" href="/default/index/tags?cid=171&cname=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0" >机器学习</a>
                        <a target="_blank" title="微服务" href="/default/index/tags?cid=832&cname=%E5%BE%AE%E6%9C%8D%E5%8A%A1" >微服务</a>
                        <a target="_blank" title="Android" href="/default/index/tags?cid=282&cname=Android" >Android</a>
                        <a target="_blank" title="Go" href="/default/index/tags?cid=839&cname=Go" >Go</a>
                        <a target="_blank" title="程序员" href="/default/index/tags?cid=327&cname=%E7%A8%8B%E5%BA%8F%E5%91%98" >程序员</a>
                        <a target="_blank" title="面试" href="/default/index/tags?cid=637&cname=%E9%9D%A2%E8%AF%95" >面试</a>
                        <a target="_blank" title="JVM" href="/default/index/tags?cid=727&cname=JVM" >JVM</a>
                        <a target="_blank" title="ASP.net core" href="/default/index/tags?cid=179&cname=ASP.net+core" >ASP.net core</a>
                        <a target="_blank" title="云原生" href="/default/index/tags?cid=22056&cname=%E4%BA%91%E5%8E%9F%E7%94%9F" >云原生</a>
                        <a target="_blank" title="人工智能" href="/default/index/tags?cid=270&cname=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD" >人工智能</a>
                        <a target="_blank" title="后端" href="/default/index/tags?cid=1089&cname=%E5%90%8E%E7%AB%AF" >后端</a>
                        <a target="_blank" title="PHP" href="/default/index/tags?cid=281&cname=PHP" >PHP</a>
                        <a target="_blank" title="git" href="/default/index/tags?cid=226&cname=git" >git</a>
                        <a target="_blank" title="CSS" href="/default/index/tags?cid=817&cname=CSS" >CSS</a>
                        <a target="_blank" title="golang" href="/default/index/tags?cid=409&cname=golang" >golang</a>
                        <a target="_blank" title="k8s" href="/default/index/tags?cid=5067&cname=k8s" >k8s</a>
                        <a target="_blank" title="Nginx" href="/default/index/tags?cid=373&cname=Nginx" >Nginx</a>
                        <a target="_blank" title="Django" href="/default/index/tags?cid=634&cname=Django" >Django</a>
                        <a target="_blank" title="mybatis" href="/default/index/tags?cid=720&cname=mybatis" >mybatis</a>
                        <a target="_blank" title="深度学习" href="/default/index/tags?cid=345&cname=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0" >深度学习</a>
                        <a target="_blank" title="多线程" href="/default/index/tags?cid=986&cname=%E5%A4%9A%E7%BA%BF%E7%A8%8B" >多线程</a>
                        <a target="_blank" title="React" href="/default/index/tags?cid=560&cname=React" >React</a>
                        <a target="_blank" title="架构" href="/default/index/tags?cid=2070&cname=%E6%9E%B6%E6%9E%84" >架构</a>
                        <a target="_blank" title="devops" href="/default/index/tags?cid=2662&cname=devops" >devops</a>
                        <a target="_blank" title="爬虫" href="/default/index/tags?cid=905&cname=%E7%88%AC%E8%99%AB" >爬虫</a>
                        <a target="_blank" title="云计算" href="/default/index/tags?cid=361&cname=%E4%BA%91%E8%AE%A1%E7%AE%97" >云计算</a>
                        <a target="_blank" title="Spring Boot" href="/default/index/tags?cid=201&cname=Spring+Boot" >Spring Boot</a>
                        <a target="_blank" title="LeetCode" href="/default/index/tags?cid=342&cname=LeetCode" >LeetCode</a>
                </div>
       
   </div>
   
        <div id="rightadbox" style="height: 300px;background-color: #ddd;text-align: center;" class="carditem litem">
            <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
        </div> 
</div>
<div class="clearfix"></div>
</main>
    
<div class="yllinks alink"></div>
 

<footer class="site-footer clearfix">
<section class="copyright">By &copy; 2026 <a href="/" title="www.likecs.com">likecs</a> 版权所有,<br/>本站所有数据收集于网络如有侵犯到您的权益请联系 进行下架处理1。 </section>
<section class="poweredby">  <a target="_blank" href="https://beian.miit.gov.cn/">粤ICP备22038628号</a>Powered By  WordPress </section>
<script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script>
<script>LA.init({id: "Je3PjbvUssp6BbvY",ck: "Je3PjbvUssp6BbvY"})</script>
<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?2eb031e42d29b7c1a1f16948d2ae2a9f";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>
</footer>  
</div>
<script>
    $(function(){
                    $(".post-content").append('<p style="padding: 20px;color: #cacaca;">来源网络，如有侵犯到您的权益请联系进行下架处理</p>')  
            }) 
</script> 
</body>
</html>