python 各种函数以及 tensorflow 概念

1.str.upper()

把字符串转换为大写字母表示的。

2.easydict

用来转换成字典，且可以添加和修改。效果如图下所示：

from easydict import EasyDict as edict


cfg = edict()

  # Dataset used to train/val/test model. Now support KITTI


  # classes
cfg.CLASSES = [
  'unknown',
  'car',
  'van',
  'truck',
  'pedestrian',
  'person_sitting',
  'cyclist',
  'tram',
  'misc',
]

# number of classes
cfg.NUM_CLASS = len(cfg.CLASSES)

# dict from class name to id，把类别和数字标签对应起来
cfg.CLS_2_ID = dict(zip(cfg.CLASSES, range(len(cfg.CLASSES))))

print(cfg.CLS_2_ID)

结果如下：

{'person_sitting': 5, 'unknown': 0, 'car': 1, 'truck': 3, 'misc': 8, 'pedestrian': 4, 'cyclist': 6, 'tram': 7, 'van': 2}

3.tf概念：decay_step

在模型训练DL模型时，随着模型的epoch迭代，往往会推荐逐渐减小learning rate，在一些实验中也证明确实对训练的收敛有正向效果。对于learning rate的改变，有定制衰减规则直接控制的，也有通过算法自动寻优的。这里主要介绍下TF自带的两种衰减方法：指数衰减和多项式衰减。

以指数衰减为例：指数衰减（tf.train.exponential_decay）

方法原型：

tf.train.exponential_decay(learning_rate, global_step, decay_steps, decay_rate, staircase=False, name=None){#exponential_decay}

参数：

learning_rate：初始值

global_step：全局step数（每个step对应一次batch）

decay_steps：learning rate更新的step周期，即每隔多少step更新一次learning rate的值

decay_rate：指数衰减参数(对应α^t中的α)

staircase：是否阶梯性更新learning rate，也就是global_step/decay_steps的结果是float型还是向下取整

计算公式：

decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)

4.标准化 normallization normalization

原文：https://blog.csdn.net/u011092188/article/details/78174804 感谢！

Normalization这个名词在很多地方都会出现，但是对于数据却有两种截然不同且容易混淆的处理过程。对于某个多特征的机器学习数据集来说，第一种Normalization是对于将数据进行预处理时进行的操作，是对于数据集的各个特征分别进行处理，主要包括min-max normalization、Z-score normalization、 log函数转换和atan函数转换等。第二种Normalization对于每个样本缩放到单位范数（每个样本的范数为1），主要有L1-normalization（L1范数）、L2-normalization（L2范数）等，可以用于SVM等应用
第一种 Normalization

数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的标准化处理，即将数据统一映射到[0,1]区间上。标准化在0-1之间是统计的概率分布，标准化在某个区间上是统计的坐标分布。目前数据标准化方法有多种。不同的标准化方法，对系统的评价结果会产生不同的影响，然而不幸的是，在数据标准化方法的选择上，还没有通用的法则可以遵循。
标准化（normalization）的目的：

在数据分析之前，我们通常需要先将数据标准化（normalization），利用标准化后的数据进行数据分析。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析。也就说标准化（normalization）的目的是：

把特征的各个维度标准化到特定的区间

把有量纲表达式变为无量纲表达式

归一化后有两个好处：
1. 加快基于梯度下降法或随机梯度下降法模型的收敛速度

如果特征的各个维度的取值范围不同，那么目标函数的等线很可能是一组椭圆，各个特征的取值范围差别越大，椭圆等高线会更加狭长。由于梯度方向垂直于等高线方向，因而这时优化路线会较为曲折，这样迭代会很慢，相比之下，如果特征的各个维度取值范围相近，那么目标函数很可能很接近一组于正圆，因而优化路线就会较为直接，迭代就会很快。~

python 各种函数以及 tensorflow 概念

如上图，x1的取值为0-2000，而x2的取值为1-5，假如只有这两个特征，对其进行优化时，会得到一个窄长的椭圆形，导致在梯度下降时，梯度的方向为垂直等高线的方向而走之字形路线，这样会使迭代很慢，相比之下，右图的迭代就很快
2. 提升模型的精度

在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和量级。当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。因此，为了保证结果的可靠性，需要对原始指标数据进行标准化处理。

如在涉及到一些距离计算的算法时，例如KNN：如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。另外在SVM中，最后的权值向量ω

受较高指标的影响较大

所以归一化很有必要，它可以让各个特征对结果做出的贡献相同。
标准化的方法：
1. min-max normalization

python 各种函数以及 tensorflow 概念

这种归一化方法比较适用在数值比较集中的情况。这种方法两有个缺陷：

当有新数据加入时，可能导致 max 和 min 发生变化，需要重新定义。
如果max和min不稳定，很容易使得归一化结果不稳定，使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min

注意：计算时对每个特征分别进行。将数据按特征（按列进行）减去其均值，并除以其方差。得到的结果是，对于每个特征来说所有数据都聚集在0附近，方差为1。

2. Z-score normalization

input_mean 代表u；input_std 代表标准差

python 各种函数以及 tensorflow 概念

也叫标准差标准化，经过处理的数据符合标准正态分布，即均值为 0，标准差为 1 。其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

3. log函数转换

python 各种函数以及 tensorflow 概念

4. atan函数转换

python 各种函数以及 tensorflow 概念

注意：使用这个方法需要注意的是如果想映射的区间为[0,1]，则数据都应该大于等于0，小于0的数据将被映射到[-1,0]区间上，而并非所有数据标准化的结果都映射到[0,1]区间上。

第二种Normalization

第二种Normalization对于每个样本缩放到单位范数（每个样本的范数为1），主要有L1-normalization（L1范数）、L2-normalization（L2范数）等

Normalization主要思想是对每个样本计算其p-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数（比如l1-norm,l2-norm）等于1。

p-范数的计算公式：
python 各种函数以及 tensorflow 概念

该方法主要应用于文本分类和聚类中。例如，对于两个TF-IDF向量的l2-norm进行点积，就可以得到这两个向量的余弦相似性。

1. 权重衰减（weight decay）

原文：https://blog.csdn.net/program_developer/article/details/80867468 感谢！
L2正则化的目的就是为了让权重衰减到更小的值，在一定程度上减少模型过拟合的问题，所以权重衰减也叫L2正则化。

1.1 L2正则化与权重衰减系数
L2正则化就是在代价函数后面再加上一个正则化项：

python 各种函数以及 tensorflow 概念

其中C0代表原始的代价函数，后面那一项就是L2正则化项，它是这样来的：所有参数w的平方的和，除以训练集的样本大小n。λ就是正则项系数，权衡正则项与C0项的比重。另外还有一个系数1/2，1/2 经常会看到，主要是为了后面求导的结果方便，后面那一项求导会产生一个2，与1/2相乘刚好凑整为1。系数λ就是权重衰减系数。

1.2 权重衰减（L2正则化）的作用

作用：权重衰减（L2正则化）可以避免模型过拟合问题。
思考：L2正则化项有让w变小的效果，但是为什么w变小可以防止过拟合呢？
原理：（1）从模型的复杂度上解释：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合更好（这个法则也叫做奥卡姆剃刀），而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。（2）从数学方面的解释：过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。

2. 学习率衰减（learning rate decay）

在训练模型的时候，通常会遇到这种情况：我们平衡模型的训练速度和损失（loss）后选择了相对合适的学习率（learning rate），但是训练集的损失下降到一定的程度后就不在下降了，比如training loss一直在0.7和0.9之间来回震荡，不能进一步下降。如下图所示：
遇到这种情况通常可以通过适当降低学习率（learning rate）来实现。但是，降低学习率又会延长训练所需的时间。
学习率衰减（learning rate decay）就是一种可以平衡这两者之间矛盾的解决方案。学习率衰减的基本思想是：学习率随着训练的进行逐渐衰减。
学习率衰减基本有两种实现方法：

线性衰减。例如：每过5个epochs学习率减半。
指数衰减。例如：随着迭代轮数的增加学习率自动发生衰减，每过5个epochs将学习率乘以0.9998。具体算法如下：

decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)
其中decayed_learning_rate为每一轮优化时使用的学习率，learning_rate为事先设定的初始学习率，decay_rate为衰减系数，decay_steps为衰减速度。

tensorflow shape callable

1.x.shape() 静态tensor，在程序运行前，shape确定。

tf.shape() 动态tensor。