lucas-big-data

一、机器学习

1.人工智能与机器学习之间的关系

  • 机器学习是实现人工智能的一种技术手段

2.算法模型

  • 概念:特殊对象。该对象内部封装了某种还没有求出解的方程!
  • 作用:算法模型对象内部封装的方程的解就是算法模型预测或则分类的结果
    • 预测:天气预报
    • 分类:将一个未知分类的事务归属到某一种已知的分类中。

3.样本数据

  • 样本数据和算法模型之间的关系是什么?
    • 模型的训练:需要将样本数据带入到模型对象中,让模型对象的方程求出解。
  • 什么是样本数据?样本数据是由什么构成的?
    • 特征数据:自变量。往往是有多种特征组成
    • 目标数据:因变量
  • 算法模型的分类:sklearn模块中的模型
    • 有监督学习:
      • 如果算法模型对象需要的样本数据必须有目标数据和特征数据
    • 无监督学习:
      • 如果算法模型对象需要的样本数据只需要有特征数据即可

 

应用:建立一个温度模型,让其根据一个距离预测该距离对应城市的最高温度是多少

1.导入数据

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

import matplotlib.pyplot as plt
from pylab import mpl
mpl.rcParams[\'font.sans-serif\'] = [\'FangSong\'] # 指定默认字体
mpl.rcParams[\'axes.unicode_minus\'] = False # 解决保存图像是负号\'-\'显示为方块的问题
# 导入数据各个海滨城市数据
ferrara1 = pd.read_csv(\'./ferrara_150715.csv\')
ferrara2 = pd.read_csv(\'./ferrara_250715.csv\')
ferrara3 = pd.read_csv(\'./ferrara_270615.csv\')
ferrara=pd.concat([ferrara1,ferrara1,ferrara1],ignore_index=True)

torino1 = pd.read_csv(\'./torino_150715.csv\')
torino2 = pd.read_csv(\'./torino_250715.csv\')
torino3 = pd.read_csv(\'./torino_270615.csv\')
torino = pd.concat([torino1,torino2,torino3],ignore_index=True) 

mantova1 = pd.read_csv(\'./mantova_150715.csv\')
mantova2 = pd.read_csv(\'./mantova_250715.csv\')
mantova3 = pd.read_csv(\'./mantova_270615.csv\')
mantova = pd.concat([mantova1,mantova2,mantova3],ignore_index=True) 

milano1 = pd.read_csv(\'./milano_150715.csv\')
milano2 = pd.read_csv(\'./milano_250715.csv\')
milano3 = pd.read_csv(\'./milano_270615.csv\')
milano = pd.concat([milano1,milano2,milano3],ignore_index=True) 

ravenna1 = pd.read_csv(\'./ravenna_150715.csv\')
ravenna2 = pd.read_csv(\'./ravenna_250715.csv\')
ravenna3 = pd.read_csv(\'./ravenna_270615.csv\')
ravenna = pd.concat([ravenna1,ravenna2,ravenna3],ignore_index=True)

asti1 = pd.read_csv(\'./asti_150715.csv\')
asti2 = pd.read_csv(\'./asti_250715.csv\')
asti3 = pd.read_csv(\'./asti_270615.csv\')
asti = pd.concat([asti1,asti2,asti3],ignore_index=True)

bologna1 = pd.read_csv(\'./bologna_150715.csv\')
bologna2 = pd.read_csv(\'./bologna_250715.csv\')
bologna3 = pd.read_csv(\'./bologna_270615.csv\')
bologna = pd.concat([bologna1,bologna2,bologna3],ignore_index=True)

piacenza1 = pd.read_csv(\'./piacenza_150715.csv\')
piacenza2 = pd.read_csv(\'./piacenza_250715.csv\')
piacenza3 = pd.read_csv(\'./piacenza_270615.csv\')
piacenza = pd.concat([piacenza1,piacenza2,piacenza3],ignore_index=True)

cesena1 = pd.read_csv(\'./cesena_150715.csv\')
cesena2 = pd.read_csv(\'./cesena_250715.csv\')
cesena3 = pd.read_csv(\'./cesena_270615.csv\')
cesena = pd.concat([cesena1,cesena2,cesena3],ignore_index=True)

faenza1 = pd.read_csv(\'./faenza_150715.csv\')
faenza2 = pd.read_csv(\'./faenza_250715.csv\')
faenza3 = pd.read_csv(\'./faenza_270615.csv\')
faenza = pd.concat([faenza1,faenza2,faenza3],ignore_index=True)
# 去除没用的列
city_list = [faenza,cesena,piacenza,bologna,asti,ravenna,milano,mantova,torino,ferrara]
for city in city_list:
    city.drop(labels=\'Unnamed: 0\',axis=1,inplace=True)
View Code

2.显示最高温度离海远近的关系(观察多个城市)

max_temp = []
dist_list = []
for city in city_list:
    temp = city[\'temp\'].max()
    max_temp.append(temp)
    dist = city[\'dist\'][0]
    dist_list.append(dist)

plt.scatter(dist_list,max_temp)
plt.xlabel(\'距离\')
plt.ylabel(\'最高温度\')
plt.title(\'最高温度和距离直接的关系\')
View Code

3.样本数据的提取

feature = np.array(dist_list) #数组形式的特征数据
target = np.array(max_temp) #数组形式的目标数据

4.利用线性回归算法模型 y = wx + b 对数据进行训练

from sklearn.linear_model import LinearRegression
linner = LinearRegression() #算法模型对象
#训练模型
linner.fit(feature.reshape(-1,1),target) #特征数据必须是二维的!!!

5.基于训练好的模型对象实现预测功能(获取方程的解)

x = np.linspace(0,400,num=100)
y = linner.predict(x.reshape(-1,1))


plt.scatter(dist_list,max_temp)
plt.scatter(x,y)
plt.xlabel(\'距离\')
plt.ylabel(\'最高温度\')
plt.title(\'最高温度和距离直接的关系\')

 

分类:

技术点:

相关文章: