网站首页 > 技术文章 正文
专栏推荐
正文
我们已经做出了线性可分以及线性不可分的支持向量机,但是我们不知道究竟什么样的参数C和核函数参数γ更加的适合我们的当前模型,一个好的参数更加有利于我们的模型,所以如何才能选择。这篇文章的目的就是演示如何才能选出我们所要的那个参数,我将使用两种方法。方法一就是手动选出(逐渐遍历的方法),方法二就是使用sklearn封装好的机器学习库来完成方法一的任务。
我现在有一个数据集,它的所有变量是这样的
其中x,y我们把它用作是训练集数据,然后把Xval,yval它当作测试集数据。我们现在先来获取到训练集数据以及测试集数据。
training = pd.DataFrame(mat.get('X'), columns=['X1', 'X2'])
training['y'] = mat.get('y')
cv = pd.DataFrame(mat.get('Xval'), columns=['X1', 'X2'])
cv['y'] = mat.get('yval')
我们现在已经获取到了训练集training和测试集cv。
现在我们要获取到C和γ的各种组合,用各种组合去不断地尝试究竟哪一种地组合更好。那么我们先来完成对这二者进行组合。
candidate = [0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30, 100]
这是我们的可能地取值,然后我们对其进行两两地组合
combination = [(C, gamma) for C in candidate for gamma in candidate]
我们输出combination为:
两两之间任意地组合,那么一共有81中组合,这就是我们要从中间选出究竟哪一种组合才是最好地那个。
下面我们对这些组合进行遍历,然后用每一组进行拟合一个svm的训练器,拟合之后我们使用测试集进行测试,把每一个测试的精确度保存起来,这样我们就可以根据精确度最高的那个来选出我们所想要的最好的那个组合了。
search = [] for C, gamma in combination: svc = svm.SVC(C=C, gamma=gamma) svc.fit(training[['X1', 'X2']], training['y']) search.append(svc.score(cv[['X1', 'X2']], cv['y']))
有了每一个组合的对测试集的精确度的结果之后,我们只需要找出精确度最好的那一个组合,就是我们所要的那个组合。
best_score = search[np.argmax(search)] best_param = combination[np.argmax(search)] np.argmax(search)
输出精确度最大的那个的小标。同时这个下标也是search和combination对应的下标。那么这个就是我们所要找的best_score(最好的组合的精确度)以及最好的组合(best_param)。
print(best_score) print(best_param)
输出二者的结果分别为:
0.965
(0.3, 100)
可以知道当我们的C=0.3,而γ=100的时候可能是最好的,我们要确定此时的参数组合形成的模型的分类指标
from sklearn import metrics
best_svc = svm.SVC(C=0.3, gamma=100) best_svc.fit(training[['X1', 'X2']], training['y']) ypred = best_svc.predict(cv[['X1', 'X2']]) print(metrics.classification_report(cv['y'], ypred))
我们现在是我们当前参数组合中最好的模型了,那么我们使用
metrics.classification_report用于显示主要分类指标的文本报告.在报告中显示每个类的精确度,召回率,F1值等信息。
该方法的主要参数是:
y_true:1维数组,或标签指示器数组/稀疏矩阵,目标值。
y_pred:1维数组,或标签指示器数组/稀疏矩阵,分类器返回的估计值。
labels:array,shape = [n_labels],报表中包含的标签索引的可选列表。
target_names:字符串列表,与标签匹配的可选显示名称(相同顺序)。
sample_weight:类似于shape = [n_samples]的数组,可选项,样本权重。
digits:int,输出浮点值的位数.
输出的结果为:
其中列表左边的一列为分类的标签名,右边support列为每个标签的出现次数.avg / total行为各列的均值(support列为总和)
precision recall f1-score三列分别为各个类别的精确度/召回率及 F1值.
这样我们使用的是for循环的方式找到了最好的模型,其实我们本可以不这样,因为我们可以使用sklearn库使用封装好的交叉验证的程序来完成这个操作。
if __name__ == "__main__": parameters = {'C': candidate, 'gamma': candidate} svc = svm.SVC() clf = GridSearchCV(svc, parameters, n_jobs=-1) clf.fit(training[['X1', 'X2']], training['y']) print (clf.best_params_) print (clf.best_score_) ypred = clf.predict(cv[['X1', 'X2']]) print(metrics.classification_report(cv['y'], ypred))
因为交叉验证是使用的多线程所以我们使用一个main方法来把它给套起来,然后他就会组合多种parameters进行遍历选出最好的那个
全部代码:
from sklearn import svm
from sklearn.model_selection import GridSearchCV
from sklearn import metrics
import numpy as np
import pandas as pd
import scipy.io as sio
mat = sio.loadmat('ex6data3.mat')
print(mat.keys())
training = pd.DataFrame(mat.get('X'), columns=['X1', 'X2'])
training['y'] = mat.get('y')
cv = pd.DataFrame(mat.get('Xval'), columns=['X1', 'X2'])
cv['y'] = mat.get('yval')
candidate = [0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30, 100]
combination = [(C, gamma) for C in candidate for gamma in candidate]
search = []
for C, gamma in combination:
svc = svm.SVC(C=C, gamma=gamma)
svc.fit(training[['X1', 'X2']], training['y'])
search.append(svc.score(cv[['X1', 'X2']], cv['y']))
best_score = search[np.argmax(search)]
best_param = combination[np.argmax(search)]
best_svc = svm.SVC(C=0.3, gamma=100)
best_svc.fit(training[['X1', 'X2']], training['y'])
ypred = best_svc.predict(cv[['X1', 'X2']])
print(metrics.classification_report(cv['y'], ypred))
if __name__ == "__main__":
parameters = {'C': candidate, 'gamma': candidate}
svc = svm.SVC()
clf = GridSearchCV(svc, parameters, n_jobs=-1)
clf.fit(training[['X1', 'X2']], training['y'])
print (clf.best_params_)
print (clf.best_score_)
ypred = clf.predict(cv[['X1', 'X2']])
print(metrics.classification_report(cv['y'], ypred))
猜你喜欢
- 2025-03-06 使用CatBoost和SHAP进行多分类完整代码示例
- 2025-03-06 10000字的Pandas核心操作知识大全!
- 2025-03-06 机器学习十大算法案例
- 2025-03-06 通俗易懂-三哥讲机器学习-04-机器学习-随机森林-Random Forest
- 2025-03-06 机器学习
- 2025-03-06 7个最新的时间序列分析库介绍和代码示例
- 2025-03-06 使用Python实现智能医疗数据采集与分析:开启健康管理新时代
- 2025-03-06 通俗易懂-三哥讲机器学习-03-机器学习-决策树-Decision Tree
- 2025-03-06 【Python机器学习系列】建立梯度提升模型预测心脏疾病
- 2025-03-06 超实用Python数据分析案例,轻松搞定复杂数据!
- 04-27JavaScript注释:单行注释和多行注释详解
- 04-27贼好用的 Java 工具类库
- 04-27一文搞懂,WAF阻止恶意攻击的8种方法
- 04-27详细教你微信公众号正文页SVG交互开发
- 04-27Cookie 和 Session 到底有什么区别?
- 04-27教你一招,给你的店铺,网站,博客等添加“一键分享”功能
- 04-27按DeepSeek AI的规划,自学开发小程序第7天
- 04-27《JAVASCRIPT高级程序设计》第二章
- 最近发表
- 标签列表
-
- cmd/c (64)
- c++中::是什么意思 (83)
- 标签用于 (65)
- sqlset (59)
- ps可以打开pdf格式吗 (58)
- phprequire_once (61)
- localstorage.removeitem (74)
- routermode (59)
- vector线程安全吗 (70)
- & (66)
- java (73)
- org.redisson (64)
- log.warn (60)
- cannotinstantiatethetype (62)
- js数组插入 (83)
- resttemplateokhttp (59)
- gormwherein (64)
- linux删除一个文件夹 (65)
- mac安装java (72)
- reader.onload (61)
- outofmemoryerror是什么意思 (64)
- flask文件上传 (63)
- eacces (67)
- 查看mysql是否启动 (70)
- 无效的列索引 (74)