首页 > 文章列表 > Python中的SVM实例

Python中的SVM实例

Python 实例 SVM
153 2023-06-11

Python中的支持向量机(Support Vector Machine,SVM)是一个强大的有监督学习算法,可以用来解决分类和回归问题。SVM在处理高维度数据和非线性问题的时候表现出色,被广泛地应用于数据挖掘、图像分类、文本分类、生物信息学等领域。

在本文中,我们将介绍在Python中使用SVM进行分类的实例。我们将使用scikit-learn库中的SVM模型,该库提供了许多强大的机器学习算法。

首先,我们需要安装scikit-learn库,可以在终端中使用以下命令进行安装:

pip install scikit-learn

接着,我们将使用经典的Iris数据集来演示SVM的分类效果。Iris数据集包含150个样本,分为三类,每类包含50个样本。每个样本有4个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。我们将使用SVM对这些样本进行分类。

首先,我们需要导入需要的库:

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.metrics import accuracy_score

接着,我们加载Iris数据集:

iris = datasets.load_iris()

然后,我们将数据分为训练集和测试集:

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=0)

在这里,我们使用了train_test_split函数,将数据集随机分为训练集和测试集,其中test_size参数指定了测试集占总数据集的比例为30%。

接下来,我们将使用SVM模型对训练集进行拟合:

clf = svm.SVC(kernel='linear', C=1)
clf.fit(X_train, y_train)

这里,我们使用了线性核函数,并且指定了一个正则化参数C=1。SVM的超参数C控制了模型的准确性和复杂性之间的权衡。C值越小,模型越简单,容易欠拟合;C值越大,模型越复杂,容易过拟合。通常,我们需要通过交叉验证来选择合适的C值。

接着,我们使用训练好的模型,对测试集进行预测:

y_pred = clf.predict(X_test)

最后,我们可以使用accuracy_score函数,来计算分类准确率:

accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

完整的代码如下:

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.metrics import accuracy_score

# Load iris dataset
iris = datasets.load_iris()

# Split data into train and test
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=0)

# Fit SVM model on training data
clf = svm.SVC(kernel='linear', C=1)
clf.fit(X_train, y_train)

# Predict on test data
y_pred = clf.predict(X_test)

# Compute accuracy score
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

在本例中,我们使用了SVM模型进行分类,针对的是一个非常常见的数据集,Iris数据集。SVM的优点在于强大的分类能力、适用于高维度数据和非线性问题。实现SVM需要对一系列超参数进行调优,以达到最好的分类效果。