用一份“豪车购买预测数据”,带你玩转 Pandas

作者:互联网

2026-03-24

AI模型库

无论你是数据分析新手,还是准备进入机器学习领域,Pandas 都是必须掌握的核心工具。今天,我们不讲枯燥理论,而是借助一份 真实案例数据——豪华汽车购买预测,带你从基础到建模一站式掌握 Pandas的常用操作与实战思维。

只要认真看完这篇文章,你会发现:

  • Pandas并没有想象中那么难
  • 原来数据分析流程就这么几步
  • 机器学习建模也能变得很轻松

让我们开始吧!

1. 什么是Pandas?为什么人人都在用?

Pandas是Python中最强大的表格数据处理库,它能让你:

  • 轻松读取 CSV、Excel、数据库
  • 快速筛选、统计、清洗数据
  • 让数据处理更像“操作Excel”一样自然
  • 和机器学习框架(如 scikit-learn)无缝衔接

别人处理100W条数据可能要写几十行代码,而Pandas两三行就能搞定。

2. 准备数据:豪车购买预测表

汽车公司推出了新款豪华汽车,并收集了一批用户数据:

序号

预估薪资

是否会购买

1

43000

0

2

150000

1

3

57000

0

...

...

...

目标很简单:根据“预估薪资”预测用户是否会购买豪车。

下面我们从Pandas开始,一步步完成这道机器学习题。

3. 从数据开始:Pandas 核心用法

(1) 读取数据

import pandas as pd
df = pd.read_csv('car_users.csv')
  • 1.
  • 2.

Pandas会自动生成一个DataFrame(二维表格)。

(2)  数据清洗常用方法

df.isnull().sum()     # 查看缺失值
df.dropna()           # 删除缺失
df.fillna(0)          # 填充缺失
df.drop_duplicates()  # 去重
df.rename(columns={'旧名': '新名'})  # 改列名
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.

(3) 查看数据结构

df.head()      # 查看前5行
df.info()      # 查看每列类型
df.describe()  # 查看薪资的统计信息
  • 1.
  • 2.
  • 3.

只需三行代码,你就能对数据有完整的“第一印象”。

(4) 选择数据

选择一列:

df['预估薪资']
  • 1.

选择多列:

df[['预估薪资', '是否会购买']]
  • 1.

条件筛选:

df[df['预估薪资'] > 80000]
  • 1.

4. 数据建模

上面演示了数据读取和探索,现在我们来完成一个完整的训练模型流程。

(1) 划分特征 X 和标签 y

X = df[['预估薪资']]
y = df['是否会购买']
  • 1.
  • 2.
  • X 必须是二维
  • y 是目标变量,只需要取一列

(2) 按 8:2划分训练集和测试集

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • test_size=0.2 表示 20% 数据用于测试
  • random_state 用于结果可复现

(3) 转换为二维数组

X_train = X_train.values
X_test = X_test.values
  • 1.
  • 2.

为什么要这一步?

因为sklearn期望输入二维数组,而Pandas的Series是一维的。

(4)  定义逻辑回归模型并训练

from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(X_train, y_train)
  • 1.
  • 2.
  • 3.
  • 4.

逻辑回归非常适合二分类问题,例如“买/不买”。

(5) 输出测试集准确率

print("测试集准确率:", model.score(X_test, y_test))
  • 1.

准确率越高,说明薪资与购买行为的关系越明显。

(6) 输出预测结果

y_pred = model.predict(X_test)
print("预测值:", y_pred)
  • 1.
  • 2.

这就是模型对测试集所有用户的预测结果。

5. 小结

通过“豪车购买预测”这一贴近真实业务的案例,系统展示了如何使用Pandas进行数据读取、探索、清洗与特征处理,并进一步结合逻辑回归完成完整的机器学习建模流程。

相关标签:

AI 大模型 资讯

相关推荐