六步搞定 Python 爬虫！手把手爬取二手车数据-脚本在线

首页前沿速递服务器教程网页设计教程网络编辑教程

移动端

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

六步搞定 Python 爬虫！手把手爬取二手车数据

作者：互联网

2026-03-24

AI模型库

先划重点：这篇你能学到啥？

零基础入门 Python 爬虫全流程
实战爬取 “车型 + 信息 + 价格” 数据
数据一键存成 Excel/CSV

步骤 1：导入必备爬虫库

先把 “工具包” 备好，这 3 个库是爬虫标配：

import requests  # 用来请求网页
from lxml import etree  # 解析网页结构
import pandas as pd  # 存数据用1.
2.
3.

步骤 2：准备网址 + 反爬 “伪装”

爬网页前得先告诉程序 “爬哪里”，还要加个User-Agent假装是浏览器（不然会被网站拦住）：

url = 'https://www.che168.com/wenzhou'  # 温州二手车页面
header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36'
}1.
2.
3.
4.

步骤 3：获取网页源代码

用requests.get把网页内容 “拿” 下来，打印一下就能看到网页的原始代码啦：

resp = requests.get(url, headers=header)
print(resp.text)  # 输出网页源代码1.
2.

步骤 4：解析网页结构

用lxml的 XPath 定位数据位置（可以理解为 “在网页里找数据的坐标”）：

html = etree.HTML(resp.text)  # 把代码转成可解析的格式
# 定位到存放二手车信息的区域
divs = html.xpath('//*[@id="goodStartSolrQuotePriceCore0"]/ul/li')
# 准备3个空列表存数据
car_type1 = []   # 车型
car_message1 = [] # 车辆信息
car_price1 = []  # 价格1.
2.
3.
4.
5.
6.
7.

步骤 5：提取数据到列表

循环遍历刚才定位的区域，把 “车型、信息、价格” 分别塞进列表里，最后用pandas整理成表格：

for div in divs:
    # 提取车型
    car_type = div.xpath('./a/div[3]/h4/text()')
    if car_type:
        car_type1.append(car_type[0])
    # 提取车辆信息
    car_message = div.xpath('./a/div[3]/p/text()')
    if car_message:
        car_message1.append(car_message[0])
    # 提取价格（把多个文本拼接成字符串）
    car_price = ''.join(div.xpath('./a/div[3]/div/span//text()'))
    if car_price:
        car_price1.append(car_price)
# 转成DataFrame表格
dic = {'车型': car_type1, '信息': car_message1, '车价': car_price1}
data = pd.DataFrame(dic)1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.

步骤 6：数据存成 Excel/CSV

最后一步超简单！一行代码把数据存成文件，直接就能用 Excel 打开：

data.to_excel('温州二手车信息.xlsx')  # 存为Excel
data.to_csv('温州二手车信息.csv')    # 存为CSV1.
2.

注意事项

代码里的 XPath 是针对 “车 168 温州页面” 写的，换网站要重新定位哦
爬取数据请遵守网站的robots.txt协议，不要频繁请求～

上面就是python爬虫数据抓取的代码，这是一个模板，大家参考这个模板抓取自己想要网站上的数据。

相关标签:

AI 大模型资讯

上一篇：Pandas 实战九：时序数据处理，日期筛选/统计分析一看就会下一篇：针对开源漏扫的供应链攻击：Trivy 漏洞扫描器遭植入窃密后门

相关推荐

技能收益追踪器：监控 Openclaw 技能并实现变现什么是技能收益追踪器？技能收益追踪器是一款专业级实用工具，旨在弥合 AI 开发与经济可持续性之间的鸿沟。随着开发者开始将作品变现，该工具提供了必要的基础设施，用于监控 ClawHub、EvoMap 和

2026-03-30

立即查看

信号管道：自动化营销情报工具 - Openclaw Skills 什么是信号管道？信号管道是一个复杂的数据采集和内容合成工具，旨在将碎片化的数字噪音转化为结构化的营销情报。作为 Openclaw Skills 的多功能组件，该系统坚控高价值来源，包括 RSS 订阅、X

2026-03-30

立即查看

AI 合规准备就绪度：评估与治理工具 - Openclaw Skills 什么是 AI 合规准备就绪度？此技能为组织提供了一个全面的框架，用于从八个关键维度评估其 AI 合规态势。它通过分析风险分类、偏差缓解和数据来源，弥合了技术 AI 部署与复杂监管要求之间的差距。利用这些 O

2026-03-30

立即查看

FOSMVVM ServerRequest 测试生成器：自动化 API 测试 - Openclaw Skills 什么是 FOSMVVM ServerRequest 测试生成器？ FOSMVVM ServerRequest 测试生成器是 Openclaw Skills 生态系统中的专用工具，旨在简化服务端 Swift 单元

2026-03-30

立即查看

专题

#Grok

Grok脚本资源网站，提供G

+ 收藏

#Sora2

Sora2脚本资源网站，提供S

+ 收藏

#通义万相

通义万相脚本资源网站，提供通

+ 收藏

#海螺AI

海螺AI脚本资源网站，提供海

+ 收藏

#可灵AI

可灵AI脚本资源网站，提供可

+ 收藏

#Kling3.0

Kling3.0脚本资源网站，提

+ 收藏

最新数据

为什么 K8S 必须把 containerd 的 cgroup 驱动改成 systemd？今天分享一个比较底层的原理：

Python 代码优化指南：十个让代码更优雅的技巧

.NET Task.WaitAll和Task.WaitAny：一文看懂并发等待的两种姿势

趣谈网络协议栈，以太网基础MAC和PHY

刚刚，OpenAI自曝：内部如何把“最新GPT模型”改造成“长时程干活智能体”！

线程安全：Python 多线程最容易忽视的五个点

警惕！各个大厂都弃用 ForEach！隐患太大了！

三大工具横评：Pandas/Polars/DuckDB 怎么选？不同数据规模最优解汇总

模板方法模式：为什么你的代码重复率这么高？模板方法模式了解一下

告别加班！五分钟 Python 脚本，解决数据分析 90% 的重复劳动

相关文章

NanoClaw 开源轻量级个人AI助手安全可靠的OpenClaw替代方案

MonsterClaw 采用 OpenClaw 技术打造的本地化AI运行平台

TinyClaw 由TinyAGI推出的开源轻量级多智能体协作框架

携程酒店业务借助NebulaGraph实现月均风控止损逾百万元

稀宇科技开源MiniMax Office Skills生产级办公文档引擎

ToClaw由ToDesk打造的专业定制AI智能体

TypeNo 免费开源的中文AI语音输入法无需配置直接使用

Sub2API 开源人工智能API中转网关平台具备多账户管理功能

阿里通义推出视频生成音频框架PrismAudio

Luma AI发布Uni-1模型实现图像理解与生成一体化

AI精选

更多

MCP 协议深度解析：构建 A

OpenClaw 真正的效率开

Anthropic 的 Harness 启示：当 AI Agent 开始「长跑」，架构才是真正的天花板

AI Agent 智能体 - Multi-Agent 架构入门

RAG 不一定非得靠向量库：一套更偏工程落地的“结构化推理检索”方案

一文搞懂深度学习中的池化！

一文搞懂卷积神经网络经典架构-LeNet

告别 Vibe Coding：用 SDD 让 AI 编程提效 50%，三工具实战对比

Agent 语音交互如何更稳、更快？一次高并发消息链路优化实践

# AI 终于能"干活"了——Function Calling 完全指南

脚本推荐

SeeDance 2.0 Video Creator专区

OpenClaw AI专区

cowork专区

claude code skills专区