LangChain 30 天保姆级教程 · Day 16｜文档加载器大合集！PDF、Word、网页、数据库一键读取，构建你的知识库！-脚本在线

首页前沿速递服务器教程网页设计教程网络编辑教程

移动端

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

LangChain 30 天保姆级教程 · Day 16｜文档加载器大合集！PDF、Word、网页、数据库一键读取，构建你的知识库！

作者：互联网

2026-04-14

HTML教程

一、为什么需要 Document Loaders？

在构建 RAG（检索增强生成）系统时，第一步永远是：把非结构化数据变成纯文本。

但现实中的知识分散在：

PDF 技术手册
Word 产品文档
公司官网/Confluence
数据库 FAQ 表
邮件/会议纪要

手动复制粘贴？不可能！

LangChain 的 Document Loaders 就是“万能读取器” —— 它封装了各种解析逻辑，统一输出为 List[Document] 对象：

from langchain_core.documents import Document

docs = loader.load()
# [Document(page_content="...", metadata={"source": "xxx.pdf", "page": 1}), ...]

二、必备依赖安装

不同格式需要不同后端库，按需安装：

# 通用（推荐）
pip install unstructured[pdf,docx]  # 支持 PDF/Word/PPT 等

# 或单独安装
pip install pypdf                 # 轻量 PDF
pip install python-docx           # Word (.docx)
pip install beautifulsoup4 lxml   # 网页 HTML
pip install sqlalchemy            # 数据库

️ 三、实战 1：读取 PDF（技术手册/论文）

方案 A：轻量级（`PyPDFLoader`）

# day16_document_loaders.py
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("docs/ai_whitepaper.pdf")
docs = loader.load()

print(f"共加载 {len(docs)} 页")
print("第1页内容预览：", docs[0].page_content[:100])

优点：快、轻量
缺点：不支持扫描版 PDF（图片）

方案 B：全能型（`UnstructuredPDFLoader`）

from langchain_community.document_loaders import UnstructuredPDFLoader

loader = UnstructuredPDFLoader(
    "docs/ai_whitepaper.pdf",
    mode="elements",        # 保留标题/段落结构
    strategy="fast"         # fast / hi_res（高精度但慢）
)
docs = loader.load()

️ 四、实战 2：读取 Word 文档（.docx）

from langchain_community.document_loaders import Docx2txtLoader

loader = Docx2txtLoader("docs/product_spec.docx")
docs = loader.load()

print("Word 文档内容：", docs[0].page_content[:100])

️ 五、实战 3：抓取网页内容（去广告+正文提取）

from langchain_community.document_loaders import WebBaseLoader

# 自动去除导航栏、广告，提取正文
loader = WebBaseLoader(
    web_paths=["https://example.com/blog/ai-trends"],
    bs_kwargs=dict(parse_only=...)  # 可选：指定 HTML 标签
)
docs = loader.load()

print("网页标题：", docs[0].metadata.get("title"))
print("正文预览：", docs[0].page_content[:100])

️ 六、实战 4：读取数据库记录（FAQ 表）

假设你有 MySQL/PostgreSQL 中的 faq 表：

表格

id	question	answer
1	如何退货？	请登录...

from langchain_community.document_loaders import SQLDatabaseLoader
from langchain_community.utilities import SQLDatabase

# 连接数据库（示例为 SQLite）
db = SQLDatabase.from_uri("sqlite:///company.db")

# 加载 faq 表，拼接 question + answer
loader = SQLDatabaseLoader(
    query="SELECT question || ' ' || answer AS content FROM faq",
    db=db
)
docs = loader.load()

print("FAQ 条目数：", len(docs))

️ 七、实战 5：批量加载整个目录（混合格式）

from langchain_community.document_loaders import DirectoryLoader

# 自动根据扩展名选择加载器
loader = DirectoryLoader(
    "knowledge_base/",
    glob="**/*.pdf",          # 只加载 PDF
    show_progress=True,       # 显示进度条
    use_multithreading=True   # 多线程加速
)
docs = loader.load()

print(f"共加载 {len(docs)} 个文档片段")

八、后处理：清洗与分块（为向量化准备）

加载后的文本通常需要清洗：

from langchain_text_splitters import RecursiveCharacterTextSplitter

# 1. 去除多余空白
cleaned_docs = [
    Document(page_content=doc.page_content.replace("nn", "n").strip(), metadata=doc.metadata)
    for doc in docs
]

# 2. 分块（RAG 必需）
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=["nn", "n", "。", "！", "？", "；", " ", ""]
)
chunks = text_splitter.split_documents(cleaned_docs)

print(f"分块后：{len(chunks)} 个片段")

️ 九、注意事项 & 最佳实践

表格

问题	建议
PDF 解析乱码	指定 `encoding="utf-8"`；或用 `Unstructured` 的 `hi_res` 模式
网页加载超时	设置 `requests_per_second` 限速；加 retry
Word 表格丢失	用 `unstructured` 替代 `docx2txt`
数据库敏感信息	在 SQL 查询中脱敏，勿直接 SELECT *
内存爆炸	对大目录使用 `yield_per` 分批加载

十、配套代码结构

langchain-30-days/
└── day16/
    ├── document_loaders_demo.py   # PDF/Word/网页/数据库加载示例
    └── knowledge_base/           # 测试文档目录
        ├── manual.pdf
        └── spec.docx

十一、今日小结

理解了 Document Loaders 在 RAG 中的基础作用
掌握了 PDF、Word、网页、数据库四大场景的加载方法
学会了用 DirectoryLoader 批量处理混合格式
实践了文本清洗与智能分块
知道了各加载器的优缺点与适用边界

上一篇：python从入门到精通-第0章: 思维模式碰撞下一篇：ReentrantReadWriteLock、ReentrantLock、synchronized 对比

相关推荐

表空间自动目录创建与存储管理实践：参数化配置与性能优化当谈及企业级数据库的部署与运维时，存储空间的管理以及目录权限的把控是保障系统稳定运行的关键所在，这是众人都知道的。

2026-04-14

立即查看

LangChain 30 天保姆级教程 · Day 16｜文档加载器大合集！PDF、Word、网页、数据库一键读取，构建你的知识库！ ? 一、为什么需要 Document Loaders？在构建 RAG（检索增强生成）系统时，第一步永远是：把非结构化数据变成纯文本。但现实中的知识分散在： ? PDF 技术手册 ? Word 产品

2026-04-14

立即查看

python从入门到精通-第0章: 思维模式碰撞第0章: 思维模式碰撞 0.1 编译型 vs 解释型: 运行机制本质差异 Java/Kotlin 对比 Java/Kotlin 的运行流程：源代码 → 编译器 → 字节码(.class) 字节码 →

2026-04-14

立即查看

Meta Muse Spark 的"思维压缩"到底是什么？我用 Python 复现了核心思路（附代码） 3 天前 Meta 发布了 Muse Spark，第一个闭源模型，也是 Meta 超级智能实验室的第一个产品。抛开"Meta 背叛开源"这个话题不谈，这个模型有个技术点很值得聊

2026-04-14

立即查看

专题

#蛋仔派对

提供蛋仔派对最新官方活动解析

+ 收藏

#Grok

Grok脚本资源网站，提供G

+ 收藏

#Sora2

Sora2脚本资源网站，提供S

+ 收藏

#通义万相

通义万相脚本资源网站，提供通

+ 收藏

#海螺AI

海螺AI脚本资源网站，提供海

+ 收藏

#可灵AI

可灵AI脚本资源网站，提供可

+ 收藏

最新数据

全民k歌网页版登录入口-全民k歌在线登录全民K歌网页版登录入口为用户

钉钉网页版入口-钉钉在线登录官网2026

表空间自动目录创建与存储管理实践：参数化配置与性能优化

大V说’AI替代不了你’，但现实是——用AI的人正在替代你

MySQL性能优化的天花板：10条你必须掌握的顶级SQL分析技巧

Meta Muse Spark 的"思维压缩"到底是什么？我用 Python 复现了核心思路（附代码）

「AI学习笔记」RNN

4.响应式系统基础：从发布订阅模式的角度理解 Vue3 的数据响应式原理

目录：VTJ.PRO 在线应用开发平台技术揭秘

漫蛙漫画-漫蛙漫画官网在线免费看

相关文章

css怎样隐藏表格上边框

css怎样设置同一行字的格式不同

css3怎样实现鼠标悬浮停止动画效果

分享20个首页流行布局样式，总有一款适合你！

css怎么实现禁止点击

利用CSS如何实现图片轮播效果？（代码示例）

css中怎么改变超链接颜色

css样式表常驻留在文档的什么区域中

css怎么消除块元素

什么是css继承

AI精选

更多

JSON 三联画提示词：温馨

高端时尚美妆特写肖像提示词，

卡拉瓦乔遇上国家地理式解剖

奢华私人飞机拍摄提示，适合时尚年轻女性

适用于 Nano Banana Pro 的分屏场景‘发薪日之前和之后’提示

奢华网球专题 2x2 网格图生图提示词适用于 Nano Banana Pro

红色背景下的高级时尚杂志风人像

适用于 Nano Banana Pro 的韩系模特风格肖像提示词

以反狙击为灵感的日式和菓子

以期货交易惨败为灵感的可爱风便当

脚本推荐

SeeDance 2.0 Video Creator专区

OpenClaw AI专区

cowork专区

claude code skills专区