问 AI大语言模型时代，我的简易爬虫方法分享

Lv.2潜力创作者

一、静态内容抓取：先转文档，再让AI解读

静态内容主要指技术文档、学术文章、行业报告等内容固定、不随时间或交互变化的网页，这类内容的抓取逻辑是将网页内容转化为LLM友好的文档格式，再通过AI工具提取关键信息、解读核心内容，避免直接抓取网页源码的冗余与杂乱。

（1）浏览器插件：SingleFile

SingleFile可将整个网页（包括文本、图片、样式、脚本等所有元素）完整保存为单个HTML文件，解决了传统网页保存时“资源丢失、格式错乱”的问题，为后续AI解读提供完整的内容基础。安装后只需点击浏览器工具栏中的插件图标，即可一键保存当前网页。保存后的HTML文件可直接在浏览器中打开，保持原网页的完整排版与内容，且不依赖网络离线可用。相较于普通的“网页另存为”，SingleFile无需创建多余的文件夹，单个文件即可存储完整网页，方便后续导入WPS、AI对话工具等进行二次处理，尤其适合保存结构复杂的技术文档和学术文章，避免因资源缺失导致AI解读不完整。

（2）API工具：Jina Reader

Jina Reader是Jina AI推出的一款免费内容解析API工具，可精准提取网页核心内容，转化为LLM友好的格式，无需手动处理网页广告、导航栏、页脚等冗余信息，直接输出纯净的Markdown、JSON等格式，大幅降低AI解读的token消耗，提升信息提取效率。

该工具无需注册账号（高并发场景可申请API Key提升速率），使用方式极简，只需在任意网页、图片或PDF的URL前添加前缀“https://r.jina.ai/”，回车后即可获取解析后的内容，支持多语言、复杂排版的网页解析，还能轻松绕过部分网站的反爬限制，甚至可直接解析付费墙、需登录才能查看的内容。

以下是命令行调用方式，覆盖不同使用场景：

普通读取：适用于大多数静态网页，直接获取Markdown格式的核心内容，命令如下：

curl "https://r.jina.ai/你的网页URL"；

开启图像自动描述：若网页包含图片，添加该参数后，工具会自动用视觉语言模型（VLM）生成图片描述，让文本-only的LLM也能“看懂”图片内容，命令如下：

curl -H "x-with-generated-alt: true" "https://r.jina.ai/你的图片或网页URL"；

输出JSON结构化数据：适用于需要批量处理、数据统计的场景，解析后的数据以JSON格式返回，便于后续导入表格工具进行整理，命令如下：

curl -H "Accept: application/json" "https://r.jina.ai/你的URL"；

读取PDF：无需额外安装PDF解析工具，直接在PDF文件URL前添加前缀，即可解析PDF内容并转化为Markdown，适合抓取学术论文、行业报告等PDF文档，命令如下：

curl "https://r.jina.ai/https://www.nasa.gov/xxx.pdf"（替换为目标PDF链接）。

此外，Jina Reader还支持流式输出、指定内容提取等进阶功能，免费用户可获得1000万token，完全满足日常非商业使用需求，进阶玩家还可将其用于个人RAG构建、批量PDF处理等场景。

（3）WPS浏览器助手/金山文档公众号

无缝衔接WPS生态，无需切换多个工具，即可完成网页转档、AI解读、编辑保存全流程，省去了“抓取-转档-导入”的繁琐步骤，尤其适合需要将抓取内容直接用于WPS办公的场景。

WPS浏览器助手：在浏览器中安装WPS浏览器助手插件（https://tool.kdocs.cn/browser_assistant/download），安装完成后，打开目标网页，点击插件图标，选择“收藏网页”或“转为智能文档”，即可将网页内容同步到WPS云空间，自动去除冗余信息，生成结构化的智能文档，后续可直接在WPS中编辑、导出为Word或PDF格式，还能借助WPS内置的灵犀AI进行内容总结、解读，无需额外发送给其他AI工具；

金山文档公众号：无需安装插件，打开目标网页，复制网页链接，发送给“金山文档”微信公众号，公众号会自动解析网页内容，生成智能文档，点击链接即可进入编辑页面，后续可导出为Word、PDF等格式。

该方法对于微信公众号的文章抓取效果比较好，但是对于飞书文档等的抓取效果较差：https://bbs.wps.cn/topic/82089。

（4）浏览器插件：Webpage To Markdown

Webpage To Markdown可一键将网页正文干净提取为标准 Markdown 格式。

自动过滤广告、导航、侧边栏，只保留正文与标题层级

输出格式严格遵循 Markdown 语法，可直接粘贴给大模型解读

支持图片、代码块、表格完整保留

体积小、响应快，不占内存，无后台请求

前往 Chrome 网上应用店搜索 Webpage To Markdown，或直接访问官方插件页安装：https://chromewebstore.google.com/detail/webpage-to-markdown/ajeinonckioeekcfanjndliandidilid，安装后只需点击浏览器工具栏中的插件图标，即可一键保存当前网页。

二、动态内容抓取：AI对话中调用工具，实时获取

动态内容主要指时事热点、天气、实时数据、动态渲染页面（如SPA页面）等内容随时间、交互变化的网页，这类内容无法通过简单的转档方式抓取，抓取逻辑是在AI对话中直接调用工具，让AI自主完成网页访问、抓取与解析，无需手动编写爬虫脚本，高效获取实时信息。

（1）MCP工具

MCP（Model Control Protocol）是AI与外部工具交互的核心协议，可以让AI拥有操作浏览器、访问网页的能力，通过在AI对话中调用MCP工具，可实现动态网页的访问、元素点击、内容抓取等操作，无需手动干预。

Fetch MCP：可实现简单网页访问与内容抓取，在AI对话中输入指令（如“调用Fetch MCP访问XX网页，抓取最新时事热点”），AI即可自主调用工具，获取网页核心内容并解析，适合抓取结构简单的动态网页（如新闻列表、天气页面）；

PlayWright MCP：微软推出的浏览器自动化MCP工具，可模拟真实用户操作，适配复杂动态页面，思路是给AI提供可访问性树（过滤冗余DOM元素），Token消耗极低，且具备Auto-wait自动等待机制，AI发出点击、导航等指令后，工具会自动等待页面元素加载完成再执行，避免因元素未加载导致抓取失败，适合抓取需要交互（如点击翻页、切换标签）的动态页面（如电商商品列表、招投标公告）；

Chrome DevTools MCP：谷歌推出的开发者工具MCP，可全量获取网页信息，支持深度调试，直接封装Chrome DevTools协议，向AI开放浏览器内部运行时状态（网络请求、JS调用栈、性能轨迹等），信息覆盖全面，但Token消耗较高，适合抓取需要深度分析的动态页面（如排查网页加载异常、获取网络请求数据），多用于复杂场景的辅助抓取。

（2）Skill工具

Skill技能可以将复杂的MCP调用、爬虫逻辑，封装成AI可直接调用的“技能插件”，无需手动编写调用参数，只需在AI对话中输入自然语言指令，AI即可自主选择Skill完成抓取任务，大幅降低动态抓取的操作门槛，提升效率。Skill工具可解耦AI决策与执行，AI负责理解用户需求、拆解任务，Skill负责执行具体的抓取操作，且可重复使用、自由组合，比如将“登录Skill”与“抓取Skill”结合，可完成需要登录的动态页面抓取，适配更复杂的场景。

Agent Browser Skill：AI原生交互设计，专为AI Agent打造的交互层，能将网页可交互元素提取为带编号的“无障碍访问树”，大幅降低Token消耗（较传统HTML解析省93%），且元素编号不会因网页样式变化失效，同时支持会话持久化、云化部署，可轻松绕过部分平台访问限制。

https://skills.sh/vercel-labs/agent-browser/agent-browser

Browser Use Skill：轻量 stealth 浏览器能力，内置隐秘模式可绕过验证码、伪装浏览器指纹，支持本地与云端双模式运行，且能通过单API密钥接入整个云端生态，无需复杂配置即可实现持久化登录和高效抓取，同时支持Python SDK和CLI两种调用方式，适配多场景使用需求。

https://skills.sh/browser-use/browser-use/browser-use

Playwright CLI Skill：微软官方出品，深度适配Playwright浏览器自动化引擎，专注于令牌高效型浏览器自动化，支持有头/无头两种运行模式，可直接通过命令行和AI Agent调用，无需编写完整代码，且能实现会话管理、截图验证、表单自动化等进阶功能，与微软生态工具兼容性极强，适合需要稳定、高效浏览器自动化的场景。

https://skills.sh/microsoft/playwright-cli/playwright-cli

Playwright Skill：OpenAI官方出品，深度适配GPT系列模型（尤其GPT-5.4），能实现代码与视觉双模式调试Web应用，无需手动编写Playwright代码，AI可根据自然语言指令自动生成浏览器操作脚本，且支持MCP协议对接，能与各类AI Agent无缝集成，大幅降低Playwright使用门槛，适合依赖OpenAI生态的用户使用。

https://skills.sh/openai/skills/playwright

Chrome DevTools MCP Skill：Chrome官方团队维护，深度封装Chrome DevTools协议与MCP协议，是唯一能让AI完整获取浏览器运行时状态的Skill，包含26个强大的浏览器操作工具，支持读取控制台日志、网络请求、DOM结构，还能执行性能分析、截图、页面交互，同时具备会话持久化能力，可保留登录Cookie和Session，无需重复登录，稳定性和兼容性拉满。

https://skills.sh/chromedevtools/chrome-devtools-mcp/chrome-devtools

Chrome DevTools Skill：专为AI Copilot类工具（如GitHub Copilot、Cursor Copilot）量身打造，是一款轻量级技能插件，支持捆绑脚本、代码模板等资源，AI可按需加载使用，无需手动编写辅助代码，核心适配代码调试与网页抓取结合的场景，完美兼容各类Copilot类AI助手，可快速衔接代码编写与网页抓取流程。

https://skills.sh/github/awesome-copilot/chrome-devtools

WPS AI

2026-03-08 03:30:22 北京

4 +1

1 +1