AI大语言模型时代,我的简易爬虫方法分享

一、静态内容抓取:先转文档,再让AI解读

静态内容主要指技术文档、学术文章、行业报告等内容固定、不随时间或交互变化的网页,这类内容的抓取逻辑是将网页内容转化为LLM友好的文档格式,再通过AI工具提取关键信息、解读核心内容,避免直接抓取网页源码的冗余与杂乱。

(1)浏览器插件:SingleFile

SingleFile可将整个网页(包括文本、图片、样式、脚本等所有元素)完整保存为单个HTML文件,解决了传统网页保存时“资源丢失、格式错乱”的问题,为后续AI解读提供完整的内容基础。安装后只需点击浏览器工具栏中的插件图标,即可一键保存当前网页。保存后的HTML文件可直接在浏览器中打开,保持原网页的完整排版与内容,且不依赖网络离线可用。相较于普通的“网页另存为”,SingleFile无需创建多余的文件夹,单个文件即可存储完整网页,方便后续导入WPS、AI对话工具等进行二次处理,尤其适合保存结构复杂的技术文档和学术文章,避免因资源缺失导致AI解读不完整。

(2)API工具:Jina Reader

Jina Reader是Jina AI推出的一款免费内容解析API工具,可精准提取网页核心内容,转化为LLM友好的格式,无需手动处理网页广告、导航栏、页脚等冗余信息,直接输出纯净的Markdown、JSON等格式,大幅降低AI解读的token消耗,提升信息提取效率。

该工具无需注册账号(高并发场景可申请API Key提升速率),使用方式极简,只需在任意网页、图片或PDF的URL前添加前缀“https://r.jina.ai/”,回车后即可获取解析后的内容,支持多语言、复杂排版的网页解析,还能轻松绕过部分网站的反爬限制,甚至可直接解析付费墙、需登录才能查看的内容。

以下是命令行调用方式,覆盖不同使用场景:

  • 普通读取:适用于大多数静态网页,直接获取Markdown格式的核心内容,命令如下:

curl "https://r.jina.ai/你的网页URL";

  • 开启图像自动描述:若网页包含图片,添加该参数后,工具会自动用视觉语言模型(VLM)生成图片描述,让文本-only的LLM也能“看懂”图片内容,命令如下:

curl -H "x-with-generated-alt: true" "https://r.jina.ai/你的图片或网页URL";

  • 输出JSON结构化数据:适用于需要批量处理、数据统计的场景,解析后的数据以JSON格式返回,便于后续导入表格工具进行整理,命令如下:

curl -H "Accept: application/json" "https://r.jina.ai/你的URL";

  • 读取PDF:无需额外安装PDF解析工具,直接在PDF文件URL前添加前缀,即可解析PDF内容并转化为Markdown,适合抓取学术论文、行业报告等PDF文档,命令如下:

curl "https://r.jina.ai/https://www.nasa.gov/xxx.pdf"(替换为目标PDF链接)。

此外,Jina Reader还支持流式输出、指定内容提取等进阶功能,免费用户可获得1000万token,完全满足日常非商业使用需求,进阶玩家还可将其用于个人RAG构建、批量PDF处理等场景。

(3)WPS浏览器助手/金山文档公众号

无缝衔接WPS生态,无需切换多个工具,即可完成网页转档、AI解读、编辑保存全流程,省去了“抓取-转档-导入”的繁琐步骤,尤其适合需要将抓取内容直接用于WPS办公的场景。

  • WPS浏览器助手:在浏览器中安装WPS浏览器助手插件(https://tool.kdocs.cn/browser_assistant/download),安装完成后,打开目标网页,点击插件图标,选择“收藏网页”或“转为智能文档”,即可将网页内容同步到WPS云空间,自动去除冗余信息,生成结构化的智能文档,后续可直接在WPS中编辑、导出为Word或PDF格式,还能借助WPS内置的灵犀AI进行内容总结、解读,无需额外发送给其他AI工具;

  • 金山文档公众号:无需安装插件,打开目标网页,复制网页链接,发送给“金山文档”微信公众号,公众号会自动解析网页内容,生成智能文档,点击链接即可进入编辑页面,后续可导出为Word、PDF等格式。

该方法对于微信公众号的文章抓取效果比较好,但是对于飞书文档等的抓取效果较差:https://bbs.wps.cn/topic/82089

(4)浏览器插件:Webpage To Markdown

Webpage To Markdown可一键将网页正文干净提取为标准 Markdown 格式

  • 自动过滤广告、导航、侧边栏,只保留正文与标题层级

  • 输出格式严格遵循 Markdown 语法,可直接粘贴给大模型解读

  • 支持图片、代码块、表格完整保留

  • 体积小、响应快,不占内存,无后台请求

前往 Chrome 网上应用店搜索 Webpage To Markdown,或直接访问官方插件页安装:https://chromewebstore.google.com/detail/webpage-to-markdown/ajeinonckioeekcfanjndliandidilid安装后只需点击浏览器工具栏中的插件图标,即可一键保存当前网页。

二、动态内容抓取:AI对话中调用工具,实时获取

动态内容主要指时事热点、天气、实时数据、动态渲染页面(如SPA页面)等内容随时间、交互变化的网页,这类内容无法通过简单的转档方式抓取,抓取逻辑是在AI对话中直接调用工具,让AI自主完成网页访问、抓取与解析,无需手动编写爬虫脚本,高效获取实时信息。

(1)MCP工具

MCP(Model Control Protocol)是AI与外部工具交互的核心协议,可以让AI拥有操作浏览器、访问网页的能力,通过在AI对话中调用MCP工具,可实现动态网页的访问、元素点击、内容抓取等操作,无需手动干预。

  • Fetch MCP:可实现简单网页访问与内容抓取,在AI对话中输入指令(如“调用Fetch MCP访问XX网页,抓取最新时事热点”),AI即可自主调用工具,获取网页核心内容并解析,适合抓取结构简单的动态网页(如新闻列表、天气页面);

  • PlayWright MCP:微软推出的浏览器自动化MCP工具,可模拟真实用户操作,适配复杂动态页面,思路是给AI提供可访问性树(过滤冗余DOM元素),Token消耗极低,且具备Auto-wait自动等待机制,AI发出点击、导航等指令后,工具会自动等待页面元素加载完成再执行,避免因元素未加载导致抓取失败,适合抓取需要交互(如点击翻页、切换标签)的动态页面(如电商商品列表、招投标公告);

  • Chrome DevTools MCP:谷歌推出的开发者工具MCP,可全量获取网页信息,支持深度调试,直接封装Chrome DevTools协议,向AI开放浏览器内部运行时状态(网络请求、JS调用栈、性能轨迹等),信息覆盖全面,但Token消耗较高,适合抓取需要深度分析的动态页面(如排查网页加载异常、获取网络请求数据),多用于复杂场景的辅助抓取。

(2)Skill工具

Skill技能可以将复杂的MCP调用、爬虫逻辑,封装成AI可直接调用的“技能插件”,无需手动编写调用参数,只需在AI对话中输入自然语言指令,AI即可自主选择Skill完成抓取任务,大幅降低动态抓取的操作门槛,提升效率。Skill工具可解耦AI决策与执行,AI负责理解用户需求、拆解任务,Skill负责执行具体的抓取操作,且可重复使用、自由组合,比如将“登录Skill”与“抓取Skill”结合,可完成需要登录的动态页面抓取,适配更复杂的场景。

  • Agent Browser Skill:AI原生交互设计,专为AI Agent打造的交互层,能将网页可交互元素提取为带编号的“无障碍访问树”,大幅降低Token消耗(较传统HTML解析省93%),且元素编号不会因网页样式变化失效,同时支持会话持久化、云化部署,可轻松绕过部分平台访问限制。

https://skills.sh/vercel-labs/agent-browser/agent-browser

  • Browser Use Skill:轻量 stealth 浏览器能力,内置隐秘模式可绕过验证码、伪装浏览器指纹,支持本地与云端双模式运行,且能通过单API密钥接入整个云端生态,无需复杂配置即可实现持久化登录和高效抓取,同时支持Python SDK和CLI两种调用方式,适配多场景使用需求。

https://skills.sh/browser-use/browser-use/browser-use

  • Playwright CLI Skill:微软官方出品,深度适配Playwright浏览器自动化引擎,专注于令牌高效型浏览器自动化,支持有头/无头两种运行模式,可直接通过命令行和AI Agent调用,无需编写完整代码,且能实现会话管理、截图验证、表单自动化等进阶功能,与微软生态工具兼容性极强,适合需要稳定、高效浏览器自动化的场景。

https://skills.sh/microsoft/playwright-cli/playwright-cli

  • Playwright Skill:OpenAI官方出品,深度适配GPT系列模型(尤其GPT-5.4),能实现代码与视觉双模式调试Web应用,无需手动编写Playwright代码,AI可根据自然语言指令自动生成浏览器操作脚本,且支持MCP协议对接,能与各类AI Agent无缝集成,大幅降低Playwright使用门槛,适合依赖OpenAI生态的用户使用。

https://skills.sh/openai/skills/playwright

  • Chrome DevTools MCP Skill:Chrome官方团队维护,深度封装Chrome DevTools协议与MCP协议,是唯一能让AI完整获取浏览器运行时状态的Skill,包含26个强大的浏览器操作工具,支持读取控制台日志、网络请求、DOM结构,还能执行性能分析、截图、页面交互,同时具备会话持久化能力,可保留登录Cookie和Session,无需重复登录,稳定性和兼容性拉满。

https://skills.sh/chromedevtools/chrome-devtools-mcp/chrome-devtools

  • Chrome DevTools Skill:专为AI Copilot类工具(如GitHub Copilot、Cursor Copilot)量身打造,是一款轻量级技能插件,支持捆绑脚本、代码模板等资源,AI可按需加载使用,无需手动编写辅助代码,核心适配代码调试与网页抓取结合的场景,完美兼容各类Copilot类AI助手,可快速衔接代码编写与网页抓取流程。

https://skills.sh/github/awesome-copilot/chrome-devtools

北京
浏览 118
1
3
分享
3 +1
1
1 +1
全部评论 1
 
fbfbzz
学习了
· 江苏省
1
回复