建议改进WPS浏览器助手的网页收藏功能,支持网页转Markdown
一、WPS浏览器助手网页内容抓取失败的原因分析
以https://docs.coze.cn/guides/、https://docs.feishu.cn/article/wiki/UpppwiKqeihIx3kNjmtcECownlg为例,WPS浏览器助手在抓取网页时遇到的核心问题,通常源于网站的多层级防护机制与WPS抓取技术的落后性,具体分析如下:
1.1 网站的核心反爬与内容保护机制
权限与身份验证严格:网站采用基于Cookie+Token的双重认证,未登录用户无法访问内容,且文档所有者可设置禁止复制、导出、创建副本等权限
动态渲染与内容加载策略:
采用SPA单页应用架构,内容通过JavaScript动态加载,初始HTML仅包含框架,无实质内容
长文档使用分段懒加载,仅渲染当前视口内容,滚动后才加载更多内容
图片以blob:URL形式存储,无法直接通过常规URL抓取
前端限制措施:
禁用右键菜单、文本选择、复制粘贴等操作
监听并阻止copy、cut、selectstart等事件
使用CSS遮挡技术防止内容被选中,或通过user-select: none属性限制文本选择
API层防护:
文档内容API设置请求频率限制和Referer验证
响应数据可能经过加密或混淆处理,难以直接解析
1.2 WPS浏览器助手的技术局限性
抓取方式单一:主要依赖静态HTML解析,缺乏对SPA和动态内容的深度处理能力,无法触发JavaScript加载更多内容
权限处理不足:WPS浏览器助手可能未完整模拟用户登录状态,或无法绕过飞书的精细化权限控制
内容提取策略简单:倾向于提取页面可见文本,对隐藏内容、动态加载模块、特殊格式元素处理能力弱
反反爬能力薄弱:未针对飞书这类强防护平台优化,缺少模拟用户行为(如滚动)、突破前端限制、处理blob链接等机制
1.3 典型失效场景
仅能抓取文档标题和部分可见文本,长文档后半部分内容缺失
图片无法正常显示,仅保留占位符或错误链接
表格、代码块、公式等特殊元素格式错乱或丢失
权限受限文档直接抓取失败,返回空白或权限提示页面
在语言大模型时代,网页剪藏工具通常采用Markdown格式,下面详细分析网页转Markdown工具的特征。
二、网页转Markdown工具的实现原理
2.1 核心技术架构与转换流程
主流网页转Markdown工具均遵循"内容获取→净化→转换→输出"四步流程,核心依赖两大技术:
技术组件 | 核心作用 | 代表工具 |
内容提取引擎 | 解析HTML结构,提取主要内容,去除噪音 | Mozilla Readability、Arc90 Readability |
HTML→Markdown转换器 | 将净化后的HTML转换为标准Markdown语法 | Turndown、html-to-markdown |
具体实现步骤:
请求与渲染:获取网页HTML(静态或动态渲染)
内容净化:移除广告、导航、脚本等非核心内容,提取文章主体
结构解析:识别标题、列表、表格、链接、图片等元素
格式转换:将HTML标签映射为对应Markdown语法(如<h1>→#,<a>→[text](url))
后处理:优化格式、修复链接、处理特殊元素(如代码块高亮)
2.2 主流工具的技术特点与反爬规避策略
2.2.1 浏览器插件类
Webpage to Markdown(https://chromewebstore.google.com/detail/webpage-to-markdown/ajeinonckioeekcfanjndliandidilid):
基于Chrome浏览器扩展API开发,可直接访问网页完整DOM树,精准提取页面核心内容,同时保留原网页的结构层级,适配静态网页与简单SPA应用的内容抓取
反爬策略:内置脚本注入功能,可自动解除网页user-select: none限制、重写copy、selectstart等事件绑定,突破前端复制与内容选择限制;支持手动触发页面滚动,加载懒加载内容,确保长文档抓取完整;自动解析blob链接图片,将<img>和<figure>元素转换为正确的Markdown图像语法,包括来自<figcaption>的标题,避免图片丢失图像与图表处理。
2.2.2 AI驱动抓取工具
Jina AI Reader:
采用浏览器自动化+智能解析组合,使用Playwright/Puppeteer模拟真实浏览器环境
反爬规避:
随机User-Agent+请求头,模拟不同浏览器和设备
智能请求频率控制,动态调整访问间隔
自动处理JavaScript渲染和懒加载内容,模拟滚动操作
支持代理池和Cookie池管理,避免IP和会话限制
Firecrawl:
多引擎架构:提供七种抓取引擎,适配不同网站防护等级
核心反爬技术:
动态内容深度处理:等待页面完全加载,执行JavaScript,滚动至底部加载所有内容
噪音过滤:智能识别并移除广告、导航、推荐等非核心内容
合规访问:遵循robots.txt协议,设置合理请求间隔
错误自动重试:针对403、503等状态码,自动更换代理或调整策略后重试
2.2.3 专业抓取工具
MinerU:
专注于结构化数据提取,支持复杂网页解析和反爬突破
反爬策略:
自定义请求头与Cookie,模拟登录状态
支持验证码自动识别
多线程+随机延迟,降低被识别为爬虫的概率
Fetch MCP:
基于Mozilla Readability库和Turndown,专注于文章类内容提取
反爬特点:通过浏览器环境模拟获取完整DOM,避免直接HTTP请求被拦截
2.3 网页转Markdown工具的通用反爬规避方法
反爬机制 | 规避策略 |
前端限制(禁止复制/选择) | 注入脚本重写事件监听,强制设置文本可选 |
动态渲染(SPA/懒加载) | 浏览器自动化,模拟滚动和交互 |
请求频率限制 | 随机延迟,动态调整访问间隔 |
IP封禁 | 代理池+IP轮换 |
User-Agent检测 | 随机User-Agent,模拟不同设备 |
权限验证 | 模拟登录,携带有效Cookie/Token |
blob链接图片 | 直接从DOM获取图片数据,重新编码保存 |
可惜WPS目前对Markdown格式的支持还非常有限。
三、WPS对Markdown的支持现状
3.1 WPS Markdown支持现状
WPS智能文档目前已经支持基础Markdown语法,如标题、列表、链接、图片等,但是高级语法(脚注、数学公式、Mermaid图表)支持有限。WPS现在尚不支持.md文件,无论是直接打开还是复制粘贴,均会出现大量空行、错乱,无法实施预览页面,格式转换容易丢失。
3.2 支持度弱的核心原因
技术架构历史包袱:
WPS核心基于富文本编辑器(RTF)架构,与Markdown的纯文本+标记理念冲突
从富文本到Markdown的双向转换需要复杂的格式映射,开发成本高
现有渲染引擎对Markdown特殊语法(如数学公式、流程图)支持不足
产品定位与用户群体考量:
WPS主要面向办公用户,而非程序员和技术写作者,Markdown需求优先级低
担心Markdown功能分散核心办公功能的开发资源
已有的富文本格式(.docx)能满足大多数用户需求,缺乏引入Markdown的迫切性
生态与兼容性问题:
Markdown存在多版本语法差异(CommonMark、GitHub Flavored等),统一支持难度大
与WPS现有功能(如宏、表单、复杂排版)的兼容性需要长期优化
移动端适配成本高,Markdown的纯文本编辑体验在触屏设备上不如富文本直观
本地文档采用OOXML格式,需要保持与Microsoft Office文件格式的兼容性;在线文档采用WPS自身的专有格式,与Markdown兼容性差
四、AI时代Markdown格式的重要性及WPS引入Markdown的必要性与可行性
4.1 AI时代Markdown的核心价值
人机协同的最佳载体:
Markdown的结构化纯文本特性与大模型处理方式高度契合,降低AI理解成本
清晰的标题层级(h1-h6)能引导模型理解文档上下文,减少逻辑偏差
任务列表(-[])、代码块等语法在模型眼中具有明确语义,提升交互准确性
内容创作与管理的效率革命:
轻量高效:无需复杂格式操作,专注内容创作,节省30%以上文档处理时间
跨平台兼容:纯文本格式可在任何设备和编辑器中打开,无格式错乱问题
版本控制友好:与Git等工具无缝集成,便于团队协作和内容回溯
低token成本:Markdown简洁语法减少AI交互时的token消耗,降低API费用
知识管理与内容分发的理想格式:
适合技术文档、知识库、帮助中心等场景,便于检索和维护
可快速转换为HTML、PDF、Word等多种格式,满足不同分发需求
支持嵌入图片、链接、代码等多媒体内容,表达能力强
4.2 WPS引入Markdown的必要性
应对市场竞争的战略需求:
竞品(如网站、腾讯文档、Obsidian、Notion)已全面支持Markdown,笔记软件、写作软件、编程软件等均以Markdown作为重要的技术亮点和卖点,争夺WPS等传统办公软件的生存空间,WPS面临功能落后风险
程序员、技术团队等高价值用户对Markdown有刚需,缺乏支持会导致用户流失
AI功能深化的基础支撑:
Markdown能提升WPS灵犀AI的内容理解与生成质量,实现更精准的格式转换和摘要生成
为**RAG(检索增强生成)**功能提供高质量结构化语料,提升问答准确性
如果WPS未来仍不支持Markdown格式,那么AI的许多基础设施(比如Skill.md、Agent.md等)也就不可能被引入了,WPS将在AI时代被更具通用性的原生大模型应用远远甩下。
满足用户多元化需求:
适应混合办公趋势,支持个人笔记、技术文档、团队协作等多场景应用
网页数据抓取是表格工作者最常用的功能之一,完善Markdown格式支持并与网页收藏功能深度整合,可以大大提高工作效率
4.3 WPS引入Markdown的可行性分析
技术实现路径:
渐进式集成:先在智能文档和在线文档中完善Markdown支持,再逐步扩展到本地文档
采用成熟开源组件:集成Turndown(HTML→Markdown)和Marked(Markdown→HTML)等库,降低开发成本
AI辅助转换:利用WPS灵犀AI优化Markdown与富文本的双向转换,解决格式兼容性问题
产品设计策略:
提供双编辑模式:富文本+Markdown一键切换,满足不同用户习惯
支持Markdown片段嵌入:在普通文档中插入Markdown内容,兼顾兼容性和灵活性
优化移动端体验:设计适合触屏操作的Markdown快捷输入方式
商业价值与风险评估:
收益:吸引技术用户,提升产品差异化竞争力,增强AI功能效果
风险:开发成本高,可能影响现有功能稳定性,用户学习成本增加
应对:分阶段发布,提供详细教程,收集用户反馈快速迭代优化
结合前文分析的网页转Markdown工具核心技术与WPS浏览器助手的现存痛点,建议WPS浏览器助手的网页收藏功能新增“网页转Markdown”支持。该功能可借鉴Webpage to Markdown、Fetch MCP等工具的成熟经验,集成Turndown等专业转换组件,将网页抓取与Markdown转换深度融合,抓取时先通过浏览器环境模拟、脚本注入等方式突破网站反爬限制,获取完整网页内容后,自动完成内容净化与Markdown格式转换,解决当前收藏功能抓取不完整、格式错乱的核心问题,同时衔接WPS智能文档、在线文档的Markdown支持能力,实现“网页收藏→Markdown转换→文档编辑”的一站式闭环,契合AI时代结构化内容管理需求,也能更好满足技术用户、表格工作者的高效办公需求,弥补WPS在网页内容留存与格式兼容上的短板。
总结与建议
WPS浏览器助手需升级动态内容处理能力和反爬规避策略,模拟真实用户行为并完整处理网站的权限验证和内容加载机制。
网页转Markdown工具的核心竞争力在于浏览器环境模拟、动态内容解析和智能反爬,这些技术值得WPS借鉴。
AI时代Markdown已成为人机协同的标准格式,WPS应加速原生Markdown支持,通过渐进式集成和AI辅助转换平衡兼容性与先进性。
建议WPS优先在智能文档和在线文档中完善Markdown功能,同时开发专用的网页转Markdown插件,提升内容抓取和管理能力。
WPS社区反馈员