建议改进WPS浏览器助手的网页收藏功能,支持网页转Markdown

一、WPS浏览器助手网页内容抓取失败的原因分析

https://docs.coze.cn/guides/https://docs.feishu.cn/article/wiki/UpppwiKqeihIx3kNjmtcECownlg为例,WPS浏览器助手在抓取网页时遇到的核心问题,通常源于网站的多层级防护机制与WPS抓取技术的落后性,具体分析如下:

1.1 网站的核心反爬与内容保护机制

  • 权限与身份验证严格:网站采用基于Cookie+Token的双重认证,未登录用户无法访问内容,且文档所有者可设置禁止复制、导出、创建副本等权限

  • 动态渲染与内容加载策略

  • 采用SPA单页应用架构,内容通过JavaScript动态加载,初始HTML仅包含框架,无实质内容

  • 长文档使用分段懒加载,仅渲染当前视口内容,滚动后才加载更多内容

  • 图片以blob:URL形式存储,无法直接通过常规URL抓取

  • 前端限制措施

  • 禁用右键菜单、文本选择、复制粘贴等操作

  • 监听并阻止copycutselectstart等事件

  • 使用CSS遮挡技术防止内容被选中,或通过user-select: none属性限制文本选择

  • API层防护

  • 文档内容API设置请求频率限制Referer验证

  • 响应数据可能经过加密或混淆处理,难以直接解析

1.2 WPS浏览器助手的技术局限性

  • 抓取方式单一:主要依赖静态HTML解析,缺乏对SPA和动态内容的深度处理能力,无法触发JavaScript加载更多内容

  • 权限处理不足:WPS浏览器助手可能未完整模拟用户登录状态,或无法绕过飞书的精细化权限控制

  • 内容提取策略简单:倾向于提取页面可见文本,对隐藏内容、动态加载模块、特殊格式元素处理能力弱

  • 反反爬能力薄弱:未针对飞书这类强防护平台优化,缺少模拟用户行为(如滚动)、突破前端限制、处理blob链接等机制

1.3 典型失效场景

  • 仅能抓取文档标题和部分可见文本,长文档后半部分内容缺失

  • 图片无法正常显示,仅保留占位符或错误链接

  • 表格、代码块、公式等特殊元素格式错乱或丢失

  • 权限受限文档直接抓取失败,返回空白或权限提示页面

在语言大模型时代,网页剪藏工具通常采用Markdown格式,下面详细分析网页转Markdown工具的特征。

二、网页转Markdown工具的实现原理

2.1 核心技术架构与转换流程

主流网页转Markdown工具均遵循"内容获取→净化→转换→输出"四步流程,核心依赖两大技术:

技术组件

核心作用

代表工具

内容提取引擎

解析HTML结构,提取主要内容,去除噪音

Mozilla Readability、Arc90 Readability

HTML→Markdown转换器

将净化后的HTML转换为标准Markdown语法

Turndown、html-to-markdown

具体实现步骤:

  1. 请求与渲染:获取网页HTML(静态或动态渲染)

  1. 内容净化:移除广告、导航、脚本等非核心内容,提取文章主体

  1. 结构解析:识别标题、列表、表格、链接、图片等元素

  1. 格式转换:将HTML标签映射为对应Markdown语法(如<h1>#<a>[text](url)

  1. 后处理:优化格式、修复链接、处理特殊元素(如代码块高亮)

2.2 主流工具的技术特点与反爬规避策略

2.2.1 浏览器插件类

  • 基于Chrome浏览器扩展API开发,可直接访问网页完整DOM树,精准提取页面核心内容,同时保留原网页的结构层级,适配静态网页与简单SPA应用的内容抓取

  • 反爬策略:内置脚本注入功能,可自动解除网页user-select: none限制、重写copyselectstart等事件绑定,突破前端复制与内容选择限制;支持手动触发页面滚动,加载懒加载内容,确保长文档抓取完整;自动解析blob链接图片,将<img>和<figure>元素转换为正确的Markdown图像语法,包括来自<figcaption>的标题,避免图片丢失图像与图表处理。

2.2.2 AI驱动抓取工具

  • Jina AI Reader

  • 采用浏览器自动化+智能解析组合,使用Playwright/Puppeteer模拟真实浏览器环境

  • 反爬规避:

  • 随机User-Agent+请求头,模拟不同浏览器和设备

  • 智能请求频率控制,动态调整访问间隔

  • 自动处理JavaScript渲染懒加载内容,模拟滚动操作

  • 支持代理池Cookie池管理,避免IP和会话限制

  • Firecrawl

  • 多引擎架构:提供七种抓取引擎,适配不同网站防护等级

  • 核心反爬技术:

  • 动态内容深度处理:等待页面完全加载,执行JavaScript,滚动至底部加载所有内容

  • 噪音过滤:智能识别并移除广告、导航、推荐等非核心内容

  • 合规访问:遵循robots.txt协议,设置合理请求间隔

  • 错误自动重试:针对403、503等状态码,自动更换代理或调整策略后重试

2.2.3 专业抓取工具

  • MinerU

  • 专注于结构化数据提取,支持复杂网页解析和反爬突破

  • 反爬策略:

  • 自定义请求头与Cookie,模拟登录状态

  • 支持验证码自动识别

  • 多线程+随机延迟,降低被识别为爬虫的概率

  • Fetch MCP

  • 基于Mozilla Readability库和Turndown,专注于文章类内容提取

  • 反爬特点:通过浏览器环境模拟获取完整DOM,避免直接HTTP请求被拦截

2.3 网页转Markdown工具的通用反爬规避方法

反爬机制

规避策略

前端限制(禁止复制/选择)

注入脚本重写事件监听,强制设置文本可选

动态渲染(SPA/懒加载)

浏览器自动化,模拟滚动和交互

请求频率限制

随机延迟,动态调整访问间隔

IP封禁

代理池+IP轮换

User-Agent检测

随机User-Agent,模拟不同设备

权限验证

模拟登录,携带有效Cookie/Token

blob链接图片

直接从DOM获取图片数据,重新编码保存

可惜WPS目前对Markdown格式的支持还非常有限。

三、WPS对Markdown的支持现状

3.1 WPS Markdown支持现状

WPS智能文档目前已经支持基础Markdown语法,如标题、列表、链接、图片等,但是高级语法(脚注、数学公式、Mermaid图表)支持有限。WPS现在尚不支持.md文件,无论是直接打开还是复制粘贴,均会出现大量空行、错乱,无法实施预览页面,格式转换容易丢失。

3.2 支持度弱的核心原因

  1. 技术架构历史包袱

  1. WPS核心基于富文本编辑器(RTF)架构,与Markdown的纯文本+标记理念冲突

  1. 从富文本到Markdown的双向转换需要复杂的格式映射,开发成本高

  1. 现有渲染引擎对Markdown特殊语法(如数学公式、流程图)支持不足

  1. 产品定位与用户群体考量

  1. WPS主要面向办公用户,而非程序员和技术写作者,Markdown需求优先级低

  1. 担心Markdown功能分散核心办公功能的开发资源

  1. 已有的富文本格式(.docx)能满足大多数用户需求,缺乏引入Markdown的迫切性

  1. 生态与兼容性问题

  1. Markdown存在多版本语法差异(CommonMark、GitHub Flavored等),统一支持难度大

  1. 与WPS现有功能(如宏、表单、复杂排版)的兼容性需要长期优化

  1. 移动端适配成本高,Markdown的纯文本编辑体验在触屏设备上不如富文本直观

  1. 本地文档采用OOXML格式,需要保持与Microsoft Office文件格式的兼容性;在线文档采用WPS自身的专有格式,与Markdown兼容性差

四、AI时代Markdown格式的重要性及WPS引入Markdown的必要性与可行性

4.1 AI时代Markdown的核心价值

  1. 人机协同的最佳载体

  1. Markdown的结构化纯文本特性与大模型处理方式高度契合,降低AI理解成本

  1. 清晰的标题层级(h1-h6)能引导模型理解文档上下文,减少逻辑偏差

  1. 任务列表(-[])、代码块等语法在模型眼中具有明确语义,提升交互准确性

  1. 内容创作与管理的效率革命

  1. 轻量高效:无需复杂格式操作,专注内容创作,节省30%以上文档处理时间

  1. 跨平台兼容:纯文本格式可在任何设备和编辑器中打开,无格式错乱问题

  1. 版本控制友好:与Git等工具无缝集成,便于团队协作和内容回溯

  1. 低token成本:Markdown简洁语法减少AI交互时的token消耗,降低API费用

  1. 知识管理与内容分发的理想格式

  1. 适合技术文档、知识库、帮助中心等场景,便于检索和维护

  1. 可快速转换为HTML、PDF、Word等多种格式,满足不同分发需求

  1. 支持嵌入图片、链接、代码等多媒体内容,表达能力强

4.2 WPS引入Markdown的必要性

  1. 应对市场竞争的战略需求

  1. 竞品(如网站、腾讯文档、Obsidian、Notion)已全面支持Markdown,笔记软件、写作软件、编程软件等均以Markdown作为重要的技术亮点和卖点,争夺WPS等传统办公软件的生存空间,WPS面临功能落后风险

  1. 程序员、技术团队等高价值用户对Markdown有刚需,缺乏支持会导致用户流失

  1. AI功能深化的基础支撑

  1. Markdown能提升WPS灵犀AI的内容理解与生成质量,实现更精准的格式转换和摘要生成

  1. 为**RAG(检索增强生成)**功能提供高质量结构化语料,提升问答准确性

  1. 如果WPS未来仍不支持Markdown格式,那么AI的许多基础设施(比如Skill.md、Agent.md等)也就不可能被引入了,WPS将在AI时代被更具通用性的原生大模型应用远远甩下。

  1. 满足用户多元化需求

  1. 适应混合办公趋势,支持个人笔记、技术文档、团队协作等多场景应用

  1. 网页数据抓取是表格工作者最常用的功能之一,完善Markdown格式支持并与网页收藏功能深度整合,可以大大提高工作效率

4.3 WPS引入Markdown的可行性分析

  1. 技术实现路径

  1. 渐进式集成:先在智能文档和在线文档中完善Markdown支持,再逐步扩展到本地文档

  1. 采用成熟开源组件:集成Turndown(HTML→Markdown)和Marked(Markdown→HTML)等库,降低开发成本

  1. AI辅助转换:利用WPS灵犀AI优化Markdown与富文本的双向转换,解决格式兼容性问题

  1. 产品设计策略

  1. 提供双编辑模式:富文本+Markdown一键切换,满足不同用户习惯

  1. 支持Markdown片段嵌入:在普通文档中插入Markdown内容,兼顾兼容性和灵活性

  1. 优化移动端体验:设计适合触屏操作的Markdown快捷输入方式

  1. 商业价值与风险评估

  1. 收益:吸引技术用户,提升产品差异化竞争力,增强AI功能效果

  1. 风险:开发成本高,可能影响现有功能稳定性,用户学习成本增加

  1. 应对:分阶段发布,提供详细教程,收集用户反馈快速迭代优化


结合前文分析的网页转Markdown工具核心技术与WPS浏览器助手的现存痛点,建议WPS浏览器助手的网页收藏功能新增“网页转Markdown”支持。该功能可借鉴Webpage to Markdown、Fetch MCP等工具的成熟经验,集成Turndown等专业转换组件,将网页抓取与Markdown转换深度融合,抓取时先通过浏览器环境模拟、脚本注入等方式突破网站反爬限制,获取完整网页内容后,自动完成内容净化与Markdown格式转换,解决当前收藏功能抓取不完整、格式错乱的核心问题,同时衔接WPS智能文档、在线文档的Markdown支持能力,实现“网页收藏→Markdown转换→文档编辑”的一站式闭环,契合AI时代结构化内容管理需求,也能更好满足技术用户、表格工作者的高效办公需求,弥补WPS在网页内容留存与格式兼容上的短板。

总结与建议

  1. WPS浏览器助手需升级动态内容处理能力反爬规避策略,模拟真实用户行为并完整处理网站的权限验证和内容加载机制。

  1. 网页转Markdown工具的核心竞争力在于浏览器环境模拟动态内容解析智能反爬,这些技术值得WPS借鉴。

  1. AI时代Markdown已成为人机协同的标准格式,WPS应加速原生Markdown支持,通过渐进式集成和AI辅助转换平衡兼容性与先进性。

  1. 建议WPS优先在智能文档和在线文档中完善Markdown功能,同时开发专用的网页转Markdown插件,提升内容抓取和管理能力。

北京
浏览 579
收藏
7
分享
7 +1
1
+1
全部评论 1
 
WPS反馈小助理小雅
WPS反馈小助理小雅

WPS社区反馈员

感谢您的详细建议,关于您的使用场景和使用诉求,您反馈的问题均已详情记录,这边会提交反馈给技术团队小伙伴进行评估优化,感谢您的理解与支持。
· 广东省
1
回复