问建议改进WPS浏览器助手的网页收藏功能，支持网页转Markdown

Lv.2潜力创作者

一、WPS浏览器助手网页内容抓取失败的原因分析

以https://docs.coze.cn/guides/、https://docs.feishu.cn/article/wiki/UpppwiKqeihIx3kNjmtcECownlg为例，WPS浏览器助手在抓取网页时遇到的核心问题，通常源于网站的多层级防护机制与WPS抓取技术的落后性，具体分析如下：

1.1 网站的核心反爬与内容保护机制

权限与身份验证严格：网站采用基于Cookie+Token的双重认证，未登录用户无法访问内容，且文档所有者可设置禁止复制、导出、创建副本等权限

动态渲染与内容加载策略：

采用SPA单页应用架构，内容通过JavaScript动态加载，初始HTML仅包含框架，无实质内容

长文档使用分段懒加载，仅渲染当前视口内容，滚动后才加载更多内容

图片以blob:URL形式存储，无法直接通过常规URL抓取

前端限制措施：

禁用右键菜单、文本选择、复制粘贴等操作

监听并阻止copy、cut、selectstart等事件

使用CSS遮挡技术防止内容被选中，或通过user-select: none属性限制文本选择

API层防护：

文档内容API设置请求频率限制和Referer验证

响应数据可能经过加密或混淆处理，难以直接解析

1.2 WPS浏览器助手的技术局限性

抓取方式单一：主要依赖静态HTML解析，缺乏对SPA和动态内容的深度处理能力，无法触发JavaScript加载更多内容

权限处理不足：WPS浏览器助手可能未完整模拟用户登录状态，或无法绕过飞书的精细化权限控制

内容提取策略简单：倾向于提取页面可见文本，对隐藏内容、动态加载模块、特殊格式元素处理能力弱

反反爬能力薄弱：未针对飞书这类强防护平台优化，缺少模拟用户行为（如滚动）、突破前端限制、处理blob链接等机制

1.3 典型失效场景

仅能抓取文档标题和部分可见文本，长文档后半部分内容缺失

图片无法正常显示，仅保留占位符或错误链接

表格、代码块、公式等特殊元素格式错乱或丢失

权限受限文档直接抓取失败，返回空白或权限提示页面

在语言大模型时代，网页剪藏工具通常采用Markdown格式，下面详细分析网页转Markdown工具的特征。

二、网页转Markdown工具的实现原理

2.1 核心技术架构与转换流程

主流网页转Markdown工具均遵循"内容获取→净化→转换→输出"四步流程，核心依赖两大技术：

技术组件	核心作用	代表工具
内容提取引擎	解析HTML结构，提取主要内容，去除噪音	Mozilla Readability、Arc90 Readability
HTML→Markdown转换器	将净化后的HTML转换为标准Markdown语法	Turndown、html-to-markdown

具体实现步骤：

请求与渲染：获取网页HTML（静态或动态渲染）

内容净化：移除广告、导航、脚本等非核心内容，提取文章主体

结构解析：识别标题、列表、表格、链接、图片等元素

格式转换：将HTML标签映射为对应Markdown语法（如<h1>→#，<a>→[text](url)）

后处理：优化格式、修复链接、处理特殊元素（如代码块高亮）

2.2 主流工具的技术特点与反爬规避策略

2.2.1 浏览器插件类

Webpage to Markdown（https://chromewebstore.google.com/detail/webpage-to-markdown/ajeinonckioeekcfanjndliandidilid）：

基于Chrome浏览器扩展API开发，可直接访问网页完整DOM树，精准提取页面核心内容，同时保留原网页的结构层级，适配静态网页与简单SPA应用的内容抓取

反爬策略：内置脚本注入功能，可自动解除网页user-select: none限制、重写copy、selectstart等事件绑定，突破前端复制与内容选择限制；支持手动触发页面滚动，加载懒加载内容，确保长文档抓取完整；自动解析blob链接图片，将<img>和<figure>元素转换为正确的Markdown图像语法，包括来自<figcaption>的标题，避免图片丢失图像与图表处理。

2.2.2 AI驱动抓取工具

Jina AI Reader：

采用浏览器自动化+智能解析组合，使用Playwright/Puppeteer模拟真实浏览器环境

反爬规避：

随机User-Agent+请求头，模拟不同浏览器和设备

智能请求频率控制，动态调整访问间隔

自动处理JavaScript渲染和懒加载内容，模拟滚动操作

支持代理池和Cookie池管理，避免IP和会话限制

Firecrawl：

多引擎架构：提供七种抓取引擎，适配不同网站防护等级

核心反爬技术：

动态内容深度处理：等待页面完全加载，执行JavaScript，滚动至底部加载所有内容

噪音过滤：智能识别并移除广告、导航、推荐等非核心内容

合规访问：遵循robots.txt协议，设置合理请求间隔

错误自动重试：针对403、503等状态码，自动更换代理或调整策略后重试

2.2.3 专业抓取工具

MinerU：

专注于结构化数据提取，支持复杂网页解析和反爬突破

反爬策略：

自定义请求头与Cookie，模拟登录状态

支持验证码自动识别

多线程+随机延迟，降低被识别为爬虫的概率

Fetch MCP：

基于Mozilla Readability库和Turndown，专注于文章类内容提取

反爬特点：通过浏览器环境模拟获取完整DOM，避免直接HTTP请求被拦截

2.3 网页转Markdown工具的通用反爬规避方法

反爬机制	规避策略
前端限制（禁止复制/选择）	注入脚本重写事件监听，强制设置文本可选
动态渲染（SPA/懒加载）	浏览器自动化，模拟滚动和交互
请求频率限制	随机延迟，动态调整访问间隔
IP封禁	代理池+IP轮换
User-Agent检测	随机User-Agent，模拟不同设备
权限验证	模拟登录，携带有效Cookie/Token
blob链接图片	直接从DOM获取图片数据，重新编码保存

可惜WPS目前对Markdown格式的支持还非常有限。

三、WPS对Markdown的支持现状

3.1 WPS Markdown支持现状

WPS智能文档目前已经支持基础Markdown语法，如标题、列表、链接、图片等，但是高级语法（脚注、数学公式、Mermaid图表）支持有限。WPS现在尚不支持.md文件，无论是直接打开还是复制粘贴，均会出现大量空行、错乱，无法实施预览页面，格式转换容易丢失。

3.2 支持度弱的核心原因

技术架构历史包袱：

WPS核心基于富文本编辑器（RTF）架构，与Markdown的纯文本+标记理念冲突

从富文本到Markdown的双向转换需要复杂的格式映射，开发成本高

现有渲染引擎对Markdown特殊语法（如数学公式、流程图）支持不足

产品定位与用户群体考量：

WPS主要面向办公用户，而非程序员和技术写作者，Markdown需求优先级低

担心Markdown功能分散核心办公功能的开发资源

已有的富文本格式（.docx）能满足大多数用户需求，缺乏引入Markdown的迫切性

生态与兼容性问题：

Markdown存在多版本语法差异（CommonMark、GitHub Flavored等），统一支持难度大

与WPS现有功能（如宏、表单、复杂排版）的兼容性需要长期优化

移动端适配成本高，Markdown的纯文本编辑体验在触屏设备上不如富文本直观

本地文档采用OOXML格式，需要保持与Microsoft Office文件格式的兼容性；在线文档采用WPS自身的专有格式，与Markdown兼容性差

四、AI时代Markdown格式的重要性及WPS引入Markdown的必要性与可行性

4.1 AI时代Markdown的核心价值

人机协同的最佳载体：

Markdown的结构化纯文本特性与大模型处理方式高度契合，降低AI理解成本

清晰的标题层级（h1-h6）能引导模型理解文档上下文，减少逻辑偏差

任务列表（-[]）、代码块等语法在模型眼中具有明确语义，提升交互准确性

内容创作与管理的效率革命：

轻量高效：无需复杂格式操作，专注内容创作，节省30%以上文档处理时间

跨平台兼容：纯文本格式可在任何设备和编辑器中打开，无格式错乱问题

版本控制友好：与Git等工具无缝集成，便于团队协作和内容回溯

低token成本：Markdown简洁语法减少AI交互时的token消耗，降低API费用

知识管理与内容分发的理想格式：

适合技术文档、知识库、帮助中心等场景，便于检索和维护

可快速转换为HTML、PDF、Word等多种格式，满足不同分发需求

支持嵌入图片、链接、代码等多媒体内容，表达能力强

4.2 WPS引入Markdown的必要性

应对市场竞争的战略需求：

竞品（如网站、腾讯文档、Obsidian、Notion）已全面支持Markdown，笔记软件、写作软件、编程软件等均以Markdown作为重要的技术亮点和卖点，争夺WPS等传统办公软件的生存空间，WPS面临功能落后风险

程序员、技术团队等高价值用户对Markdown有刚需，缺乏支持会导致用户流失

AI功能深化的基础支撑：

Markdown能提升WPS灵犀AI的内容理解与生成质量，实现更精准的格式转换和摘要生成

为**RAG（检索增强生成）**功能提供高质量结构化语料，提升问答准确性

如果WPS未来仍不支持Markdown格式，那么AI的许多基础设施（比如Skill.md、Agent.md等）也就不可能被引入了，WPS将在AI时代被更具通用性的原生大模型应用远远甩下。

满足用户多元化需求：

适应混合办公趋势，支持个人笔记、技术文档、团队协作等多场景应用

网页数据抓取是表格工作者最常用的功能之一，完善Markdown格式支持并与网页收藏功能深度整合，可以大大提高工作效率

4.3 WPS引入Markdown的可行性分析

技术实现路径：

渐进式集成：先在智能文档和在线文档中完善Markdown支持，再逐步扩展到本地文档

采用成熟开源组件：集成Turndown（HTML→Markdown）和Marked（Markdown→HTML）等库，降低开发成本

AI辅助转换：利用WPS灵犀AI优化Markdown与富文本的双向转换，解决格式兼容性问题

产品设计策略：

提供双编辑模式：富文本+Markdown一键切换，满足不同用户习惯

支持Markdown片段嵌入：在普通文档中插入Markdown内容，兼顾兼容性和灵活性

优化移动端体验：设计适合触屏操作的Markdown快捷输入方式

商业价值与风险评估：

收益：吸引技术用户，提升产品差异化竞争力，增强AI功能效果

风险：开发成本高，可能影响现有功能稳定性，用户学习成本增加

应对：分阶段发布，提供详细教程，收集用户反馈快速迭代优化

结合前文分析的网页转Markdown工具核心技术与WPS浏览器助手的现存痛点，建议WPS浏览器助手的网页收藏功能新增“网页转Markdown”支持。该功能可借鉴Webpage to Markdown、Fetch MCP等工具的成熟经验，集成Turndown等专业转换组件，将网页抓取与Markdown转换深度融合，抓取时先通过浏览器环境模拟、脚本注入等方式突破网站反爬限制，获取完整网页内容后，自动完成内容净化与Markdown格式转换，解决当前收藏功能抓取不完整、格式错乱的核心问题，同时衔接WPS智能文档、在线文档的Markdown支持能力，实现“网页收藏→Markdown转换→文档编辑”的一站式闭环，契合AI时代结构化内容管理需求，也能更好满足技术用户、表格工作者的高效办公需求，弥补WPS在网页内容留存与格式兼容上的短板。

总结与建议

WPS浏览器助手需升级动态内容处理能力和反爬规避策略，模拟真实用户行为并完整处理网站的权限验证和内容加载机制。

网页转Markdown工具的核心竞争力在于浏览器环境模拟、动态内容解析和智能反爬，这些技术值得WPS借鉴。

AI时代Markdown已成为人机协同的标准格式，WPS应加速原生Markdown支持，通过渐进式集成和AI辅助转换平衡兼容性与先进性。

建议WPS优先在智能文档和在线文档中完善Markdown功能，同时开发专用的网页转Markdown插件，提升内容抓取和管理能力。

反馈直通车

2026-02-07 16:04:40 北京

8 +1

1 +1

问 建议改进WPS浏览器助手的网页收藏功能，支持网页转Markdown