【功能建议】WPS表格应引入DuckDB,抗衡Excel VertiPaq引擎

Excel能在大数据分析领域长期保持壁垒,核心底气在于其VertiPaq引擎,WPS表格应引入DuckDB嵌入式OLAP分析引擎,打造属于自己的高性能内存分析算力底座,从底层架构上抗衡Excel VertiPaq的核心优势,补齐在千万级、亿级大数据处理场景的短板。


一、Excel的核心护城河:VertiPaq引擎全维度技术优势解析

VertiPaq引擎(也叫xVelocity引擎),是微软自研的高性能内存列式分析引擎,2010年随Excel Power Pivot正式落地,如今已是Excel、Power BI、SQL Server Analysis Services Tabular模型的核心算力底座。

很多用户都有体感:同样是百万行以上的数据分析,WPS表格容易出现卡顿、公式计算超时、透视表刷新缓慢甚至软件崩溃,而Excel凭借VertiPaq引擎,能做到十亿级数据秒级响应、拖拽切片器切换维度时毫秒级刷新,二者的核心差距,从来不是界面功能的多少,而是底层分析引擎的代际差异。

1. 底层架构革新:列式存储+全内存计算,从根源突破行式存储的性能瓶颈

传统电子表格采用行式存储架构,数据按行完整存储,哪怕我们只需要对单列做聚合求和,也需要扫描整行的所有数据,IO开销会随数据量增长呈指数级上升,这也是十万行以上数据就容易卡顿的核心原因。

而VertiPaq从底层采用列式存储架构,数据按列独立存储、独立加载,查询计算时只会扫描需要的目标列,无关列完全不触碰,IO开销直接降低90%以上。同时搭配全内存计算模式,数据经压缩后全量加载到内存中执行计算,彻底规避了传统模式频繁的磁盘IO开销,数据访问延迟从毫秒级降至纳秒级,这是它能支撑海量数据交互式分析的基础。

2. 极致多模式压缩算法:用更低内存占用,支撑更大规模数据处理

VertiPaq针对办公场景数据特点定制开发了多层级压缩体系,常规办公数据可实现10:1甚至更高的压缩比,原本10G的原始数据,压缩后可控制在1G以内,让普通配置的电脑也能轻松处理千万级、亿级数据。

  • 字典编码:针对字符串、枚举类数据,将重复的文本值映射为整型ID,实际存储仅保留整型序列,既大幅缩减内存占用,又能让整型计算效率远高于文本计算;

  • RLE游程编码:针对排序后重复值密集的列,通过“值+连续出现次数”的方式存储,比如销售数据里的省份、日期、品类字段,压缩效率可达到百倍级;

  • 数据类型智能优化:自动识别数据的取值范围,用最小的存储空间适配数据类型,比如原本默认的整型字段,若取值范围仅在0-255之间,会自动适配为单字节存储,进一步压缩内存占用。

更关键的是,VertiPaq的压缩并非“只省空间”,而是压缩与计算效率双向优化——压缩后的数据体积更小,能完整装入CPU高速缓存中,避免了计算时频繁的内存-缓存数据交换,CPU计算效率得到指数级提升。

3. 向量化批量执行+多核全并行计算,充分释放现代硬件性能

传统表格的公式计算是逐行迭代执行,哪怕是简单的求和,也需要一行行遍历计算,完全无法发挥现代多核CPU的性能,计算效率极低。

而VertiPaq采用向量化批量执行模式,数据按列拆分为多个数据段(Segment),以数据段为单位批量执行计算,同时深度适配CPU的SIMD单指令多数据流指令集,一条指令即可完成一批数据的计算,而非逐行处理。同时引擎内置自动并行调度能力,会将复杂计算任务自动拆分到所有可用的CPU核心并行执行,最大化利用硬件性能。

官方实测数据显示,VertiPaq引擎可实现十亿级行数据的聚合查询9秒内响应,多表关联查询、多维度透视分析的效率,是传统行式计算模式的百倍甚至千倍。

4. 预计算关系模型+哈希连接优化,彻底解决多表分析的性能灾难

办公场景的高阶数据分析,核心痛点就是多表关联匹配。传统模式下,我们用VLOOKUP、XLOOKUP实现跨表匹配,十万行数据就需要几分钟计算,本质是因为每次匹配都要做全表扫描,时间复杂度极高。

而VertiPaq引擎内置了原生关系模型管理能力,用户只需提前定义表之间的关联关系,引擎就会预计算并生成哈希映射表,常驻CPU高速缓存中。当执行多表关联查询时,无需每次都做全表笛卡尔积扫描,直接通过哈希映射完成极速匹配,哪怕是十几张表的复杂关联分析,也能做到毫秒级响应。这也是Excel Power Pivot能实现企业级数据建模的核心能力。

5. 智能聚合优化+查询计划引擎,让复杂分析也能实现低延迟响应

VertiPaq内置了成熟的智能查询优化体系

  • 智能聚合预计算:引擎会自动识别用户高频分析的维度(如按月份、按区域、按品类的汇总),预计算聚合结果并存储,后续查询时直接命中预计算结果,无需每次都扫描全量明细数据,计算开销大幅度降低;

  • 成本最优查询计划:内置基于成本的查询优化器,会对用户的计算逻辑进行解析、重写、优化,自动选择开销最低的执行路径,规避无效的数据扫描和重复计算,哪怕是用户编写的复杂计算逻辑,也能被优化到最优执行效率;

  • 按需扫描与延迟计算:针对DAX度量值等动态计算逻辑,采用延迟计算模式,仅在用户需要查看结果时才执行计算,且只扫描计算所需的最小数据范围,不做任何冗余计算,大幅降低系统资源占用。

6. 全场景适配能力,覆盖从个人轻量办公到企业级深度分析

  • 既支持全量数据导入内存的Import模式,极致发挥内存计算性能,满足交互式分析需求;

  • 也支持DirectQuery直连模式,无需将数据导入本地,直接直连企业级数据库,实时查询分析超大规模数据集,适配企业级实时数据场景;

  • 与Power Query数据清洗、DAX分析语言、数据透视表、可视化图表深度打通,形成了“数据接入-清洗-建模-分析-可视化”的完整闭环,彻底重构了Excel的数据分析能力边界。


二、为什么建议WPS表格引入DuckDB?

WPS自研复刻VertiPaq引擎,不仅需要极高的研发成本、漫长的开发周期,还需要适配DAX语言等一整套生态,落地难度极大。而原生引入DuckDB嵌入式OLAP引擎,可以使WPS快速对标VertiPaq、补齐大数据分析短板

  1. 技术路线高度契合,性能完全对标VertiPaq

DuckDB是业界顶尖的开源嵌入式OLAP分析引擎,和VertiPaq采用相似的技术路线:列式存储架构、极致数据压缩、向量化批量执行、多核并行计算、高性能哈希连接与聚合优化,在OLAP分析场景的性能表现,与VertiPaq处于同一量级,能轻松支撑千万级、亿级数据的秒级分析,完全具备抗衡VertiPaq的技术实力。

  1. 嵌入式架构可开箱即用无额外依赖

DuckDB定位为“嵌入式OLAP引擎”,和SQLite一样,无外部服务、无额外依赖,可直接原生嵌入WPS表格中,用户无需安装任何数据库、驱动、插件,开箱即用,完全不会增加用户的使用门槛,就像Excel内置Power Pivot一样自然。

  1. 开源MIT协议商业友好,研发成本极低,可快速落地

DuckDB采用MIT开源协议,商业使用完全友好,无版权风险,无需投入巨额研发成本从零自研引擎,只需基于DuckDB做原生适配和场景优化,就能在短时间内补齐WPS表格在引擎层的核心短板,快速缩小与Excel的差距。

  1. 原生多源数据适配,完美补齐WPS数据接入能力

DuckDB原生支持直接读取WPS表格、Excel、CSV、Parquet等各类文件格式,也可通过扩展插件直连MySQL、PostgreSQL等主流企业级数据库,无需复杂的格式转换和中间件,就能实现多源数据的联合查询分析,直接对标Excel Power Query的多源数据整合能力,同时解决了多源数据混算痛点。

  1. 标准SQL支持,学习门槛更低,更贴合国内用户习惯

DuckDB完整支持标准SQL,国内用户对SQL的接受度和学习成本,远低于微软的DAX语言,普通用户可快速上手实现数据查询、聚合、分析,高级用户可通过SQL实现复杂的多维度建模、窗口函数计算,既能覆盖日常办公需求,也能满足企业级高阶分析场景。


三、具体落地建议(对标VertiPaq,实现性能与体验双超越)

引入DuckDB后应当实现以下核心功能:查询上,支持标准SQL查询各类表格数据,可完成多表联合、条件筛选、多维度聚合等操作,毫秒级返回结果;转换上,可快速实现数据清洗、去重、格式转换、字段拆分合并等,依托引擎算力规避卡顿;加载上,支持本地表格、CSV等文件及远程数据库多源数据一键加载,支持增量加载更新,无需重复导入全量数据。

  1. 原生内置DuckDB引擎,打造“高性能分析模式”,实现响应速度超越

对标VertiPaq全内存计算,在WPS表格中增加一键启用的“高性能分析模式”,用户可一键将当前工作表、工作簿数据加载到DuckDB引擎中,后续的公式计算、透视表刷新、筛选查询,全部基于DuckDB引擎执行。依托DuckDB更轻量的进程内架构优化,在核心响应速度上超越VertiPaq现有性能,彻底解决大数据量卡顿问题,同时全程保留用户熟悉的操作界面,无需额外学习成本,实现“性能升级、体验不变”。

  1. 打通表格与引擎的原生交互,实现零门槛使用,打造更贴合国内用户的体验

对标VertiPaq与Excel透视表、可视化图表的深度联动能力,打通WPS表格与DuckDB引擎的原生交互:一方面支持用户直接用SQL查询表格内的任意数据区域,查询结果可一键回填到表格,无需切换界面,贴合用户原有操作习惯;另一方面让数据透视表、图表原生支持基于DuckDB引擎构建,拖拽维度、切换筛选器时,直接调用DuckDB执行计算,实现毫秒级刷新,与Excel VertiPaq的交互式体验完全对齐。同时深度适配国内用户常用的快捷键操作、表格格式,新增“SQL查询模板”(覆盖多表关联、按维度汇总等办公高频场景),相比VertiPaq搭配DAX语言的复杂操作,大幅降低普通用户使用门槛,操作更便捷。

  1. 基于DuckDB打造轻量化数据建模能力,实现多表分析性能超越

对标VertiPaq的关系模型管理+哈希连接优化能力(可实现十几张表毫秒级关联),在WPS表格中增加轻量化的关系建模功能,支持用户可视化定义多表之间的关联关系,基于DuckDB优化后的哈希映射算法,实现预计算并缓存哈希映射表,让用户无需编写复杂的查找函数,就能实现高性能多表关联分析,补齐WPS表格在企业级数据建模上的短板。针对办公场景中高频的多表关联需求,进一步优化哈希映射复用逻辑,关联匹配速度较VertiPaq提升10%以上,同时新增关联关系一键保存、批量复用功能,解决VertiPaq关联关系配置繁琐、不易复用的痛点,大幅提升多表分析的效率。

  1. 精细化内存管理+场景化优化,实现全硬件覆盖超越

对标VertiPaq的多层级压缩体系(常规办公数据10:1压缩比)与全场景适配能力,基于DuckDB的多算法压缩优势,优化内存占用策略:针对低配电脑,设置自适应内存上限,优化字典编码与RLE游程编码的适配逻辑,采用更高效的压缩方案,将办公数据压缩比提升至12:1以上,较VertiPaq更节省内存,有效避免软件崩溃;针对高配电脑,开启全内存并行模式,深度适配多核心CPU、大容量内存,极致释放硬件性能,对标并超越VertiPaq的硬件利用率。新增“场景化自适应适配”功能,自动识别用户是个人轻量办公、企业海量数据分析还是实时直连查询场景,无需用户手动调节,自动切换最优计算模式,相比VertiPaq的手动切换模式更智能,实现从低配笔记本到高端工作站的全层级硬件适配,覆盖更多国内用户的使用场景。


WPS作为国产办公软件的标杆,当前和Excel的核心差距,正是高端数据分析场景的引擎层能力。VertiPaq引擎用十几年的发展证明,底层分析引擎的革新,才是电子表格数据分析能力的核心护城河。

原生引入DuckDB引擎,不是简单的功能叠加,而是从底层架构上,让WPS表格具备和Excel正面抗衡的高性能分析能力,既能满足普通用户的日常办公需求,也能胜任企业级的海量数据分析场景,真正实现“让所有用户,都能在WPS里完成全场景的数据分析工作”。

真心希望产品团队能重视这个建议,也期待未来的WPS表格,能在大数据分析场景,给我们带来颠覆性的体验升级!

美国
浏览 492
2
7
分享
7 +1
3
2 +1
全部评论 3
 
Loelan
蹲一个,最近刚好遇到需要使用wps多维表连接duckdb的场景,本来想用python脚本处理,结果发现多维表的python根本没有duckdb扩展库,也不能自己安装。 如果能原生支持duckdb是最好的,考虑到集成需要时间,希望在线python环境能先添加一个duckdb扩展库。
· 重庆
1
回复
 
WPS反馈小助理小雅
WPS反馈小助理小雅

WPS社区反馈员

感谢您的详细建议,关于您的使用场景和使用诉求,您反馈的问题均已详情记录,这边会提交反馈给技术团队小伙伴进行评估优化,感谢您的理解与支持。
· 广东省
1
回复
 
user_64801
采纳
· 云南省
1
回复