【WPS畅聊趴】新的一年给WPS换上新"装备",千万级别数据秒汇总

Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

📢分享那些为WPS「提效」📢

彩蛋🦄在文中看看谁能发现😮

说说你用WPS表格处理过的最大数据量是多少?1千?2千?1万?10万?还是100万的数据量?

在新的一年里我们挑战一下极限,我们这次处理5000万行数据,你没听错,是5000万行的数据!功能听到这个数字你会疑惑,WPS表格(xlsx)格式的上限不是才100W(单个工作表)行吗?所以我们采用的是csv格式的文件

测试数据

这次我们采用Python脚步生成了一份5000万行的销售数据作为我们的测试文件,这次的文件约5个G的大小,数据量就是5000万行~

实现效果

由于数据一般都用在分析场景,这次我们选定的是一个简单的透视环境,实现为将5000万条数据进行数据透视,实现效果如下

WPS表格

DuckDbQuery函数实现法

函数介绍

如下图所示可以看出DuckDbQuery分别有三个参数,分别为【SQL表达式】【数据文件】【数据区域】

=DuckDbQuery(SQL语句,数据文件,数据区域)

函数内核

这里看出函数内核为「V1.3.2」,简单说就是它调用的为DuckDB 1.3.2版本了~

实现效果

如下图所示为效果图,可以看出及时是千万级的数据,也能在秒级的时间里输出结果~

由于为畅聊帖,今天就不展开了,下面给一个彩蛋,是否还在为JSON格式转换而烦恼?下面给出这个函数的又一特性(虽然这是基于duckdb数据库能力的体现)

WPS Query实现法

选择以透视表的方式导出,结果触碰到了1048576行的上限了(此处是bug莫非?也可能是因为性能原因做了限制)

为了对比我们搬出了微软的EXCEL的PQ作为对比,可以看出微软对此是没有限制,但是也足足花费了大半个小时才出结果,中途会出现无响应的情况

💡

看了以上对比是不是发现有了新“装备”加持的WPS强大不是一星半点,新“装备”下的几十秒对比行业大佬的PQ也要40来分钟,性能效率提高肉眼可见~当然以上这么大数量级的数据一般都不会在表格中处理,以上纯属是半娱乐性质的压力测试了~

看到新"装备"如此强大,WPS官方会考虑将这个变成自身的能力吗?

大家期待这种「提效」能力的加入吗?

📢说出大家知道强力“装备",后续成为WPS自身的固有能力📢

下一个强大的能力由大家共创

WPS📢「畅聊趴」也可以有

本贴奖励由【福利官】全力赞助🎁,封面图片由WPS灵犀全力生成🐬

广东省
浏览 531
2
18
分享
18 +1
76
2 +1
全部评论 76
 
丁功令
丁功令

创作者俱乐部成员

跟谭老师学习
· 四川省
回复
 
殇俊
希望门槛不会太高
· 浙江省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

底层升级,前端倒是可以沿用现有的操作习惯,不过对于SQL脚本,比起M、DAX和Python是相对容易入门很多,加上AI加持更加不是问题
· 广东省
回复
 
高远
高远

WPS产品体验官

把字看懂了,内容不太懂,大佬有没有教程求推荐
· 中国
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

我去写写?哈哈哈哈哈
· 广东省
1
回复
 
墨云轩
墨云轩

WPS寻令官 | 创作者俱乐部成员

学习
· 北京
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

也跟着老师学其他表格的知识
· 广东省
回复
 
冷风
打卡
· 山西省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

· 广东省
回复
 
panda
感觉数据库操作还是有点麻烦,不会代码的还是EXCLE表格更加上手一些,期待WPS表格能够支持更大的数据操作
· 四川省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

其实一个方向是可以将数据库SQL的操作封装为图形界面,高级模式下能够直接写,日常就图形界面点点按按就好,主要是接入强大的数据库底层能够提升数据处理效率,至于前端操作对于我们大部分人来说肯定是图形化操作简单
· 广东省
回复
 
落叶知清秋
落叶知清秋

WPS寻令官

今天发现做图标都生疏了,好久没做了,帮人做了7个图,几万条数据,花了好2个小时
· 北京
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

太久没做确实容易生疏
· 广东省
回复
 
柴达木
看着挺好,犹豫要不要学,但感觉用不上啊
· 河北省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

用到可以学习,用不着可以了解个大概,用到再学也可以
· 广东省
回复
 
月月和蓬蓬
月月和蓬蓬

WPS产品体验官

看不明白啊,不明觉厉
· 辽宁省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

等大佬分享更多文字方面的帖子
· 广东省
回复
 
二号楼
真棒
· 安徽省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

· 广东省
回复
 
一条鱼
报告,我是个土狗,我看不懂
· 山东省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

冷知识+1
· 广东省
回复
 
帅羊帅
这不是我认识的畅聊,是不是你小子把他绑架了
· 河南省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

在等待救援
· 广东省
回复
 
MOK
我一般用不上这么多的数据
· 甘肃省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

对的,一般也不会直接在表格处理这么大量的数据,不过再提升数据处理能力加强确实是一个方向
· 广东省
回复
 
Mr Chen
Mr Chen

WPS寻令官 | 创作者俱乐部成员

好久没有看到这么正能量的畅聊
· 甘肃省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

期待老师发更多好的帖子
· 广东省
回复
 
Esc2Exit
虽然看着很爽,但终归是模仿微软,还是建议能把自己的路走出来,自家的JSA,AS,python,都是好东西,但现在...
· 河北省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

本地化,易用性方面切入其实也可以,AI时代可能代码层面的需求没有那么大,不过确实jsa、airscript的推广和开发文档也有很大可进步空间,目前做得都有待提高
· 广东省
回复
 
HC.旋
HC.旋

WPS寻令官

跟着大佬学数据
· 福建省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

等下个月ETPQ更新,你又可以发新的关于PQ的帖子了
· 广东省
回复
 
嘉禾宝宝
给你点个赞
· 安徽省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

· 广东省
回复
 
时光若止
我没有处理过量很大的表格,工作中不会碰到这种情况的
· 安徽省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

一般数据量大都是直接在数据库上操作,确实很少会直接在表格中处理
· 广东省
回复
 
jbian
DuckDB可以在select的时候进行Column Pruning,只选择要用到的列进行下推处理,而Power Query是全量读取,这两者的IO开销很明显是DuckDB占尽了优势。但也有一个问题,如果是ODBC连接,会削弱DuckDB的优势。所以,很希望WPS官方能原生支持(不要ffi.loadlibrary,门槛太高了,非常不友好)这个开源数据库的连接,可以解决很多存储格式的快速读取和处理。
· 湖北省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

手动@ 官方产研过来关注
· 广东省
回复
 
杯莫停
处理过最大的有6万多行
· 浙江省
回复
Tam Kingsley
Tam Kingsley

WPS金话筒 | WPS寻令官 | 创作者俱乐部成员

是的,正常工作中基本不会用表格处理那么大量的数据
· 广东省
回复