WPS多维表AI测试报告（补发）

#多维表 #AI功能

雨er

注：此内容为二次编辑后补发

WPS多维表AI测试报告

一、简述

使用WPS 多维表格AI完成

测试数据共569条，测试内容包括：

提取类：隐患地点、隐患内容、巡查时间

区分类：隐患类型

主观类：危险程度、整改时间

具体分析

整体流程采用分析单一单元格的方式，考察了AI的数据抽取能力，区分能力以及主观思维。

隐患内容

采用“智能抽取”功能，提示词如下：

提取具体隐患内容，不要任何时间、地点，然后变得更正式

检测方法使用AI加人工核查的方式，先处理内容，将人工和AI生成内容放在同一单元格里，然后在使用AI“自定义生成”功能，提示词如下：

判断分号前后的内容在意思表达上是否相同，输出“是”或“否”

该方法只对内容的实际意义进行判断，而不判断无意义字符（例如逗号句号等），相比于逐字符判断要更加合理。

AI判断完成后，再由人工进行复审。最终发现AI有44处的意义表达与人工不同，占比7.7%

事后分析，存在以下几种情况：

人工输入信息缺失：23次，占比50%，总占比4%

AI输入信息缺失：8次，占比17.39%，总占比1.4%

AI不能正确排除地点信息：14次，占比30.44%，总占比2.4%

AI未能识别内容：1次，占比2.17%，数据量过小。

其中，最值得关注的是第（2）、（3）条。其中，第（2）条中的内容，可能是由于提示词的效果而产生的变化，相比之下，并没有出现太大规模的“乱说话”问题，第（4）条也显示了大模型能够识别的占比已经完全可用。第（3）条显示大模型仍然存在语义分割错误的现象。第（1）条属于人工失误，不在讨论范围内。

隐患地点

采用“智能抽取”的方法，提示词如下：

提取有关地点的描述

检测方法使用Excel里的exact方法，判断字符是否完全相同，并加入人工复审。

最终发现AI有54处的表达与人工不同，占比9.4%

事后分析，存在以下几种情况：

人工输入存在错误（包括输入信息缺失、不能正确排除隐患内容）：15次，占比27%，总占比2.6%

AI输入信息缺失：2次，占比3.7%

信息本身有误：1次，占比1.85%

分类问题：36次，占比66.67%

主要问题在于第（4）条，具体为“安全出口以及室内消火栓是否可以算作地点？”，对于这一概念的不同阐释导致了结果的不同。

隐患时间

采用“智能抽取”的方法，提示词如下：

提取日期和时间的部分，并转化为标准的yyyy-mm-dd hh:mm的形式，如果没有日期的话，就显示未知

检测方法使用Excel里的exact方法，判断字符是否完全相同，并加入人工复审。

最终有8处错误，均为信息错误，已经更正。说明在时间提取方面，AI大模型的准确率已经完全可用。

隐患类型

在实际操作中，产生了两种方法：第一种方法为“智能抽取”，缺点是现阶段只支持最多10种类别的判断。由此衍生出第二种方法，使用“自定义生成”，两者提示词相同：

请分析文本内容，并做出分类，分类信息如下：

重点岗位值班人员离岗睡岗/人员离岗

重点岗位值班人员离岗睡岗/人员睡岗

消防安全疏散通道消防车通道/堵塞疏散通道

消防安全疏散通道消防车通道/堵塞消防车通道

安全用电用气及火灾隐患/不规范用电

安全用电用气及火灾隐患/不规范用气

室内消火栓、应急疏散管理、防火门等日常管理情况/室内消火栓

室内消火栓、应急疏散管理、防火门等日常管理情况/灭火器

室内消火栓、应急疏散管理、防火门等日常管理情况/防火门

室内消火栓、应急疏散管理、防火门等日常管理情况/疏散指示灯具

检测方法使用Excel里的exact方法，分别判断人工与第一种方法、人工与第二种方法的准确率。其中，第一种方法存在缺失部分选项的情况，于是对人工的数据进行了简化处理。

最终，人工与第一种AI方法的比较里，有133处不同，占比23.3%。

具体分析如下：

信息不足：48次，占比36.09%，总占比8.4%

人工判断失误：21次，占比15.79%，总占比3.6%

AI判断失误：38次，占比28.57%，总占比6.6%

分类问题：19次，占比14.29%，总占比3.3%

AI出现幻觉：7次，占比5.26%，总占比1.2%

同时，也对人工与第二种AI方法进行比较，有129处不同，占比22.6%

具体分析如下：

信息不足：31次，占比26.73%，总占比5.4%

人工判断失误：16次，占比13.79%，总占比2.8%

AI判断失误：35次，占比30.17%，总占比6.5%

分类问题：21次，占比18.1%，总占比3.6%

AI出现幻觉：13次，占比11.21%，总占比2.2%

信息不足、AI判断失误和分类问题是前三重点问题，在两种AI方法中没有展现出明显差别，结果较为稳定。“信息不足”是指给予AI的信息有时存在内容缺失的现象，当前的AI只能分析文本内容，无法分析照片内容，导致无法给出正确判断。“分类问题”是指在分类中，某个问题可以同时归结于两个分类，AI并不能做多选。AI判断失误则是由于AI本身未经训练，对于安全工作不够严苛所导致的。

值得注意的是AI出现幻觉的现象。方法2比方法1要有更多的幻觉现象，这是由于方法2回答具有更高的自由度。相比之下，方法1的选项都是给定的，却会出现意料之外的选项，说明大模型的幻觉现象仍然难以根除。

危险程度

采用“情感分析”方法，提示词如下：

根据内容分出危险等级，共两级：一般、重大

检测方法使用Excel里的exact方法，判断字符是否完全相同。

最终得出：人工与AI不同处有265处，占比46.4%

“危险程度”的区分当前具有较大主观性，并无相关法律条文支撑，故不做分析。

整改时间

采取“情感分析”方法，提示词如下：

根据隐患问题的复杂程度，分为以下三个整改时间等级：立即整改、24小时内整改、择日整改

检测方法使用Excel里的exact方法，判断字符是否完全相同。

最终得出：人工与AI不同处有263处,占比46.1%

整改时间反映的是隐患问题的整改难度，在没有明确施工难度的情况下存在较大主观性，故无法客观分析。

总结

人工输入应当更加精准。要把隐患的原因以及可能产生的后果，触及的法律条文都说清楚，才能让AI分析更加合理。

对于问题的分类应当纳入更加客观的指标，以免出现多重分类的问题。

AI大模型应当引入更加精细化的训练方式，采用基础模型（checkpoint）与微调模型（LORA）的结合应该会提高准确率。

AI当前仍然存在极小部分的幻觉问题，这是大模型不可避免的问题。

WPS AI

2024-10-21 06:57:42 河南省

2 +1