问 WPS语音速记识别准确率亟待提升

Lv.4 核心创作者

用了WPS语音速记将近2年，总体上集成在WPS软件里确实方便，不用单独切换应用就能完成会议录音。但作为一个重度文字工作者，不得不说，语音转文字的准确率问题已经到了影响实际使用的程度，尤其是跟讯飞听见、腾讯会议转写等同类产品一比，差距还挺明显。

具体问题

1. 多音字 / 同音字混淆严重一句"这项政策已经进入实施阶段"，WPS输出成了"这项政策已经进入实时阶段"。"实施"→"实时"，意思完全不同，事后校对非常费时。

2. 专业术语缺乏支撑医疗场景测试中，"脑梗死"被识别为"脑更死"，"二甲双胍"成了"二甲双鬼"。完全没有行业词库兜底，专业人士根本没法用。

3. 噪声环境准确率骤降在有空调白噪音的会议室里，识别准确率明显下降，连续误识情况增多；换到咖啡厅测试，基本已经"无法正常使用"。而讯飞在相同环境下表现仍然稳定。

4. 标点符号逻辑混乱长句该断的地方不断，短句偶尔乱插逗号、句号，影响阅读。和讯飞输出对比，WPS的断句能力大约落后一代。

5. 多说话人场景没有区分三个人参加的小组讨论，全程输出成一块文字，不能准确自动识别多个发言人。讯飞和腾讯会议已经支持说话人分离，这个功能对开会记录场景来说是刚需。

6.讯飞目前可以使用图文要点，还可以针对还录音进行自定义问答。不知道何时更新。

WPS语音速记的定位很好，这个体验优势任何独立App都给不了。但如果识别准确率跟不上，用户试了一次就放弃，这个优势也就白费了。希望产品团队能把语音识别能力列为近期迭代的优先项。期待下一个版本有实质性的提升！

2026-06-02 10:56:44

14 +1

1 +1