WPS语音速记识别准确率亟待提升
1 





Lv.2潜力创作者
用了WPS语音速记将近2年,总体上集成在WPS软件里确实方便,不用单独切换应用就能完成会议录音。但作为一个重度文字工作者,不得不说,语音转文字的准确率问题已经到了影响实际使用的程度,尤其是跟讯飞听见、腾讯会议转写等同类产品一比,差距还挺明显。
具体问题
1. 多音字 / 同音字混淆严重一句"这项政策已经进入实施阶段",WPS输出成了"这项政策已经进入实时阶段"。"实施"→"实时",意思完全不同,事后校对非常费时。
2. 专业术语缺乏支撑医疗场景测试中,"脑梗死"被识别为"脑更死","二甲双胍"成了"二甲双鬼"。完全没有行业词库兜底,专业人士根本没法用。
3. 噪声环境准确率骤降在有空调白噪音的会议室里,识别准确率明显下降,连续误识情况增多;换到咖啡厅测试,基本已经"无法正常使用"。而讯飞在相同环境下表现仍然稳定。
4. 标点符号逻辑混乱长句该断的地方不断,短句偶尔乱插逗号、句号,影响阅读。和讯飞输出对比,WPS的断句能力大约落后一代。
5. 多说话人场景没有区分三个人参加的小组讨论,全程输出成一块文字,不能准确自动识别多个发言人。讯飞和腾讯会议已经支持说话人分离,这个功能对开会记录场景来说是刚需。
6.讯飞目前可以使用图文要点,还可以针对还录音进行自定义问答。不知道何时更新。
WPS语音速记的定位很好,这个体验优势任何独立App都给不了。但如果识别准确率跟不上,用户试了一次就放弃,这个优势也就白费了。希望产品团队能把语音识别能力列为近期迭代的优先项。期待下一个版本有实质性的提升!