我从小就不喜欢当众发言,觉得自己缺少一些“急智”,没有办法出口成章,经常说到后面就忘了前面—用大语言模型的评估标准来说,就是上下文窗口太小。写字就不存在这个问题,写出来的东西在要拿给别人读之前,总是有充分的时间可以反复推敲的。所以,我更喜欢写作而非演讲。
“演讲”这个词听起来颇为严肃,实际上在我们的当代日常生活中却有着广泛的应用,其中最常见的就是微信的60秒语音消息。对我来说,要一口气说60秒话且说得滴水不漏是一件很可怕的事情,所以除非走投无路,我从来不发语音消息。偶尔用语音输入,也要转成文本,仔细编辑后才发送出去。
有时候确实没那个条件。写东西需要把想法整理清楚,这是写作的优点,也是缺点。当灵感闪现,可能是洗澡、上厕所时,也可能是开车、散步时,又或者是清晨醒来、半夜惊醒的瞬间。先不说这些灵感迸发的时刻是不是方便打字,假如每个想法都必须整理清楚才有资格被记录,那绝大部分的灵感早就消失无踪了。
过去也有很好用的语音备忘录产品,例如“锤科残党”们念念不忘的、锤子手机上的“闪念胶囊”,我以前也经常使用,它可以将语音输入即时转换为文字笔记。不过,写作和口述是两种挺不一样的表达方式,写作需要连贯的思考和逻辑,而我们的思维往往是跳跃和碎片的。因此,虽然语音转文本的技术在移动互联网的时代早已成熟,将语音转换为文字内容时能做到95%的准确率,记录下来的内容若不经处理,往往可读性很差,保留了所有口头表达的缺陷。如果你阅读过播客音频转化出来的逐字稿,应该会有类似的感受。有些名人的演讲,看视频、听录音都非常引人入胜,一旦印出来变成书却读之索然无味,也是这个道理。
久而久之,我就不用语音记录了,毕竟我确实无法做到连续五分钟条理清晰地阐述一个主题。
拜大语言模型所赐,从2023年开始,国内外都出现了AI语音笔记这种新的产品形态。和传统的语音备忘录不同,AI语音笔记不仅可以将语音转为文字,在这个基础上往往还会自动整理、润色和提炼要点等。
早期国外的此类产品多为独立开发者开发,如AudioPen、Voicenotes和Cleft等,可能是为了更好承接用户的已有需求,也覆盖了会议笔记、采访记录、课堂讲座录音等长录音场景,支持的单次录音时间从15分钟到90分钟不等,甚至也有支持无限时长的。

