在研究 AI 的语音模型时,我突发奇想,能否用 AI 的声音做些什么。
正好最近在 github 上看到一本不错的书,就想让孩子也看看。但由于长期在外地出差,和孩子所在的城市时间总是对不上,所以我就产生了用 AI 做播客的念头。
结构
做播客的第一步是研究其结构。
通常,播客包括开场白或介绍的部分,这可能是每一期节目的Intro。
与Intro相对的是Outro,是在节目结束时,会有一句欢迎大家转评赞的话。
Intro&Outro:
一沉,你好呀,欢迎来到《人人都能用英语》!我是爸爸制作的机器人哥哥,今天将带你一起阅读这本在git hub上发行的开源书。希望你能通过听完这本书,以后能轻松地学习英语。准备好了吗?让我们开始吧!
感谢你的聆听,这一期的《人人都能用英语》到这里就结束啦。希望在这短短的时间里,你能有所收获。别忘了,每一天的进步都是你通往流利英语的重要一步。听众朋友们,如果你喜欢我的节目,请关注我,把节目分享给更多的朋友。我们下期再见,再会!
正文
然后就是阅读书籍本身正文的内容了。
Shownotes
如果不做播客,你可能不知道还有个东西叫 shownotes,它以文本形式简介节目内容,里面有时间轴,用时分秒的方式制作热链接到音频的对应位置,方便快速跳转到相应位置听取这一段内容的简介。制作时间轴的步骤叫做“打轴”,如果没有AI,这是一个很费时费力的工作。
Show notes 中也会包含图片以及不方便用语音介绍的内容,方便听众根据补充信息拓展节目以外的内容。
我的Shownotes长这样:
题图
还有就是每一集的题图。这里我都是用同一个风格的AI生成的。
播音员
再就是搞定播音员说话啦。我用了两个平台的主播。
魔雨晴@出门问问/魔音工坊
云龙@腾讯智影
别问我为啥要换平台,魔音工坊的收费模式太坑了,令人吐槽。
发布
最后就是把对应的所有信息发布到平台上就好了。
你看,东西也不是很多,挺简单的不是嘛。
体会
纸上得来终觉浅,绝知此事要躬行。
很多事情,只有做过,才能感受到很细节的东西。
做播客的感觉是,即便是写好的书,在一些地方上也需要修改才能适合口语化表达。并不是简单的文字稿出来,就是成品的,那样的作品品质太差,是经不起时间推敲的。比如,为了让品质看得过去,我就做了下面这些编辑:
- 所有的“罢”要替换成“吧”,不然AI读起来怪怪的
- 注意数值的发音,例如99.99%,要针对性的修正,不然会读成99.99百分号
- ——要替换成句号,以获得停顿。
- (参见《通往财富自由之路》)一些括号参见的内容,要注意去掉,语音表达不需要。
- 图片的格式
![]()
要去掉,不然会把括号叹号读出来- 超链接的格式去掉,不然就会念:https….
- 音标等通过插入音效解决,暂时只能口语录
- 一定要校对,逐字听,检查多音字发音正确,断句正确
- 用来加粗的**都去掉,一些AI播音员会读成“星号”
- github要加上空格,否则发音有时候不对
- ……
保证交付质量,即使有了AI也要不少人工的。
从某种角度来说,播客是另一种载体,它是一种特殊的传播形式,这种载体更口语化,只占用耳朵一个输入器官,更适合一边做其他事情一边听,更具有陪伴的特性。 这种特性反而更符合我选择用播客的方式来陪伴不在同一时空的家人的需求。
当然,这里也有AI带来的福利。播客有一个要素是播音员。我选择的是 AI 播音员,因为我的嗓子不太好,而且使用 AI 播音员只要搞定文字稿,读稿子的速度很快,可以极大地节省录制节目的时间。 毕竟错读重录稿子还是很浪费时间的。
原来录制播客要录好几遍,中间有口误还要反复重来,做一期播客可能需要很长时间,有了 AI 真的很好,做个播客也可以轻装上阵了。但现在只要解决了文案,很快就可以出一篇播客。
AI让生活更美好!