流程·洞察
在 iPad Pro 上实现语音合成与播客分发
我在上一期「iPad Power User」里谈到了新闻音频,并推荐了一组英文主流媒体的新闻音频。正如我在上期里所言,音频内容因其便捷的消费方式而越来越受到欢迎,我也开始尝试将会员通讯与电子书音频化。
在我看来,文章或者图书的音频产品与播客有着不同的定位。前者是一种信息形态的转换,强调内容,而后者则更强调主播风格与话题效应。
正因为如此,我选择通过语音合成的方式生成音频内容,并将邮件通讯「Deep Reading」与「iPad Pro 生产力指南」全部音频化,更进一步,我还把「Deep Reading」部分音频以播客的形式分发到包括 Spotify、苹果播客等主要的播客平台。
上述这些工作基本都在 iPad Pro 上完成,你所需要的,只是一些对于语音合成的基本认识、一点点云服务的知识以及一些合适的工具,接下来我会介绍一下整个流程。
1. 选择语音合成服务
语音合成,简单来说,就是将文本转化为语音的过程。当然,这其中有非常复杂的过程与术语,但作为一名坚定的「No Code」人士,我鼓励大家在了解一些语音合成基本知识之后,尽量选择低成本、开箱即用的语音合成服务。
机器学习过去几年的快速发展,恰恰提供了这样的机会,使得我们可以快速部署这个看似高深莫测的技术,比如 AWS 的 Polly 服务,你甚至不需要一行代码,直接在 AWS 的控制台将文本转换为音频,然后就可以下载到本地了。
再比如我之前曾经推荐过「讯飞快读」,既可以在线收听,也可以付费后将音频下载到本地。
2. 以 Google Cloud 为例的语音合成
在尝试了多个产品之后,我开始使用 Google Cloud 的语音合成服务,一来我是 Google Cloud 的付费用户,每个月要花费 20+ 美元以上的「上网税」,二来则是 Google 「WaveNet」语音模型的效果非常棒,感兴趣的朋友可以在 Google Cloud 的产品介绍界面体验一下其效果。
由于 iPad Pro 不具备 macOS、Windows 上面的本地终端应用,我就在 Google Cloud 部署了一台服务器,通过支持 SSH 的应用连接这台服务器,我使用的是 Code Editor,类似的产品还有 Termius,后者基础功能免费,用来连接服务器已经够用。
在使用的过程我也发现,相对于 macOS 与 Windows 平台,通过 Google Cloud 服务器可以大大减少部署难度,比如 Google Cloud 服务器上已经默认安装了 Cloud SDK,可以直接启动,而其他平台或其他云服务器上则需要复杂的安装命令。
具体的部署环节可以参见 Google Cloud 文档,文档提供了详细的说明,很多命令直接复制粘贴就可以了,我在 Code Editor 里完成了这些工作,如下图所示:
生成的音频保存在 Google Cloud 服务器上,在 Code Editor 里通过 FTP 下载到本地。
3. 音频剪辑处理
如果还需要对音频进行剪辑处理,我强烈推荐 Ferrite,这是一款全能的音频处理工具,提供了完整的声音处理、多声道剪辑等功能,下图是我在剪辑「iPad Pro 生产力指南」音频时的截图,你可以精准剪辑某个声音段,特别提示一点,这个操作搭配 Apple Pencil,效果更好。
Ferrite 还提供了丰富的导出选项,从无压缩 WAV 到有损的 MP3 一应俱全,满足不同需求的声音工作流程。
4.音频分发
下一步,就是要把这些生成、剪辑的声音放在网络上,不管是「Deep Reading」还是「iPad Pro 生产力指南」,我都存储在 AWS 的对象存储 S3 上,搭配 AWS Cloudfront 的网络分发,可以带来不错的网络加速效果,而且成本非常低,这两项服务的教程很多,推荐 AWS 官方博客的这篇文章,讲的很详细。
其次,我在之前的「iPad Power User」里曾经介绍过播客生产平台 Anchor。早在 2018 年,我就尝试过这个服务,不过当时还比较简陋,甚至不支持从 iPad 「文件」应用里导入音频(目前已经支持),而在被 Spotify 收购之后,这款应用俨然成了 Spotify 进军播客领域的重要棋子。
Anchor 提供了一整套播客制作与分发的流程,由于我已经有了音频内容,在注册账号之后的半个小时,就完成了整个播客的制作与分发。
如上图所示,这是 Anchor 的「播客生产车间」,提供了自己录制、与朋友一起录制、音频导入等丰富的选项,我选择的是音频导入,如下图所示:
此时只需点按音频右侧的「+」号,即可在右侧的播客里出现,你会发现右侧底部还有两个按钮,「Preview」与「Publish」,可用于预览收听与直接发布。
更进一步,点按上面的日期,自定义这期播客的主题、描述等等,当然你也可以发布后再去修改这些内容。提示一下,这里的文字不支持富文本,只能以文本格式呈现。
设置完毕之后就可以发布了,点击「Publish」,此时会有一个弹窗,确认无误后发布即可。
播客发布之后,你可以首先在 Anchor 平台听到这些内容,随后的时间里,Anchor 还会将其分发给 Spotify、苹果播客、Google Play 播客等,目前 Anchor 支持以下这些平台的分发。
当然这个过程需要一些时间,Spotify 速度最快,其他平台需要 1 到 2 个工作日不等,耐心等候。
5. 总结
这段时间制作音频内容的流程常常感到很兴奋,一方面是大量开箱即用的机器学习服务,正在从根本上改变内容生产的方式,这对于像我这样的内容生产者意义重大,或许下一步我会引入一些计算机视觉技术生成的影像内容。
另一方面,我也兴奋于 iPad Pro 上这些优质的内容生产应用,不管是 Ferrite 还是 Anchor,它们都是原生的 iPad 应用,基于 iPadOS 的软硬件逻辑提供功能和服务,这也让我对未来在 iPad Pro 上实现更多工作流充满好奇与期待。
|