耳语-听书狂人的文字转语音处理机的设计思路

似乎，优化一个软件是永远没有终点的样子。有些时候懂得舍弃才是道。反思对功能要求的苛刻和贪婪，梦见才能出世见人，它不完美，但是他来了。

这个软件我就不准备煞有其事的去做个官网了，如果有需求贴，可以在本帖留言。也可以在B站提出来。

在B站发布了自己创作的文字转语音处理的工具，这个工具看起来简单，其实背后的逻辑挺复杂。

这个是初始规划时候，就罗列的功能分布目标，以及相互串联的流程逻辑
切片处理部分：

时间轴方面：

界面部分，则尽可能简洁，让用户无师自通

似乎看起来很复杂，实际一点也不简单^^,要不然，我直接做一个py拷贝文章内容，直接发送就行了，还弄那么多底层逻辑和处理机制？
实际上我也是那么简单的做了，在接口处，我直接发送文章，唉？超过45个字符，12G显存的显卡就报错了？好的我缩小。唉，不对啊，那么容易超时，再调整调整。
如此反复我明白了，其实，我简化为逐行逐句，雷同开源软件“阅读”那样子，逐行来。

但问题是，我逐行来听了就听了，能不能所有行，重新拼接成连贯长的音频啊？对对对，思路马上扩开了，也就诞生了由这个原发点儿产生的一系列逻辑。

包括这个坑：晚上睡觉前我打开电脑，次天发现cosyvoice接口崩？了？是的，没有看错，满心期待的字符遇到了连续两个&#转义符。于是我关掉了软件，唉？我得重来？是的，我想过“断点续传”可是我没有想过“断电”续着做啊。如此往复，我提前替很多人踩了好多坑，软件从满足听书人群，拓展到满足视频剪辑了。

软件如果对你也是有意义的我想当高兴。这个程序如果作为你一个生活或者工作流的模块，莫大荣幸，这不仅仅为了听书人而开发，也不对，你看这个工具不是可以很便利在音频的现成技术面上给视频剪辑添色吗？就是如此。一个技术应该是仅仅局限在他最初的目标上，还有很多的场景可以填充。填到各行各业的各个能唤醒价值的地方。

手机扫描二维码访问