vocol.ai

vocol.ai

不只语音转文本,还能帮你画重点、让同事朋友间交互讨论的 vocol.ai 跨语系协作平台

newsman 发表了文章 • 2023-07-24 22:56 • 来自相关话题

现在有越来越多的人在使用数字科技辅助学习、工作,我也常常在 PTT 上看到许多网友在问有没有好用的笔记软件、工具可以处理语音转文本的工作,因为他们可能录下了课堂老师讲的内容、工作会议讨论的事项,但事后需要转成文本档整理到自己的笔记或是工作报告中。最近我就发现了一款好用的语音转文本工具 vocol.ai,辨识正确率很高,产生逐字稿的同时还可以分辨不同的讲者,甚至未来的 AI 趋势在 vocol.ai 里面也直接集成进去了,大家最常叫 ChatGPT 做的「帮我整理这内容的重点跟翻译」直接就在逐字稿产生以后一并生成。另外,如果你是需要团队合作的案子,vocol.ai 也有团队协作功能,从头到尾一站式就搞定。下面我会详细的介绍 vocol.ai 要怎么用,并且实际示范语音转文本效果以及好用的几个功能。语音转文本神器:vocol.ai 的 7 大重点这里先跟大家快速重点一下我觉得 vocol.ai 好用的 7 大功能,先让大家有个概念,原来这 vocol.ai 可以做这些,然后我们再体验它的效果。免费试用约 200 分钟先跟大家说,目前 vocol.ai 有提供每个帐号大约 200 V-points 的免费试用额度,通常一分钟的逐字稿转换会花掉 1 到 1.5 V-points(这只是大约计算,通常不会差太多),所以 200 V-points 大概就是 200 分钟左右。▲你可以在个人页面中看到剩余可用的 V-points所以你不用担心说看完介绍想要用结果要付费才能用!可以先试用 200 分钟,觉得好用、有帮助的话再继续购买更多的 V-points。▲ vocol.ai 还有包含企业方案在内的其他方案,后面会提到语音转逐字稿直接把录音档、影片档上传到 vocol.ai 的个人平台上,vocol.ai 就会开始帮你分析影片、音乐的内容,然后产生逐字稿,整个流程大概两、三个步骤就能搞定。▲上传 mp3、mp4、m4a 多种格式都可以支持通常内容只要不是太复杂的情况下,逐字稿大约可以在 3 ~ 5 分钟之内就产生出来,然后就可以在项目的画面右半部「逐字稿」这一区块看到完整的逐字稿内容。▲上传完毕后再等一下逐字稿就会出现,等待时间取决影片长度与复杂度完整呈现声音的内容就连那种我们很不经意脱口而出的赘词「对」、「就是」、「那个」,或是你卡词的状况都会很完整的节录出来。▲ vocol.ai 完整地把语音内容转成逐字稿既然是逐字稿,所以当然就是说了什么就呈现什么,本来就不会去帮你修饰语句,我觉得这样是非常正常而且尽责的逐字稿。录音的品质会决定逐字稿生成后的结果,有时候我们可能会因为声音素材品质不佳、讲话彼此互相搭到、太过小声….等原因,导致辨识出错误的内容或是用字,但也没关系,点两下逐字稿中想要修改的段落,就可以在跳出的菜单中选择「编辑」进行修改。▲ 觉得有需要调整的地方也可以自行修改辨识不同讲者vocol.ai 在辨识逐字稿的过程中也会分辨哪一句话是谁讲的,然后把不同的句子对应到讲话的人,所以会在逐字稿中看到「讲话者 1」、「讲话者 2」等字样,让我们可以更容易了解谁说了些什么。▲ 分辨讲者更容易看出是谁在说话就我目前的测试,至少到第七位讲话者都还可以辨识得出来,而且每一位讲者都会用不同颜色的线条表示,在内容很多的情况下比较好一眼就找到、辨别不同的说话者。▲ 目前测试至少可以支持 7 名讲者如果还想要更容易辨识的话,直接把「讲话者」改为真实的对象名称就好了,这样如果有刚参与项目的同事或是朋友之间就在讨论事情,就不用担心不知道是谁在说话了。▲ 讲者的名称也可以自行调整多种语言辨识vocol.ai 可以针对影片、录音档内不同的语音进行辨识,基本的国语、英语和日语就不说了,这几种语言对于 vocol.ai 在处理逐字稿上几乎是没有什么太大的问题。▲ vocol.ai 辨识英语甚至对话包含中、英文夹杂的状况也都可以顺利辨识,就像下面这样,在逐字稿里面就会同时显示中文以及英文两种不同的内容。▲ vocol.ai 辨识中英语夹杂另外,因为许多台湾人习惯说台语,今天如果录音的场合是大家都习惯说台语的会议、讨论上,其他的语音转文本系统可能很难处理,vocol.ai 就没有问题。我也简短的测试了一下,是真的可以辨识出来,不过要注意的是,台语的说法跟国语还是会有落差,像是下面这个「补给够」是台语「补嘎搞」的直翻,国语可能就会讲「补足」,会有这类的差别需要注意。▲ vocol.ai 台语也能辨识然后来试试看广东话,这是我在网络上找到的一段香港 YouTuber 的街访影片开头,丢到 vocol.ai 去转文本,没想到竟然也可以正确辨识。▲ vocol.ai 广东话也能辨识AI 生成重点在上面的几张截屏中你应该也有看到,vocol.ai 在生成完逐字稿以后,还会透过 AI 语言模型,把逐字稿的内容整理出重点显示在左半边的部分,而且如果内容完整清晰的话,可以分段,并且指出每一段的时间从什么时候开始、什么时候结束。虽然在上传文件时可以先勾选产生 AI 分析摘要,但我有时我在上传的时候会刻意先不开启 AI 自动产生摘要的功能,就是下面这个开关先不打开。我会先产出逐字稿,确认好内容再点击「运行智能分析」产出 AI 分析摘要。这也是我觉得很棒的一点,因为我通常习惯先确认好逐字稿内容,确认没有要修改再做 AI 重点摘要,因为如果我有针对逐字稿进行修改的话,这样做可以确保我的摘要会跟逐字稿内容是同步的,省去我对照内容的时间。另外,录音的内容如果一次说了好多不同的主题,vocol.ai 也会帮你把不同的主题分门别类的抓出来,你可以从「主题」标签页中看到 vocol.ai 帮你整理的主题项目,点一下任何一个项目,右边的逐字稿就会反黄,方便我们可以快速找到。团队协作平台团队协作功能是我觉得 vocol.ai 很棒的一项特色,不仅仅是你可以自己在上面完成工作,你还可以邀请同事一起参与,直接在 vocol.ai 的平台上,针对生成的内容进行讨论,评论。无论是自己还是被邀请的对象,除了可以浏览逐字稿内容、摘要内容以外,还可以针对有疑虑的地方,直接留下评论,然后在评论区中进行讨论或是交流。然后我看 vocol.ai 官网的方案内容说明,在未来还会加入新的 Starter 和 Pro 方案,可以使用像是重点标示、权限设置、团队管理、使用分析….等更多项目团队用户专属且工作上必须使用到的功能。vocol.ai 可以用在哪里?下面这边我想要实际带大家来体验看看各种不同使用 vocol.ai 的情境,透过情境的方式,我想大家应该更可以体会 vocol.ai 语音转文本有哪些可以发挥的地方。课堂纪录整理现在很多人都会在课堂上把老师教的内容记录下来,甚至有些笔记 App 也有提供录音功能,但就是纯录音,也没办法转成文本,后续要做笔记的时候还是要从头开始听,甚至你有想要听的内容,但是你根本不知道这个内容出现在几分几秒,要像是瞎子摸象那样一直在播放器中寻找。但是利用 vocol.ai,你只需要把影片、录音档上传。如果内容很多也没关系,上传完以后你可以先做自己的事情,等到逐字稿生成完毕会发送通知给你,蛮贴心的功能,不用在那痴痴的等。但要特别注意的是,上传单个音档最高限制是 180 分钟!如果你刚好没有带到录音笔、手机空间不够、快没电的情况下,你也可以直接透过 volco.ai 提供的录音功能录下要转逐字稿的内容。但因为这是透过内置浏览器来进行录音,所以还是要注意一下浏览器的设置,避免因为没有跟网页有交互时进入休眠状态让录音被迫停止,以我的经验来说,我常用 Google Chrome,所以会习惯去「设置」→「性能」→把信任的网站加入菜单中。此外,我也会同时关闭内存节省模式。无论是透过 vocol.ai 直接录音或是上传音档,当逐字稿产生完毕后,你就可以从逐字稿中透过搜索的方式,快速找到你想要找的重点,之后再把所有的内容好好整理一下,会比从头重新听过再来整理还要有效率。想听哪一段的内容直接点击文本就可以直接切换过去,不用在一整段语音中盲目寻找要听的目标内容。这里也要特别提一下,其实 vocol.ai 也有针对逐字稿、评论讨论的关键字搜索工具,不过我觉得那比较适用有好多段对话的情况,搜索工具会引导你去有包含这个关键字的对话、章节或是讨论串。但是像我上面那样,课堂上只有老师一个人批哩啪啦在讲的情况,vocol.ai 的关键字搜索反而没那么好用,因为他不会引导你去这个字实际出现的地方,而是把有提到这个字的对话整段抓出来,等于是老师整段讲的话都被标出来了,那就没有意义了,所以像这种情况还是改用浏览器内置的搜索工具比较好。还是要说一下,逐字稿真的很好用,大家一定要会善用,毕竟在信息的世界,文本是很重要的传播媒介啊。会议纪录整理vocol.ai 也很适合拿来做会议记录,做会后的数据整理,搭配 vocol.ai 可以分辨不同讲者的特色,可以在逐字稿中很容易了解到谁说了哪些内容。而且包含这样一来一回的对话,甚至有时候有抢话的状况,vocol.ai 都还是分辨得很清楚,没有混在一起、搭在一起。另外像这个情境,就可以使用上面提过的关键字搜索工具,找出哪些对话里面有我们想要了解的关键字内容。如果可以使用 vocol.ai 的工具还是比较好,毕竟这个可以直接让画面只显示我们搜索的关键字对话,更容易聚焦在结果上。另外还有一种会议记录,可能就是大家开会的时候随手录下来的,这种当然也可以使用 vocol.ai 来做会后的逐字稿整理。可是你会发现这里面明明就很多人都有发言,但是在逐字稿中却都只辨识成一个讲者,不像上面那样可以辨识成两个人,还能一来一往很流畅,句子也不会搭在一起。主要还是因为声音品质的关系。像这个会议记录的影片文件,因为大家声音都不是非常清晰,有些讲得也很模糊,所以 vocol.ai 在判断上就会有很大难度去准确的辨识,而这个影片的情况还算好,逐字稿中有 8 成的内容都有抓到,只是没有分辨讲者罢了。毕竟 AI 也不是万能,素材的品质越好,能够提供的内容就越完整,这点大家一定要记得。用翻译快速看懂国外采访纪录刚好在这段时间,我们有机会受德国在台协会邀请做一个小访问,主题是关于 9 月要在德国柏林举办的 IFA 展览,而我们也录下了采访的内容,然后透过 vocol.ai 来帮我们做事后的整理。一样可以透过 AI 生成的重点先了解一下整段访问的内容,然后再针对逐字稿的内容去做整理或是进一步的利用。这边就要提到 vocol.ai 七月刚上线的翻译功能!简单来说,这功能是能够让你在生成逐字稿之后进行翻译。完成逐字稿翻译后,点击该语系就能对照原始语系,而且就算你点击特定区段的翻译版本逐字稿,语音也会同步,也能留下评论。这对想要学习语言的人来说,就像是学习平台一样方便。除了在平台上跨语系协作,也能下载各种翻译版本逐字稿。支持的格式有 txt 和 srt 这两种。逐字稿翻译功能甚至支持 20 种以上的语系,但需要注意的是翻译版本无法被编辑喔!我认为这对于需要开跨国会议的人非常有帮助,例如有时候跟日本客户开会时,他们偏好使用日文,但对于不懂日文的我们,如果需要知道内容细节,就需要口译帮忙,但有时候口译也会省略一些内容,这就会造成信息落差,如果能掌握到所有细节,其实就能避免这种状况。vocol.ai 也是好用的多人协作平台上面的案例中,你可以发现我主要是以个人使用的情境在体验 vocol.ai 的功能,谈到 vocol.ai 如何帮助我们更好的处理语音的事情。但其实 vocol.ai 不仅仅是对自己有帮助,对于团队协作都是有帮助的,这都是借助 vocol.ai 的协作平台功能。换个立场,今天你不是会议的参与者,但你是团队的一员你不一定要亲自参与每一场的会议,但是你可以在会议结束以后,让与会的同事透过 vocol.ai 平台的「分享文件」功能把你邀请进 vocol.ai 的协作平台。收到邀请后会有 Email 的通知,而且可以在媒体库中清楚的辨识哪些是受他人邀请参与的项目,哪些是自己的项目。直接在平台中留下针对内容的建议身为受邀者虽然目前还不能编辑逐字稿的内容,但是可以针对逐字稿或是语音的段落给予意见,然后再由项目的拥有者根据大家的回馈进行修改。可以选择任何一段的逐字稿或是语音段落,然后留下「评论」,这样在同一个项目底下的其他参与者,就可以看到彼此的评论内容。其他人只要点击讨论区中你所留下的评论,就会被引导到你选起来的对话或是章节,你也不用再跟大家说「请看 XX 分 XX 秒的地方」,把时间跟精力专注在真正要聚焦的内容上吧。所以无论你是主要参与会议的人、只需要知道会议上讨论了些什么的人,或者你是一个项目管理的角色,你都可以利用 vocol.ai 协作平台的共享逐字稿(包括原始逐字稿跟多语系翻译版本)与 AI 重点整理的功能,查看整场会议的全貌或重点、甚至给予评论。而且上面说到的这些评论都会即时显示,大家可以花个 10 分钟 20 分钟一起在在线透过 vocol.ai 来完成会议后续的确认工作。也能直接用 vocol.ai 录制在线会议此外,vocol.ai 还可以化身为一个机器人加入 Google Meet 或 Microsoft Team 的视频会议中,把会议的内容自动记录下来,再自动丢回 vocol.ai 的平台中分析、产出逐字稿。不过要注意的是,目前使用机器人自动录音有六十分钟限制。接着你只要从个人后台首页中的「邀请 Google/Team 会议录音机器人」选项的「加入会议」功能操作。然后粘贴会议的链接,让 vocol.ai 可以向会议送出加入的邀请。在会议端就会收到有 vocol.ai 机器人要加入会议的通知,允许加入以后,vocol.ai 就会开始对会议的内容进行录音。当会议结束后,vocol.ai 机器人就会自动把录制的内容丢回系统,你可以在后台中看到 meeting 的文件,这就是刚刚录制的会议内容。接着后面产生 AI 摘要、逐字稿的功能就跟前面介绍过的一样。透过这个方式,在团队开会、远程视频会议时,就不用另外录像、取得录像档然后再上传,这些有的没的工作就直接让 vocol.ai 来处理,处理完还能直接生成会议重点摘要与逐字稿,多方便。vocol.ai 平台:语音转多语系逐字稿,让工作变得更有效率回归到最原始的需求,我们之所以需要一款好用的语音转文本工具,就是因为现在很多东西都讲求数字化,而数字与我们之间最重要的沟通方式就是文本了。透过 vocol.ai 的语音转文本功能,我们可以很方便又快速的把落落长的课堂录音、会议记录、采访内容在几分钟内就转成多语系文本,让我们后续可以做更多应用。vocol.ai 提供了 AI 摘要功能以及分享逐字稿功能,可以加快工作的流程以及协作的顺畅度,利用 AI 摘要先快速了解内容后,在针对逐字稿的细项内容去修正、讨论与调整。 查看全部

现在有越来越多的人在使用数字科技辅助学习、工作,我也常常在 PTT 上看到许多网友在问有没有好用的笔记软件、工具可以处理语音转文本的工作,因为他们可能录下了课堂老师讲的内容、工作会议讨论的事项,但事后需要转成文本档整理到自己的笔记或是工作报告中。

最近我就发现了一款好用的语音转文本工具 vocol.ai,辨识正确率很高,产生逐字稿的同时还可以分辨不同的讲者,甚至未来的 AI 趋势在 vocol.ai 里面也直接集成进去了,大家最常叫 ChatGPT 做的「帮我整理这内容的重点跟翻译」直接就在逐字稿产生以后一并生成。

另外,如果你是需要团队合作的案子,vocol.ai 也有团队协作功能,从头到尾一站式就搞定。下面我会详细的介绍 vocol.ai 要怎么用,并且实际示范语音转文本效果以及好用的几个功能。

语音转文本神器:vocol.ai 的 7 大重点

这里先跟大家快速重点一下我觉得 vocol.ai 好用的 7 大功能,先让大家有个概念,原来这 vocol.ai 可以做这些,然后我们再体验它的效果。

免费试用约 200 分钟

先跟大家说,目前 vocol.ai 有提供每个帐号大约 200 V-points 的免费试用额度,通常一分钟的逐字稿转换会花掉 1 到 1.5 V-points(这只是大约计算,通常不会差太多),所以 200 V-points 大概就是 200 分钟左右。

▲你可以在个人页面中看到剩余可用的 V-points

所以你不用担心说看完介绍想要用结果要付费才能用!可以先试用 200 分钟,觉得好用、有帮助的话再继续购买更多的 V-points。

▲ vocol.ai 还有包含企业方案在内的其他方案,后面会提到

语音转逐字稿

直接把录音档、影片档上传到 vocol.ai 的个人平台上,vocol.ai 就会开始帮你分析影片、音乐的内容,然后产生逐字稿,整个流程大概两、三个步骤就能搞定。

▲上传 mp3、mp4、m4a 多种格式都可以支持

通常内容只要不是太复杂的情况下,逐字稿大约可以在 3 ~ 5 分钟之内就产生出来,然后就可以在项目的画面右半部「逐字稿」这一区块看到完整的逐字稿内容。

▲上传完毕后再等一下逐字稿就会出现,等待时间取决影片长度与复杂度

完整呈现声音的内容

就连那种我们很不经意脱口而出的赘词「对」、「就是」、「那个」,或是你卡词的状况都会很完整的节录出来。

▲ vocol.ai 完整地把语音内容转成逐字稿

既然是逐字稿,所以当然就是说了什么就呈现什么,本来就不会去帮你修饰语句,我觉得这样是非常正常而且尽责的逐字稿。

录音的品质会决定逐字稿生成后的结果,有时候我们可能会因为声音素材品质不佳、讲话彼此互相搭到、太过小声….等原因,导致辨识出错误的内容或是用字,但也没关系,点两下逐字稿中想要修改的段落,就可以在跳出的菜单中选择「编辑」进行修改。

vocol.ai 语音转文本

▲ 觉得有需要调整的地方也可以自行修改

辨识不同讲者

vocol.ai 在辨识逐字稿的过程中也会分辨哪一句话是谁讲的,然后把不同的句子对应到讲话的人,所以会在逐字稿中看到「讲话者 1」、「讲话者 2」等字样,让我们可以更容易了解谁说了些什么。

▲ 分辨讲者更容易看出是谁在说话

就我目前的测试,至少到第七位讲话者都还可以辨识得出来,而且每一位讲者都会用不同颜色的线条表示,在内容很多的情况下比较好一眼就找到、辨别不同的说话者。

▲ 目前测试至少可以支持 7 名讲者

如果还想要更容易辨识的话,直接把「讲话者」改为真实的对象名称就好了,这样如果有刚参与项目的同事或是朋友之间就在讨论事情,就不用担心不知道是谁在说话了。

▲ 讲者的名称也可以自行调整

多种语言辨识

vocol.ai 可以针对影片、录音档内不同的语音进行辨识,基本的国语、英语和日语就不说了,这几种语言对于 vocol.ai 在处理逐字稿上几乎是没有什么太大的问题。

▲ vocol.ai 辨识英语

甚至对话包含中、英文夹杂的状况也都可以顺利辨识,就像下面这样,在逐字稿里面就会同时显示中文以及英文两种不同的内容。

▲ vocol.ai 辨识中英语夹杂

另外,因为许多台湾人习惯说台语,今天如果录音的场合是大家都习惯说台语的会议、讨论上,其他的语音转文本系统可能很难处理,vocol.ai 就没有问题。

我也简短的测试了一下,是真的可以辨识出来,不过要注意的是,台语的说法跟国语还是会有落差,像是下面这个「补给够」是台语「补嘎搞」的直翻,国语可能就会讲「补足」,会有这类的差别需要注意。

▲ vocol.ai 台语也能辨识

然后来试试看广东话,这是我在网络上找到的一段香港 YouTuber 的街访影片开头,丢到 vocol.ai 去转文本,没想到竟然也可以正确辨识。

▲ vocol.ai 广东话也能辨识

AI 生成重点

在上面的几张截屏中你应该也有看到,vocol.ai 在生成完逐字稿以后,还会透过 AI 语言模型,把逐字稿的内容整理出重点显示在左半边的部分,而且如果内容完整清晰的话,可以分段,并且指出每一段的时间从什么时候开始、什么时候结束。

虽然在上传文件时可以先勾选产生 AI 分析摘要,但我有时我在上传的时候会刻意先不开启 AI 自动产生摘要的功能,就是下面这个开关先不打开。

我会先产出逐字稿,确认好内容再点击「运行智能分析」产出 AI 分析摘要。

这也是我觉得很棒的一点,因为我通常习惯先确认好逐字稿内容,确认没有要修改再做 AI 重点摘要,因为如果我有针对逐字稿进行修改的话,这样做可以确保我的摘要会跟逐字稿内容是同步的,省去我对照内容的时间。

另外,录音的内容如果一次说了好多不同的主题,vocol.ai 也会帮你把不同的主题分门别类的抓出来,你可以从「主题」标签页中看到 vocol.ai 帮你整理的主题项目,点一下任何一个项目,右边的逐字稿就会反黄,方便我们可以快速找到。

团队协作平台

团队协作功能是我觉得 vocol.ai 很棒的一项特色,不仅仅是你可以自己在上面完成工作,你还可以邀请同事一起参与,直接在 vocol.ai 的平台上,针对生成的内容进行讨论,评论。

无论是自己还是被邀请的对象,除了可以浏览逐字稿内容、摘要内容以外,还可以针对有疑虑的地方,直接留下评论,然后在评论区中进行讨论或是交流。

然后我看 vocol.ai 官网的方案内容说明,在未来还会加入新的 Starter 和 Pro 方案,可以使用像是重点标示、权限设置、团队管理、使用分析….等更多项目团队用户专属且工作上必须使用到的功能。

vocol.ai 可以用在哪里?

下面这边我想要实际带大家来体验看看各种不同使用 vocol.ai 的情境,透过情境的方式,我想大家应该更可以体会 vocol.ai 语音转文本有哪些可以发挥的地方。

课堂纪录整理

现在很多人都会在课堂上把老师教的内容记录下来,甚至有些笔记 App 也有提供录音功能,但就是纯录音,也没办法转成文本,后续要做笔记的时候还是要从头开始听,甚至你有想要听的内容,但是你根本不知道这个内容出现在几分几秒,要像是瞎子摸象那样一直在播放器中寻找。

但是利用 vocol.ai,你只需要把影片、录音档上传。

如果内容很多也没关系,上传完以后你可以先做自己的事情,等到逐字稿生成完毕会发送通知给你,蛮贴心的功能,不用在那痴痴的等。

但要特别注意的是,上传单个音档最高限制是 180 分钟!

如果你刚好没有带到录音笔、手机空间不够、快没电的情况下,你也可以直接透过 volco.ai 提供的录音功能录下要转逐字稿的内容。

但因为这是透过内置浏览器来进行录音,所以还是要注意一下浏览器的设置,避免因为没有跟网页有交互时进入休眠状态让录音被迫停止,以我的经验来说,我常用 Google Chrome,所以会习惯去「设置」→「性能」→把信任的网站加入菜单中。此外,我也会同时关闭内存节省模式。

无论是透过 vocol.ai 直接录音或是上传音档,当逐字稿产生完毕后,你就可以从逐字稿中透过搜索的方式,快速找到你想要找的重点,之后再把所有的内容好好整理一下,会比从头重新听过再来整理还要有效率。

想听哪一段的内容直接点击文本就可以直接切换过去,不用在一整段语音中盲目寻找要听的目标内容。

这里也要特别提一下,其实 vocol.ai 也有针对逐字稿、评论讨论的关键字搜索工具,不过我觉得那比较适用有好多段对话的情况,搜索工具会引导你去有包含这个关键字的对话、章节或是讨论串。

但是像我上面那样,课堂上只有老师一个人批哩啪啦在讲的情况,vocol.ai 的关键字搜索反而没那么好用,因为他不会引导你去这个字实际出现的地方,而是把有提到这个字的对话整段抓出来,等于是老师整段讲的话都被标出来了,那就没有意义了,所以像这种情况还是改用浏览器内置的搜索工具比较好。

还是要说一下,逐字稿真的很好用,大家一定要会善用,毕竟在信息的世界,文本是很重要的传播媒介啊。

会议纪录整理

vocol.ai 也很适合拿来做会议记录,做会后的数据整理,搭配 vocol.ai 可以分辨不同讲者的特色,可以在逐字稿中很容易了解到谁说了哪些内容。

而且包含这样一来一回的对话,甚至有时候有抢话的状况,vocol.ai 都还是分辨得很清楚,没有混在一起、搭在一起。

另外像这个情境,就可以使用上面提过的关键字搜索工具,找出哪些对话里面有我们想要了解的关键字内容。

如果可以使用 vocol.ai 的工具还是比较好,毕竟这个可以直接让画面只显示我们搜索的关键字对话,更容易聚焦在结果上。

另外还有一种会议记录,可能就是大家开会的时候随手录下来的,这种当然也可以使用 vocol.ai 来做会后的逐字稿整理。

可是你会发现这里面明明就很多人都有发言,但是在逐字稿中却都只辨识成一个讲者,不像上面那样可以辨识成两个人,还能一来一往很流畅,句子也不会搭在一起。

主要还是因为声音品质的关系。

像这个会议记录的影片文件,因为大家声音都不是非常清晰,有些讲得也很模糊,所以 vocol.ai 在判断上就会有很大难度去准确的辨识,而这个影片的情况还算好,逐字稿中有 8 成的内容都有抓到,只是没有分辨讲者罢了。

毕竟 AI 也不是万能,素材的品质越好,能够提供的内容就越完整,这点大家一定要记得。

用翻译快速看懂国外采访纪录

刚好在这段时间,我们有机会受德国在台协会邀请做一个小访问,主题是关于 9 月要在德国柏林举办的 IFA 展览,而我们也录下了采访的内容,然后透过 vocol.ai 来帮我们做事后的整理。

一样可以透过 AI 生成的重点先了解一下整段访问的内容,然后再针对逐字稿的内容去做整理或是进一步的利用。

这边就要提到 vocol.ai 七月刚上线的翻译功能!

简单来说,这功能是能够让你在生成逐字稿之后进行翻译。完成逐字稿翻译后,点击该语系就能对照原始语系,而且就算你点击特定区段的翻译版本逐字稿,语音也会同步,也能留下评论。

这对想要学习语言的人来说,就像是学习平台一样方便。

除了在平台上跨语系协作,也能下载各种翻译版本逐字稿。支持的格式有 txt 和 srt 这两种。

逐字稿翻译功能甚至支持 20 种以上的语系,但需要注意的是翻译版本无法被编辑喔!

我认为这对于需要开跨国会议的人非常有帮助,例如有时候跟日本客户开会时,他们偏好使用日文,但对于不懂日文的我们,如果需要知道内容细节,就需要口译帮忙,但有时候口译也会省略一些内容,这就会造成信息落差,如果能掌握到所有细节,其实就能避免这种状况。

vocol.ai 也是好用的多人协作平台

上面的案例中,你可以发现我主要是以个人使用的情境在体验 vocol.ai 的功能,谈到 vocol.ai 如何帮助我们更好的处理语音的事情。

但其实 vocol.ai 不仅仅是对自己有帮助,对于团队协作都是有帮助的,这都是借助 vocol.ai 的协作平台功能。

换个立场,今天你不是会议的参与者,但你是团队的一员

你不一定要亲自参与每一场的会议,但是你可以在会议结束以后,让与会的同事透过 vocol.ai 平台的「分享文件」功能把你邀请进 vocol.ai 的协作平台。

收到邀请后会有 Email 的通知,而且可以在媒体库中清楚的辨识哪些是受他人邀请参与的项目,哪些是自己的项目。

直接在平台中留下针对内容的建议

身为受邀者虽然目前还不能编辑逐字稿的内容,但是可以针对逐字稿或是语音的段落给予意见,然后再由项目的拥有者根据大家的回馈进行修改。

可以选择任何一段的逐字稿或是语音段落,然后留下「评论」,这样在同一个项目底下的其他参与者,就可以看到彼此的评论内容。

其他人只要点击讨论区中你所留下的评论,就会被引导到你选起来的对话或是章节,你也不用再跟大家说「请看 XX 分 XX 秒的地方」,把时间跟精力专注在真正要聚焦的内容上吧。

所以无论你是主要参与会议的人、只需要知道会议上讨论了些什么的人,或者你是一个项目管理的角色,你都可以利用 vocol.ai 协作平台的共享逐字稿(包括原始逐字稿跟多语系翻译版本)与 AI 重点整理的功能,查看整场会议的全貌或重点、甚至给予评论。

而且上面说到的这些评论都会即时显示,大家可以花个 10 分钟 20 分钟一起在在线透过 vocol.ai 来完成会议后续的确认工作。

也能直接用 vocol.ai 录制在线会议

此外,vocol.ai 还可以化身为一个机器人加入 Google Meet 或 Microsoft Team 的视频会议中,把会议的内容自动记录下来,再自动丢回 vocol.ai 的平台中分析、产出逐字稿。不过要注意的是,目前使用机器人自动录音有六十分钟限制。

接着你只要从个人后台首页中的「邀请 Google/Team 会议录音机器人」选项的「加入会议」功能操作。

然后粘贴会议的链接,让 vocol.ai 可以向会议送出加入的邀请。

在会议端就会收到有 vocol.ai 机器人要加入会议的通知,允许加入以后,vocol.ai 就会开始对会议的内容进行录音。

当会议结束后,vocol.ai 机器人就会自动把录制的内容丢回系统,你可以在后台中看到 meeting 的文件,这就是刚刚录制的会议内容。

接着后面产生 AI 摘要、逐字稿的功能就跟前面介绍过的一样。

透过这个方式,在团队开会、远程视频会议时,就不用另外录像、取得录像档然后再上传,这些有的没的工作就直接让 vocol.ai 来处理,处理完还能直接生成会议重点摘要与逐字稿,多方便。

vocol.ai 平台:语音转多语系逐字稿,让工作变得更有效率

回归到最原始的需求,我们之所以需要一款好用的语音转文本工具,就是因为现在很多东西都讲求数字化,而数字与我们之间最重要的沟通方式就是文本了。

透过 vocol.ai 的语音转文本功能,我们可以很方便又快速的把落落长的课堂录音、会议记录、采访内容在几分钟内就转成多语系文本,让我们后续可以做更多应用。

vocol.ai 提供了 AI 摘要功能以及分享逐字稿功能,可以加快工作的流程以及协作的顺畅度,利用 AI 摘要先快速了解内容后,在针对逐字稿的细项内容去修正、讨论与调整。

不只语音转文本,还能帮你画重点、让同事朋友间交互讨论的 vocol.ai 跨语系协作平台

newsman 发表了文章 • 2023-07-24 22:56 • 来自相关话题

现在有越来越多的人在使用数字科技辅助学习、工作,我也常常在 PTT 上看到许多网友在问有没有好用的笔记软件、工具可以处理语音转文本的工作,因为他们可能录下了课堂老师讲的内容、工作会议讨论的事项,但事后需要转成文本档整理到自己的笔记或是工作报告中。最近我就发现了一款好用的语音转文本工具 vocol.ai,辨识正确率很高,产生逐字稿的同时还可以分辨不同的讲者,甚至未来的 AI 趋势在 vocol.ai 里面也直接集成进去了,大家最常叫 ChatGPT 做的「帮我整理这内容的重点跟翻译」直接就在逐字稿产生以后一并生成。另外,如果你是需要团队合作的案子,vocol.ai 也有团队协作功能,从头到尾一站式就搞定。下面我会详细的介绍 vocol.ai 要怎么用,并且实际示范语音转文本效果以及好用的几个功能。语音转文本神器:vocol.ai 的 7 大重点这里先跟大家快速重点一下我觉得 vocol.ai 好用的 7 大功能,先让大家有个概念,原来这 vocol.ai 可以做这些,然后我们再体验它的效果。免费试用约 200 分钟先跟大家说,目前 vocol.ai 有提供每个帐号大约 200 V-points 的免费试用额度,通常一分钟的逐字稿转换会花掉 1 到 1.5 V-points(这只是大约计算,通常不会差太多),所以 200 V-points 大概就是 200 分钟左右。▲你可以在个人页面中看到剩余可用的 V-points所以你不用担心说看完介绍想要用结果要付费才能用!可以先试用 200 分钟,觉得好用、有帮助的话再继续购买更多的 V-points。▲ vocol.ai 还有包含企业方案在内的其他方案,后面会提到语音转逐字稿直接把录音档、影片档上传到 vocol.ai 的个人平台上,vocol.ai 就会开始帮你分析影片、音乐的内容,然后产生逐字稿,整个流程大概两、三个步骤就能搞定。▲上传 mp3、mp4、m4a 多种格式都可以支持通常内容只要不是太复杂的情况下,逐字稿大约可以在 3 ~ 5 分钟之内就产生出来,然后就可以在项目的画面右半部「逐字稿」这一区块看到完整的逐字稿内容。▲上传完毕后再等一下逐字稿就会出现,等待时间取决影片长度与复杂度完整呈现声音的内容就连那种我们很不经意脱口而出的赘词「对」、「就是」、「那个」,或是你卡词的状况都会很完整的节录出来。▲ vocol.ai 完整地把语音内容转成逐字稿既然是逐字稿,所以当然就是说了什么就呈现什么,本来就不会去帮你修饰语句,我觉得这样是非常正常而且尽责的逐字稿。录音的品质会决定逐字稿生成后的结果,有时候我们可能会因为声音素材品质不佳、讲话彼此互相搭到、太过小声….等原因,导致辨识出错误的内容或是用字,但也没关系,点两下逐字稿中想要修改的段落,就可以在跳出的菜单中选择「编辑」进行修改。▲ 觉得有需要调整的地方也可以自行修改辨识不同讲者vocol.ai 在辨识逐字稿的过程中也会分辨哪一句话是谁讲的,然后把不同的句子对应到讲话的人,所以会在逐字稿中看到「讲话者 1」、「讲话者 2」等字样,让我们可以更容易了解谁说了些什么。▲ 分辨讲者更容易看出是谁在说话就我目前的测试,至少到第七位讲话者都还可以辨识得出来,而且每一位讲者都会用不同颜色的线条表示,在内容很多的情况下比较好一眼就找到、辨别不同的说话者。▲ 目前测试至少可以支持 7 名讲者如果还想要更容易辨识的话,直接把「讲话者」改为真实的对象名称就好了,这样如果有刚参与项目的同事或是朋友之间就在讨论事情,就不用担心不知道是谁在说话了。▲ 讲者的名称也可以自行调整多种语言辨识vocol.ai 可以针对影片、录音档内不同的语音进行辨识,基本的国语、英语和日语就不说了,这几种语言对于 vocol.ai 在处理逐字稿上几乎是没有什么太大的问题。▲ vocol.ai 辨识英语甚至对话包含中、英文夹杂的状况也都可以顺利辨识,就像下面这样,在逐字稿里面就会同时显示中文以及英文两种不同的内容。▲ vocol.ai 辨识中英语夹杂另外,因为许多台湾人习惯说台语,今天如果录音的场合是大家都习惯说台语的会议、讨论上,其他的语音转文本系统可能很难处理,vocol.ai 就没有问题。我也简短的测试了一下,是真的可以辨识出来,不过要注意的是,台语的说法跟国语还是会有落差,像是下面这个「补给够」是台语「补嘎搞」的直翻,国语可能就会讲「补足」,会有这类的差别需要注意。▲ vocol.ai 台语也能辨识然后来试试看广东话,这是我在网络上找到的一段香港 YouTuber 的街访影片开头,丢到 vocol.ai 去转文本,没想到竟然也可以正确辨识。▲ vocol.ai 广东话也能辨识AI 生成重点在上面的几张截屏中你应该也有看到,vocol.ai 在生成完逐字稿以后,还会透过 AI 语言模型,把逐字稿的内容整理出重点显示在左半边的部分,而且如果内容完整清晰的话,可以分段,并且指出每一段的时间从什么时候开始、什么时候结束。虽然在上传文件时可以先勾选产生 AI 分析摘要,但我有时我在上传的时候会刻意先不开启 AI 自动产生摘要的功能,就是下面这个开关先不打开。我会先产出逐字稿,确认好内容再点击「运行智能分析」产出 AI 分析摘要。这也是我觉得很棒的一点,因为我通常习惯先确认好逐字稿内容,确认没有要修改再做 AI 重点摘要,因为如果我有针对逐字稿进行修改的话,这样做可以确保我的摘要会跟逐字稿内容是同步的,省去我对照内容的时间。另外,录音的内容如果一次说了好多不同的主题,vocol.ai 也会帮你把不同的主题分门别类的抓出来,你可以从「主题」标签页中看到 vocol.ai 帮你整理的主题项目,点一下任何一个项目,右边的逐字稿就会反黄,方便我们可以快速找到。团队协作平台团队协作功能是我觉得 vocol.ai 很棒的一项特色,不仅仅是你可以自己在上面完成工作,你还可以邀请同事一起参与,直接在 vocol.ai 的平台上,针对生成的内容进行讨论,评论。无论是自己还是被邀请的对象,除了可以浏览逐字稿内容、摘要内容以外,还可以针对有疑虑的地方,直接留下评论,然后在评论区中进行讨论或是交流。然后我看 vocol.ai 官网的方案内容说明,在未来还会加入新的 Starter 和 Pro 方案,可以使用像是重点标示、权限设置、团队管理、使用分析….等更多项目团队用户专属且工作上必须使用到的功能。vocol.ai 可以用在哪里?下面这边我想要实际带大家来体验看看各种不同使用 vocol.ai 的情境,透过情境的方式,我想大家应该更可以体会 vocol.ai 语音转文本有哪些可以发挥的地方。课堂纪录整理现在很多人都会在课堂上把老师教的内容记录下来,甚至有些笔记 App 也有提供录音功能,但就是纯录音,也没办法转成文本,后续要做笔记的时候还是要从头开始听,甚至你有想要听的内容,但是你根本不知道这个内容出现在几分几秒,要像是瞎子摸象那样一直在播放器中寻找。但是利用 vocol.ai,你只需要把影片、录音档上传。如果内容很多也没关系,上传完以后你可以先做自己的事情,等到逐字稿生成完毕会发送通知给你,蛮贴心的功能,不用在那痴痴的等。但要特别注意的是,上传单个音档最高限制是 180 分钟!如果你刚好没有带到录音笔、手机空间不够、快没电的情况下,你也可以直接透过 volco.ai 提供的录音功能录下要转逐字稿的内容。但因为这是透过内置浏览器来进行录音,所以还是要注意一下浏览器的设置,避免因为没有跟网页有交互时进入休眠状态让录音被迫停止,以我的经验来说,我常用 Google Chrome,所以会习惯去「设置」→「性能」→把信任的网站加入菜单中。此外,我也会同时关闭内存节省模式。无论是透过 vocol.ai 直接录音或是上传音档,当逐字稿产生完毕后,你就可以从逐字稿中透过搜索的方式,快速找到你想要找的重点,之后再把所有的内容好好整理一下,会比从头重新听过再来整理还要有效率。想听哪一段的内容直接点击文本就可以直接切换过去,不用在一整段语音中盲目寻找要听的目标内容。这里也要特别提一下,其实 vocol.ai 也有针对逐字稿、评论讨论的关键字搜索工具,不过我觉得那比较适用有好多段对话的情况,搜索工具会引导你去有包含这个关键字的对话、章节或是讨论串。但是像我上面那样,课堂上只有老师一个人批哩啪啦在讲的情况,vocol.ai 的关键字搜索反而没那么好用,因为他不会引导你去这个字实际出现的地方,而是把有提到这个字的对话整段抓出来,等于是老师整段讲的话都被标出来了,那就没有意义了,所以像这种情况还是改用浏览器内置的搜索工具比较好。还是要说一下,逐字稿真的很好用,大家一定要会善用,毕竟在信息的世界,文本是很重要的传播媒介啊。会议纪录整理vocol.ai 也很适合拿来做会议记录,做会后的数据整理,搭配 vocol.ai 可以分辨不同讲者的特色,可以在逐字稿中很容易了解到谁说了哪些内容。而且包含这样一来一回的对话,甚至有时候有抢话的状况,vocol.ai 都还是分辨得很清楚,没有混在一起、搭在一起。另外像这个情境,就可以使用上面提过的关键字搜索工具,找出哪些对话里面有我们想要了解的关键字内容。如果可以使用 vocol.ai 的工具还是比较好,毕竟这个可以直接让画面只显示我们搜索的关键字对话,更容易聚焦在结果上。另外还有一种会议记录,可能就是大家开会的时候随手录下来的,这种当然也可以使用 vocol.ai 来做会后的逐字稿整理。可是你会发现这里面明明就很多人都有发言,但是在逐字稿中却都只辨识成一个讲者,不像上面那样可以辨识成两个人,还能一来一往很流畅,句子也不会搭在一起。主要还是因为声音品质的关系。像这个会议记录的影片文件,因为大家声音都不是非常清晰,有些讲得也很模糊,所以 vocol.ai 在判断上就会有很大难度去准确的辨识,而这个影片的情况还算好,逐字稿中有 8 成的内容都有抓到,只是没有分辨讲者罢了。毕竟 AI 也不是万能,素材的品质越好,能够提供的内容就越完整,这点大家一定要记得。用翻译快速看懂国外采访纪录刚好在这段时间,我们有机会受德国在台协会邀请做一个小访问,主题是关于 9 月要在德国柏林举办的 IFA 展览,而我们也录下了采访的内容,然后透过 vocol.ai 来帮我们做事后的整理。一样可以透过 AI 生成的重点先了解一下整段访问的内容,然后再针对逐字稿的内容去做整理或是进一步的利用。这边就要提到 vocol.ai 七月刚上线的翻译功能!简单来说,这功能是能够让你在生成逐字稿之后进行翻译。完成逐字稿翻译后,点击该语系就能对照原始语系,而且就算你点击特定区段的翻译版本逐字稿,语音也会同步,也能留下评论。这对想要学习语言的人来说,就像是学习平台一样方便。除了在平台上跨语系协作,也能下载各种翻译版本逐字稿。支持的格式有 txt 和 srt 这两种。逐字稿翻译功能甚至支持 20 种以上的语系,但需要注意的是翻译版本无法被编辑喔!我认为这对于需要开跨国会议的人非常有帮助,例如有时候跟日本客户开会时,他们偏好使用日文,但对于不懂日文的我们,如果需要知道内容细节,就需要口译帮忙,但有时候口译也会省略一些内容,这就会造成信息落差,如果能掌握到所有细节,其实就能避免这种状况。vocol.ai 也是好用的多人协作平台上面的案例中,你可以发现我主要是以个人使用的情境在体验 vocol.ai 的功能,谈到 vocol.ai 如何帮助我们更好的处理语音的事情。但其实 vocol.ai 不仅仅是对自己有帮助,对于团队协作都是有帮助的,这都是借助 vocol.ai 的协作平台功能。换个立场,今天你不是会议的参与者,但你是团队的一员你不一定要亲自参与每一场的会议,但是你可以在会议结束以后,让与会的同事透过 vocol.ai 平台的「分享文件」功能把你邀请进 vocol.ai 的协作平台。收到邀请后会有 Email 的通知,而且可以在媒体库中清楚的辨识哪些是受他人邀请参与的项目,哪些是自己的项目。直接在平台中留下针对内容的建议身为受邀者虽然目前还不能编辑逐字稿的内容,但是可以针对逐字稿或是语音的段落给予意见,然后再由项目的拥有者根据大家的回馈进行修改。可以选择任何一段的逐字稿或是语音段落,然后留下「评论」,这样在同一个项目底下的其他参与者,就可以看到彼此的评论内容。其他人只要点击讨论区中你所留下的评论,就会被引导到你选起来的对话或是章节,你也不用再跟大家说「请看 XX 分 XX 秒的地方」,把时间跟精力专注在真正要聚焦的内容上吧。所以无论你是主要参与会议的人、只需要知道会议上讨论了些什么的人,或者你是一个项目管理的角色,你都可以利用 vocol.ai 协作平台的共享逐字稿(包括原始逐字稿跟多语系翻译版本)与 AI 重点整理的功能,查看整场会议的全貌或重点、甚至给予评论。而且上面说到的这些评论都会即时显示,大家可以花个 10 分钟 20 分钟一起在在线透过 vocol.ai 来完成会议后续的确认工作。也能直接用 vocol.ai 录制在线会议此外,vocol.ai 还可以化身为一个机器人加入 Google Meet 或 Microsoft Team 的视频会议中,把会议的内容自动记录下来,再自动丢回 vocol.ai 的平台中分析、产出逐字稿。不过要注意的是,目前使用机器人自动录音有六十分钟限制。接着你只要从个人后台首页中的「邀请 Google/Team 会议录音机器人」选项的「加入会议」功能操作。然后粘贴会议的链接,让 vocol.ai 可以向会议送出加入的邀请。在会议端就会收到有 vocol.ai 机器人要加入会议的通知,允许加入以后,vocol.ai 就会开始对会议的内容进行录音。当会议结束后,vocol.ai 机器人就会自动把录制的内容丢回系统,你可以在后台中看到 meeting 的文件,这就是刚刚录制的会议内容。接着后面产生 AI 摘要、逐字稿的功能就跟前面介绍过的一样。透过这个方式,在团队开会、远程视频会议时,就不用另外录像、取得录像档然后再上传,这些有的没的工作就直接让 vocol.ai 来处理,处理完还能直接生成会议重点摘要与逐字稿,多方便。vocol.ai 平台:语音转多语系逐字稿,让工作变得更有效率回归到最原始的需求,我们之所以需要一款好用的语音转文本工具,就是因为现在很多东西都讲求数字化,而数字与我们之间最重要的沟通方式就是文本了。透过 vocol.ai 的语音转文本功能,我们可以很方便又快速的把落落长的课堂录音、会议记录、采访内容在几分钟内就转成多语系文本,让我们后续可以做更多应用。vocol.ai 提供了 AI 摘要功能以及分享逐字稿功能,可以加快工作的流程以及协作的顺畅度,利用 AI 摘要先快速了解内容后,在针对逐字稿的细项内容去修正、讨论与调整。 查看全部

现在有越来越多的人在使用数字科技辅助学习、工作,我也常常在 PTT 上看到许多网友在问有没有好用的笔记软件、工具可以处理语音转文本的工作,因为他们可能录下了课堂老师讲的内容、工作会议讨论的事项,但事后需要转成文本档整理到自己的笔记或是工作报告中。

最近我就发现了一款好用的语音转文本工具 vocol.ai,辨识正确率很高,产生逐字稿的同时还可以分辨不同的讲者,甚至未来的 AI 趋势在 vocol.ai 里面也直接集成进去了,大家最常叫 ChatGPT 做的「帮我整理这内容的重点跟翻译」直接就在逐字稿产生以后一并生成。

另外,如果你是需要团队合作的案子,vocol.ai 也有团队协作功能,从头到尾一站式就搞定。下面我会详细的介绍 vocol.ai 要怎么用,并且实际示范语音转文本效果以及好用的几个功能。

语音转文本神器:vocol.ai 的 7 大重点

这里先跟大家快速重点一下我觉得 vocol.ai 好用的 7 大功能,先让大家有个概念,原来这 vocol.ai 可以做这些,然后我们再体验它的效果。

免费试用约 200 分钟

先跟大家说,目前 vocol.ai 有提供每个帐号大约 200 V-points 的免费试用额度,通常一分钟的逐字稿转换会花掉 1 到 1.5 V-points(这只是大约计算,通常不会差太多),所以 200 V-points 大概就是 200 分钟左右。

▲你可以在个人页面中看到剩余可用的 V-points

所以你不用担心说看完介绍想要用结果要付费才能用!可以先试用 200 分钟,觉得好用、有帮助的话再继续购买更多的 V-points。

▲ vocol.ai 还有包含企业方案在内的其他方案,后面会提到

语音转逐字稿

直接把录音档、影片档上传到 vocol.ai 的个人平台上,vocol.ai 就会开始帮你分析影片、音乐的内容,然后产生逐字稿,整个流程大概两、三个步骤就能搞定。

▲上传 mp3、mp4、m4a 多种格式都可以支持

通常内容只要不是太复杂的情况下,逐字稿大约可以在 3 ~ 5 分钟之内就产生出来,然后就可以在项目的画面右半部「逐字稿」这一区块看到完整的逐字稿内容。

▲上传完毕后再等一下逐字稿就会出现,等待时间取决影片长度与复杂度

完整呈现声音的内容

就连那种我们很不经意脱口而出的赘词「对」、「就是」、「那个」,或是你卡词的状况都会很完整的节录出来。

▲ vocol.ai 完整地把语音内容转成逐字稿

既然是逐字稿,所以当然就是说了什么就呈现什么,本来就不会去帮你修饰语句,我觉得这样是非常正常而且尽责的逐字稿。

录音的品质会决定逐字稿生成后的结果,有时候我们可能会因为声音素材品质不佳、讲话彼此互相搭到、太过小声….等原因,导致辨识出错误的内容或是用字,但也没关系,点两下逐字稿中想要修改的段落,就可以在跳出的菜单中选择「编辑」进行修改。

vocol.ai 语音转文本

▲ 觉得有需要调整的地方也可以自行修改

辨识不同讲者

vocol.ai 在辨识逐字稿的过程中也会分辨哪一句话是谁讲的,然后把不同的句子对应到讲话的人,所以会在逐字稿中看到「讲话者 1」、「讲话者 2」等字样,让我们可以更容易了解谁说了些什么。

▲ 分辨讲者更容易看出是谁在说话

就我目前的测试,至少到第七位讲话者都还可以辨识得出来,而且每一位讲者都会用不同颜色的线条表示,在内容很多的情况下比较好一眼就找到、辨别不同的说话者。

▲ 目前测试至少可以支持 7 名讲者

如果还想要更容易辨识的话,直接把「讲话者」改为真实的对象名称就好了,这样如果有刚参与项目的同事或是朋友之间就在讨论事情,就不用担心不知道是谁在说话了。

▲ 讲者的名称也可以自行调整

多种语言辨识

vocol.ai 可以针对影片、录音档内不同的语音进行辨识,基本的国语、英语和日语就不说了,这几种语言对于 vocol.ai 在处理逐字稿上几乎是没有什么太大的问题。

▲ vocol.ai 辨识英语

甚至对话包含中、英文夹杂的状况也都可以顺利辨识,就像下面这样,在逐字稿里面就会同时显示中文以及英文两种不同的内容。

▲ vocol.ai 辨识中英语夹杂

另外,因为许多台湾人习惯说台语,今天如果录音的场合是大家都习惯说台语的会议、讨论上,其他的语音转文本系统可能很难处理,vocol.ai 就没有问题。

我也简短的测试了一下,是真的可以辨识出来,不过要注意的是,台语的说法跟国语还是会有落差,像是下面这个「补给够」是台语「补嘎搞」的直翻,国语可能就会讲「补足」,会有这类的差别需要注意。

▲ vocol.ai 台语也能辨识

然后来试试看广东话,这是我在网络上找到的一段香港 YouTuber 的街访影片开头,丢到 vocol.ai 去转文本,没想到竟然也可以正确辨识。

▲ vocol.ai 广东话也能辨识

AI 生成重点

在上面的几张截屏中你应该也有看到,vocol.ai 在生成完逐字稿以后,还会透过 AI 语言模型,把逐字稿的内容整理出重点显示在左半边的部分,而且如果内容完整清晰的话,可以分段,并且指出每一段的时间从什么时候开始、什么时候结束。

虽然在上传文件时可以先勾选产生 AI 分析摘要,但我有时我在上传的时候会刻意先不开启 AI 自动产生摘要的功能,就是下面这个开关先不打开。

我会先产出逐字稿,确认好内容再点击「运行智能分析」产出 AI 分析摘要。

这也是我觉得很棒的一点,因为我通常习惯先确认好逐字稿内容,确认没有要修改再做 AI 重点摘要,因为如果我有针对逐字稿进行修改的话,这样做可以确保我的摘要会跟逐字稿内容是同步的,省去我对照内容的时间。

另外,录音的内容如果一次说了好多不同的主题,vocol.ai 也会帮你把不同的主题分门别类的抓出来,你可以从「主题」标签页中看到 vocol.ai 帮你整理的主题项目,点一下任何一个项目,右边的逐字稿就会反黄,方便我们可以快速找到。

团队协作平台

团队协作功能是我觉得 vocol.ai 很棒的一项特色,不仅仅是你可以自己在上面完成工作,你还可以邀请同事一起参与,直接在 vocol.ai 的平台上,针对生成的内容进行讨论,评论。

无论是自己还是被邀请的对象,除了可以浏览逐字稿内容、摘要内容以外,还可以针对有疑虑的地方,直接留下评论,然后在评论区中进行讨论或是交流。

然后我看 vocol.ai 官网的方案内容说明,在未来还会加入新的 Starter 和 Pro 方案,可以使用像是重点标示、权限设置、团队管理、使用分析….等更多项目团队用户专属且工作上必须使用到的功能。

vocol.ai 可以用在哪里?

下面这边我想要实际带大家来体验看看各种不同使用 vocol.ai 的情境,透过情境的方式,我想大家应该更可以体会 vocol.ai 语音转文本有哪些可以发挥的地方。

课堂纪录整理

现在很多人都会在课堂上把老师教的内容记录下来,甚至有些笔记 App 也有提供录音功能,但就是纯录音,也没办法转成文本,后续要做笔记的时候还是要从头开始听,甚至你有想要听的内容,但是你根本不知道这个内容出现在几分几秒,要像是瞎子摸象那样一直在播放器中寻找。

但是利用 vocol.ai,你只需要把影片、录音档上传。

如果内容很多也没关系,上传完以后你可以先做自己的事情,等到逐字稿生成完毕会发送通知给你,蛮贴心的功能,不用在那痴痴的等。

但要特别注意的是,上传单个音档最高限制是 180 分钟!

如果你刚好没有带到录音笔、手机空间不够、快没电的情况下,你也可以直接透过 volco.ai 提供的录音功能录下要转逐字稿的内容。

但因为这是透过内置浏览器来进行录音,所以还是要注意一下浏览器的设置,避免因为没有跟网页有交互时进入休眠状态让录音被迫停止,以我的经验来说,我常用 Google Chrome,所以会习惯去「设置」→「性能」→把信任的网站加入菜单中。此外,我也会同时关闭内存节省模式。

无论是透过 vocol.ai 直接录音或是上传音档,当逐字稿产生完毕后,你就可以从逐字稿中透过搜索的方式,快速找到你想要找的重点,之后再把所有的内容好好整理一下,会比从头重新听过再来整理还要有效率。

想听哪一段的内容直接点击文本就可以直接切换过去,不用在一整段语音中盲目寻找要听的目标内容。

这里也要特别提一下,其实 vocol.ai 也有针对逐字稿、评论讨论的关键字搜索工具,不过我觉得那比较适用有好多段对话的情况,搜索工具会引导你去有包含这个关键字的对话、章节或是讨论串。

但是像我上面那样,课堂上只有老师一个人批哩啪啦在讲的情况,vocol.ai 的关键字搜索反而没那么好用,因为他不会引导你去这个字实际出现的地方,而是把有提到这个字的对话整段抓出来,等于是老师整段讲的话都被标出来了,那就没有意义了,所以像这种情况还是改用浏览器内置的搜索工具比较好。

还是要说一下,逐字稿真的很好用,大家一定要会善用,毕竟在信息的世界,文本是很重要的传播媒介啊。

会议纪录整理

vocol.ai 也很适合拿来做会议记录,做会后的数据整理,搭配 vocol.ai 可以分辨不同讲者的特色,可以在逐字稿中很容易了解到谁说了哪些内容。

而且包含这样一来一回的对话,甚至有时候有抢话的状况,vocol.ai 都还是分辨得很清楚,没有混在一起、搭在一起。

另外像这个情境,就可以使用上面提过的关键字搜索工具,找出哪些对话里面有我们想要了解的关键字内容。

如果可以使用 vocol.ai 的工具还是比较好,毕竟这个可以直接让画面只显示我们搜索的关键字对话,更容易聚焦在结果上。

另外还有一种会议记录,可能就是大家开会的时候随手录下来的,这种当然也可以使用 vocol.ai 来做会后的逐字稿整理。

可是你会发现这里面明明就很多人都有发言,但是在逐字稿中却都只辨识成一个讲者,不像上面那样可以辨识成两个人,还能一来一往很流畅,句子也不会搭在一起。

主要还是因为声音品质的关系。

像这个会议记录的影片文件,因为大家声音都不是非常清晰,有些讲得也很模糊,所以 vocol.ai 在判断上就会有很大难度去准确的辨识,而这个影片的情况还算好,逐字稿中有 8 成的内容都有抓到,只是没有分辨讲者罢了。

毕竟 AI 也不是万能,素材的品质越好,能够提供的内容就越完整,这点大家一定要记得。

用翻译快速看懂国外采访纪录

刚好在这段时间,我们有机会受德国在台协会邀请做一个小访问,主题是关于 9 月要在德国柏林举办的 IFA 展览,而我们也录下了采访的内容,然后透过 vocol.ai 来帮我们做事后的整理。

一样可以透过 AI 生成的重点先了解一下整段访问的内容,然后再针对逐字稿的内容去做整理或是进一步的利用。

这边就要提到 vocol.ai 七月刚上线的翻译功能!

简单来说,这功能是能够让你在生成逐字稿之后进行翻译。完成逐字稿翻译后,点击该语系就能对照原始语系,而且就算你点击特定区段的翻译版本逐字稿,语音也会同步,也能留下评论。

这对想要学习语言的人来说,就像是学习平台一样方便。

除了在平台上跨语系协作,也能下载各种翻译版本逐字稿。支持的格式有 txt 和 srt 这两种。

逐字稿翻译功能甚至支持 20 种以上的语系,但需要注意的是翻译版本无法被编辑喔!

我认为这对于需要开跨国会议的人非常有帮助,例如有时候跟日本客户开会时,他们偏好使用日文,但对于不懂日文的我们,如果需要知道内容细节,就需要口译帮忙,但有时候口译也会省略一些内容,这就会造成信息落差,如果能掌握到所有细节,其实就能避免这种状况。

vocol.ai 也是好用的多人协作平台

上面的案例中,你可以发现我主要是以个人使用的情境在体验 vocol.ai 的功能,谈到 vocol.ai 如何帮助我们更好的处理语音的事情。

但其实 vocol.ai 不仅仅是对自己有帮助,对于团队协作都是有帮助的,这都是借助 vocol.ai 的协作平台功能。

换个立场,今天你不是会议的参与者,但你是团队的一员

你不一定要亲自参与每一场的会议,但是你可以在会议结束以后,让与会的同事透过 vocol.ai 平台的「分享文件」功能把你邀请进 vocol.ai 的协作平台。

收到邀请后会有 Email 的通知,而且可以在媒体库中清楚的辨识哪些是受他人邀请参与的项目,哪些是自己的项目。

直接在平台中留下针对内容的建议

身为受邀者虽然目前还不能编辑逐字稿的内容,但是可以针对逐字稿或是语音的段落给予意见,然后再由项目的拥有者根据大家的回馈进行修改。

可以选择任何一段的逐字稿或是语音段落,然后留下「评论」,这样在同一个项目底下的其他参与者,就可以看到彼此的评论内容。

其他人只要点击讨论区中你所留下的评论,就会被引导到你选起来的对话或是章节,你也不用再跟大家说「请看 XX 分 XX 秒的地方」,把时间跟精力专注在真正要聚焦的内容上吧。

所以无论你是主要参与会议的人、只需要知道会议上讨论了些什么的人,或者你是一个项目管理的角色,你都可以利用 vocol.ai 协作平台的共享逐字稿(包括原始逐字稿跟多语系翻译版本)与 AI 重点整理的功能,查看整场会议的全貌或重点、甚至给予评论。

而且上面说到的这些评论都会即时显示,大家可以花个 10 分钟 20 分钟一起在在线透过 vocol.ai 来完成会议后续的确认工作。

也能直接用 vocol.ai 录制在线会议

此外,vocol.ai 还可以化身为一个机器人加入 Google Meet 或 Microsoft Team 的视频会议中,把会议的内容自动记录下来,再自动丢回 vocol.ai 的平台中分析、产出逐字稿。不过要注意的是,目前使用机器人自动录音有六十分钟限制。

接着你只要从个人后台首页中的「邀请 Google/Team 会议录音机器人」选项的「加入会议」功能操作。

然后粘贴会议的链接,让 vocol.ai 可以向会议送出加入的邀请。

在会议端就会收到有 vocol.ai 机器人要加入会议的通知,允许加入以后,vocol.ai 就会开始对会议的内容进行录音。

当会议结束后,vocol.ai 机器人就会自动把录制的内容丢回系统,你可以在后台中看到 meeting 的文件,这就是刚刚录制的会议内容。

接着后面产生 AI 摘要、逐字稿的功能就跟前面介绍过的一样。

透过这个方式,在团队开会、远程视频会议时,就不用另外录像、取得录像档然后再上传,这些有的没的工作就直接让 vocol.ai 来处理,处理完还能直接生成会议重点摘要与逐字稿,多方便。

vocol.ai 平台:语音转多语系逐字稿,让工作变得更有效率

回归到最原始的需求,我们之所以需要一款好用的语音转文本工具,就是因为现在很多东西都讲求数字化,而数字与我们之间最重要的沟通方式就是文本了。

透过 vocol.ai 的语音转文本功能,我们可以很方便又快速的把落落长的课堂录音、会议记录、采访内容在几分钟内就转成多语系文本,让我们后续可以做更多应用。

vocol.ai 提供了 AI 摘要功能以及分享逐字稿功能,可以加快工作的流程以及协作的顺畅度,利用 AI 摘要先快速了解内容后,在针对逐字稿的细项内容去修正、讨论与调整。

不只语音转文本,还能帮你画重点、让同事朋友间交互讨论的 vocol.ai 跨语系协作平台

newsman 发表了文章 • 2023-07-24 22:56 • 来自相关话题

现在有越来越多的人在使用数字科技辅助学习、工作,我也常常在 PTT 上看到许多网友在问有没有好用的笔记软件、工具可以处理语音转文本的工作,因为他们可能录下了课堂老师讲的内容、工作会议讨论的事项,但事后需要转成文本档整理到自己的笔记或是工作报告中。最近我就发现了一款好用的语音转文本工具 vocol.ai,辨识正确率很高,产生逐字稿的同时还可以分辨不同的讲者,甚至未来的 AI 趋势在 vocol.ai 里面也直接集成进去了,大家最常叫 ChatGPT 做的「帮我整理这内容的重点跟翻译」直接就在逐字稿产生以后一并生成。另外,如果你是需要团队合作的案子,vocol.ai 也有团队协作功能,从头到尾一站式就搞定。下面我会详细的介绍 vocol.ai 要怎么用,并且实际示范语音转文本效果以及好用的几个功能。语音转文本神器:vocol.ai 的 7 大重点这里先跟大家快速重点一下我觉得 vocol.ai 好用的 7 大功能,先让大家有个概念,原来这 vocol.ai 可以做这些,然后我们再体验它的效果。免费试用约 200 分钟先跟大家说,目前 vocol.ai 有提供每个帐号大约 200 V-points 的免费试用额度,通常一分钟的逐字稿转换会花掉 1 到 1.5 V-points(这只是大约计算,通常不会差太多),所以 200 V-points 大概就是 200 分钟左右。▲你可以在个人页面中看到剩余可用的 V-points所以你不用担心说看完介绍想要用结果要付费才能用!可以先试用 200 分钟,觉得好用、有帮助的话再继续购买更多的 V-points。▲ vocol.ai 还有包含企业方案在内的其他方案,后面会提到语音转逐字稿直接把录音档、影片档上传到 vocol.ai 的个人平台上,vocol.ai 就会开始帮你分析影片、音乐的内容,然后产生逐字稿,整个流程大概两、三个步骤就能搞定。▲上传 mp3、mp4、m4a 多种格式都可以支持通常内容只要不是太复杂的情况下,逐字稿大约可以在 3 ~ 5 分钟之内就产生出来,然后就可以在项目的画面右半部「逐字稿」这一区块看到完整的逐字稿内容。▲上传完毕后再等一下逐字稿就会出现,等待时间取决影片长度与复杂度完整呈现声音的内容就连那种我们很不经意脱口而出的赘词「对」、「就是」、「那个」,或是你卡词的状况都会很完整的节录出来。▲ vocol.ai 完整地把语音内容转成逐字稿既然是逐字稿,所以当然就是说了什么就呈现什么,本来就不会去帮你修饰语句,我觉得这样是非常正常而且尽责的逐字稿。录音的品质会决定逐字稿生成后的结果,有时候我们可能会因为声音素材品质不佳、讲话彼此互相搭到、太过小声….等原因,导致辨识出错误的内容或是用字,但也没关系,点两下逐字稿中想要修改的段落,就可以在跳出的菜单中选择「编辑」进行修改。▲ 觉得有需要调整的地方也可以自行修改辨识不同讲者vocol.ai 在辨识逐字稿的过程中也会分辨哪一句话是谁讲的,然后把不同的句子对应到讲话的人,所以会在逐字稿中看到「讲话者 1」、「讲话者 2」等字样,让我们可以更容易了解谁说了些什么。▲ 分辨讲者更容易看出是谁在说话就我目前的测试,至少到第七位讲话者都还可以辨识得出来,而且每一位讲者都会用不同颜色的线条表示,在内容很多的情况下比较好一眼就找到、辨别不同的说话者。▲ 目前测试至少可以支持 7 名讲者如果还想要更容易辨识的话,直接把「讲话者」改为真实的对象名称就好了,这样如果有刚参与项目的同事或是朋友之间就在讨论事情,就不用担心不知道是谁在说话了。▲ 讲者的名称也可以自行调整多种语言辨识vocol.ai 可以针对影片、录音档内不同的语音进行辨识,基本的国语、英语和日语就不说了,这几种语言对于 vocol.ai 在处理逐字稿上几乎是没有什么太大的问题。▲ vocol.ai 辨识英语甚至对话包含中、英文夹杂的状况也都可以顺利辨识,就像下面这样,在逐字稿里面就会同时显示中文以及英文两种不同的内容。▲ vocol.ai 辨识中英语夹杂另外,因为许多台湾人习惯说台语,今天如果录音的场合是大家都习惯说台语的会议、讨论上,其他的语音转文本系统可能很难处理,vocol.ai 就没有问题。我也简短的测试了一下,是真的可以辨识出来,不过要注意的是,台语的说法跟国语还是会有落差,像是下面这个「补给够」是台语「补嘎搞」的直翻,国语可能就会讲「补足」,会有这类的差别需要注意。▲ vocol.ai 台语也能辨识然后来试试看广东话,这是我在网络上找到的一段香港 YouTuber 的街访影片开头,丢到 vocol.ai 去转文本,没想到竟然也可以正确辨识。▲ vocol.ai 广东话也能辨识AI 生成重点在上面的几张截屏中你应该也有看到,vocol.ai 在生成完逐字稿以后,还会透过 AI 语言模型,把逐字稿的内容整理出重点显示在左半边的部分,而且如果内容完整清晰的话,可以分段,并且指出每一段的时间从什么时候开始、什么时候结束。虽然在上传文件时可以先勾选产生 AI 分析摘要,但我有时我在上传的时候会刻意先不开启 AI 自动产生摘要的功能,就是下面这个开关先不打开。我会先产出逐字稿,确认好内容再点击「运行智能分析」产出 AI 分析摘要。这也是我觉得很棒的一点,因为我通常习惯先确认好逐字稿内容,确认没有要修改再做 AI 重点摘要,因为如果我有针对逐字稿进行修改的话,这样做可以确保我的摘要会跟逐字稿内容是同步的,省去我对照内容的时间。另外,录音的内容如果一次说了好多不同的主题,vocol.ai 也会帮你把不同的主题分门别类的抓出来,你可以从「主题」标签页中看到 vocol.ai 帮你整理的主题项目,点一下任何一个项目,右边的逐字稿就会反黄,方便我们可以快速找到。团队协作平台团队协作功能是我觉得 vocol.ai 很棒的一项特色,不仅仅是你可以自己在上面完成工作,你还可以邀请同事一起参与,直接在 vocol.ai 的平台上,针对生成的内容进行讨论,评论。无论是自己还是被邀请的对象,除了可以浏览逐字稿内容、摘要内容以外,还可以针对有疑虑的地方,直接留下评论,然后在评论区中进行讨论或是交流。然后我看 vocol.ai 官网的方案内容说明,在未来还会加入新的 Starter 和 Pro 方案,可以使用像是重点标示、权限设置、团队管理、使用分析….等更多项目团队用户专属且工作上必须使用到的功能。vocol.ai 可以用在哪里?下面这边我想要实际带大家来体验看看各种不同使用 vocol.ai 的情境,透过情境的方式,我想大家应该更可以体会 vocol.ai 语音转文本有哪些可以发挥的地方。课堂纪录整理现在很多人都会在课堂上把老师教的内容记录下来,甚至有些笔记 App 也有提供录音功能,但就是纯录音,也没办法转成文本,后续要做笔记的时候还是要从头开始听,甚至你有想要听的内容,但是你根本不知道这个内容出现在几分几秒,要像是瞎子摸象那样一直在播放器中寻找。但是利用 vocol.ai,你只需要把影片、录音档上传。如果内容很多也没关系,上传完以后你可以先做自己的事情,等到逐字稿生成完毕会发送通知给你,蛮贴心的功能,不用在那痴痴的等。但要特别注意的是,上传单个音档最高限制是 180 分钟!如果你刚好没有带到录音笔、手机空间不够、快没电的情况下,你也可以直接透过 volco.ai 提供的录音功能录下要转逐字稿的内容。但因为这是透过内置浏览器来进行录音,所以还是要注意一下浏览器的设置,避免因为没有跟网页有交互时进入休眠状态让录音被迫停止,以我的经验来说,我常用 Google Chrome,所以会习惯去「设置」→「性能」→把信任的网站加入菜单中。此外,我也会同时关闭内存节省模式。无论是透过 vocol.ai 直接录音或是上传音档,当逐字稿产生完毕后,你就可以从逐字稿中透过搜索的方式,快速找到你想要找的重点,之后再把所有的内容好好整理一下,会比从头重新听过再来整理还要有效率。想听哪一段的内容直接点击文本就可以直接切换过去,不用在一整段语音中盲目寻找要听的目标内容。这里也要特别提一下,其实 vocol.ai 也有针对逐字稿、评论讨论的关键字搜索工具,不过我觉得那比较适用有好多段对话的情况,搜索工具会引导你去有包含这个关键字的对话、章节或是讨论串。但是像我上面那样,课堂上只有老师一个人批哩啪啦在讲的情况,vocol.ai 的关键字搜索反而没那么好用,因为他不会引导你去这个字实际出现的地方,而是把有提到这个字的对话整段抓出来,等于是老师整段讲的话都被标出来了,那就没有意义了,所以像这种情况还是改用浏览器内置的搜索工具比较好。还是要说一下,逐字稿真的很好用,大家一定要会善用,毕竟在信息的世界,文本是很重要的传播媒介啊。会议纪录整理vocol.ai 也很适合拿来做会议记录,做会后的数据整理,搭配 vocol.ai 可以分辨不同讲者的特色,可以在逐字稿中很容易了解到谁说了哪些内容。而且包含这样一来一回的对话,甚至有时候有抢话的状况,vocol.ai 都还是分辨得很清楚,没有混在一起、搭在一起。另外像这个情境,就可以使用上面提过的关键字搜索工具,找出哪些对话里面有我们想要了解的关键字内容。如果可以使用 vocol.ai 的工具还是比较好,毕竟这个可以直接让画面只显示我们搜索的关键字对话,更容易聚焦在结果上。另外还有一种会议记录,可能就是大家开会的时候随手录下来的,这种当然也可以使用 vocol.ai 来做会后的逐字稿整理。可是你会发现这里面明明就很多人都有发言,但是在逐字稿中却都只辨识成一个讲者,不像上面那样可以辨识成两个人,还能一来一往很流畅,句子也不会搭在一起。主要还是因为声音品质的关系。像这个会议记录的影片文件,因为大家声音都不是非常清晰,有些讲得也很模糊,所以 vocol.ai 在判断上就会有很大难度去准确的辨识,而这个影片的情况还算好,逐字稿中有 8 成的内容都有抓到,只是没有分辨讲者罢了。毕竟 AI 也不是万能,素材的品质越好,能够提供的内容就越完整,这点大家一定要记得。用翻译快速看懂国外采访纪录刚好在这段时间,我们有机会受德国在台协会邀请做一个小访问,主题是关于 9 月要在德国柏林举办的 IFA 展览,而我们也录下了采访的内容,然后透过 vocol.ai 来帮我们做事后的整理。一样可以透过 AI 生成的重点先了解一下整段访问的内容,然后再针对逐字稿的内容去做整理或是进一步的利用。这边就要提到 vocol.ai 七月刚上线的翻译功能!简单来说,这功能是能够让你在生成逐字稿之后进行翻译。完成逐字稿翻译后,点击该语系就能对照原始语系,而且就算你点击特定区段的翻译版本逐字稿,语音也会同步,也能留下评论。这对想要学习语言的人来说,就像是学习平台一样方便。除了在平台上跨语系协作,也能下载各种翻译版本逐字稿。支持的格式有 txt 和 srt 这两种。逐字稿翻译功能甚至支持 20 种以上的语系,但需要注意的是翻译版本无法被编辑喔!我认为这对于需要开跨国会议的人非常有帮助,例如有时候跟日本客户开会时,他们偏好使用日文,但对于不懂日文的我们,如果需要知道内容细节,就需要口译帮忙,但有时候口译也会省略一些内容,这就会造成信息落差,如果能掌握到所有细节,其实就能避免这种状况。vocol.ai 也是好用的多人协作平台上面的案例中,你可以发现我主要是以个人使用的情境在体验 vocol.ai 的功能,谈到 vocol.ai 如何帮助我们更好的处理语音的事情。但其实 vocol.ai 不仅仅是对自己有帮助,对于团队协作都是有帮助的,这都是借助 vocol.ai 的协作平台功能。换个立场,今天你不是会议的参与者,但你是团队的一员你不一定要亲自参与每一场的会议,但是你可以在会议结束以后,让与会的同事透过 vocol.ai 平台的「分享文件」功能把你邀请进 vocol.ai 的协作平台。收到邀请后会有 Email 的通知,而且可以在媒体库中清楚的辨识哪些是受他人邀请参与的项目,哪些是自己的项目。直接在平台中留下针对内容的建议身为受邀者虽然目前还不能编辑逐字稿的内容,但是可以针对逐字稿或是语音的段落给予意见,然后再由项目的拥有者根据大家的回馈进行修改。可以选择任何一段的逐字稿或是语音段落,然后留下「评论」,这样在同一个项目底下的其他参与者,就可以看到彼此的评论内容。其他人只要点击讨论区中你所留下的评论,就会被引导到你选起来的对话或是章节,你也不用再跟大家说「请看 XX 分 XX 秒的地方」,把时间跟精力专注在真正要聚焦的内容上吧。所以无论你是主要参与会议的人、只需要知道会议上讨论了些什么的人,或者你是一个项目管理的角色,你都可以利用 vocol.ai 协作平台的共享逐字稿(包括原始逐字稿跟多语系翻译版本)与 AI 重点整理的功能,查看整场会议的全貌或重点、甚至给予评论。而且上面说到的这些评论都会即时显示,大家可以花个 10 分钟 20 分钟一起在在线透过 vocol.ai 来完成会议后续的确认工作。也能直接用 vocol.ai 录制在线会议此外,vocol.ai 还可以化身为一个机器人加入 Google Meet 或 Microsoft Team 的视频会议中,把会议的内容自动记录下来,再自动丢回 vocol.ai 的平台中分析、产出逐字稿。不过要注意的是,目前使用机器人自动录音有六十分钟限制。接着你只要从个人后台首页中的「邀请 Google/Team 会议录音机器人」选项的「加入会议」功能操作。然后粘贴会议的链接,让 vocol.ai 可以向会议送出加入的邀请。在会议端就会收到有 vocol.ai 机器人要加入会议的通知,允许加入以后,vocol.ai 就会开始对会议的内容进行录音。当会议结束后,vocol.ai 机器人就会自动把录制的内容丢回系统,你可以在后台中看到 meeting 的文件,这就是刚刚录制的会议内容。接着后面产生 AI 摘要、逐字稿的功能就跟前面介绍过的一样。透过这个方式,在团队开会、远程视频会议时,就不用另外录像、取得录像档然后再上传,这些有的没的工作就直接让 vocol.ai 来处理,处理完还能直接生成会议重点摘要与逐字稿,多方便。vocol.ai 平台:语音转多语系逐字稿,让工作变得更有效率回归到最原始的需求,我们之所以需要一款好用的语音转文本工具,就是因为现在很多东西都讲求数字化,而数字与我们之间最重要的沟通方式就是文本了。透过 vocol.ai 的语音转文本功能,我们可以很方便又快速的把落落长的课堂录音、会议记录、采访内容在几分钟内就转成多语系文本,让我们后续可以做更多应用。vocol.ai 提供了 AI 摘要功能以及分享逐字稿功能,可以加快工作的流程以及协作的顺畅度,利用 AI 摘要先快速了解内容后,在针对逐字稿的细项内容去修正、讨论与调整。 查看全部

现在有越来越多的人在使用数字科技辅助学习、工作,我也常常在 PTT 上看到许多网友在问有没有好用的笔记软件、工具可以处理语音转文本的工作,因为他们可能录下了课堂老师讲的内容、工作会议讨论的事项,但事后需要转成文本档整理到自己的笔记或是工作报告中。

最近我就发现了一款好用的语音转文本工具 vocol.ai,辨识正确率很高,产生逐字稿的同时还可以分辨不同的讲者,甚至未来的 AI 趋势在 vocol.ai 里面也直接集成进去了,大家最常叫 ChatGPT 做的「帮我整理这内容的重点跟翻译」直接就在逐字稿产生以后一并生成。

另外,如果你是需要团队合作的案子,vocol.ai 也有团队协作功能,从头到尾一站式就搞定。下面我会详细的介绍 vocol.ai 要怎么用,并且实际示范语音转文本效果以及好用的几个功能。

语音转文本神器:vocol.ai 的 7 大重点

这里先跟大家快速重点一下我觉得 vocol.ai 好用的 7 大功能,先让大家有个概念,原来这 vocol.ai 可以做这些,然后我们再体验它的效果。

免费试用约 200 分钟

先跟大家说,目前 vocol.ai 有提供每个帐号大约 200 V-points 的免费试用额度,通常一分钟的逐字稿转换会花掉 1 到 1.5 V-points(这只是大约计算,通常不会差太多),所以 200 V-points 大概就是 200 分钟左右。

▲你可以在个人页面中看到剩余可用的 V-points

所以你不用担心说看完介绍想要用结果要付费才能用!可以先试用 200 分钟,觉得好用、有帮助的话再继续购买更多的 V-points。

▲ vocol.ai 还有包含企业方案在内的其他方案,后面会提到

语音转逐字稿

直接把录音档、影片档上传到 vocol.ai 的个人平台上,vocol.ai 就会开始帮你分析影片、音乐的内容,然后产生逐字稿,整个流程大概两、三个步骤就能搞定。

▲上传 mp3、mp4、m4a 多种格式都可以支持

通常内容只要不是太复杂的情况下,逐字稿大约可以在 3 ~ 5 分钟之内就产生出来,然后就可以在项目的画面右半部「逐字稿」这一区块看到完整的逐字稿内容。

▲上传完毕后再等一下逐字稿就会出现,等待时间取决影片长度与复杂度

完整呈现声音的内容

就连那种我们很不经意脱口而出的赘词「对」、「就是」、「那个」,或是你卡词的状况都会很完整的节录出来。

▲ vocol.ai 完整地把语音内容转成逐字稿

既然是逐字稿,所以当然就是说了什么就呈现什么,本来就不会去帮你修饰语句,我觉得这样是非常正常而且尽责的逐字稿。

录音的品质会决定逐字稿生成后的结果,有时候我们可能会因为声音素材品质不佳、讲话彼此互相搭到、太过小声….等原因,导致辨识出错误的内容或是用字,但也没关系,点两下逐字稿中想要修改的段落,就可以在跳出的菜单中选择「编辑」进行修改。

vocol.ai 语音转文本

▲ 觉得有需要调整的地方也可以自行修改

辨识不同讲者

vocol.ai 在辨识逐字稿的过程中也会分辨哪一句话是谁讲的,然后把不同的句子对应到讲话的人,所以会在逐字稿中看到「讲话者 1」、「讲话者 2」等字样,让我们可以更容易了解谁说了些什么。

▲ 分辨讲者更容易看出是谁在说话

就我目前的测试,至少到第七位讲话者都还可以辨识得出来,而且每一位讲者都会用不同颜色的线条表示,在内容很多的情况下比较好一眼就找到、辨别不同的说话者。

▲ 目前测试至少可以支持 7 名讲者

如果还想要更容易辨识的话,直接把「讲话者」改为真实的对象名称就好了,这样如果有刚参与项目的同事或是朋友之间就在讨论事情,就不用担心不知道是谁在说话了。

▲ 讲者的名称也可以自行调整

多种语言辨识

vocol.ai 可以针对影片、录音档内不同的语音进行辨识,基本的国语、英语和日语就不说了,这几种语言对于 vocol.ai 在处理逐字稿上几乎是没有什么太大的问题。

▲ vocol.ai 辨识英语

甚至对话包含中、英文夹杂的状况也都可以顺利辨识,就像下面这样,在逐字稿里面就会同时显示中文以及英文两种不同的内容。

▲ vocol.ai 辨识中英语夹杂

另外,因为许多台湾人习惯说台语,今天如果录音的场合是大家都习惯说台语的会议、讨论上,其他的语音转文本系统可能很难处理,vocol.ai 就没有问题。

我也简短的测试了一下,是真的可以辨识出来,不过要注意的是,台语的说法跟国语还是会有落差,像是下面这个「补给够」是台语「补嘎搞」的直翻,国语可能就会讲「补足」,会有这类的差别需要注意。

▲ vocol.ai 台语也能辨识

然后来试试看广东话,这是我在网络上找到的一段香港 YouTuber 的街访影片开头,丢到 vocol.ai 去转文本,没想到竟然也可以正确辨识。

▲ vocol.ai 广东话也能辨识

AI 生成重点

在上面的几张截屏中你应该也有看到,vocol.ai 在生成完逐字稿以后,还会透过 AI 语言模型,把逐字稿的内容整理出重点显示在左半边的部分,而且如果内容完整清晰的话,可以分段,并且指出每一段的时间从什么时候开始、什么时候结束。

虽然在上传文件时可以先勾选产生 AI 分析摘要,但我有时我在上传的时候会刻意先不开启 AI 自动产生摘要的功能,就是下面这个开关先不打开。

我会先产出逐字稿,确认好内容再点击「运行智能分析」产出 AI 分析摘要。

这也是我觉得很棒的一点,因为我通常习惯先确认好逐字稿内容,确认没有要修改再做 AI 重点摘要,因为如果我有针对逐字稿进行修改的话,这样做可以确保我的摘要会跟逐字稿内容是同步的,省去我对照内容的时间。

另外,录音的内容如果一次说了好多不同的主题,vocol.ai 也会帮你把不同的主题分门别类的抓出来,你可以从「主题」标签页中看到 vocol.ai 帮你整理的主题项目,点一下任何一个项目,右边的逐字稿就会反黄,方便我们可以快速找到。

团队协作平台

团队协作功能是我觉得 vocol.ai 很棒的一项特色,不仅仅是你可以自己在上面完成工作,你还可以邀请同事一起参与,直接在 vocol.ai 的平台上,针对生成的内容进行讨论,评论。

无论是自己还是被邀请的对象,除了可以浏览逐字稿内容、摘要内容以外,还可以针对有疑虑的地方,直接留下评论,然后在评论区中进行讨论或是交流。

然后我看 vocol.ai 官网的方案内容说明,在未来还会加入新的 Starter 和 Pro 方案,可以使用像是重点标示、权限设置、团队管理、使用分析….等更多项目团队用户专属且工作上必须使用到的功能。

vocol.ai 可以用在哪里?

下面这边我想要实际带大家来体验看看各种不同使用 vocol.ai 的情境,透过情境的方式,我想大家应该更可以体会 vocol.ai 语音转文本有哪些可以发挥的地方。

课堂纪录整理

现在很多人都会在课堂上把老师教的内容记录下来,甚至有些笔记 App 也有提供录音功能,但就是纯录音,也没办法转成文本,后续要做笔记的时候还是要从头开始听,甚至你有想要听的内容,但是你根本不知道这个内容出现在几分几秒,要像是瞎子摸象那样一直在播放器中寻找。

但是利用 vocol.ai,你只需要把影片、录音档上传。

如果内容很多也没关系,上传完以后你可以先做自己的事情,等到逐字稿生成完毕会发送通知给你,蛮贴心的功能,不用在那痴痴的等。

但要特别注意的是,上传单个音档最高限制是 180 分钟!

如果你刚好没有带到录音笔、手机空间不够、快没电的情况下,你也可以直接透过 volco.ai 提供的录音功能录下要转逐字稿的内容。

但因为这是透过内置浏览器来进行录音,所以还是要注意一下浏览器的设置,避免因为没有跟网页有交互时进入休眠状态让录音被迫停止,以我的经验来说,我常用 Google Chrome,所以会习惯去「设置」→「性能」→把信任的网站加入菜单中。此外,我也会同时关闭内存节省模式。

无论是透过 vocol.ai 直接录音或是上传音档,当逐字稿产生完毕后,你就可以从逐字稿中透过搜索的方式,快速找到你想要找的重点,之后再把所有的内容好好整理一下,会比从头重新听过再来整理还要有效率。

想听哪一段的内容直接点击文本就可以直接切换过去,不用在一整段语音中盲目寻找要听的目标内容。

这里也要特别提一下,其实 vocol.ai 也有针对逐字稿、评论讨论的关键字搜索工具,不过我觉得那比较适用有好多段对话的情况,搜索工具会引导你去有包含这个关键字的对话、章节或是讨论串。

但是像我上面那样,课堂上只有老师一个人批哩啪啦在讲的情况,vocol.ai 的关键字搜索反而没那么好用,因为他不会引导你去这个字实际出现的地方,而是把有提到这个字的对话整段抓出来,等于是老师整段讲的话都被标出来了,那就没有意义了,所以像这种情况还是改用浏览器内置的搜索工具比较好。

还是要说一下,逐字稿真的很好用,大家一定要会善用,毕竟在信息的世界,文本是很重要的传播媒介啊。

会议纪录整理

vocol.ai 也很适合拿来做会议记录,做会后的数据整理,搭配 vocol.ai 可以分辨不同讲者的特色,可以在逐字稿中很容易了解到谁说了哪些内容。

而且包含这样一来一回的对话,甚至有时候有抢话的状况,vocol.ai 都还是分辨得很清楚,没有混在一起、搭在一起。

另外像这个情境,就可以使用上面提过的关键字搜索工具,找出哪些对话里面有我们想要了解的关键字内容。

如果可以使用 vocol.ai 的工具还是比较好,毕竟这个可以直接让画面只显示我们搜索的关键字对话,更容易聚焦在结果上。

另外还有一种会议记录,可能就是大家开会的时候随手录下来的,这种当然也可以使用 vocol.ai 来做会后的逐字稿整理。

可是你会发现这里面明明就很多人都有发言,但是在逐字稿中却都只辨识成一个讲者,不像上面那样可以辨识成两个人,还能一来一往很流畅,句子也不会搭在一起。

主要还是因为声音品质的关系。

像这个会议记录的影片文件,因为大家声音都不是非常清晰,有些讲得也很模糊,所以 vocol.ai 在判断上就会有很大难度去准确的辨识,而这个影片的情况还算好,逐字稿中有 8 成的内容都有抓到,只是没有分辨讲者罢了。

毕竟 AI 也不是万能,素材的品质越好,能够提供的内容就越完整,这点大家一定要记得。

用翻译快速看懂国外采访纪录

刚好在这段时间,我们有机会受德国在台协会邀请做一个小访问,主题是关于 9 月要在德国柏林举办的 IFA 展览,而我们也录下了采访的内容,然后透过 vocol.ai 来帮我们做事后的整理。

一样可以透过 AI 生成的重点先了解一下整段访问的内容,然后再针对逐字稿的内容去做整理或是进一步的利用。

这边就要提到 vocol.ai 七月刚上线的翻译功能!

简单来说,这功能是能够让你在生成逐字稿之后进行翻译。完成逐字稿翻译后,点击该语系就能对照原始语系,而且就算你点击特定区段的翻译版本逐字稿,语音也会同步,也能留下评论。

这对想要学习语言的人来说,就像是学习平台一样方便。

除了在平台上跨语系协作,也能下载各种翻译版本逐字稿。支持的格式有 txt 和 srt 这两种。

逐字稿翻译功能甚至支持 20 种以上的语系,但需要注意的是翻译版本无法被编辑喔!

我认为这对于需要开跨国会议的人非常有帮助,例如有时候跟日本客户开会时,他们偏好使用日文,但对于不懂日文的我们,如果需要知道内容细节,就需要口译帮忙,但有时候口译也会省略一些内容,这就会造成信息落差,如果能掌握到所有细节,其实就能避免这种状况。

vocol.ai 也是好用的多人协作平台

上面的案例中,你可以发现我主要是以个人使用的情境在体验 vocol.ai 的功能,谈到 vocol.ai 如何帮助我们更好的处理语音的事情。

但其实 vocol.ai 不仅仅是对自己有帮助,对于团队协作都是有帮助的,这都是借助 vocol.ai 的协作平台功能。

换个立场,今天你不是会议的参与者,但你是团队的一员

你不一定要亲自参与每一场的会议,但是你可以在会议结束以后,让与会的同事透过 vocol.ai 平台的「分享文件」功能把你邀请进 vocol.ai 的协作平台。

收到邀请后会有 Email 的通知,而且可以在媒体库中清楚的辨识哪些是受他人邀请参与的项目,哪些是自己的项目。

直接在平台中留下针对内容的建议

身为受邀者虽然目前还不能编辑逐字稿的内容,但是可以针对逐字稿或是语音的段落给予意见,然后再由项目的拥有者根据大家的回馈进行修改。

可以选择任何一段的逐字稿或是语音段落,然后留下「评论」,这样在同一个项目底下的其他参与者,就可以看到彼此的评论内容。

其他人只要点击讨论区中你所留下的评论,就会被引导到你选起来的对话或是章节,你也不用再跟大家说「请看 XX 分 XX 秒的地方」,把时间跟精力专注在真正要聚焦的内容上吧。

所以无论你是主要参与会议的人、只需要知道会议上讨论了些什么的人,或者你是一个项目管理的角色,你都可以利用 vocol.ai 协作平台的共享逐字稿(包括原始逐字稿跟多语系翻译版本)与 AI 重点整理的功能,查看整场会议的全貌或重点、甚至给予评论。

而且上面说到的这些评论都会即时显示,大家可以花个 10 分钟 20 分钟一起在在线透过 vocol.ai 来完成会议后续的确认工作。

也能直接用 vocol.ai 录制在线会议

此外,vocol.ai 还可以化身为一个机器人加入 Google Meet 或 Microsoft Team 的视频会议中,把会议的内容自动记录下来,再自动丢回 vocol.ai 的平台中分析、产出逐字稿。不过要注意的是,目前使用机器人自动录音有六十分钟限制。

接着你只要从个人后台首页中的「邀请 Google/Team 会议录音机器人」选项的「加入会议」功能操作。

然后粘贴会议的链接,让 vocol.ai 可以向会议送出加入的邀请。

在会议端就会收到有 vocol.ai 机器人要加入会议的通知,允许加入以后,vocol.ai 就会开始对会议的内容进行录音。

当会议结束后,vocol.ai 机器人就会自动把录制的内容丢回系统,你可以在后台中看到 meeting 的文件,这就是刚刚录制的会议内容。

接着后面产生 AI 摘要、逐字稿的功能就跟前面介绍过的一样。

透过这个方式,在团队开会、远程视频会议时,就不用另外录像、取得录像档然后再上传,这些有的没的工作就直接让 vocol.ai 来处理,处理完还能直接生成会议重点摘要与逐字稿,多方便。

vocol.ai 平台:语音转多语系逐字稿,让工作变得更有效率

回归到最原始的需求,我们之所以需要一款好用的语音转文本工具,就是因为现在很多东西都讲求数字化,而数字与我们之间最重要的沟通方式就是文本了。

透过 vocol.ai 的语音转文本功能,我们可以很方便又快速的把落落长的课堂录音、会议记录、采访内容在几分钟内就转成多语系文本,让我们后续可以做更多应用。

vocol.ai 提供了 AI 摘要功能以及分享逐字稿功能,可以加快工作的流程以及协作的顺畅度,利用 AI 摘要先快速了解内容后,在针对逐字稿的细项内容去修正、讨论与调整。