錄音檔轉文字:訪談、會議記錄、錄音、課程、演講、影音資料文書化,或者是任何生活上你覺得重要而用錄音記錄下來的事情,都可能會有製作逐字稿的需求,需要將影片或者錄音檔轉成文字檔。

影片上字幕:其實在我們的生活習慣裡,對字幕的存在是很依賴的,無論是聽力的不足,或是必須要使用靜音播放,都是字幕,也就是逐字稿必須要存在的原因。影片帶有字幕對觀衆來說是相當方便的,不必全神貫注地聽聲音,也可以透過逐字稿知道內容。 音檔轉文字和爲影片上字幕都是相當耗費精神的逐字稿製作,若是使用人工錄音聽打的方式,必須要非常全神貫注,甚至反覆聆聽,搭配良好的語文水準及足夠的打字速度,才能完成。而利用最新的AI 技術,據說可以快到幾分鐘之內幫你聽寫出影音檔內的語音文字,自動製作逐字稿和字幕。

 

如何利用AI語音製作逐字稿呢?

今天就跟大家分享文字轉語音的逐字稿好幫手吧!

何謂語音轉文字 (Speech to Text) 呢?就是把語音數據變成文字,例如訪談紀錄、採訪、課堂錄音、會議記錄等錄音檔,變成文字,這個把錄音檔轉成文字的結果,就是逐字稿囉!

 

由人工錄音聽打製作逐字稿的過程,常常需要反反覆覆聆聽,去仔細分辨說話人的聲音,往往需要花錄音檔好幾倍的時間,去做錄音聽打,相當耗時及耗費精神。近年來,人工智慧的發展迅速,語音轉文字的準確度和速度早已今非昔比,已經達到約90%以上的正確率,其中效率更是人工無法比擬的。語音識別 ASR (Automatic Speech Recognition),將語音用訓練好的模型辨識,根據機器學習,通過大量語音及對應文本數據進行訓練。例如iPhone 裡的 Siri 就是典型的語音辨識。但是同一個聲音,會有不同字符的可能(如 “音” 和 “因”),這時候就需要利用第二部分即語言模型,根據上下文,歷史,頻率統計字符概率,去推斷。例如前一個字是“窗”,那下一個字便可能是“戶”。使用算法根據概率將字符轉化為文本,然後由系統返回。當然具體的過程會比這個複雜得多,為了達到很高的準確度,除了算法複雜,也需要對音檔進行一些預處理,如把背景的噪音去除等。

這樣得過程聽起來很複雜,但現在我們能夠使用的逐字稿軟體,都已經將過程簡化,變得十分簡單容易應用。現在很容易搜尋到各式各樣的逐字稿軟體,他們夠過AI語音去辨識,而我們只要把音檔上傳,就可以快速地獲得自動由錄音檔轉文逐字稿的文字檔,甚至,網站還會提供各式格式的檔案下載,word、txt等。

但是,畢竟科技始終來自人性,也始終無法取代人類。即使是人工錄音聽打,製作出的逐字稿都會因為種種因素而難以保證百分之百正確。AI語音辨識在這方面也面臨的同樣的情況。我們會因為環境的吵雜;語言的轉換;專業術語的使用,而無法準確的辨識。AI語音辨識在這一塊,是略遜於人工錄音聽打的。因此,即便我們使用了AI語音辨識,也不可能直接完稿就交件,還是必須要使用人工再次修改、確認,甚至潤稿。至於這樣是否能夠節省很多的時間,這點就因人而異了。有時候因為錄音檔的不完整,或者說是錄音品質不佳,而導致AI語音辨識的準確度大大下降。這個時候,即使先使用自動的語音轉文字軟體,也難逃需要重新聽取錄音做聽打的結果。那麼就可以說是沒辦法節省時間也並沒有取代人力了。

難道我們真的沒辦法使用AI辨識節省錄音聽打耗費的時間嗎?

其實還是可以的。像是很多長輩並不是很熟悉手機鍵盤的輸入法,我們常常看見他們對著手機一字一句地唸出想要輸入的文字,那其實就是AI語音辨識相當成功的例子。

當然,我們也可以看見,長輩為了讓手機能夠讀取,正確地輸入他們的逐字稿,總是刻意放慢並且清楚地唸出每一個字。在這個區塊上,AI語音辨識的正確率仍然是相當高的。如果,我們能夠確保在訪談、會議等錄音現場,每個人能夠控制自己,字正腔圓,發音清楚而說話不囫圇吞棗、不結巴,那AI語音辨識確實能夠如我們前面所提到的,有高達90%以上的正確率。然而,事實是在會議、演講等現場,尤其話語帶有情緒時,我們是不可能用那樣不自然的方式講話的。因此,錄音聽打的人工完全存在著不可被取代的條件。不只是因為我們對逐字稿的需求,而是因為口語化語言的辨識對於AI語音辨識來說,仍然存在著一定程度的困難。