一直以來(lái),AI繪圖和AI聲音,都有類似的痛點(diǎn):
無(wú)法直出中文海報(bào),以及克隆的中文聲音幾乎沒(méi)法聽。而前者,隨著上周的即夢(mèng)v2.1,得到了很好的解決。后者,過(guò)往有N多產(chǎn)品試圖去解決,但是解決的都很差。閉源的有11labs,英文強(qiáng)到爆炸,中文幾乎沒(méi)法聽總是一股子大佐味。開源的,有F5、GPT-sovits、ChatTTS等等,但是不僅本地部署使用困難,出來(lái)的情緒說(shuō)實(shí)話,也不咋地。
而這個(gè)周末,中文的語(yǔ)音克隆痛點(diǎn),我發(fā)現(xiàn),被解決了。我直接給大家聽一段我用克隆的AI唐國(guó)強(qiáng)老師,念滿江紅的語(yǔ)音。玩了將近2年的AI聲音了,我也是第一次見,能用中文念詩(shī),念的如此情緒飽滿的AI聲音。
這個(gè)AI語(yǔ)音,來(lái)自MiniMax的海螺AI。嗯,就是那個(gè)把人物情緒表演拉滿,在海外AI視頻圈大殺特殺的海螺AI。周末我打開海螺AI,準(zhǔn)備跑幾個(gè)case視頻的時(shí)候,意外的發(fā)現(xiàn),他們悄悄的居然在海外版上線了Audio模塊。
今年1月我就寫過(guò)一篇海螺AI聲音克隆的文章,但是那時(shí)候,只能在AI助手上,克隆你自己。在火速體驗(yàn)完以后,我終于可以說(shuō):
這就是當(dāng)今最強(qiáng)的,AI中文語(yǔ)音克隆,沒(méi)有之一。一周時(shí)間,AI繪圖和AI聲音,中文世界兩開花。這兩年,你知道我們是怎么過(guò)來(lái)的嗎。
突然有點(diǎn)淚目,兄弟們,過(guò)年了,真的。海螺AI Audio網(wǎng)址在此:https://www.hailuo.ai/audio最頂上左邊的就是Audio,剛剛新上的聲音功能,最右邊那個(gè)就是之前爆火的Video。
海螺AI的Audio用起來(lái)也非常的簡(jiǎn)單,最左邊的側(cè)邊欄,分為兩個(gè)tab。第一個(gè)是Text to Speech(TTS),也就是你克隆完的聲音模型可以在這個(gè)地方進(jìn)行文字生成音頻了。
第二個(gè)就是Voices,可以在里面進(jìn)行聲音的克隆。我做個(gè)case,給大家詳細(xì)演示一下。直接點(diǎn)那個(gè)“創(chuàng)建您的聲音克隆”按鈕,目前每個(gè)人可以免費(fèi)創(chuàng)建3個(gè)聲音。
上傳的語(yǔ)音最少上傳10s的音頻片段就可以克隆了,不過(guò)這個(gè)樣本其實(shí)不是特別夠,所以我一般推薦音頻素材最好在30s左右,當(dāng)然你也可以更長(zhǎng),不過(guò)一般不需要超過(guò)5分鐘。這里我直接去B站,扒了一段唐國(guó)強(qiáng)老師在《三國(guó)演義》里面的朗誦片段。扒出來(lái)的聲音素材是這樣的,你們可以聽一下。唐國(guó)強(qiáng)老師素材,數(shù)字生命卡茲克,50秒
情緒起伏很大,抑揚(yáng)頓挫拉滿,非常完美的原始素材。
有個(gè)降噪選項(xiàng),可選可不選,如果你的素材比較純凈干凈,可以不用。開的話可以幫你把一些背景音什么的都剔除掉。
最后需要選一下原始素材的語(yǔ)言,海螺AI支持12種語(yǔ)言,分別是:中文、粵語(yǔ)、英語(yǔ)、韓語(yǔ)、日語(yǔ)、印尼語(yǔ)、西語(yǔ)、葡語(yǔ)、法語(yǔ)、意大利語(yǔ)、俄語(yǔ)、德語(yǔ)。你的原始素材的語(yǔ)言是什么樣的,就選什么語(yǔ)言,克隆出來(lái)的聲音模型就會(huì)得到最好的效果,比如我上傳的這個(gè)唐國(guó)強(qiáng)老師的素材是中文的,就選中文就行。很快,大概只要幾十秒的時(shí)間,唐國(guó)強(qiáng)老師的聲音,就克隆好了。
點(diǎn)擊此位置,就可以切換到剛剛克隆完的唐國(guó)強(qiáng)老師的聲音模型。我們直接,讓唐國(guó)強(qiáng)老師,來(lái)念一首李白的《將進(jìn)酒》吧。
這首詩(shī)我太喜歡了,《長(zhǎng)安三萬(wàn)里》李白那一段上天入地,駕鶴登仙的演繹,更是將這首詩(shī)在我心中的地位,推向了最巔峰。
我們直接把《將進(jìn)酒》的最后一段扔進(jìn)去。
“主人何為言少錢,徑須沽取對(duì)君酌。五花馬,千金裘,呼兒將出換美酒,與爾同銷萬(wàn)古愁?!?/strong>
海螺有個(gè)非常牛逼的點(diǎn)是,可以支持切換情緒。目前有六種情緒:開心、生氣、悲傷、驚訝、恐懼、厭惡。《將進(jìn)酒》的最后一段,在我的認(rèn)知里,雖然一種憤慨,有一種激昂,但是底層情緒,確是悲涼的。點(diǎn)擊生成,幾秒鐘的時(shí)間,一段語(yǔ)音,就出現(xiàn)在了你的面前。
唐國(guó)強(qiáng) 將進(jìn)酒,數(shù)字生命卡茲克,18秒
為了更加形象的展示,我把這段音頻做了個(gè)照片驅(qū)動(dòng)對(duì)口型,視頻看起來(lái)更直觀一些。而這句話,如果讓11labs克隆林黛玉的聲音來(lái)念呢,我給你們聽一下,有多么的鬼畜。
林黛玉11labs,數(shù)字生命卡茲克,2秒
這就是我在文章開頭,說(shuō)的一股子大佐味。不是說(shuō)11labs不好,11labs一直以來(lái)是世界上公認(rèn)的最強(qiáng)的AI聲音產(chǎn)品,但是在中文表現(xiàn)上,真的是沒(méi)法用的狀態(tài)。
而這一次,海螺AI挺身而出,終于,補(bǔ)足了中文領(lǐng)域幾乎是空白的短板,把中文的聲音克隆的音色相似度和情緒,推上了巔峰。
成功率也極高,我想說(shuō)的是,我上面所有的case,全部是一遍直出,沒(méi)有抽過(guò)一次卡,這點(diǎn),真的難能可貴。再給大家看一個(gè)影視颶風(fēng)TIM的例子。
影視颶風(fēng)是我最喜歡以及最崇拜的頻道,沒(méi)有之一。相信看過(guò)影視颶風(fēng)的觀眾也都無(wú)數(shù)次聽過(guò)TIM那句:“Hello大家好,我是TIM,歡迎收看影視颶風(fēng)?!?/strong>而這一次,我們讓AI來(lái)說(shuō)這句話,讓大家聽聽,海螺AI的復(fù)刻有多么的強(qiáng)。注意,為了避免擬合,所以我在上傳到海螺AI的30秒TIM的素材里,是沒(méi)有這句開場(chǎng)白的,都是他在聊一些別的東西。跟我記憶中已經(jīng)聽過(guò)無(wú)數(shù)次的TIM的開場(chǎng)白,沒(méi)有任何區(qū)別。這就是現(xiàn)在海螺AI,能達(dá)到的程度。這就是現(xiàn)在,最強(qiáng)的AI中文聲音克隆,沒(méi)有之一。作為一個(gè)見證了這兩年AI發(fā)展的親歷者,這一周的感受格外強(qiáng)烈。從即夢(mèng)讓中文海報(bào)一夜之間"通關(guān)",到海螺AI讓中文語(yǔ)音克隆達(dá)到了前所未有的高度,我仿佛看到了中文AI能力的爆發(fā)時(shí)刻。想想兩年前,我們還在為中文大模型和國(guó)際巨頭的差距而焦慮。那時(shí)的AI世界,幾乎是英語(yǔ)的獨(dú)角戲。中文的存在感,就像是一個(gè)可有可無(wú)的配角。當(dāng)我們能用AI輕松制作出中文海報(bào),當(dāng)唐國(guó)強(qiáng)老師的聲音能被完美克隆,當(dāng)林黛玉的語(yǔ)氣都能被精準(zhǔn)還原。也許,這就是屬于中文世界的AI時(shí)代的序章。
閱讀原文:原文鏈接
該文章在 2025/1/7 11:46:14 編輯過(guò)