
1. 如何讓文生視頻更好用,Pika再下一城。不僅僅是文生視頻,AI連音頻也一并搞定,且非常逼真。Pika說不好意思他們不再“靜音”了,音頻生成包括兩個(gè)方法,一是輸入Prompt,二是直接根據(jù)視頻內(nèi)容匹配生成。Pika把這一功能稱為“Sound Effects”。目前開放測(cè)試版給到“超級(jí)合作者和專業(yè)用戶”。

2.輸入Prompt生成音頻或許不值得特別驚訝,大家樂見其成的是“根據(jù)視頻生成”,即你讓AI生成了一段視頻,Pika根據(jù)視頻再幫你搞定音頻,且這個(gè)音頻完全符合現(xiàn)實(shí)世界——讓我想起了電影工業(yè)的昂貴“手藝人”音效師——又一個(gè)即將失業(yè)的群體?
3.“這是工程上的一個(gè)小進(jìn)步,從技術(shù)角度來講,沒什么”。英諾天使基金合伙人王晟告訴網(wǎng)易科技《態(tài)度》,雖然Pika生成質(zhì)量方面還有不少問題,但這是趨勢(shì),AI把各種模態(tài)都統(tǒng)一起來,用一個(gè)Prompt去解決,這大大提升了視頻制作的流程和效率,AI讓這個(gè)事情變得非常簡(jiǎn)單,但本質(zhì)上技術(shù)難度不大。
4.在Pika的x博文留言區(qū),引來了音頻工作者的質(zhì)問:能分享一下訓(xùn)練音頻的數(shù)據(jù)嗎?許多創(chuàng)作者擔(dān)心他們的作品在未經(jīng)他們同意的情況下被你們使用。
5.文生音頻其實(shí)比文生視頻要成熟。經(jīng)過網(wǎng)易科技粗略統(tǒng)計(jì),市面上公開可用的文生音頻工具多達(dá)50+款,但生成質(zhì)量層次不齊。比如,倫敦創(chuàng)業(yè)公司Stability AI在靠文生圖獲得大量關(guān)注之后,就曾于2023年推出Stable Audio,用prompt的方式寫歌,描述音樂流派、樂器、畫面、感覺就可以生成一段音樂demo。
6.多模態(tài)是大勢(shì)所趨,AI將重塑創(chuàng)作的每一個(gè)角落。從大模型在文生圖應(yīng)用的大放異彩,再到文生視頻Sora的驚艷眾人。AI定會(huì)不斷的給我們驚喜,從文本、音頻、視頻的全鏈條AI化,這是通往AGI的天然場(chǎng)景,也可能是證明AGI的絕佳方式。
7.Pika創(chuàng)始人郭文景稱其對(duì)標(biāo)的產(chǎn)品就是Sora,當(dāng)Sora橫空出世之時(shí),所有人都在為Pika捏一把汗,郭文景當(dāng)時(shí)的表態(tài)是:“振奮人心,籌備直接沖”。今天率先推出文生視頻的音頻生成功能,想必是她沖擊Sora的其中一步。
8.這家公司成立于2023年4月,同年11月發(fā)布了Pika 1.0。Pika1.0的主要功能是:一是用文本和圖像生成視頻,只需要輸入幾行文本或上傳圖像,就可以創(chuàng)建簡(jiǎn)短、高質(zhì)量的視頻;二是編輯更改視頻,輸入相關(guān)文本,實(shí)現(xiàn)對(duì)背景環(huán)境、衣著道具等元素的增減或者更改;三是切換視頻風(fēng)格,例如在黑白、動(dòng)畫等不同風(fēng)格中轉(zhuǎn)化;四是更改視頻的寬高比。2024年2月28日,Pika 推出新功能 Lip Sync,允許用戶為視頻添加語音對(duì)白,并實(shí)現(xiàn)嘴唇同步的效果。而后,最新的更新便是今天這次。