文|巴比特資訊
11 月 7 日,AI 界“春晚”召開,全世界科技圈的目光再次匯聚美國舊金山。在短短的 45 分鐘時(shí)間里,那個(gè)男人——山姆 奧特曼再次向世界證明“你大爺還是你大爺”??偨Y(jié)來看,這一波 GPT 的升級(jí)主要包括支持 128K 上下文窗口的 GPT-4 Turbo 模型;可定制的“GPTs”;被譽(yù)為下一個(gè) App Store 的 GPT Store 以及 Assistant API 等。
圖源微博用戶:@Sunbelife
發(fā)布會(huì)一開完,各類消息刷屏,而拿到內(nèi)測(cè)資格的大佬們也是紛紛出手,不到 24 小時(shí),網(wǎng)上基于新功能的用例也是一波接著一波,而且效果可以說是驚掉下巴的那種。
根據(jù) X(前推特)大 V Rowan Cheung 的整理,以下是 8 個(gè)熱門應(yīng)用。
01、GPT-4V + TTS API 直接“取代”解說
網(wǎng)友 @geepytee 將足球視頻的每一幀畫面?zhèn)鬟f給 gpt-4-vision-preview,并通過一些簡單的提示要求生成旁白,然后通過 TTS(從文本到語音)就得到了以下畫面。該網(wǎng)友表示,這一過程完全由模型直出,未進(jìn)行任何修改,也就是說,如果加以調(diào)整,完全可以做得更好。
視頻鏈接:
https://twitter.com/i/status/1721705524176257296
從視頻當(dāng)中可以聽到,AI 解說的內(nèi)容其實(shí)已經(jīng)與畫面相差不多,而且在梅西過防進(jìn)球的“高光”時(shí)刻,AI 解說也已經(jīng)盡可能地表現(xiàn)出了它“激動(dòng)”的情緒,只是如果要與真人解說相比,還是存在差距的。
該網(wǎng)友表示,整個(gè)視頻長達(dá) 1131 幀,但只能每隔 10 幀向 GPT 傳遞一次,制作成本約 30 美元,不算便宜。另外,他還把完整代碼貢獻(xiàn)了出來,有興趣的同學(xué)可以一試。
代碼鏈接:
https://t.co/eppBNcJUby
除了足球比賽,也有網(wǎng)友用新的 GPT-4 V 和文本轉(zhuǎn)語音 API 創(chuàng)建了電競 AI 解說。就聽感而言,雖然這場比賽特?zé)o語(懂的都懂),但這“解說”偏陳述性的語調(diào)確實(shí)也讓人犯困。
視頻鏈接:
https://twitter.com/i/status/1721900523866214635
不過,雖然這些 AI 解說還不夠完美,但也是能夠理解的。OpenAI聯(lián)創(chuàng)人 Greg Brockman 直接站臺(tái),毫不吝嗇自己的夸贊。
02、AGI.zip:GPT4-Turbo 還可以更快
曾創(chuàng)建了大熱 AI 智能體 BabyAGI 的 Nick Dobos 覺得 GPT4-Turbo 不夠快,于是就添加了 20 個(gè)預(yù)置熱鍵以加快速度。據(jù)悉,新版本基于使用自定義指令制作的 agi dop zip 的早期版本。優(yōu)化過的版本可以自動(dòng)保存長期記憶,可重復(fù)使用,跟蹤當(dāng)前任務(wù),也可使用 .sql 導(dǎo)出到任何聊天工具中。
此外,他還打造了 Gif-PT,可以自動(dòng)將 Dalle 圖像轉(zhuǎn)化為 Gif。復(fù)雜的工作流程統(tǒng)一化,以后作圖斗圖可謂是更方便了。
03、新一代“點(diǎn)讀機(jī)”:哪里不會(huì)圈哪里
另一網(wǎng)友 @Karmedge 通過 GPT-4 V 應(yīng)用程序接口定制出了 GPT4 Vision 瀏覽器,只要截圖就可以詢問任何問題,可以說是新一代的哪里不會(huì)“圈”哪里。從該網(wǎng)友的演示視頻中可以看出,即使是在不給出任何上下文背景的情況下,GPT-4 也能準(zhǔn)確回答出諸如骨骼、數(shù)學(xué)符號(hào),汽車零部件的名稱。
另外,這位小哥還做了個(gè)有趣的試驗(yàn),在用 GPT4 V 構(gòu)建完新模型后,通過電腦攝像頭,它就成為了私人瑜伽教練,你可以直接詢問它“我的動(dòng)作準(zhǔn)確不?”,這位“教練”便會(huì)給出它貼心的動(dòng)作指導(dǎo)。
04、“小編助手”:可以幫助優(yōu)化推文的自定義 GPT
作為擁有 34 萬粉絲的大 V,Rowan Cheung 也迫不及待地進(jìn)行了嘗試。他自定義了“X Optimizer GPT”,可以對(duì)其想要在 X 上發(fā)的帖子進(jìn)行微調(diào),并精確定位高峰發(fā)布時(shí)間,從而幫助其在 X 上獲得更多的曝光。具體的做法是,先從 Twitter 分析中下載帖子數(shù)據(jù),然后配置自定義指令,讓 X Optimizer GPT 撰寫帖子并確定發(fā)布時(shí)間。
至于成效如何,Rowan Cheung 直呼:“Mind-blowing!”
05、WebcamGPT:可識(shí)物的 GPT 攝像頭
網(wǎng)友 Benjamin De Kraker 通過 GPT-4 Vision API 用大約 10 分鐘的時(shí)間創(chuàng)建了 WebcamGPT,可以近乎實(shí)時(shí)地識(shí)別攝像頭前正在發(fā)生的事情,包括物體和動(dòng)作等。從視頻中可以看出,當(dāng)該網(wǎng)友在鏡頭前舉起手掌、手機(jī)等物品時(shí),大約 3 秒后,WebcamGPT 就可以具體寫出這些物品。
該網(wǎng)友同樣放出了demo 測(cè)試,不過由于API token 有限,可能不一定體驗(yàn)的到。需要注意的是,這類涉及隱私的測(cè)試,大家還是小心些。
據(jù)悉,該網(wǎng)友是基于 @skalskip92 的思路創(chuàng)建的該應(yīng)用,有網(wǎng)友在其原推評(píng)論道,“對(duì)于盲人來說,這將是一個(gè)很好的工具,如果它能像個(gè)人助理一樣用語音應(yīng)答,就能指導(dǎo)他們?nèi)绾螌ふ襾G失的物品或其他東西。”
06、“自導(dǎo)自演”:GPT vs. GPT
BabyAGI 建設(shè)者 Yohei 通過 Assistant API 用 109 行代碼創(chuàng)建了開源的“GPTvsGPT”,可以自定義參數(shù),讓兩個(gè) AI 助手扮演不同的“角色”進(jìn)行對(duì)話。Yohei 表示,“GPT vs GPT”還可以通過檢索、數(shù)據(jù)和自定義函數(shù)來擴(kuò)展功能。
目前該項(xiàng)目也已在 GitHub 開源,感興趣的朋友也可以去瀏覽看看。
https://GitHub.com/yoheinakajima/GPTvsGPT
07、從草圖到 HTML 網(wǎng)站,速度超快
網(wǎng)友 Sawyer Hood 利用 GPT-4-Vision 在 5 個(gè)小時(shí)內(nèi)完成了從低保真的模型到實(shí)際 HTML 網(wǎng)站的建設(shè)流程。視頻演示中,該網(wǎng)友簡單用繪畫工具勾勒了一個(gè)類似社交頁面的草圖,然后 GPT-4V 瞬間就把它變成了 HTML 網(wǎng)頁。只能說,真的神奇。目前,該演示的源代碼也已在 GitHub 開源。
08、講座報(bào)告神器:用 128k 上下文窗口總結(jié)近 90 分鐘的寫作講座
網(wǎng)友 Riley Brown 對(duì)此次 OpenAI 帶來的 128 k 上下文窗口大加贊賞。在演示中,該網(wǎng)友首先拷貝了長達(dá)近 90 分鐘的 YouTube 視頻講座字幕,然后在 GPT 4 中輸入總結(jié)指令,GPT 4 便迅速整理出了該講座每一個(gè)部分的要點(diǎn)。而且,還可以根據(jù)每個(gè)要點(diǎn)要求 GPT 4 進(jìn)行擴(kuò)展。
除了上面這 8 個(gè)用例之外,還有各種用例層出不窮,比如截圖,然后讓 GPT4-vision 給出網(wǎng)站優(yōu)化建議;將網(wǎng)頁瀏覽與 GPT 結(jié)合創(chuàng)建自己喜愛的音樂列表;與 YouTube 視頻對(duì)話等等。
要知道,定制 GPTs 功能目前還未上線。格局打開,想象力打開!一旦上線, 各位想自定義一個(gè)怎樣的專屬 GPT 呢?
參考資料:
https://twitter.com/rowancheung/status/1721939382775447566