文|巴比特資訊
11 月 7 日,AI 界“春晚”召開,全世界科技圈的目光再次匯聚美國舊金山。在短短的 45 分鐘時間里,那個男人——山姆 奧特曼再次向世界證明“你大爺還是你大爺”??偨Y來看,這一波 GPT 的升級主要包括支持 128K 上下文窗口的 GPT-4 Turbo 模型;可定制的“GPTs”;被譽為下一個 App Store 的 GPT Store 以及 Assistant API 等。
圖源微博用戶:@Sunbelife
發(fā)布會一開完,各類消息刷屏,而拿到內(nèi)測資格的大佬們也是紛紛出手,不到 24 小時,網(wǎng)上基于新功能的用例也是一波接著一波,而且效果可以說是驚掉下巴的那種。
根據(jù) X(前推特)大 V Rowan Cheung 的整理,以下是 8 個熱門應用。
01、GPT-4V + TTS API 直接“取代”解說
網(wǎng)友 @geepytee 將足球視頻的每一幀畫面?zhèn)鬟f給 gpt-4-vision-preview,并通過一些簡單的提示要求生成旁白,然后通過 TTS(從文本到語音)就得到了以下畫面。該網(wǎng)友表示,這一過程完全由模型直出,未進行任何修改,也就是說,如果加以調整,完全可以做得更好。
視頻鏈接:
https://twitter.com/i/status/1721705524176257296
從視頻當中可以聽到,AI 解說的內(nèi)容其實已經(jīng)與畫面相差不多,而且在梅西過防進球的“高光”時刻,AI 解說也已經(jīng)盡可能地表現(xiàn)出了它“激動”的情緒,只是如果要與真人解說相比,還是存在差距的。
該網(wǎng)友表示,整個視頻長達 1131 幀,但只能每隔 10 幀向 GPT 傳遞一次,制作成本約 30 美元,不算便宜。另外,他還把完整代碼貢獻了出來,有興趣的同學可以一試。
代碼鏈接:
https://t.co/eppBNcJUby
除了足球比賽,也有網(wǎng)友用新的 GPT-4 V 和文本轉語音 API 創(chuàng)建了電競 AI 解說。就聽感而言,雖然這場比賽特無語(懂的都懂),但這“解說”偏陳述性的語調確實也讓人犯困。
視頻鏈接:
https://twitter.com/i/status/1721900523866214635
不過,雖然這些 AI 解說還不夠完美,但也是能夠理解的。OpenAI聯(lián)創(chuàng)人 Greg Brockman 直接站臺,毫不吝嗇自己的夸贊。
02、AGI.zip:GPT4-Turbo 還可以更快
曾創(chuàng)建了大熱 AI 智能體 BabyAGI 的 Nick Dobos 覺得 GPT4-Turbo 不夠快,于是就添加了 20 個預置熱鍵以加快速度。據(jù)悉,新版本基于使用自定義指令制作的 agi dop zip 的早期版本。優(yōu)化過的版本可以自動保存長期記憶,可重復使用,跟蹤當前任務,也可使用 .sql 導出到任何聊天工具中。
此外,他還打造了 Gif-PT,可以自動將 Dalle 圖像轉化為 Gif。復雜的工作流程統(tǒng)一化,以后作圖斗圖可謂是更方便了。
03、新一代“點讀機”:哪里不會圈哪里
另一網(wǎng)友 @Karmedge 通過 GPT-4 V 應用程序接口定制出了 GPT4 Vision 瀏覽器,只要截圖就可以詢問任何問題,可以說是新一代的哪里不會“圈”哪里。從該網(wǎng)友的演示視頻中可以看出,即使是在不給出任何上下文背景的情況下,GPT-4 也能準確回答出諸如骨骼、數(shù)學符號,汽車零部件的名稱。
另外,這位小哥還做了個有趣的試驗,在用 GPT4 V 構建完新模型后,通過電腦攝像頭,它就成為了私人瑜伽教練,你可以直接詢問它“我的動作準確不?”,這位“教練”便會給出它貼心的動作指導。
04、“小編助手”:可以幫助優(yōu)化推文的自定義 GPT
作為擁有 34 萬粉絲的大 V,Rowan Cheung 也迫不及待地進行了嘗試。他自定義了“X Optimizer GPT”,可以對其想要在 X 上發(fā)的帖子進行微調,并精確定位高峰發(fā)布時間,從而幫助其在 X 上獲得更多的曝光。具體的做法是,先從 Twitter 分析中下載帖子數(shù)據(jù),然后配置自定義指令,讓 X Optimizer GPT 撰寫帖子并確定發(fā)布時間。
至于成效如何,Rowan Cheung 直呼:“Mind-blowing!”
05、WebcamGPT:可識物的 GPT 攝像頭
網(wǎng)友 Benjamin De Kraker 通過 GPT-4 Vision API 用大約 10 分鐘的時間創(chuàng)建了 WebcamGPT,可以近乎實時地識別攝像頭前正在發(fā)生的事情,包括物體和動作等。從視頻中可以看出,當該網(wǎng)友在鏡頭前舉起手掌、手機等物品時,大約 3 秒后,WebcamGPT 就可以具體寫出這些物品。
該網(wǎng)友同樣放出了demo 測試,不過由于API token 有限,可能不一定體驗的到。需要注意的是,這類涉及隱私的測試,大家還是小心些。
據(jù)悉,該網(wǎng)友是基于 @skalskip92 的思路創(chuàng)建的該應用,有網(wǎng)友在其原推評論道,“對于盲人來說,這將是一個很好的工具,如果它能像個人助理一樣用語音應答,就能指導他們?nèi)绾螌ふ襾G失的物品或其他東西?!?/p>
06、“自導自演”:GPT vs. GPT
BabyAGI 建設者 Yohei 通過 Assistant API 用 109 行代碼創(chuàng)建了開源的“GPTvsGPT”,可以自定義參數(shù),讓兩個 AI 助手扮演不同的“角色”進行對話。Yohei 表示,“GPT vs GPT”還可以通過檢索、數(shù)據(jù)和自定義函數(shù)來擴展功能。
目前該項目也已在 GitHub 開源,感興趣的朋友也可以去瀏覽看看。
https://GitHub.com/yoheinakajima/GPTvsGPT
07、從草圖到 HTML 網(wǎng)站,速度超快
網(wǎng)友 Sawyer Hood 利用 GPT-4-Vision 在 5 個小時內(nèi)完成了從低保真的模型到實際 HTML 網(wǎng)站的建設流程。視頻演示中,該網(wǎng)友簡單用繪畫工具勾勒了一個類似社交頁面的草圖,然后 GPT-4V 瞬間就把它變成了 HTML 網(wǎng)頁。只能說,真的神奇。目前,該演示的源代碼也已在 GitHub 開源。
08、講座報告神器:用 128k 上下文窗口總結近 90 分鐘的寫作講座
網(wǎng)友 Riley Brown 對此次 OpenAI 帶來的 128 k 上下文窗口大加贊賞。在演示中,該網(wǎng)友首先拷貝了長達近 90 分鐘的 YouTube 視頻講座字幕,然后在 GPT 4 中輸入總結指令,GPT 4 便迅速整理出了該講座每一個部分的要點。而且,還可以根據(jù)每個要點要求 GPT 4 進行擴展。
除了上面這 8 個用例之外,還有各種用例層出不窮,比如截圖,然后讓 GPT4-vision 給出網(wǎng)站優(yōu)化建議;將網(wǎng)頁瀏覽與 GPT 結合創(chuàng)建自己喜愛的音樂列表;與 YouTube 視頻對話等等。
要知道,定制 GPTs 功能目前還未上線。格局打開,想象力打開!一旦上線, 各位想自定義一個怎樣的專屬 GPT 呢?
參考資料:
https://twitter.com/rowancheung/status/1721939382775447566