文|適道
最近,馬斯克怒寫46頁訴狀,將OpenAI及 Sam Altman 告上法庭,并要求OpenAI恢復開源狀態(tài)。對此,OpenAI“第一投資人”,被稱為全球科技“投資之王”的Vinod Khosla表示,馬斯克是典型吃不到葡萄就說葡萄酸。
雖然Vinod Khosla有句名言:“一個方案有90%的機率失敗不是問題,只要還有10%的機會獲得100倍的收益”。
然而,他本人的投資眼光卻可謂毒辣。1990年代,Khosla投資了瞻博網(wǎng)絡,并建議其開發(fā)一種“互聯(lián)網(wǎng)路由器,而不是當時更常見的普通路由器”。據(jù)《華爾街日報》報道,Kleiner Perkins對瞻博網(wǎng)絡的300萬美元投資為他帶來了70億美元的收益。
2019年,當OpenAI從一家非營利研究組織轉(zhuǎn)變?yōu)椤坝杏舷蕖惫?,Khosla大膽地邁出了第一步,其創(chuàng)立的投資機構(gòu)Khosla Ventures在種子輪向OpenAI投出高達5000萬美元。該金額是Khosla Ventures成立十五年來任何一筆投資規(guī)模的兩倍。
至少從10年前開始,Khosla就堅信,AI將徹底改變世界。他認為:未來20年,AI有可能在80%的人類角色中承擔80%的工作量,并創(chuàng)造巨大的經(jīng)濟價值。
上周,Khosla分享了自己對AI 交互與革命的最新洞察《How AI Will Change Our Relationship With Computers》(The Information)。這位科技“投資之王”表示:“AI硬件” (AI hardware) 和“小工具”(gadgets)等術(shù)語更像是一種“誤用”。不妨拋開“設備”的局限,討論在人機交互變革的大背景下,將會發(fā)生哪些根本性變化?適道在不影響原意的情況下,對文章進行了簡譯和補充改寫。
01 語音主導界面,軟件將學習人類
第一個根本性變化——低延遲語音將成為人機交互的主導界面。
想象一下,比起用手指戳半天屏幕,延遲在半秒內(nèi)的語音顯然更加便利。與此同時,“無聲語音”技術(shù)也在迎面走來。當你在公共場合中,無需發(fā)出聲音就能和設備進行互動,不干擾他人,也能保護隱私。
第二個根本性變化——軟件將適應人類,而不是人類學習軟件。
到目前為止,我們總是在自適應軟件——學習APP的復雜設計,記住層次化的菜單,并以此與機器交互。未來,我們不再需要像學習使用 Uber 或SAP、Oracle 這樣的復雜系統(tǒng)一樣,去學習如何使用這些APP。
綜上,新一代硬件將結(jié)合二者特征——實現(xiàn)語音互動、能夠?qū)W習人類語言和人類本身。雖然處理某些視覺任務可能仍然需要屏幕,但核心交互將轉(zhuǎn)向語音——無論是無聲的還是有聲的。
Khosla指出:前蘋果首席設計官Jony Ive和Sam Altman討論過一個AI硬件項目,甚至在ChatGPT出現(xiàn)之前,大家就預言會出現(xiàn)這種界面。雖然早期熱度很快消退了,但他們的方向是正確的。問題出在,他們沒有充分關注AI所帶來的全新用戶體驗。
02 延遲不低的Rabbit何以得到Khosla青睞?
前段時間,初創(chuàng)公司Rabbit在CES 2024上發(fā)布了其手持式AI硬件產(chǎn)品——R1,售價199美元,上線5日就賣了5萬臺,近1000萬美元。
和此前出圈的Ai Pin類似,Rabbit R1也采用緊湊小巧的設計,并標配了麥克風、攝像頭,不需要連接手機,沒有內(nèi)置 App。不同的是,Ai Pin沒有屏幕,選擇“投影”顯示,看起來更酷炫;Rabbit R1則是搭載了一塊 2.88 英寸的觸摸屏,更為穩(wěn)妥。
Rabbit R1的定位為AI Agent,用戶在不需要手機的情況下能夠完成很多任務:叫車、放歌、訂餐、訂酒店,甚至在Midjourney 上生成圖片。CEO呂騁(Jesse Lyu)在實測操作中,只需說一句“Play Feel Good Inc”,這首歌就能直接播放;對著屏幕中Discord論壇,問一句“大家都討論什么”,Rabbit R1就可以對“看”到的內(nèi)容進行總結(jié)。
Khosla本人正是Rabbit的早期投資人,投資金額高達千萬美元。在文章中,Khosla給出了投資Rabbit的理由:“Rabbit是人機交互在強大AI世界中的早期嘗試——設備通過自然語言,用語音與計算機(或稱為“代理”)進行交流?!?/p>
Khosla舉了個自己的例子,當他徒步時,會使用“Picture This”APP識別自己遇到的植物,但這個過程很麻煩:停下來,暫停有聲讀物,打開應用,拍照,等待答案加載,關閉應用,將手機放回口袋。有了新設備,Khosla只需將設備指向植物并問:“這是什么植物?”就會得到答案,然后繼續(xù)聽正在播放的有聲讀物。
不過,Khosla可能要“等上一陣”。外媒爆料,有拿到真機的網(wǎng)友發(fā)現(xiàn),Rabbit R1會在收到問題后說一句“讓我看看”,接著就是20秒的無事發(fā)生,這延遲顯然不符合Khosla定義的“半秒內(nèi)”。
但根據(jù)CEO呂騁在訪談中的回應:Rabbit OS并非像ChatGPT一樣的大語言模型LLM,而是基于大動作模型(Large Action Model)開發(fā)。LAM能夠使AI學會人類操作各種APP的方式,并通過與LLM結(jié)合,從而實現(xiàn)“用戶發(fā)指令——AI執(zhí)行”的效果。因此,Rabbit OS更像一個通用的APP控制器。
如果用戶僅使用LAM涉及的功能。例如,播放一首歌;詢問“橙子和橘子的區(qū)別”等任何不需要搜索最新信息的任務,Rabbit響應速度會非???,幾乎在0.5秒以內(nèi)。但如果涉及使用OpenAI,例如搜索最新信息,速度就會變慢,一般在7——8秒,涉及視覺則會更慢。不過,呂騁表示,這已經(jīng)是目前行業(yè)內(nèi)最快的速度。
Khosla本人似乎對Rabbit的目前的“延遲”不太在意,他更在意的是“讓AI代替人與APP交互”,并對Rabbit OS 基于LAM“跨APP工作”能力大為贊賞:這代表傳統(tǒng)范式將完全顛覆,意味著最終我們不必與軟件交互,因為AI 將替我們這樣做。
但新的問題來了,Rabbit為何不以一種“APP”的形式出現(xiàn)在手機中?就像智商更高的Siri?
呂騁從創(chuàng)業(yè)者的角度給出了答案:首先,雖然Rabbit可以成為一款APP,但如果Rabbit只是個APP,就意味著蘋果公司能接觸到代碼,無異于分享了公司的知識產(chǎn)權(quán)。其次,團隊不得不同時為iOS和Android開發(fā)維護這款APP,這還需要大量的持續(xù)資金投入。最重要的是,當Rabbit會被放在和其他APP一樣的平臺上,會給自己帶來了不安:如果明天出現(xiàn)了一個更好的應用怎么辦?用戶忠誠度幾乎為零。
那么,如果Siri自己變成高智商呢,還需要Rabbit R1嗎?呂騁表示:問題不在于技術(shù),而在于商業(yè)模式,因為iPhone不可能一夜之間沒有AppStore。而Rabbit R1可沒有內(nèi)置 App。
對于Rabbit R1的定位,呂騁給出了一個靠譜的描述:AI時代的iPod。
試想,在非智能手機時代,你會一個褲兜裝手機,另一個褲兜裝iPod。未來,或許會一個褲兜裝iPhone,另一個褲兜裝AI Agent。
但正如呂騁恐懼“下一個更好的應用”,如果下一款更快的AI Agent出現(xiàn)呢?畢竟,199美元的售價像是買了個付費的“AI app”。用戶或許也可以花不高的價格買到下一款更好用的“AI app”,如此一來,建立在Rabbit R1上的拓展業(yè)務也將不再存在——“人們教Rabbit來做他們自己的事情,本質(zhì)上是在創(chuàng)造Rabbit,而不是使用APP,當用戶銷售他們自己的Rabbit時,Rabbit OS將會從中抽成?!?/p>
03 AI Agent會是下一個iPhone嗎?
結(jié)合文章,適道發(fā)現(xiàn)一個新角度——AI時代的社交媒體將走向何方。
呂騁表示:還有很多事情我寧愿去手機上查看,至少目前是這樣。首先是重要的社交功能;另一部分是專業(yè)的群聊。
Khosla則指出:手機現(xiàn)在的設計是為了分散我們的注意力。如果我在徒步旅行時拿出手機,我會看到我的電子郵件、短信和其他通知;我會被拉到某個社交平臺上,看到廣告,甚至可能陷入一個兔子洞,無意冒犯。
而這些新設計,比如Rabbit旨在節(jié)省時間和減少干擾。你告訴它要做什么,它就只做那些,沒有多余的。
Gartner最新預測,到2025年,50%消費者將“放棄或大幅限制與社交媒體的互動”。在 Gartner去年夏天的一項調(diào)查中,53%的消費者表示,社交媒體在前一年或過去五年中變得更糟。
有趣的是,根據(jù)傳播學中的“媒介即訊息”,隨著AI時代的到來,新一代AI Agent是否會摧毀iPhone所創(chuàng)造的社交媒體時代?“一個與真人分享的社交空間”是否將會終結(jié)?如果能,那么,人類當前由“社交媒體”承載的“娛樂時間”又將投向何方?這其中又將蘊含哪些新“錢景”?