正在閱讀:

OpenAI放了一個大招,這才是真正的語音助手

掃一掃下載界面新聞APP

OpenAI放了一個大招,這才是真正的語音助手

令人震撼的AI新產(chǎn)品。

圖片來源:界面新聞 匡達(dá)

文|數(shù)字前線 周路平

編輯|游勇

繼文生視頻模型Sora之后,OpenAI再一次給外界帶來驚喜。這一次,OpenAI向世人展現(xiàn)了強(qiáng)大且絲滑的語音對話等多模態(tài)能力。

北京時(shí)間5月14日凌晨1點(diǎn),在谷歌開發(fā)者大會前一天,預(yù)熱已久的OpenAI正式向公眾發(fā)布了語音大模型GPT-4o(omnimodle,全能模型),可以綜合利用語音、文本和視覺信息進(jìn)行推理,扮演一個個人語音交互助手。而且,OpenAI將會對這一模型免費(fèi)向公眾開放。

除了全新的大模型,OpenAI也正式宣布推出ChatGPT桌面版,“從今天開始,我們將首先向Plus用戶推出macOS應(yīng)用,并在未來幾周內(nèi)向更廣泛的用戶開放。我們還計(jì)劃在今年晚些時(shí)候推出Windows版本?!?/p>

01 情感化、對話絲滑,效果令人震撼

發(fā)布會全程只持續(xù)了26分鐘,OpenAI CEO奧特曼沒有現(xiàn)身,由公司CTO和兩位工程師來發(fā)布。它的界面是一個巨大的黑點(diǎn),但現(xiàn)場演示的幾個GPT4o對話場景卻令人感到驚艷。

整個對話的過程非常絲滑,不僅能說能聽能看,還會有情緒的變化,就像是和一個真實(shí)的人在打視頻電話。

而通過OpenAI現(xiàn)場演示的幾個場景,我們也仿佛看到了《Her》的場面,科幻正在成為現(xiàn)實(shí)。

場景一:緩解情緒

演示嘉賓說自己現(xiàn)在有點(diǎn)緊張要如何緩解,大模型立馬安撫他別緊張,慢下來,可以深呼吸。然后演示嘉賓故意做出非??鋸埱壹贝俚暮粑?。大模型很快糾正了這種不正確的呼吸方式,在它的指導(dǎo)下如何緩慢地呼氣和吸氣。

場景二:講睡前故事

要求大模型講一個關(guān)于機(jī)器人與愛的睡前故事。正當(dāng)大模型講得正起勁時(shí),主持人趕緊打斷,提出聲音要更有感情,大模型很快切換到了非常有戲劇性的聲音。結(jié)果話還沒說完,一位嘉賓接過話題,提出聲音需要更有沖擊力,大模型便以一種非??鋸埖目谖抢^續(xù)講述著剛才的睡前故事。但是,對大模型的考驗(yàn)還沒有結(jié)束,另一位嘉賓又提出要切換到機(jī)器人的聲音。很快,大模型就開始模仿機(jī)器人的腔調(diào)繼續(xù)講述。最終,大模型被要求以演唱一首歌結(jié)束了對話。

場景三:解代數(shù)方程

演示嘉賓在紙上寫了一個簡單的方程式,要求語音助手通過攝像頭獲得視覺能力后,實(shí)時(shí)視頻指導(dǎo)數(shù)學(xué)解題。

大模型剛開始還出現(xiàn)了“幻覺”,在沒打開攝像頭時(shí)就自信滿滿地說理解了。當(dāng)演示嘉賓提示后,她才說“oops,我太興奮了?!比缓蟠竽P鸵徊揭徊教嵝押椭v解他的解題思路。整個過程,大模型就像一個很有經(jīng)驗(yàn)且富有耐心的數(shù)學(xué)老師。

媽媽再也不用擔(dān)心我的學(xué)習(xí)了。

場景四:根據(jù)外表判斷情緒

演示嘉賓拿著手機(jī)攝像頭對著自己的臉和大模型對話,大模型很快通過識別視頻中的人物表情給出了自己的判斷。大模型說,你看起來很開心,帶著燦爛的笑容,甚至有一絲興奮,你能分享你快樂的來源嗎?當(dāng)演示嘉賓說,開心是因?yàn)橐故灸愣嗝从杏煤蛷?qiáng)大時(shí),大模型甚至表現(xiàn)出了一絲絲的嬌羞。

在這個場景的演示中還出現(xiàn)了一個插曲,演示嘉賓一開始打開的是后置攝像頭,拍到的是一張桌子,大模型說“這看起來像是一個木板的表面”。演示嘉賓很快說自己拍錯了畫面,然后轉(zhuǎn)換成前置攝像頭開始自拍,大模型也快速反應(yīng)過來。

總結(jié)一下OpenAI語音大模型在演示中的幾個特點(diǎn):

一是快,快速反應(yīng),幾乎沒有時(shí)延,而且語速跟正常人沒有差別,仿佛在跟一個真實(shí)的人類在打電話。而此前,用戶使用語音功能與ChatGPT對話時(shí),GPT-3.5的平均延遲為2.8秒,GPT-4為5.4秒。

二是可以隨時(shí)打斷,不用等它回答完,直接打斷,也能快速接著最新的話題往下聊,非常絲滑;

三是可以捕捉情緒變化,比如能判斷對方急促的呼吸方式不對。而且也可以扮演不同的角色,比如戲劇性的語氣,或者冰冷的機(jī)器人的聲音,切換自如。

四是多模態(tài)的能力很強(qiáng),比如你可以用意大利語提問,然后要求對方用英語回答,比如可以寫一個方程式,語音助手可以通過手機(jī)攝像頭識別后,一步步教你解題步驟。甚至還可以用攝像頭對著自己,語音助手可以識別圖像來判斷你現(xiàn)在的情緒。從“軟件代碼中發(fā)生了什么?”到“這個人穿什么牌子的襯衫?”,大模型都能通過多模態(tài)的能力,很好地回答。

OpenAI 首席技術(shù)官穆里·穆拉蒂 (Muri Murati) 表示,GPT-4o將提供與GPT-4同等水平的智能,但在文本、圖像以及語音處理方面均取得了進(jìn)一步提升,“GPT-4o可以綜合利用語音、文本和視覺信息進(jìn)行推理?!?/p>

對于這一模型,OpenAI并沒有像Sora一樣,遲遲未對公眾開放使用。OpenAI宣布GPT-4o將在未來幾周內(nèi)分階段集成至OpenAI的各個產(chǎn)品之中。更關(guān)鍵的是,GPT-4o將免費(fèi)提供給所有用戶使用,付費(fèi)用戶則可以享受五倍的調(diào)用額度。

同時(shí),OpenAI同步開放了最新大模型的API接口的調(diào)用,價(jià)格方也便宜不少。GPT-4o的價(jià)格是GPT-4-turbo的一半,速度是GPT-4-turbo的兩倍。

不過,GPT-4o的API接口并非向所有客戶開放。OpenAI以濫用風(fēng)險(xiǎn)為由,表示計(jì)劃在未來幾周內(nèi)首先向“一小群值得信賴的合作伙伴”推出對GPT-4o新音頻功能的支持。

02 AI搜索沒來,但桌面版ChatGPT來了

這次的發(fā)布基本坐實(shí)了一個事實(shí),那就是蘋果的語音助手Siri將引入ChatGPT,GPT-4o強(qiáng)大的語音對話能力對Siri是個巨大的提升。而且,OpenAI的發(fā)布會演示過程中也出現(xiàn)了大量蘋果的設(shè)備。

不過,令人遺憾的是,此前外界盛傳已久的ChatGPT搜索產(chǎn)品沒有出現(xiàn)。

在此之前,外界一度盛傳OpenAI將發(fā)布AI搜索的功能,包括有媒體拿到了ChatGPT Search的提前體驗(yàn)版本——界面仍然是對話交互,但ChatGPT在回答時(shí)會使用網(wǎng)絡(luò)信息進(jìn)行回答。

所以,一度有消息稱,ChatGPT的搜索功能會在5月10日上線,但最終還是被放了鴿子,ChatGPT CEO奧特曼回應(yīng)稱,不會有GPT5,也不會有搜索產(chǎn)品。

但不少用戶發(fā)現(xiàn),ChatGPT已經(jīng)可以回答最新的信息,比如當(dāng)天的股票或者天氣,而且都是準(zhǔn)確的信息。ChatGPT可以回答網(wǎng)址,可以跳轉(zhuǎn)鏈接,時(shí)不時(shí)也可以提供最新的數(shù)據(jù)。但這與真正的AI搜索相差甚遠(yuǎn)。

昆侖萬維CEO方漢認(rèn)為,用戶漲不上去是OpenAI現(xiàn)在最頭疼的事情?!澳壳翱吹降漠a(chǎn)品形態(tài)上來講,OpenAI的搜索產(chǎn)品,并沒有對海內(nèi)外所有的搜索引擎產(chǎn)品,形成碾壓,形成 SOTA(state-of-the-art,最佳表現(xiàn)),發(fā)布這個產(chǎn)品,可能會讓用戶有一點(diǎn)增長,但不會讓用戶翻倍增長。所以我認(rèn)為,這是在 Google I/O 前對谷歌的一次戰(zhàn)略狙擊,它的根本戰(zhàn)術(shù)上,還是在等待和籌備 GPT-4.5?!?/p>

“Open AI無論發(fā)布什么新產(chǎn)品,都是在給ChatGPT的強(qiáng)大能力重新定義場景,在找新的產(chǎn)品出路。”360董事長周鴻祎也認(rèn)為,OpenAI在做場景的收縮和聚焦,如果大模型有一萬種能力,而不要去承諾有一萬種場景,而是在大模型中精選幾十種或者幾百種能力,聚焦到一兩個比較明確的場景上。

在此之前,OpenAI發(fā)布了GPT的應(yīng)用商店,通過GPTs讓用戶來定義場景,目前GPTs的數(shù)量超過了百萬,但卻遭到了不少用戶的吐槽,一方面OpenAI不上心,另一方面也缺少客戶。正如周鴻祎說,GPTs定義的場景太多太碎,也不算成功。Open AI也需要探索,做出幾個典型的大模型驅(qū)動的產(chǎn)品,這個產(chǎn)品要明確定義用戶使用的場景。

不過相比于尋找場景,OpenAI這次發(fā)布了桌面版的ChatGPT和新的用戶界面,完善ChatGPT的協(xié)作能力?!拔覀冋J(rèn)識到這些模型正變得越來越復(fù)雜,” 穆拉蒂說道,“但我們希望用戶與人工智能模型的交互體驗(yàn)?zāi)軌蚋幼匀?、輕松,讓用戶可以將注意力完全集中在與模型的協(xié)作上,而無需在意界面本身。”

比如,用戶可以通過Option + 空格鍵向ChatGPT提問,并且可以在應(yīng)用內(nèi)截取和討論屏幕截圖。

“我們知道,隨著這些模型變得越來越復(fù)雜,我們希望交互體驗(yàn)變得更加自然,”穆拉蒂說?!斑@是我們第一次在易用性方面真正邁出一大步。”

上一次,OpenAI用Sora狙擊了谷歌的Gemini,這一次OpenAI再一次選擇谷歌開發(fā)者大會的前一天釋放大招,面對有實(shí)力又擅長PR的奧特曼,谷歌又將如何應(yīng)對,明日的谷歌開發(fā)者大會見分曉。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

OpenAI

  • Meta據(jù)悉正在開發(fā)人工智能搜索引擎
  • 谷歌據(jù)悉將開發(fā)可控制計(jì)算機(jī)的人工智能

評論

暫無評論哦,快來評價(jià)一下吧!

下載界面新聞

微信公眾號

微博

OpenAI放了一個大招,這才是真正的語音助手

令人震撼的AI新產(chǎn)品。

圖片來源:界面新聞 匡達(dá)

文|數(shù)字前線 周路平

編輯|游勇

繼文生視頻模型Sora之后,OpenAI再一次給外界帶來驚喜。這一次,OpenAI向世人展現(xiàn)了強(qiáng)大且絲滑的語音對話等多模態(tài)能力。

北京時(shí)間5月14日凌晨1點(diǎn),在谷歌開發(fā)者大會前一天,預(yù)熱已久的OpenAI正式向公眾發(fā)布了語音大模型GPT-4o(omnimodle,全能模型),可以綜合利用語音、文本和視覺信息進(jìn)行推理,扮演一個個人語音交互助手。而且,OpenAI將會對這一模型免費(fèi)向公眾開放。

除了全新的大模型,OpenAI也正式宣布推出ChatGPT桌面版,“從今天開始,我們將首先向Plus用戶推出macOS應(yīng)用,并在未來幾周內(nèi)向更廣泛的用戶開放。我們還計(jì)劃在今年晚些時(shí)候推出Windows版本。”

01 情感化、對話絲滑,效果令人震撼

發(fā)布會全程只持續(xù)了26分鐘,OpenAI CEO奧特曼沒有現(xiàn)身,由公司CTO和兩位工程師來發(fā)布。它的界面是一個巨大的黑點(diǎn),但現(xiàn)場演示的幾個GPT4o對話場景卻令人感到驚艷。

整個對話的過程非常絲滑,不僅能說能聽能看,還會有情緒的變化,就像是和一個真實(shí)的人在打視頻電話。

而通過OpenAI現(xiàn)場演示的幾個場景,我們也仿佛看到了《Her》的場面,科幻正在成為現(xiàn)實(shí)。

場景一:緩解情緒

演示嘉賓說自己現(xiàn)在有點(diǎn)緊張要如何緩解,大模型立馬安撫他別緊張,慢下來,可以深呼吸。然后演示嘉賓故意做出非??鋸埱壹贝俚暮粑?。大模型很快糾正了這種不正確的呼吸方式,在它的指導(dǎo)下如何緩慢地呼氣和吸氣。

場景二:講睡前故事

要求大模型講一個關(guān)于機(jī)器人與愛的睡前故事。正當(dāng)大模型講得正起勁時(shí),主持人趕緊打斷,提出聲音要更有感情,大模型很快切換到了非常有戲劇性的聲音。結(jié)果話還沒說完,一位嘉賓接過話題,提出聲音需要更有沖擊力,大模型便以一種非??鋸埖目谖抢^續(xù)講述著剛才的睡前故事。但是,對大模型的考驗(yàn)還沒有結(jié)束,另一位嘉賓又提出要切換到機(jī)器人的聲音。很快,大模型就開始模仿機(jī)器人的腔調(diào)繼續(xù)講述。最終,大模型被要求以演唱一首歌結(jié)束了對話。

場景三:解代數(shù)方程

演示嘉賓在紙上寫了一個簡單的方程式,要求語音助手通過攝像頭獲得視覺能力后,實(shí)時(shí)視頻指導(dǎo)數(shù)學(xué)解題。

大模型剛開始還出現(xiàn)了“幻覺”,在沒打開攝像頭時(shí)就自信滿滿地說理解了。當(dāng)演示嘉賓提示后,她才說“oops,我太興奮了?!比缓蟠竽P鸵徊揭徊教嵝押椭v解他的解題思路。整個過程,大模型就像一個很有經(jīng)驗(yàn)且富有耐心的數(shù)學(xué)老師。

媽媽再也不用擔(dān)心我的學(xué)習(xí)了。

場景四:根據(jù)外表判斷情緒

演示嘉賓拿著手機(jī)攝像頭對著自己的臉和大模型對話,大模型很快通過識別視頻中的人物表情給出了自己的判斷。大模型說,你看起來很開心,帶著燦爛的笑容,甚至有一絲興奮,你能分享你快樂的來源嗎?當(dāng)演示嘉賓說,開心是因?yàn)橐故灸愣嗝从杏煤蛷?qiáng)大時(shí),大模型甚至表現(xiàn)出了一絲絲的嬌羞。

在這個場景的演示中還出現(xiàn)了一個插曲,演示嘉賓一開始打開的是后置攝像頭,拍到的是一張桌子,大模型說“這看起來像是一個木板的表面”。演示嘉賓很快說自己拍錯了畫面,然后轉(zhuǎn)換成前置攝像頭開始自拍,大模型也快速反應(yīng)過來。

總結(jié)一下OpenAI語音大模型在演示中的幾個特點(diǎn):

一是快,快速反應(yīng),幾乎沒有時(shí)延,而且語速跟正常人沒有差別,仿佛在跟一個真實(shí)的人類在打電話。而此前,用戶使用語音功能與ChatGPT對話時(shí),GPT-3.5的平均延遲為2.8秒,GPT-4為5.4秒。

二是可以隨時(shí)打斷,不用等它回答完,直接打斷,也能快速接著最新的話題往下聊,非常絲滑;

三是可以捕捉情緒變化,比如能判斷對方急促的呼吸方式不對。而且也可以扮演不同的角色,比如戲劇性的語氣,或者冰冷的機(jī)器人的聲音,切換自如。

四是多模態(tài)的能力很強(qiáng),比如你可以用意大利語提問,然后要求對方用英語回答,比如可以寫一個方程式,語音助手可以通過手機(jī)攝像頭識別后,一步步教你解題步驟。甚至還可以用攝像頭對著自己,語音助手可以識別圖像來判斷你現(xiàn)在的情緒。從“軟件代碼中發(fā)生了什么?”到“這個人穿什么牌子的襯衫?”,大模型都能通過多模態(tài)的能力,很好地回答。

OpenAI 首席技術(shù)官穆里·穆拉蒂 (Muri Murati) 表示,GPT-4o將提供與GPT-4同等水平的智能,但在文本、圖像以及語音處理方面均取得了進(jìn)一步提升,“GPT-4o可以綜合利用語音、文本和視覺信息進(jìn)行推理。”

對于這一模型,OpenAI并沒有像Sora一樣,遲遲未對公眾開放使用。OpenAI宣布GPT-4o將在未來幾周內(nèi)分階段集成至OpenAI的各個產(chǎn)品之中。更關(guān)鍵的是,GPT-4o將免費(fèi)提供給所有用戶使用,付費(fèi)用戶則可以享受五倍的調(diào)用額度。

同時(shí),OpenAI同步開放了最新大模型的API接口的調(diào)用,價(jià)格方也便宜不少。GPT-4o的價(jià)格是GPT-4-turbo的一半,速度是GPT-4-turbo的兩倍。

不過,GPT-4o的API接口并非向所有客戶開放。OpenAI以濫用風(fēng)險(xiǎn)為由,表示計(jì)劃在未來幾周內(nèi)首先向“一小群值得信賴的合作伙伴”推出對GPT-4o新音頻功能的支持。

02 AI搜索沒來,但桌面版ChatGPT來了

這次的發(fā)布基本坐實(shí)了一個事實(shí),那就是蘋果的語音助手Siri將引入ChatGPT,GPT-4o強(qiáng)大的語音對話能力對Siri是個巨大的提升。而且,OpenAI的發(fā)布會演示過程中也出現(xiàn)了大量蘋果的設(shè)備。

不過,令人遺憾的是,此前外界盛傳已久的ChatGPT搜索產(chǎn)品沒有出現(xiàn)。

在此之前,外界一度盛傳OpenAI將發(fā)布AI搜索的功能,包括有媒體拿到了ChatGPT Search的提前體驗(yàn)版本——界面仍然是對話交互,但ChatGPT在回答時(shí)會使用網(wǎng)絡(luò)信息進(jìn)行回答。

所以,一度有消息稱,ChatGPT的搜索功能會在5月10日上線,但最終還是被放了鴿子,ChatGPT CEO奧特曼回應(yīng)稱,不會有GPT5,也不會有搜索產(chǎn)品。

但不少用戶發(fā)現(xiàn),ChatGPT已經(jīng)可以回答最新的信息,比如當(dāng)天的股票或者天氣,而且都是準(zhǔn)確的信息。ChatGPT可以回答網(wǎng)址,可以跳轉(zhuǎn)鏈接,時(shí)不時(shí)也可以提供最新的數(shù)據(jù)。但這與真正的AI搜索相差甚遠(yuǎn)。

昆侖萬維CEO方漢認(rèn)為,用戶漲不上去是OpenAI現(xiàn)在最頭疼的事情?!澳壳翱吹降漠a(chǎn)品形態(tài)上來講,OpenAI的搜索產(chǎn)品,并沒有對海內(nèi)外所有的搜索引擎產(chǎn)品,形成碾壓,形成 SOTA(state-of-the-art,最佳表現(xiàn)),發(fā)布這個產(chǎn)品,可能會讓用戶有一點(diǎn)增長,但不會讓用戶翻倍增長。所以我認(rèn)為,這是在 Google I/O 前對谷歌的一次戰(zhàn)略狙擊,它的根本戰(zhàn)術(shù)上,還是在等待和籌備 GPT-4.5。”

“Open AI無論發(fā)布什么新產(chǎn)品,都是在給ChatGPT的強(qiáng)大能力重新定義場景,在找新的產(chǎn)品出路?!?60董事長周鴻祎也認(rèn)為,OpenAI在做場景的收縮和聚焦,如果大模型有一萬種能力,而不要去承諾有一萬種場景,而是在大模型中精選幾十種或者幾百種能力,聚焦到一兩個比較明確的場景上。

在此之前,OpenAI發(fā)布了GPT的應(yīng)用商店,通過GPTs讓用戶來定義場景,目前GPTs的數(shù)量超過了百萬,但卻遭到了不少用戶的吐槽,一方面OpenAI不上心,另一方面也缺少客戶。正如周鴻祎說,GPTs定義的場景太多太碎,也不算成功。Open AI也需要探索,做出幾個典型的大模型驅(qū)動的產(chǎn)品,這個產(chǎn)品要明確定義用戶使用的場景。

不過相比于尋找場景,OpenAI這次發(fā)布了桌面版的ChatGPT和新的用戶界面,完善ChatGPT的協(xié)作能力。“我們認(rèn)識到這些模型正變得越來越復(fù)雜,” 穆拉蒂說道,“但我們希望用戶與人工智能模型的交互體驗(yàn)?zāi)軌蚋幼匀?、輕松,讓用戶可以將注意力完全集中在與模型的協(xié)作上,而無需在意界面本身。”

比如,用戶可以通過Option + 空格鍵向ChatGPT提問,并且可以在應(yīng)用內(nèi)截取和討論屏幕截圖。

“我們知道,隨著這些模型變得越來越復(fù)雜,我們希望交互體驗(yàn)變得更加自然,”穆拉蒂說?!斑@是我們第一次在易用性方面真正邁出一大步?!?/p>

上一次,OpenAI用Sora狙擊了谷歌的Gemini,這一次OpenAI再一次選擇谷歌開發(fā)者大會的前一天釋放大招,面對有實(shí)力又擅長PR的奧特曼,谷歌又將如何應(yīng)對,明日的谷歌開發(fā)者大會見分曉。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。