正在閱讀:

能上網(wǎng),能識(shí)圖,能做圖,ChatGPT的完全體有多神奇

掃一掃下載界面新聞APP

能上網(wǎng),能識(shí)圖,能做圖,ChatGPT的完全體有多神奇

誰該慌神了?

圖片:界面新聞 匡達(dá)

文|娛樂資本論  James

Hello各位打工人!現(xiàn)在相信有一個(gè)問題非常困擾大家:

今天到底星期幾?

踏入連休之后的7天班,不論是早上被設(shè)定的好多個(gè)鬧鐘群毆,還是假裝在電腦前聚精會(huì)神,心思卻跑到了九霄云外。

上面這些由藤子·不二雄、鳥山明等日本泰斗級(jí)漫畫家?guī)淼漠嬜?,肯定都能充分描繪你的現(xiàn)狀吧。

——哦,有一點(diǎn)我說錯(cuò)了,上面這幾幅畫并不是由那些漫畫家本人畫出來的。創(chuàng)作它們的是內(nèi)置了DALL-E 3的ChatGPT Plus。

雖然不是為了給祖國母親生日獻(xiàn)禮,但OpenAI確實(shí)是在剛剛過去的長假里面,對(duì)Plus用戶灰度開放了下列新功能:

用必應(yīng)搜索的能力,此前因效果不佳臨時(shí)下線,此番重新恢復(fù);

默認(rèn)模式允許上傳圖片,并且識(shí)別圖片內(nèi)容;

加入了DALL-E 3文生圖模式。

其中,DALL-E 3還沒有普及到所有ChatGPT Plus訂戶中,不過娛樂資本論·視智未來手中的賬號(hào)已經(jīng)是開通了上述所有能力的“完全體”了。

有的Plus用戶雖然續(xù)了費(fèi),但是并不能見到上面所有這些功能。此時(shí),閱讀我們下面這篇簡單的介紹和上手指南就非常重要了。

可以說,這里面每一個(gè)能力都是這大半年以來ChatGPT的用戶們期待已久的。但是它們實(shí)際上的效果如何,是否可以真正融入我們的日常工作流當(dāng)中,又會(huì)不會(huì)對(duì)市場上的競品構(gòu)成重大的威脅呢?

娛樂資本論·視智未來一向是各位文娛、內(nèi)容產(chǎn)業(yè)讀者的貼心小伙伴,不論是科普,評(píng)測還是培訓(xùn),我們始終堅(jiān)持一個(gè)原則:就像在實(shí)際的生產(chǎn)過程一樣來測試和使用AI工具,而不是單純追求讓它“炫技”。

是騾子是馬,我們現(xiàn)在就拉出來遛遛。

VOL.1、必應(yīng)搜索

在進(jìn)入大家都很關(guān)心的圖像能力之前,先來看下恢復(fù)上線的必應(yīng)聯(lián)網(wǎng)模塊。

上個(gè)月,娛樂資本論·視智未來剛剛完成了第二輪文本大模型實(shí)用場景橫評(píng)。讀者們應(yīng)該記得,在那次測試中,GPT-4不聯(lián)網(wǎng)時(shí)的表現(xiàn)依然穩(wěn)定,然而當(dāng)它使用VoxScript等插件聯(lián)網(wǎng)時(shí),效果卻比一些國產(chǎn)大模型的表現(xiàn)還要差。

我們也分析了相關(guān)的原因,主要是官方與必應(yīng)合作的聯(lián)網(wǎng)插件不能使用時(shí),其他第三方插件的表現(xiàn)不穩(wěn)定,而且參差不齊。

這次官方聯(lián)網(wǎng)的回歸,讓我們期望它會(huì)有比以前更好的表現(xiàn),但實(shí)際上并沒有好太多,很難稱得上提供了全面和準(zhǔn)確的答案。

而且,與使用插件聯(lián)網(wǎng)不同,這里不再允許你查看它在回答問題時(shí)具體訪問了哪些網(wǎng)站。所以,結(jié)果不理想時(shí)也無法找出原因。

當(dāng)然,GPT支持更長的提示詞和答案生成,而必應(yīng)只支持幾百個(gè)字的短答案,但聯(lián)網(wǎng)還會(huì)占用GPT-4每3個(gè)小時(shí)50次的限額。所以有時(shí)你在必應(yīng)官網(wǎng)用AI搜索,效果可能更好一些。

所以就是這樣,讓我們趕緊進(jìn)入下面的重頭戲。

VOL.2、DALL-E 3繪圖

現(xiàn)在我們可以回顧一下本文開頭的三張圖。

這三張圖的最終效果都非常出色,可以說在這次更新之前,所有的文生圖工具中,只有Midjourney能夠達(dá)到這種水平。當(dāng)然我們一直認(rèn)為競爭對(duì)手達(dá)到MJ的高度是遲早的事情,但DALL-E 3的出現(xiàn)比我們想象的早得多。

當(dāng)然,在ChatGPT中引入圖片生成,最大的改進(jìn)不僅在于生成的效果,還在于生成的過程。

我們知道與文字相比,無論是SD還是MJ的提示詞,都更不能隨便寫,它們有更多規(guī)則、格式乃至“咒語”的要求,在生成圖片時(shí)起到了重要作用。像我們的AIGC大師課中就指出,有些繪畫風(fēng)格、藝術(shù)家名稱、效果光線等都需要指定,而這些詞匯所醞釀出的結(jié)果就像煉丹一樣。

在如今的ChatGPT里面,這些已經(jīng)是過去的事情了。我們現(xiàn)在所使用的方法,會(huì)更接近要求一位人類畫師去做事,說的話也更接近自然語言,GPT-4承擔(dān)了轉(zhuǎn)譯的工作。

ChatGPT會(huì)根據(jù)用戶的需求,一次提供四個(gè)不同的真·提示詞,并將它們導(dǎo)入DALL-E中生成四張不同的圖片。這比單一提示詞生成四種變體更完善,還可以指定其中一張繼續(xù)進(jìn)行微調(diào),盡管效果不一定如人意。

讓我們來回顧文章開頭的畫作是怎樣生成的。

首先,當(dāng)我們看到一張梗圖很有趣,于是想自己畫一張的時(shí)候,這是非常常見的使用場景。

不過,在DALL-E 3之前,我們似乎難以想象除了Midjourney還有什么文生圖工具可以出來比較好的效果。

點(diǎn)開可以發(fā)現(xiàn),每一張圖的prompt都各不相同。

盡管AI作圖嵌字問題還是沒完全解決,但你可以看出跟之前版本相比有了巨大的進(jìn)步。此時(shí)我們甚至可以只用Windows自帶的“畫圖”來給它加上適當(dāng)?shù)淖煮w。

其它圖片也類似:

很顯然,如果我們想使用傳統(tǒng)文生圖方法,生成提示詞是需要我們自己動(dòng)腦的事情,但現(xiàn)在GPT已經(jīng)承擔(dān)了這個(gè)重任。當(dāng)你點(diǎn)擊具體的圖片時(shí),可以看到它使用了哪些提示詞,并將其復(fù)制下來。在生成結(jié)果出現(xiàn)問題時(shí),也可以通過分析提示詞構(gòu)成來發(fā)現(xiàn)問題所在,以及是否有可能改進(jìn)。

由于成圖的完成度非常高,圖像裁切不需要的部分,以及往里面嵌字,甚至只需要使用Windows自帶的畫圖就可以完成。

在下面的測試中,我們發(fā)現(xiàn),如果你的指令非常簡單,ChatGPT生成的作品或許有一些對(duì)東亞文化元素的刻板印象和挪用。例如:

請創(chuàng)作一幅中國慶祝三·八國際勞動(dòng)?jì)D女節(jié)的海報(bào)。主題是:“巾幗筑夢心向黨,強(qiáng)國復(fù)興勇?lián)?dāng)”,但不需要在海報(bào)中出現(xiàn)文字。

接下來,我們嘗試用必應(yīng)搜索給我們總結(jié),怎樣優(yōu)化提示詞,讓生成效果更貼近我們的需要。

盡管如此,如果你直接讓ChatGPT改圖,它依然大概率不會(huì)按照你的要求直接改動(dòng),這反映了DALL-E 3在識(shí)別prompt方面的局限。

如果你點(diǎn)開它更改過的prompt,就會(huì)發(fā)現(xiàn)不是提示詞的問題,GPT實(shí)際上已經(jīng)盡力了。所以,一次生成的圖最好還是由人工在后期改動(dòng)。

oil painting of a modern Shanghai ballerina, gracefully posing in front of iconic landmarks near the Bund. In the background, there's a plain red flag without any emblems, stars, or symbols, fluttering in the wind. The scene is dominated by red and gold hues, and a clear space at the bottom is reserved for potential text.

即使如此,我們也已經(jīng)得到了幾張最終效果很好的圖片。

上述試用過程代表了一個(gè)總體趨勢,即prompt微調(diào)的作用大大降低,我們文生圖給AI下的指令將會(huì)越來越接近自然語言。

VOL.3、GPT-4 識(shí)圖

另一個(gè)最受歡迎的ChatGPT新功能,當(dāng)然就是識(shí)別圖片的含義。

在一些近期的測試中,GPT-4是可以讀出一些幽默或者寓言故事中的潛臺(tái)詞,分析畫面當(dāng)中人物的心理和情緒。當(dāng)然,這些都是重大的突破,但總體來說還是屬于“常規(guī)動(dòng)作”。

我們想看看它還能不能做更好玩的事情--比如看X光片。

醫(yī)學(xué)影像行業(yè)是不是要被替代掉了?實(shí)際結(jié)果遠(yuǎn)遠(yuǎn)沒有這么樂觀。

我給了GPT一張有問題的X光片(這里不放原圖,因?yàn)槟鞘俏易约旱腦光片),人類醫(yī)生可以看到一顆劈裂牙和右下頜骨的一塊含牙囊腫,但GPT并沒有識(shí)別出任何問題。

回頭看一下上面那張網(wǎng)圖,它的問題是一樣的,它知道這是牙片,但除此之外就沒有然后了,它傾向于對(duì)看不出來、不確定的東西報(bào)喜不報(bào)憂,這點(diǎn)倒是跟“百度一下,我覺得我快掛了”完全相反。

看來,影像科室里看片的人類,目前還可以繼續(xù)高枕無憂。

在不這么嚴(yán)肅的問題上,比如翻譯一個(gè)外文廣告牌,是可以勝任的。你可以將這個(gè)結(jié)果跟Jina.AI的同款產(chǎn)品做個(gè)對(duì)比。

翻譯確實(shí)是ChatGPT的長項(xiàng),圖片識(shí)別更是讓這一長處如虎添翼。不過,它具體勝任到什么程度,又取決于它基礎(chǔ)知識(shí)的積累,在不那么熟悉的領(lǐng)域,比如翻譯維吾爾文,照樣“一本正經(jīng)地胡說八道”。

接下來的測試在效果上可謂非常驚艷。我們在一個(gè)設(shè)計(jì)師常用的網(wǎng)站Dribbble上找了一些網(wǎng)頁和APP的效果圖,然后讓它直接生成一個(gè)在瀏覽器中真的能打開的網(wǎng)頁代碼。

它完成了這個(gè)任務(wù)--非常出色。

雖然沒有完全復(fù)刻效果圖,但如果我完全不會(huì)前端代碼,又想從零開始做,那么它已經(jīng)能讓我做出一個(gè)可用的東西。甚至因?yàn)樗膶?shí)現(xiàn)與效果圖中細(xì)微的區(qū)別,還可以說它給原作“洗稿”了。這可能是運(yùn)用GPT的發(fā)散思維能力的一個(gè)最佳案例。

經(jīng)過4-5次提示詞調(diào)整后,成品如下:

可以說,動(dòng)嘴修改的成功率遠(yuǎn)高于之前預(yù)想,而且再怎么說,也比不斷微調(diào)代碼要簡單多了。這樣一來,各位文字工作者們可以用前所未有的簡單方法,來試著搭建自己的作品集或個(gè)人網(wǎng)站。

VOL.4、誰要慌了?

回頭再看一看我們所做過的這些測試:

不需要懂英文,就可以用自然語言讓DALL-E 3作畫,效果逼近Midjourney;

可以識(shí)圖、在熱門語言之間翻譯圖像內(nèi)容;

將一個(gè)畫出來的界面圖轉(zhuǎn)換為真正的網(wǎng)頁,不會(huì)前端技術(shù)也可以設(shè)計(jì)自己的網(wǎng)站……

這些進(jìn)化,給人最大的感受就是意料之外,情理之中。仔細(xì)一思考就會(huì)發(fā)現(xiàn),這些功能只是對(duì)原本GPT-4基礎(chǔ)能力的巧妙運(yùn)用,將原本相互分離的不同模態(tài)結(jié)合在一起,就化腐朽為神奇了。

在識(shí)圖和繪圖時(shí),GPT仍然會(huì)瞎編,因此仍然需要你的專業(yè)知識(shí)來補(bǔ)充那些它不掌握的領(lǐng)域,做事實(shí)核查,并決定如何剪裁和應(yīng)用它的回答。

這進(jìn)一步強(qiáng)化了我們對(duì)GPT的理解,它是一個(gè)為現(xiàn)有從業(yè)者提供的工具,可以增強(qiáng)你現(xiàn)有的能力,但不能自主產(chǎn)生知識(shí),只能根據(jù)你的思路進(jìn)行操作。

ChatGPT不會(huì)取代我們的大多數(shù)讀者,但是會(huì)更好地幫助我們。但是,當(dāng)然也會(huì)有人看到這些進(jìn)步之后感受到真實(shí)的恐慌。

1

比如我們一直在對(duì)比的Midjourney本尊:對(duì)于普通用戶,既然手頭已經(jīng)有一個(gè)效果上與MJ相差不多的工具,數(shù)量又幾乎沒有限制,還不用額外掏錢,那為什么還要再買MidJourney呢?這種搭配組合將用戶更深度地綁定在OpenAI的體系內(nèi),也讓GPT每月20美元的月費(fèi)變得越來越物超所值。

2

比如各種國產(chǎn)大模型的開發(fā)者:作圖精度,語義理解這些,目前ChatGPT都是幾個(gè)最強(qiáng)的合在一起,讓GPT與國產(chǎn)大模型之間的差距似乎成了更加難以逾越的天塹。但是,開源領(lǐng)域仍然可以繼續(xù)追趕,類似于LLaMa的圖片應(yīng)用LLaVA也出現(xiàn)了。

3

比如第三方整合各家服務(wù)的開發(fā)者們,可能需要重新思考自己的開發(fā)方向。例如,趁著不是所有大模型都有多模態(tài)的空當(dāng),可以在第三方應(yīng)用中被智能地調(diào)用最適合的模型,以執(zhí)行相關(guān)任務(wù)。這樣,用戶將能夠使用各個(gè)領(lǐng)域中的最優(yōu)解,我們之前采訪過的Jina就是正在做這樣的工作。

我們期待第一方或者第三方服務(wù),可以將現(xiàn)有分散在不同模態(tài)上的能力真正的組合起來,而不是說互相獨(dú)立地放置。

ChatGPT的進(jìn)步說明,Openai或MJ樹立起來的壁壘并不是絕對(duì)無法攻破的,只是后來者需要花費(fèi)幾個(gè)月、半年或一年的時(shí)間差來趕超。對(duì)于后來者來說,堅(jiān)持下去而不倒閉,可能就是勝利的關(guān)鍵。

話題互動(dòng)

看了我們的試用,你有哪些對(duì)ChatGPT識(shí)圖和作圖的創(chuàng)意玩法?我們可以幫你試試。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

能上網(wǎng),能識(shí)圖,能做圖,ChatGPT的完全體有多神奇

誰該慌神了?

圖片:界面新聞 匡達(dá)

文|娛樂資本論  James

Hello各位打工人!現(xiàn)在相信有一個(gè)問題非常困擾大家:

今天到底星期幾?

踏入連休之后的7天班,不論是早上被設(shè)定的好多個(gè)鬧鐘群毆,還是假裝在電腦前聚精會(huì)神,心思卻跑到了九霄云外。

上面這些由藤子·不二雄、鳥山明等日本泰斗級(jí)漫畫家?guī)淼漠嬜鳎隙ǘ寄艹浞置枥L你的現(xiàn)狀吧。

——哦,有一點(diǎn)我說錯(cuò)了,上面這幾幅畫并不是由那些漫畫家本人畫出來的。創(chuàng)作它們的是內(nèi)置了DALL-E 3的ChatGPT Plus。

雖然不是為了給祖國母親生日獻(xiàn)禮,但OpenAI確實(shí)是在剛剛過去的長假里面,對(duì)Plus用戶灰度開放了下列新功能:

用必應(yīng)搜索的能力,此前因效果不佳臨時(shí)下線,此番重新恢復(fù);

默認(rèn)模式允許上傳圖片,并且識(shí)別圖片內(nèi)容;

加入了DALL-E 3文生圖模式。

其中,DALL-E 3還沒有普及到所有ChatGPT Plus訂戶中,不過娛樂資本論·視智未來手中的賬號(hào)已經(jīng)是開通了上述所有能力的“完全體”了。

有的Plus用戶雖然續(xù)了費(fèi),但是并不能見到上面所有這些功能。此時(shí),閱讀我們下面這篇簡單的介紹和上手指南就非常重要了。

可以說,這里面每一個(gè)能力都是這大半年以來ChatGPT的用戶們期待已久的。但是它們實(shí)際上的效果如何,是否可以真正融入我們的日常工作流當(dāng)中,又會(huì)不會(huì)對(duì)市場上的競品構(gòu)成重大的威脅呢?

娛樂資本論·視智未來一向是各位文娛、內(nèi)容產(chǎn)業(yè)讀者的貼心小伙伴,不論是科普,評(píng)測還是培訓(xùn),我們始終堅(jiān)持一個(gè)原則:就像在實(shí)際的生產(chǎn)過程一樣來測試和使用AI工具,而不是單純追求讓它“炫技”。

是騾子是馬,我們現(xiàn)在就拉出來遛遛。

VOL.1、必應(yīng)搜索

在進(jìn)入大家都很關(guān)心的圖像能力之前,先來看下恢復(fù)上線的必應(yīng)聯(lián)網(wǎng)模塊。

上個(gè)月,娛樂資本論·視智未來剛剛完成了第二輪文本大模型實(shí)用場景橫評(píng)。讀者們應(yīng)該記得,在那次測試中,GPT-4不聯(lián)網(wǎng)時(shí)的表現(xiàn)依然穩(wěn)定,然而當(dāng)它使用VoxScript等插件聯(lián)網(wǎng)時(shí),效果卻比一些國產(chǎn)大模型的表現(xiàn)還要差。

我們也分析了相關(guān)的原因,主要是官方與必應(yīng)合作的聯(lián)網(wǎng)插件不能使用時(shí),其他第三方插件的表現(xiàn)不穩(wěn)定,而且參差不齊。

這次官方聯(lián)網(wǎng)的回歸,讓我們期望它會(huì)有比以前更好的表現(xiàn),但實(shí)際上并沒有好太多,很難稱得上提供了全面和準(zhǔn)確的答案。

而且,與使用插件聯(lián)網(wǎng)不同,這里不再允許你查看它在回答問題時(shí)具體訪問了哪些網(wǎng)站。所以,結(jié)果不理想時(shí)也無法找出原因。

當(dāng)然,GPT支持更長的提示詞和答案生成,而必應(yīng)只支持幾百個(gè)字的短答案,但聯(lián)網(wǎng)還會(huì)占用GPT-4每3個(gè)小時(shí)50次的限額。所以有時(shí)你在必應(yīng)官網(wǎng)用AI搜索,效果可能更好一些。

所以就是這樣,讓我們趕緊進(jìn)入下面的重頭戲。

VOL.2、DALL-E 3繪圖

現(xiàn)在我們可以回顧一下本文開頭的三張圖。

這三張圖的最終效果都非常出色,可以說在這次更新之前,所有的文生圖工具中,只有Midjourney能夠達(dá)到這種水平。當(dāng)然我們一直認(rèn)為競爭對(duì)手達(dá)到MJ的高度是遲早的事情,但DALL-E 3的出現(xiàn)比我們想象的早得多。

當(dāng)然,在ChatGPT中引入圖片生成,最大的改進(jìn)不僅在于生成的效果,還在于生成的過程。

我們知道與文字相比,無論是SD還是MJ的提示詞,都更不能隨便寫,它們有更多規(guī)則、格式乃至“咒語”的要求,在生成圖片時(shí)起到了重要作用。像我們的AIGC大師課中就指出,有些繪畫風(fēng)格、藝術(shù)家名稱、效果光線等都需要指定,而這些詞匯所醞釀出的結(jié)果就像煉丹一樣。

在如今的ChatGPT里面,這些已經(jīng)是過去的事情了。我們現(xiàn)在所使用的方法,會(huì)更接近要求一位人類畫師去做事,說的話也更接近自然語言,GPT-4承擔(dān)了轉(zhuǎn)譯的工作。

ChatGPT會(huì)根據(jù)用戶的需求,一次提供四個(gè)不同的真·提示詞,并將它們導(dǎo)入DALL-E中生成四張不同的圖片。這比單一提示詞生成四種變體更完善,還可以指定其中一張繼續(xù)進(jìn)行微調(diào),盡管效果不一定如人意。

讓我們來回顧文章開頭的畫作是怎樣生成的。

首先,當(dāng)我們看到一張梗圖很有趣,于是想自己畫一張的時(shí)候,這是非常常見的使用場景。

不過,在DALL-E 3之前,我們似乎難以想象除了Midjourney還有什么文生圖工具可以出來比較好的效果。

點(diǎn)開可以發(fā)現(xiàn),每一張圖的prompt都各不相同。

盡管AI作圖嵌字問題還是沒完全解決,但你可以看出跟之前版本相比有了巨大的進(jìn)步。此時(shí)我們甚至可以只用Windows自帶的“畫圖”來給它加上適當(dāng)?shù)淖煮w。

其它圖片也類似:

很顯然,如果我們想使用傳統(tǒng)文生圖方法,生成提示詞是需要我們自己動(dòng)腦的事情,但現(xiàn)在GPT已經(jīng)承擔(dān)了這個(gè)重任。當(dāng)你點(diǎn)擊具體的圖片時(shí),可以看到它使用了哪些提示詞,并將其復(fù)制下來。在生成結(jié)果出現(xiàn)問題時(shí),也可以通過分析提示詞構(gòu)成來發(fā)現(xiàn)問題所在,以及是否有可能改進(jìn)。

由于成圖的完成度非常高,圖像裁切不需要的部分,以及往里面嵌字,甚至只需要使用Windows自帶的畫圖就可以完成。

在下面的測試中,我們發(fā)現(xiàn),如果你的指令非常簡單,ChatGPT生成的作品或許有一些對(duì)東亞文化元素的刻板印象和挪用。例如:

請創(chuàng)作一幅中國慶祝三·八國際勞動(dòng)?jì)D女節(jié)的海報(bào)。主題是:“巾幗筑夢心向黨,強(qiáng)國復(fù)興勇?lián)?dāng)”,但不需要在海報(bào)中出現(xiàn)文字。

接下來,我們嘗試用必應(yīng)搜索給我們總結(jié),怎樣優(yōu)化提示詞,讓生成效果更貼近我們的需要。

盡管如此,如果你直接讓ChatGPT改圖,它依然大概率不會(huì)按照你的要求直接改動(dòng),這反映了DALL-E 3在識(shí)別prompt方面的局限。

如果你點(diǎn)開它更改過的prompt,就會(huì)發(fā)現(xiàn)不是提示詞的問題,GPT實(shí)際上已經(jīng)盡力了。所以,一次生成的圖最好還是由人工在后期改動(dòng)。

oil painting of a modern Shanghai ballerina, gracefully posing in front of iconic landmarks near the Bund. In the background, there's a plain red flag without any emblems, stars, or symbols, fluttering in the wind. The scene is dominated by red and gold hues, and a clear space at the bottom is reserved for potential text.

即使如此,我們也已經(jīng)得到了幾張最終效果很好的圖片。

上述試用過程代表了一個(gè)總體趨勢,即prompt微調(diào)的作用大大降低,我們文生圖給AI下的指令將會(huì)越來越接近自然語言。

VOL.3、GPT-4 識(shí)圖

另一個(gè)最受歡迎的ChatGPT新功能,當(dāng)然就是識(shí)別圖片的含義。

在一些近期的測試中,GPT-4是可以讀出一些幽默或者寓言故事中的潛臺(tái)詞,分析畫面當(dāng)中人物的心理和情緒。當(dāng)然,這些都是重大的突破,但總體來說還是屬于“常規(guī)動(dòng)作”。

我們想看看它還能不能做更好玩的事情--比如看X光片。

醫(yī)學(xué)影像行業(yè)是不是要被替代掉了?實(shí)際結(jié)果遠(yuǎn)遠(yuǎn)沒有這么樂觀。

我給了GPT一張有問題的X光片(這里不放原圖,因?yàn)槟鞘俏易约旱腦光片),人類醫(yī)生可以看到一顆劈裂牙和右下頜骨的一塊含牙囊腫,但GPT并沒有識(shí)別出任何問題。

回頭看一下上面那張網(wǎng)圖,它的問題是一樣的,它知道這是牙片,但除此之外就沒有然后了,它傾向于對(duì)看不出來、不確定的東西報(bào)喜不報(bào)憂,這點(diǎn)倒是跟“百度一下,我覺得我快掛了”完全相反。

看來,影像科室里看片的人類,目前還可以繼續(xù)高枕無憂。

在不這么嚴(yán)肅的問題上,比如翻譯一個(gè)外文廣告牌,是可以勝任的。你可以將這個(gè)結(jié)果跟Jina.AI的同款產(chǎn)品做個(gè)對(duì)比。

翻譯確實(shí)是ChatGPT的長項(xiàng),圖片識(shí)別更是讓這一長處如虎添翼。不過,它具體勝任到什么程度,又取決于它基礎(chǔ)知識(shí)的積累,在不那么熟悉的領(lǐng)域,比如翻譯維吾爾文,照樣“一本正經(jīng)地胡說八道”。

接下來的測試在效果上可謂非常驚艷。我們在一個(gè)設(shè)計(jì)師常用的網(wǎng)站Dribbble上找了一些網(wǎng)頁和APP的效果圖,然后讓它直接生成一個(gè)在瀏覽器中真的能打開的網(wǎng)頁代碼。

它完成了這個(gè)任務(wù)--非常出色。

雖然沒有完全復(fù)刻效果圖,但如果我完全不會(huì)前端代碼,又想從零開始做,那么它已經(jīng)能讓我做出一個(gè)可用的東西。甚至因?yàn)樗膶?shí)現(xiàn)與效果圖中細(xì)微的區(qū)別,還可以說它給原作“洗稿”了。這可能是運(yùn)用GPT的發(fā)散思維能力的一個(gè)最佳案例。

經(jīng)過4-5次提示詞調(diào)整后,成品如下:

可以說,動(dòng)嘴修改的成功率遠(yuǎn)高于之前預(yù)想,而且再怎么說,也比不斷微調(diào)代碼要簡單多了。這樣一來,各位文字工作者們可以用前所未有的簡單方法,來試著搭建自己的作品集或個(gè)人網(wǎng)站。

VOL.4、誰要慌了?

回頭再看一看我們所做過的這些測試:

不需要懂英文,就可以用自然語言讓DALL-E 3作畫,效果逼近Midjourney;

可以識(shí)圖、在熱門語言之間翻譯圖像內(nèi)容;

將一個(gè)畫出來的界面圖轉(zhuǎn)換為真正的網(wǎng)頁,不會(huì)前端技術(shù)也可以設(shè)計(jì)自己的網(wǎng)站……

這些進(jìn)化,給人最大的感受就是意料之外,情理之中。仔細(xì)一思考就會(huì)發(fā)現(xiàn),這些功能只是對(duì)原本GPT-4基礎(chǔ)能力的巧妙運(yùn)用,將原本相互分離的不同模態(tài)結(jié)合在一起,就化腐朽為神奇了。

在識(shí)圖和繪圖時(shí),GPT仍然會(huì)瞎編,因此仍然需要你的專業(yè)知識(shí)來補(bǔ)充那些它不掌握的領(lǐng)域,做事實(shí)核查,并決定如何剪裁和應(yīng)用它的回答。

這進(jìn)一步強(qiáng)化了我們對(duì)GPT的理解,它是一個(gè)為現(xiàn)有從業(yè)者提供的工具,可以增強(qiáng)你現(xiàn)有的能力,但不能自主產(chǎn)生知識(shí),只能根據(jù)你的思路進(jìn)行操作。

ChatGPT不會(huì)取代我們的大多數(shù)讀者,但是會(huì)更好地幫助我們。但是,當(dāng)然也會(huì)有人看到這些進(jìn)步之后感受到真實(shí)的恐慌。

1

比如我們一直在對(duì)比的Midjourney本尊:對(duì)于普通用戶,既然手頭已經(jīng)有一個(gè)效果上與MJ相差不多的工具,數(shù)量又幾乎沒有限制,還不用額外掏錢,那為什么還要再買MidJourney呢?這種搭配組合將用戶更深度地綁定在OpenAI的體系內(nèi),也讓GPT每月20美元的月費(fèi)變得越來越物超所值。

2

比如各種國產(chǎn)大模型的開發(fā)者:作圖精度,語義理解這些,目前ChatGPT都是幾個(gè)最強(qiáng)的合在一起,讓GPT與國產(chǎn)大模型之間的差距似乎成了更加難以逾越的天塹。但是,開源領(lǐng)域仍然可以繼續(xù)追趕,類似于LLaMa的圖片應(yīng)用LLaVA也出現(xiàn)了。

3

比如第三方整合各家服務(wù)的開發(fā)者們,可能需要重新思考自己的開發(fā)方向。例如,趁著不是所有大模型都有多模態(tài)的空當(dāng),可以在第三方應(yīng)用中被智能地調(diào)用最適合的模型,以執(zhí)行相關(guān)任務(wù)。這樣,用戶將能夠使用各個(gè)領(lǐng)域中的最優(yōu)解,我們之前采訪過的Jina就是正在做這樣的工作。

我們期待第一方或者第三方服務(wù),可以將現(xiàn)有分散在不同模態(tài)上的能力真正的組合起來,而不是說互相獨(dú)立地放置。

ChatGPT的進(jìn)步說明,Openai或MJ樹立起來的壁壘并不是絕對(duì)無法攻破的,只是后來者需要花費(fèi)幾個(gè)月、半年或一年的時(shí)間差來趕超。對(duì)于后來者來說,堅(jiān)持下去而不倒閉,可能就是勝利的關(guān)鍵。

話題互動(dòng)

看了我們的試用,你有哪些對(duì)ChatGPT識(shí)圖和作圖的創(chuàng)意玩法?我們可以幫你試試。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。