一、前言:七大維度全面升級 訊飛星火認(rèn)知大模型3.5來了 自ChatGPT問世以來,國內(nèi)科技企業(yè)、科研機(jī)構(gòu)紛紛加入大模型賽道,掀起“千模大戰(zhàn)”。 在“大力出奇跡”的路徑下,大模型還需要海量的數(shù)據(jù)“喂養(yǎng)”...
一、前言:七大維度全面升級 訊飛星火認(rèn)知大模型3.5來了
自ChatGPT問世以來,國內(nèi)科技企業(yè)、科研機(jī)構(gòu)紛紛加入大模型賽道,掀起“千模大戰(zhàn)”。
在“大力出奇跡”的路徑下,大模型還需要海量的數(shù)據(jù)“喂養(yǎng)”以及大規(guī)模算力投入,才能真正超越ChatGPT。
如今,國內(nèi)已被大規(guī)模應(yīng)用的大模型有科大訊飛旗下的星火認(rèn)知大模型、百度旗下的文心一言(百度文心大模型)、阿里巴巴旗下的通義千問(阿里通義大模型)等等。
近期,科大訊飛再次取得突破,推出了基于首個(gè)純國產(chǎn)算力底座“飛行一號”平臺訓(xùn)練的大模型——訊飛星火V3.5。
據(jù)介紹,訊飛星火V3.5整體接近GPT-4 Turbo,其語言理解、數(shù)學(xué)能力均已經(jīng)超過GPT-4 Turbo,代碼能力達(dá)到GPT-4 Turbo的 96%,多模態(tài)理解達(dá)到GPT-4V 的91%。
說了這么多,那這款純國產(chǎn)的訊飛星火V3.5大模型在各方面的體驗(yàn)究竟如何?對比國外的Chat GPT4.0又有多大的差距呢?
接下來,我們就對訊飛星火V3.5版本的大模型從語音交互、常規(guī)問答、語義理解、邏輯處理、數(shù)學(xué)能力、代碼編寫與解釋能力等多個(gè)維度,與國內(nèi)的百度文心一言以及國外的ChatGPT 4.0進(jìn)行一次全面的測試對比。
二、全新的語音交互體驗(yàn):以最自然的方式進(jìn)行對話 毫無機(jī)械感
訊飛星火V3.5的第一大特性,就是提升了大模型的語音交互能力。
在訊飛星火V3.5版的APP界面底部,新增了一個(gè)機(jī)器人的圖標(biāo),點(diǎn)擊即進(jìn)入到全語音交互界面。
在語音交互中,注入了兩種音色輸出,即聆小玥(女聲)、聆飛逸(男聲)。
我們測試了幾個(gè)問題,來考察下訊飛3.5的語音交互能力。
首先是訊飛星火 V3.5的對話視頻。
訊飛星火 V3.5 的全語音交互體驗(yàn)極為流暢,首先在音色上,完全消除了“機(jī)器感”,幾乎不會出現(xiàn)前后音調(diào)不搭的情況,聲音聽上去就像是真人在你旁邊說話一樣。
其次,其AI合成的聲音自然逼真,甚至連語氣詞,例如“嗯”、“這個(gè)”、“那個(gè)”等都運(yùn)用的恰到好處。
并且,語音輸出語速適中,該快的時(shí)候快,該慢的時(shí)候慢,如果有一個(gè)外行人在身邊,真的會認(rèn)為這是一個(gè)真人在說話,擬人化程度相當(dāng)驚人。
另外,在對話中,訊飛星火 V3.5 的反應(yīng)特迅速,一般都是筆者的話音剛落,它就能立即作出回應(yīng),并且對語義的理解能力相當(dāng)精準(zhǔn),對問題的判斷相當(dāng)準(zhǔn)確,相比其他的語音助手答非所問、自問自答、反應(yīng)慢半拍的情況,可以說訊飛真正做到了跟人“交互”的程度。
接著是文心一言V4.0的語音交互。
文心一言V4.0在前幾天還是不具備語音交互的,但這兩天也推送了支持語音交互的新版本,我們也來測試一下它的語音交互能力。
在我們的測試中,文心一言V4.0的聲音連貫性比較和諧,幾乎不會出現(xiàn)斷裂和不自然的過渡,但回答的細(xì)膩程度不及訊飛星火V3.5,而且一些問題都是直問直答,沒有擴(kuò)展性,并且缺少一些過渡用于,就有點(diǎn)像手機(jī)語音助手的那種感覺,聽著會有一些緊巴巴的感覺,給人的感受沒有訊飛那么自然。
最后是ChatGPT4.0的語音交互。
通過視頻我們可以感受到,ChatGPT4.0的語音輸出字句前后也比較自然,但還是會出現(xiàn)一些語調(diào)不均的情況,聽著會讓人有些別扭。
而且,由于網(wǎng)絡(luò)連接不穩(wěn)定,在語音交流過程中偶爾會出現(xiàn)等待時(shí)間過長的情況。
三、國內(nèi)外大模型對比測試:多項(xiàng)領(lǐng)域比肩ChatGPT 4.0 全面超越文心一言
接著,為了測試訊飛星火 V3.5在國際中的地位,我們使用國內(nèi)的另一大模型文心一言和國外的ChatGPT 4.0進(jìn)行一次全面的測試對比。
1、常規(guī)問答
(1)已知問題測試
①中國2020年GDP是多少人民幣
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
三個(gè)大模型的回答準(zhǔn)確無誤,訊飛星火 V3.5和文心一言V4.0均給到了各大產(chǎn)業(yè)的占比以及增幅比,不過訊飛分析的更加透徹,說到2020年這一特殊的年份,國內(nèi)GDP增長的不易和國家正確的決策,能夠深入理解復(fù)雜的趨勢和事件。
Chat-GPT4.0則是直接給出了具體的數(shù)據(jù),沒有做過多的信息擴(kuò)展。
②最近一次的東京奧運(yùn)會的獎牌榜前5名的國家和獎牌數(shù)分別是?
訊飛星火V3.5
文心一言4.0
Chat-GPT4.0
第二個(gè)問題,只有訊飛星火3.5給出了正確的答案,文心一言則僅給到了前三的國家和獎牌數(shù)量,沒有完整地回答問題,而ChatGPT的答案則出現(xiàn)了錯(cuò)誤(中國共89枚獎牌)。
③全球第一款16GB內(nèi)存的智能手機(jī)是什么型號?
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
第三個(gè)問題,面對機(jī)圈的問題,只有Chat-GPT4.0給到了正確答案,全球第一款16GB內(nèi)存的智能手機(jī),是2020年年初發(fā)布的三星Galaxy S20 Ultra。
(2)未知問題測試
①世界第一高峰與世界第二高峰相差多少米?
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
對于世界之最這類問題,訊飛星火V3.5給出的是巖面高度差,回答正確,文心一言和Chat-GPT給到的則是雪面高度差,精度一致,沒有任何問題。
2、邏輯推理能力
(1)魯迅為什么暴打周樹人?
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
對于“魯迅為什么暴打周樹人”這種問題,訊飛星火、文心一言和ChatGPT4都能完美避坑,給出了魯迅和周樹人是同一個(gè)人的答案。
(2)昨天的當(dāng)天是明天的什么?
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
第二個(gè)問題,昨天的當(dāng)天是明天的什么?訊飛星火V3.5和Chat-GPT4.0通過邏輯判斷均給出了正確答案,“前天”,而文心一言則給出“昨天的當(dāng)天是明天的昨天”的答案,回答錯(cuò)誤。
(3)龍龍的媽媽有4個(gè)孩子,其中3個(gè)孩子分別叫貝貝,天天和樂樂,請問她的第4個(gè)孩子叫什么?
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
第三個(gè)問題,三個(gè)大模型均成功避坑,訊飛和GPT4分析的最簡潔最到位,文心一言則通過一頓邏輯判斷和理解輸出了正確的答案,過程稍有些復(fù)雜,不夠簡潔。
(4)臉盆里面漂浮著一塊冰,請問冰融化之后,臉盆的水面是上升還是下降?
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
接著是一個(gè)物理常識問題,訊飛回答錯(cuò)誤,文心一言V4.0和GPT4.0均回答正確,冰融化之后,水面既不會上升也不會下降,并且給出了詳細(xì)的邏輯分析。
看來,訊飛星火V3.5在初中物理知識方面,相較于Chat-GPT4.0還有點(diǎn)欠缺。
3、數(shù)學(xué)解題能力
(1)雞兔同籠,頭共67,足共184,問雞兔各幾只?請一步一步地作答
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
面對雞兔同籠問題,訊飛和GPT4.0均以二元一次方程計(jì)算后給出了正確答案,訊飛星火給到了完整的解題過程,甚至連計(jì)算過程都精確的呈現(xiàn)出來,而文心一言和Chat-GPT4.0的回答過程則較為簡略,以推理的過程為主。
(2)如果一個(gè)直角三角形的兩條邊長分別是6和8,另一個(gè)與它相似的直角三角形邊長分別是3、4及x,那么x的值是多少?
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
接著是第二個(gè)數(shù)學(xué)問題,面對這種沒有給到對應(yīng)數(shù)值的兩邊長度,我們一般會分析到兩種不同的可能性,因此這道題的標(biāo)準(zhǔn)答案會有2個(gè),很顯然訊飛星火3.5全都顧及到了,給出了兩個(gè)正確的答案。
而文心一言V3.5和Chat GPT4.0只給出了一種正確的可能性。
所以,通過以上測試的數(shù)學(xué)問題來看,訊飛星火V3.5的解題能力已經(jīng)在國際中處于領(lǐng)先水平,甚至在部分能力上已經(jīng)超越了Chat GPT4.0。
4、代碼能力
現(xiàn)在許多程序員也會使用大模型來解決問題,因此在代碼的編寫和解釋能力上,我們也測試了一番。
(1)代碼編寫
使用PyQt5搭建-個(gè)窗口,點(diǎn)擊按鈕之后,有50%的概率把按鈕移動到窗口的隨機(jī)位置,還有50%的概率把按鈕的標(biāo)題改成隨機(jī)數(shù)。不要有多余的解釋,直接給出可以運(yùn)行的代碼。
訊飛星火V3.5
文心一言V4.0
Chat-GPT 4.0
在代碼編寫能力上,三款大模型均能夠精準(zhǔn)理解需求,寫出bug的程序,放到解釋器里完美運(yùn)行。
(2)解釋代碼
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
我們給到一段代碼讓三個(gè)大模型進(jìn)行解釋,三者均會根據(jù)每行的代碼進(jìn)行解釋,文心一言給到的解釋要更偏向小白,邏輯非常清晰,新手也能一目了然。
訊飛給到的解釋與GPT4.0差不太多,所以在代碼編輯和解釋能力上,訊飛星火3.5、Chat GPT 4.0大體相當(dāng)。
5、知識問答:文章提問
為了測試三種大型語言模型對語文理解能力的差異,我們選取了一段高中閱讀理解材料,讓這些模型閱讀并回答相關(guān)問題。
通過這種方式,我們可以比較它們在文字理解方面的表現(xiàn)。
我們給到這段文字,讓三款大模型進(jìn)行閱讀,接著進(jìn)行提問。
問題一:請問永嘉山水適合隱居的原因是什么?
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
第一個(gè)問題,訊飛星火3.5給到的原因是最全面的,也是最準(zhǔn)確的,從根本上回答了這個(gè)問題,文心一言3.5給到的答案也比較準(zhǔn)確,不過并沒有訊飛全面。
Chat GPT4.0給到的回答比較深入,也就是說它能夠進(jìn)一步理解作者所表達(dá)的內(nèi)在思想與含義,也就是說Chat GPT4.0對文字的理解要更加深刻。
問題二:請簡要總結(jié)這篇文章的主旨,要求在350字以內(nèi)。
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
對于語言的理解,訊飛星火 V3.5 和 GPT-4 在處理自然語言任務(wù)時(shí)都展現(xiàn)出了合格的理解能力,然而在綜合比較中,GPT-4 在理解和表達(dá)方面顯得更為精準(zhǔn)與細(xì)膩。
6、文生圖能力
在多模態(tài)能力上,我們測試對比了大模型文生圖的能力,根據(jù)描述的文字畫出圖片。
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
可以看到,三款大模型均能夠理解文字所表達(dá)的意思,并畫出準(zhǔn)確的裝修效果圖。
不過訊飛星火V3.5和Chat GPT4.0繪制的圖片細(xì)膩程度和精美程度上均優(yōu)于文心一言3.5,二者在文生圖的能力上,不相仲伯。
訊飛星火V3.5
文心一言V4.0
Chat-GPT4.0
接著我們提高了難度,讓三款大模型在上一幅圖的基礎(chǔ)上進(jìn)行二次創(chuàng)作,雖然均不能還原上一幅圖中的全部樣貌,但訊飛星火V3.5和Chat GPT4.0均能以接近上一幅圖的場景進(jìn)行二次創(chuàng)作,并精確理解了“墻面上的畫”指的是什么內(nèi)容。
文心一言V4.0應(yīng)該說是理解了題目中的一般要求,把“春江水暖鴨先知”的含義放在了整個(gè)畫面當(dāng)中,并沒有理解“墻面上的畫中”是什么東西,導(dǎo)致與要求的本意產(chǎn)生了較大的偏差,也讓最終的呈現(xiàn)效果與預(yù)期有一定的出入。
反觀訊飛星火V3.5和Chat GPT4.0,在語義理解能力方面表現(xiàn)出色,兩者的能力接近,甚至達(dá)到了相似的水平。
四、總結(jié):訊飛星火V3.5與Chat GPT4 不相仲伯
經(jīng)過我們對三款大模型的深度體驗(yàn)與對比測試,我們做出以下總結(jié):
在國際大模型比拼中,訊飛星火V3.5不僅在常規(guī)問答、邏輯推理和數(shù)學(xué)解題方面與Chat GPT 4.0并駕齊驅(qū),甚至在某些方面超越了后者,尤其在解答語言相關(guān)的問題時(shí),訊飛星火V3.5展現(xiàn)出了更深厚的理解能力和更廣泛的知識面。
在數(shù)學(xué)能力上,訊飛星火V3.5更注重解題的過程,告訴你解題的所有步驟,就算是沒有基礎(chǔ)知識也能一看便會,而文心一言和GPT則更偏向于推理的過程,數(shù)據(jù)偏理科的那種。
就數(shù)學(xué)能力而言,國內(nèi)的訊飛星火和文心一言這兩款大模型的解題能力已經(jīng)在國際中處于領(lǐng)先水平,甚至在部分能力上已經(jīng)超越了Chat GPT 4.0。
多模態(tài)能力上,代碼編寫與解釋、作圖等測試,訊飛和GPT 4.0均以精確的理解力和較為復(fù)雜的作圖能力完成了要求,不僅能夠準(zhǔn)確理解所提供的信息,還能夠在作圖任務(wù)中細(xì)致地還原或創(chuàng)造出接近描述的細(xì)節(jié),展現(xiàn)出了它們的強(qiáng)大的理解能力和創(chuàng)造能力。
而文心一言雖然也能完成基本的任務(wù),但在細(xì)節(jié)處理和深度理解上,與二者略有差距,很顯然它在多模態(tài)交互方面的潛力還未完全發(fā)揮出來。
綜合而言,訊飛星火認(rèn)知大模型V3.5在各項(xiàng)測試中已相當(dāng)出色,展現(xiàn)出其在多個(gè)領(lǐng)域的領(lǐng)先優(yōu)勢,盡管與ChatGPT 4.0在某些方面還有一定差距,但可以期待,隨著科大訊飛在技術(shù)上的持續(xù)進(jìn)步,未來的訊飛星火認(rèn)知大模型將逐漸走到國際領(lǐng)先水平,全面對標(biāo)GPT-4。
在當(dāng)前國內(nèi)人工智能領(lǐng)域競爭愈發(fā)激烈的背景下,我們有足夠的信心和理由相信,訊飛星火將憑借其先進(jìn)的語音技術(shù)和日益累積的技術(shù)算法,在不久的將來不僅能夠追趕上 GPT-4 的能力水平,還將進(jìn)一步推動中國在全球人工智能領(lǐng)域的發(fā)展和領(lǐng)導(dǎo)地位,走向新的階梯。