年初大模型行業(yè)上演“長(zhǎng)文本”大戰(zhàn)時(shí),我們就萌生過做一個(gè)“讀書助理”的想法。測(cè)試了市面上主流的大模型后,發(fā)現(xiàn)普遍存在兩個(gè)不足:
一種是可以處理的文本長(zhǎng)度不夠,即使有些大模型將文本長(zhǎng)度提升到了20萬字,像《紅樓夢(mèng)》這樣近百萬字的名著,還是需要多次才能“讀”完。
另一種是語言理解和生成能力不足,經(jīng)常出現(xiàn)“幻覺”。“長(zhǎng)文本”的特點(diǎn)不僅僅是長(zhǎng),還涉及到復(fù)雜的邏輯和文本語義,需要更連貫、相關(guān)的響應(yīng)。
直到前兩天,一位做AIGC的朋友向我們同步了一個(gè)新消息:“智譜AI開放平臺(tái)默默上線了為處理超長(zhǎng)文本和記憶型任務(wù)設(shè)計(jì)的GLM-4-Long,支持1M上下文。”100萬上下文長(zhǎng)度到底意味著什么呢?我們找來了另外兩個(gè)大模型,用120回版本的《紅樓夢(mèng)》(大約有73萬個(gè)漢字)進(jìn)行了簡(jiǎn)單對(duì)比:
月之暗面128K的大模型,每次可以處理6.4萬個(gè)漢字,需要12次才能讀完;
Claude 200K的大模型,每次可以處理10萬個(gè)漢字,需要8次才能讀完;
GLM-4-Long實(shí)測(cè)可以處理150-200萬字,一次就能讀完一本《紅樓夢(mèng)》。
不過,文本長(zhǎng)度只是一個(gè)入門能力,能否扮演起“讀書助理”的角色,必須要確保能夠從大量文本中準(zhǔn)確檢索信息,特別是當(dāng)某些關(guān)鍵信息被置于文檔的深處時(shí),以及出色的推理和內(nèi)容生成能力。
于是我們對(duì)GLM-4-Long進(jìn)行了深度測(cè)試。
01 兩分鐘“熟讀”錢穆先生的《國史大綱》
大約是5年前,我們購買了錢穆先生的《國史大綱》,商務(wù)印書館的繁體豎排版。因?yàn)槭怯么髮W(xué)教科書體例寫成,學(xué)術(shù)味兒比較濃,再加上錢穆先生精煉的文筆風(fēng)格,至今都沒有完整讀完。
GLM-4-Long能否勝任“書童”的角色呢?
我們調(diào)用了GLM-4-Long的API接口,讀取了50多萬字的電子版《國史大綱》,然后針對(duì)性地問了三個(gè)問題:
第一個(gè)問題:請(qǐng)總結(jié)這篇文檔中每個(gè)部分的主要內(nèi)容
原書目錄中只羅列了每個(gè)章節(jié)的標(biāo)題,希望通過這個(gè)問題驗(yàn)證大模型是否處理了文檔的全部信息,對(duì)內(nèi)容的理解和總結(jié)生成能力。
從輸出的結(jié)果來看,不僅準(zhǔn)確整理出了每個(gè)章節(jié)的核心內(nèi)容,還按照現(xiàn)在比較主流的紀(jì)年方式,將全書內(nèi)容拆分為上古文化、春秋戰(zhàn)國、秦漢、魏晉南北朝、隋唐五代、兩宋、元明、清代等8個(gè)部分,內(nèi)容準(zhǔn)確度超過99%,僅僅是“兩宋之部”在小標(biāo)題上被列舉了兩次(可以通過模型微調(diào)進(jìn)行優(yōu)化)。
第二個(gè)問題:“秦漢國力與對(duì)外形勢(shì)”在文檔哪個(gè)部分?
這是一個(gè)迷惑性比較強(qiáng)的問題,因?yàn)榈谄哒潞偷诎苏露贾v了相關(guān)背景,但錢穆先生放在了第十一章進(jìn)行重點(diǎn)介紹。
GLM-4-Long并未掉進(jìn)預(yù)設(shè)的“陷阱”,準(zhǔn)確指出了問題所在的章節(jié)和標(biāo)題。這也是長(zhǎng)文本處理的一個(gè)典型痛點(diǎn),在長(zhǎng)達(dá)幾十萬字的內(nèi)容中,作者可能在多個(gè)地方描述相似的幾件事,最為考驗(yàn)大模型的語義理解和內(nèi)容檢索能力,并非是對(duì)文本的機(jī)械處理,意味著需要更強(qiáng)的抽象和內(nèi)容歸納能力。
第三個(gè)問題:北宋的建國和漢唐時(shí)期有什么不同?
搜索引擎上沒有直接相關(guān)的答案,但錢穆先生在書中給出了系統(tǒng)闡述,用于驗(yàn)證GLM-4-Long能否理解書中的細(xì)節(jié)信息。
這次的答案再次讓我們驚艷,分別從建國方式、統(tǒng)治方式、對(duì)外政策、經(jīng)濟(jì)、文化、社會(huì)、政治制度等角度綜述了錢穆先生的觀點(diǎn)。特別是在“對(duì)外政策”上,準(zhǔn)確回答了“漢唐時(shí)期積極對(duì)外擴(kuò)張,北宋采取保守的防御策略”,并且簡(jiǎn)單提及了政策變化背后的原因,即五代十國時(shí)期戰(zhàn)爭(zhēng)頻繁,導(dǎo)致國力消耗嚴(yán)重。
相關(guān)的測(cè)試問題不再一一贅述,直接給出我們的答案:GLM-4-Long對(duì)文檔全局信息的處理、長(zhǎng)文本理解和生成、多輪對(duì)話等能力均超出預(yù)期,整個(gè)體驗(yàn)有一種和錢穆先生跨時(shí)空對(duì)話的“錯(cuò)覺”。
另一個(gè)不應(yīng)該被忽略的信息在于,一本50多萬字的書籍,GLM-4-Long僅用了兩分鐘左右的時(shí)間進(jìn)行處理。如果想要用大模型處理一些沒有時(shí)間研讀的長(zhǎng)文本,GLM-4-Long某種程度上可以說是最佳幫手。
02 用多個(gè)文檔訓(xùn)練出一位“知識(shí)博主”
很多人在日常工作和生活中接觸的文檔,并非是動(dòng)輒近百萬字的巨著,而是幾萬字、最多十幾萬字的文檔和資料。在這樣比較大眾化的需求下,像GLM-4-Long這樣1M長(zhǎng)文本能力的大模型,有何特殊價(jià)值?
前面用《紅樓夢(mèng)》做了對(duì)比,其實(shí)還有另一種對(duì)比方式:
月之暗面128K的大模型,每次可以處理6.4萬個(gè)漢字,相當(dāng)于讀1本《活著》;
Claude 200K的大模型,每次可以處理10萬個(gè)漢字,相當(dāng)于一次讀《活著》和《在細(xì)雨中吶喊》兩本書;
GLM-4-Long的1M上下文,可以一次讀余華老師的多本書,比如《活著》《在細(xì)雨中吶喊》《河邊的錯(cuò)誤》《第七天》……
由此萌生的一個(gè)想法是:是不是可以讓大模型一次讀多本相關(guān)的專業(yè)書籍,快速訓(xùn)練出一個(gè)專業(yè)的知識(shí)博主?
首先想到的一個(gè)場(chǎng)景就是飲食,生活中經(jīng)常碰到吃什么可以減肥、6月齡寶寶能不能吃蛋黃、高血壓病人的飲食需要注意什么等問題,每次都需要搜索或者問AI,又擔(dān)心內(nèi)容是不是準(zhǔn)確。
我們讓GLM-4-Long一次性讀取了《中國居民膳食指南》《中國食物成分表》《中國飲食文化》《中國居民膳食營(yíng)養(yǎng)素參考攝入量》等多個(gè)文檔,然后用日常生活中的常見問題進(jìn)行了針對(duì)性提問:
8月齡兒童日常飲食應(yīng)該注意什么?
可以看到,GLM-4-Long輸出的答案非常全面,除了要補(bǔ)充蛋白質(zhì)、維生素和礦物質(zhì),還給出了一些貼心的建議:食物應(yīng)該細(xì)膩易消化,避免大塊或硬的食物,以防噎食;建議先引入蔬菜泥,然后是水果泥,接著是強(qiáng)化鐵的米粉或米糊;如果家族中有過敏史,應(yīng)避免引入可能導(dǎo)致過敏的食物……
50歲的高血壓病人有什么飲食建議?
答案依然比較全面,包括應(yīng)將食鹽攝入量控制在每天6克以下、每天攝入300-500克新鮮蔬菜和200-350克新鮮水果、每日攝入25-30克膳食纖維、避免過多攝入精制糖和白面食、建議通過食物攝入足夠的鉀和鈣、避免過多攝入蛋白質(zhì)、限制飲酒等等,并提供了具體的食物建議。
以上只是我們簡(jiǎn)單嘗試的一個(gè)場(chǎng)景,可以聯(lián)想到的應(yīng)用場(chǎng)景還有很多。
比如一次性通讀余華老師的所有小說,然后“變身”余華老師進(jìn)行對(duì)話;一次性讀多篇相關(guān)的論文,幫助提升論文閱讀的效率;一次性讀取上百份簡(jiǎn)歷,然后根據(jù)需求篩選出最合適的候選人;以及找到一家企業(yè)多個(gè)季度的財(cái)報(bào)進(jìn)行橫向?qū)Ρ龋瑥母甏?、信息更豐富的視角進(jìn)行財(cái)報(bào)分析......
我們列舉的“想法”僅僅是拋磚引玉,相信智譜AI在大模型能力上打破天花板后,會(huì)有越來越多開發(fā)者參與其中,挖掘藏在應(yīng)用層的機(jī)會(huì),帶來各種有趣、有生產(chǎn)力的體驗(yàn)。
03 “卷”長(zhǎng)文本過渡到“卷”綜合能力
有別于年初單純卷文本長(zhǎng)度的比拼,智譜AI在GLM-4-Long的宣傳和營(yíng)銷上不可謂不低調(diào),卻折射出了大模型市場(chǎng)的一個(gè)隱性共識(shí):不再為了傳播某個(gè)能力硬凹需求,而是開始卷大模型的綜合能力。
個(gè)中原因并不難解釋。
長(zhǎng)文本在本質(zhì)上是一種智力能力。如果將大模型比作是一臺(tái)“電腦”的話,“更長(zhǎng)的上下文”可以看作是更大的內(nèi)存,能夠提高多任務(wù)處理能力、提升運(yùn)行大型軟件的流暢度、帶來更好的游戲體驗(yàn)等等。內(nèi)存的大小,可能在某種程度上影響消費(fèi)者的購買決策,卻不是優(yōu)先級(jí)最高的購買因素。
同樣的道理,僅僅是在文本長(zhǎng)度上領(lǐng)先,并不足以讓大模型吸引所有的注意力,不會(huì)是一條穩(wěn)定的護(hù)城河。
與之相對(duì)應(yīng)的,大模型的“長(zhǎng)文本熱”就像是曇花一現(xiàn),開發(fā)者們沒有趨之若鶩,資本市場(chǎng)不斷傳出批判的聲音:“感覺是各家公司在為搶入頭部陣營(yíng)做成績(jī),本質(zhì)上還是為了秀肌肉,衡量長(zhǎng)文本的價(jià)值,要等到更明確的落地場(chǎng)景和對(duì)應(yīng)的商業(yè)模式出現(xiàn),否則市場(chǎng)再熱鬧也是沒有用的。”
時(shí)間過去半年后,GLM-4-Long讓外界看到了大模型新的演變方向:除了記住多長(zhǎng)的上下文,還在比拼語言理解和生成能力、長(zhǎng)文本推理和QA能力,不再是做長(zhǎng)木桶的一塊板,而是把把所有木板做長(zhǎng)。
比起我們“淺嘗輒止”的測(cè)試,對(duì)大模型行業(yè)新方向感到興奮的,恰恰是那群做AIGC的創(chuàng)業(yè)者。正如那位朋友所說的:“大模型可以滿足100萬字的上下文,并且可以很好地、準(zhǔn)確地執(zhí)行復(fù)雜指令,預(yù)示著巨大的想象空間。希望智譜AI開放平臺(tái)可以早日推出GLM-4-Long的正式版,我們已經(jīng)有了多個(gè)智能體相關(guān)的想法。”
自從ChatGPT走紅后,整個(gè)大模型行業(yè)風(fēng)譎云詭。然而一個(gè)看起來有些畸形的現(xiàn)象是:資本大多將錢投個(gè)了大模型企業(yè),做應(yīng)用創(chuàng)新的創(chuàng)業(yè)者鮮有機(jī)會(huì),即便不少人都在呼吁創(chuàng)業(yè)者應(yīng)該卷應(yīng)用,而非卷模型。
回頭再來看這樣的現(xiàn)象,需要批判的不是資本的“勢(shì)力”,而是開發(fā)者們的無奈。直接的例子就是長(zhǎng)文本,半年前的火爆只是技術(shù)上的,由于存在能力上的短板,未能在應(yīng)用層延續(xù)熱度和爆點(diǎn)。借著上面的比喻,一臺(tái)電腦的內(nèi)存很大,可CPU、GPU、屏幕等依然是短板,開發(fā)者很難做出體驗(yàn)優(yōu)秀的應(yīng)用。
當(dāng)大模型的競(jìng)爭(zhēng)走向綜合能力的較量,100萬長(zhǎng)文本賦予了開發(fā)者更大的創(chuàng)造空間,同時(shí)在生成、推理、QA等能力上不再被制約,注定會(huì)吸引越來越多的開發(fā)者參與進(jìn)來,進(jìn)一步將想象力轉(zhuǎn)化為生產(chǎn)力,創(chuàng)造出一個(gè)又一個(gè)“出圈”的現(xiàn)象級(jí)應(yīng)用,加速大模型在應(yīng)用賽道上的繁榮。
04 結(jié)語
“2024年是AGI落地元年“。
這樣的預(yù)言正在被進(jìn)一步驗(yàn)證。不僅僅是大模型綜合能力的進(jìn)階,還在于技術(shù)和應(yīng)用在方向上的統(tǒng)一:逐漸從博眼球式的拉新,轉(zhuǎn)向“脫虛向?qū)?rdquo;, 不斷回歸用戶體驗(yàn),沉淀出解決實(shí)際問題的能力。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!
互聯(lián)網(wǎng)或許從未停止創(chuàng)新,只是對(duì)于創(chuàng)新的認(rèn)知下降了。
隨著AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化成為業(yè)界共識(shí),大模型的“新賽季”來了。2024年是國產(chǎn)大模型全面商業(yè)化的元年,各地人工智能產(chǎn)業(yè)發(fā)展的政策密集出臺(tái)。同時(shí),在2024世界人工智能大會(huì)(WAIC2024)上,各大AI廠商紛紛表示要讓大模型落地應(yīng)用場(chǎng)景。不過,對(duì)于大模型商業(yè)化的路線,科技巨頭和大模型初創(chuàng)公司之間存
對(duì)所有大模型而言,其真正考驗(yàn)如同科大訊飛創(chuàng)始人劉慶峰所說,在最后一公里的應(yīng)用和商業(yè)化落地上。作者|Cindy編輯|楊銘恐怕誰也不會(huì)想到,百模大戰(zhàn)進(jìn)入商業(yè)化下半場(chǎng),圍繞大模型大規(guī)模、曠日持久的戰(zhàn)爭(zhēng),竟是開源和閉源路線的交鋒。最近,在2024世界人工智能大會(huì)(WAIC)上,劉慶峰、李彥宏、王堅(jiān)、朱嘯虎、
文|智能相對(duì)論作者|陳泊丞在2024世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議產(chǎn)業(yè)發(fā)展主論壇上,百度創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏談了些對(duì)于AI大模型的看法,語驚四座。他先是指出,“百模大戰(zhàn)造成了社會(huì)資源的巨大浪費(fèi),尤其是算力的浪費(fèi)。但同時(shí)也使得我們追趕世界上最先進(jìn)基礎(chǔ)模型的能力得到了建立。”而
高考一結(jié)束,忙壞了海內(nèi)外一眾大模型。豆包、DeepSeek、ChatGPT、元寶、文心一言、通義千問……掀起了一波“AI趕考”大戰(zhàn)。據(jù)悉,去年高考期間,大模型的成績(jī)才勉強(qiáng)過一本線,今年集體晉升985。據(jù)悉,豆包甚至過了清北的錄取線。頭部大模型在高考“考場(chǎng)”上玩得不亦樂乎,中小AI創(chuàng)企的處境卻日益尷尬
文/二風(fēng)來源/節(jié)點(diǎn)財(cái)經(jīng)每年高考成績(jī)放榜后,數(shù)千萬考生和家長(zhǎng)將迎來另一場(chǎng)硬仗——填報(bào)志愿。今年,這一領(lǐng)域迎來了AI的全面介入,多家互聯(lián)網(wǎng)大廠和教育公司紛紛推出智能志愿填報(bào)產(chǎn)品,為考生提供院校和專業(yè)選擇建議。據(jù)艾媒咨詢數(shù)據(jù),2023年中國高考志愿填報(bào)市場(chǎng)付費(fèi)規(guī)模約9.5億元,近九成考生愿意借助志愿填報(bào)服
蘋果還沒從WWDC25的“群嘲”中走出,又迎來了一次新的痛擊。據(jù)路透社報(bào)道,21日,蘋果公司遭到股東集體起訴,被指在信息披露中低估了將先進(jìn)生成式AI整合進(jìn)語音助手Siri所需的時(shí)間,導(dǎo)致iPhone銷量受影響、股價(jià)下滑,構(gòu)成證券欺詐。在這份訴訟中,庫克、首席財(cái)務(wù)官凱文·帕雷克及前首席財(cái)務(wù)官盧卡·馬埃
華為的盤古大模型終于推出新版本了。6月20日華為云計(jì)算CEO張平安宣布基于CloudMatrix384超節(jié)點(diǎn)的新一代昇騰AI云服務(wù)全面上線,盤古大模型5.5同步發(fā)布。不過,當(dāng)前國內(nèi)的AI大模型競(jìng)爭(zhēng)可謂是相當(dāng)激烈,華為的盤古大模型在眾多大模型中并不是十分出眾。華為云此次重磅推出的盤古大模型5.5能否從
一場(chǎng)沒有羅永浩的“羅永浩直播”,正在改寫帶貨規(guī)則當(dāng)數(shù)字人羅永浩在百度直播間舉起青島啤酒,以標(biāo)志性幽默回應(yīng)粉絲提問時(shí),彈幕瘋狂刷出“這是真的還是假的?”的疑問。這場(chǎng)持續(xù)近7小時(shí)的直播,創(chuàng)下1300萬人次觀看、GMV突破5500萬元的驚人戰(zhàn)績(jī),甚至超過了他本人一個(gè)月前真人直播5000萬元的成績(jī)。數(shù)字人主
高頻互動(dòng)、個(gè)性化教學(xué)、突破成本壁壘,AI老師讓英語學(xué)習(xí)更普惠。6月24日,新東方正式推出面向消費(fèi)者的首款原創(chuàng)AI教育產(chǎn)品——“新東方AI1對(duì)1”。這款產(chǎn)品標(biāo)志著新東方在教育+AI戰(zhàn)略布局中邁出關(guān)鍵一步,旨在以科技力量推動(dòng)優(yōu)質(zhì)教育資源的普惠發(fā)展。在發(fā)布會(huì)現(xiàn)場(chǎng),新東方教育科技集團(tuán)CEO周成剛表示:“AI
大家好,我是白楊SEO,專注SEO十年以上,全網(wǎng)SEO流量實(shí)戰(zhàn)派,AI搜索優(yōu)化研究者。為什么想分享這個(gè)AI工作流及coze扣子這個(gè)?因?yàn)槲覀兏懔髁康娜绻麑W(xué)會(huì)了用AI給我們生產(chǎn)提效將更有助于我們?nèi)カ@客。目前白楊SEO用得并不是很好,分享僅供參考,希望給你一些啟發(fā)。老規(guī)矩,先說下文章大綱如下:1、AI工
近期,“AI新云”(NeoCloud)概念在科技圈和投資圈引發(fā)熱潮。今年3月,被業(yè)內(nèi)稱作“英偉達(dá)親兒子”的AI基礎(chǔ)設(shè)施企業(yè)CoreWeave上市。這家依托英偉達(dá)GPU資源沖擊新云市場(chǎng)的初創(chuàng)公司,上市不到3個(gè)月市值飆升359%,達(dá)881億美元。CoreWeave的“身價(jià)暴漲”吸引了無數(shù)視線。對(duì)此,不少