峰瑞資本陳石:美國頭部大模型陣營基本確立,中國的AI優(yōu)勢在于應(yīng)用
激石Pepperstone(http://whhoupuyun.com/)報(bào)道:
核心觀點(diǎn):
1、在真正有價(jià)值的AI應(yīng)用生態(tài)繁榮之前,押注大模型這樣的核心技術(shù)源頭及“賣鐵鍬”公司是有一定道理的。
2、像OpenAI這類閉源大語言模型,會向接入其端口的APP應(yīng)用收取流量費(fèi)。應(yīng)用公司為了降低流量費(fèi)用的負(fù)擔(dān),一種方法是利用開源模型,自己訓(xùn)練出一個(gè)中小模型,另一種方法是優(yōu)化商業(yè)模式,從而平衡流量費(fèi)用。
3、隨著AI技術(shù)的進(jìn)步,工作方式也會發(fā)生變革。AI技術(shù)既可能重構(gòu)人們的工作流,也可能重構(gòu)語言模型本身的工作流。
4、人類目前發(fā)明出了看起來比自己還聰明的工具。如何用好AI這樣極其智能的工具,對人類來說無疑是巨大的挑戰(zhàn)。但是,我們也不要那么悲觀,AI的能力是有邊界的。
5、在AI技術(shù)領(lǐng)域,美國和中國的發(fā)展路徑各有特色。美國的頭部大語言模型陣營已基本確立,中國的大型語言模型呈現(xiàn)了百花齊放的態(tài)勢。對于中國來說,更重要的是大力發(fā)展AI應(yīng)用生態(tài)。在互聯(lián)網(wǎng)和數(shù)字經(jīng)濟(jì)時(shí)代,中國就是應(yīng)用領(lǐng)域的優(yōu)秀生。
6、AI Agent是個(gè)值得關(guān)注的創(chuàng)業(yè)方向。AI Agent是一種能夠自主執(zhí)行任務(wù)、獨(dú)立決策、主動(dòng)探索、自我迭代并能相互協(xié)作的智能軟件。
7、雖然大語言模型領(lǐng)域已經(jīng)實(shí)現(xiàn)了眾多技術(shù)突破,但仍然有不少可以迭代、提升的板塊,比如減少“幻覺”、增加上下文長度、實(shí)現(xiàn)多模態(tài)、具身智能、進(jìn)行復(fù)雜推理以及自我迭代等等。
8、AI應(yīng)用領(lǐng)域創(chuàng)業(yè)的幾個(gè)要點(diǎn):要做出優(yōu)質(zhì)的原生新應(yīng)用體驗(yàn);更前瞻、發(fā)現(xiàn)非共識、有顛覆性;關(guān)注用戶增長和商業(yè)化潛力;把握宏觀趨勢紅利;跟大模型保持安全距離,有自己的業(yè)務(wù)縱深;最重要的還是團(tuán)隊(duì)。
9、創(chuàng)業(yè)公司要敢于在非共識的領(lǐng)域,做正確而非容易的事。
12月17日,峰瑞資本投資合伙人陳石做客由華爾街見聞主辦的「Alpha投資峰會」,就生成式AI行業(yè)的發(fā)展和投資思考作出分享。
以下是華爾街見聞?wù)淼木A內(nèi)容:
2023年12月,《自然》雜志發(fā)布年度“科學(xué)十大影響人物”榜單,今年有史以來首次有“非人類”入選了——名單中包括了ChatGPT?!蹲匀弧分赋觯骸氨M管ChatGPT并非個(gè)體,也不完全符合評選標(biāo)準(zhǔn),但我們決定破例列入,以承認(rèn)生成式人工智能正在從根本上改變科學(xué)的發(fā)展軌跡。”
在2023年的科技版圖上,生成式AI無疑標(biāo)志著一個(gè)重要的轉(zhuǎn)折點(diǎn)。它的發(fā)展不僅引起了業(yè)界廣泛的關(guān)注,也對全球經(jīng)濟(jì)、社會結(jié)構(gòu)乃至我們對未來的預(yù)期產(chǎn)生了深遠(yuǎn)的影響。
這是每個(gè)普通人都可以參與的AI革新。從大型語言模型的持續(xù)發(fā)展,到AI技術(shù)在不同行業(yè)的廣泛應(yīng)用,再到開源與閉源策略之間的持續(xù)較量,AI的每一步發(fā)展都在描繪著未來趨勢的輪廓。
面對滔滔浪潮,國家先后在《“十四五”國家信息化規(guī)劃》《關(guān)于加快場景創(chuàng)新以人工智能高水平應(yīng)用促進(jìn)經(jīng)濟(jì)高質(zhì)量發(fā)展的指導(dǎo)意見》中出臺了一系列支持AI發(fā)展的政策措施。中國的人工智能產(chǎn)業(yè)規(guī)模也快速壯大,涌現(xiàn)出一批具有國際競爭力的AI企業(yè)。
時(shí)逢年末,我們回顧2023年生成式AI的發(fā)展,從技術(shù)對人類的影響、行業(yè)格局和未來發(fā)展趨勢、創(chuàng)業(yè)和投資機(jī)會等方面展開論述。這不僅是對AI領(lǐng)域過去一年的發(fā)展回顧,更是對AI發(fā)展走向的思考。
01 2023年,AI領(lǐng)域有哪些新變化?
AI發(fā)展至今,從業(yè)界的角度來看,可以分為兩個(gè)階段:1.0階段主要集中于分析和判斷,而2.0階段更側(cè)重于生成。2.0階段的代表模型是大型語言模型和圖像生成模型,Transformer和Diffusion Model這兩個(gè)算法模型推動(dòng)著生成式AI的發(fā)展。
2023年的大部分時(shí)間,OpenAI這家初創(chuàng)公司的產(chǎn)品穩(wěn)居大型語言模型高性能的榜首,特別是在3月OpenAI發(fā)布GPT-4語言模型之后,幾乎是一騎絕塵。但Google在12月成功發(fā)布最新的大型語言模型Gemini,與GPT-4形成雙雄割據(jù)的格局。
在AI領(lǐng)域,開源模型社區(qū)一直沒有缺席。開源模型社區(qū)在Meta(原Facebook)的開源大型語言模型LlaMa及LlaMa2的支持下,進(jìn)行著密集的科研和工程迭代,比如:試圖用更小的模型,釋放出與大模型類似的能力;支持更長的上下文;采用效率更高的算法和框架來訓(xùn)練模型等等。
多模態(tài)(圖像、視頻等多媒體形式)已經(jīng)成為AI領(lǐng)域研究的熱點(diǎn)。多模態(tài)分為輸入和輸出兩個(gè)方面。輸入是指讓語言模型能夠理解圖像和視頻中蘊(yùn)含的信息,輸出是指除文本之外,生成其他媒體形式,比如文生圖??紤]到人類生成和獲取數(shù)據(jù)的能力是有限的,未必可以長期支撐人工智能的訓(xùn)練,未來可能需要用AI自己合成的數(shù)據(jù),來訓(xùn)練語言模型。
在AI基礎(chǔ)設(shè)施領(lǐng)域,英偉達(dá)憑借其GPU的巨大市場需求,成為行業(yè)的領(lǐng)導(dǎo)者,躋身1萬億美元市值俱樂部。但是它也將面臨來自老對手AMD、英特爾等芯片制造商,以及Google、微軟、OpenAI等大廠和語言模型新貴的激烈競爭。
除大模型外,業(yè)界對各種類型的AI應(yīng)用有強(qiáng)烈的需求。生成式AI在圖像、視頻、編程、語音以及智能協(xié)作應(yīng)用等多個(gè)領(lǐng)域取得了顯著進(jìn)展。
全球用戶對生成式AI展現(xiàn)出極大的熱情。ChatGPT在短短2個(gè)月內(nèi),達(dá)到1億月活躍用戶數(shù)。相比智能手機(jī)時(shí)代的超級應(yīng)用們,在大量推廣預(yù)算之下,TikTok用了9個(gè)月,Instagram用了2.5年,WhatsApp用了3.5年,YouTube和Facebook用了4年。
創(chuàng)投機(jī)構(gòu)也在投入重金,支持AI領(lǐng)域的進(jìn)展。根據(jù)美國投資機(jī)構(gòu)COATUE的統(tǒng)計(jì),截止至2023年11月,風(fēng)險(xiǎn)資本投資機(jī)構(gòu)向AI領(lǐng)域投入了近300億美元,其中約60%投向OpenAI等大型語言模型新貴,約20%投向支持和交付這些模型的基礎(chǔ)設(shè)施(AI云服務(wù)、半導(dǎo)體、模型運(yùn)營工具等),約17%投向了AI應(yīng)用公司。
在真正有價(jià)值的AI應(yīng)用生態(tài)繁榮之前,這種押注核心技術(shù)源頭及“賣鐵鍬”公司的投資邏輯是有一定道理的。但目前正在蓬勃發(fā)展中的AI應(yīng)用,同樣是價(jià)值創(chuàng)造的源泉和我們要追求的星辰大海。
多模態(tài)生成領(lǐng)域出現(xiàn)多項(xiàng)技術(shù)突破
2022年,在Stable Diffusion開源之后,我們見證了大量“文生圖”(由文字生成圖像)產(chǎn)品面世。這一年可以被視為圖像生成問題的解決之年。
緊接著在2023年,用AI識別聲音、生產(chǎn)音頻的技術(shù)也取得了顯著進(jìn)展。如今,AI的語音識別和合成技術(shù)已經(jīng)非常成熟,合成聲音與人類聲音很難被區(qū)分。
隨著技術(shù)的持續(xù)發(fā)展,視頻的生成和處理將是下一個(gè)階段AI發(fā)展的重點(diǎn)。目前在“文生視頻”(由文字生成視頻)領(lǐng)域已經(jīng)出現(xiàn)了多項(xiàng)技術(shù)突破,AI在視頻內(nèi)容生成方面展現(xiàn)出了潛力和可能性。借助AI視頻新秀Runway Gen-2、Pika以及斯坦福大學(xué)的W.A.L.T等模型及應(yīng)用,用戶只需輸入對圖像的描述,就能得到一段視頻片段。
英偉達(dá)知名工程師Jim Fan認(rèn)為,2024年,AI大概率要在視頻領(lǐng)域取得進(jìn)展。
如果我們換一種維度,來思考不同形態(tài)的媒體格式,那么一張二維的圖像,如果增加一個(gè)時(shí)間的維度,就變成了視頻。如果增加一個(gè)空間的維度,就變成了3D。如果將3D模型經(jīng)過渲染,我們就能得到更加可精確控制的視頻。可能未來AI也能逐漸攻克3D模型,但還需要更長的時(shí)間。
“壓縮即智能”
2023年,OpenAI的首席科學(xué)家伊利亞·蘇茨克維(Ilya Sutskever)在某次外部分享中,提出一種“壓縮即智能”的觀點(diǎn),即語言模型對文本的壓縮比越高,就說明它的智能程度越高。
壓縮即智能,可能不一定嚴(yán)謹(jǐn),但卻提供了符合人類直覺的解釋:最極致的壓縮算法,為把數(shù)據(jù)壓縮到極致,勢必需要在充分理解的基礎(chǔ)上,抽象出更高層次的意義。
以Llama2-70B這個(gè)Meta研發(fā)的語言模型為例,它是Llama2模型700億參數(shù)版本,是目前最大的開源語言模型之一。
Llama2-70B使用大約10T(10萬億)字節(jié)的文本作為訓(xùn)練數(shù)據(jù),訓(xùn)練出來的模型是一個(gè)140GB大小的文件,壓縮比大約是70倍(10T/140G)。
在日常的工作中,我們通常把大的文本文件壓縮成Zip文件,其壓縮比大約是2倍左右。對比之下,可以想見Llama2的壓縮力度。當(dāng)然Zip文件是無損壓縮,語言模型是有損壓縮,不是一個(gè)標(biāo)準(zhǔn)。
神奇的地方在于,一個(gè)140GB的文件就可以把人類的知識和智能給保存下來。大部分的筆記本電腦都可以裝得下140GB的文件。當(dāng)筆記本電腦的算力和顯存足夠大,只要再加上一個(gè)五百行的C代碼程序,就可以運(yùn)行大語言模型。
02 開源生態(tài)和大語言模型的流量稅
開放研究和開源生態(tài)是推動(dòng)AI發(fā)展的重要力量
開放研究是AI技術(shù)發(fā)展的基礎(chǔ)。全球最頂尖的科學(xué)家和工程師在Arxiv等網(wǎng)站發(fā)表大量論文,分享他們的技術(shù)實(shí)踐。無論是早期的AlexNet卷積神經(jīng)網(wǎng)絡(luò)模型,還是奠定算法基礎(chǔ)的Google的Transformer,抑或是OpenAI、Meta等公司發(fā)表的模型實(shí)踐論文,都是科研和技術(shù)上的重大突破,引領(lǐng)著AI技術(shù)發(fā)展。
開源社區(qū)的發(fā)展和迭代尤其值得關(guān)注。在開源大語言模型的支持下,科研人員和工程師可以自由地探索各種新的算法和訓(xùn)練方法。即使是閉源的大語言模型,也能向開源社區(qū)學(xué)習(xí)和借鑒。
可以說,開源社區(qū)實(shí)現(xiàn)了某種程度上的科技平權(quán),讓全球的人們都能共享AI領(lǐng)域的最新技術(shù)成果。
大型語言模型的“流量稅”
回歸商業(yè)本質(zhì),大型語言模型的訓(xùn)練成本是非常昂貴的。以GPT為例,據(jù)遠(yuǎn)川研究所統(tǒng)計(jì),訓(xùn)練GPT-3用了超過1000萬美金,訓(xùn)練GPT-4用了1億多美金,下一代模型的訓(xùn)練成本可能要達(dá)到10億美金。此外,運(yùn)行這些模型并對外提供服務(wù)的時(shí)候,其算力和能源的消耗也是很昂貴的。
大型語言模型的商業(yè)模式是MaaS(Model As a Service),它輸出智能的計(jì)費(fèi)方法是按照輸入輸出的流量(或稱token,詞元)來收費(fèi)。由于大語言模型昂貴的訓(xùn)練和運(yùn)行成本,它收取的流量費(fèi)大概率會“水漲船高”。
以O(shè)penAI為例,上圖是其官網(wǎng)所展示的部分模型的流量計(jì)費(fèi)方案。有人做過粗略估計(jì),按照AI應(yīng)用調(diào)用GPT-3.5 Turbo流量的中位數(shù)水平,只要有一個(gè)用戶每天使用該應(yīng)用(DAU),用戶背后的APP公司約需要向OpenAI支付0.2元人民幣左右的流量費(fèi)用。以此類推,如果是千萬級別日活的APP應(yīng)用接入了GPT的端口,那么每天要向OpenAI支付200萬人民幣的流量費(fèi)。
國內(nèi)大模型的流量費(fèi)報(bào)價(jià)如上圖所示,跟OpenAI的價(jià)格基本相當(dāng)。部分中小模型會便宜一些,但性能有差距。
流量費(fèi)用會影響到AI應(yīng)用如何設(shè)計(jì)商業(yè)模式。為了降低流量費(fèi)用負(fù)擔(dān),有些創(chuàng)業(yè)公司會考慮利用開源生態(tài)的能力,自己做一個(gè)中小模型,去承接大部分的用戶需求。如果碰到超出中小模型能力范圍的用戶需求,再調(diào)用大型語言模型。
這類中小模型,可能會被直接部署在離用戶最近的終端側(cè),成為“端側(cè)模型”。端側(cè)模型很考驗(yàn)硬件的集成水平,未來我們的電腦和手機(jī)上,可能會更廣泛地集成GPU之類的硬件芯片,具備在終端側(cè)運(yùn)行小模型的能力。Google、微軟已經(jīng)推出可以在終端側(cè)運(yùn)行的小模型。Nano是Google發(fā)布的Gemini大模型中最小的一款,專門為在移動(dòng)設(shè)備上運(yùn)行而設(shè)計(jì)的,無需聯(lián)網(wǎng),可以直接在設(shè)備上本地和離線運(yùn)行。
03 AI如何影響了人類社會?
每一次技術(shù)革命,都會帶來新的效率工具
人類歷史上有幾次大的技術(shù)革命。1760年左右興起的第一次工業(yè)革命,產(chǎn)生了機(jī)械設(shè)備;1860年之后的第二次工業(yè)革命,產(chǎn)生了電子設(shè)備;1970年之后,我們又經(jīng)歷了計(jì)算機(jī)軟件、PC互聯(lián)網(wǎng)和智能手機(jī)這三次技術(shù)革新,有人統(tǒng)稱其為第三次工業(yè)革命即信息革命。
2023年開始的生成式AI革命,或許可以被稱為第四次工業(yè)革命,我們創(chuàng)造了新的智能。生成式AI是人類認(rèn)知和改造世界的新工具,已經(jīng)成為新的抽象工具層。
根據(jù)歷史經(jīng)驗(yàn),每一次技術(shù)革命都會極大提升人類生產(chǎn)效率。第一次和第二次工業(yè)革命后,自然世界形成了兩個(gè)抽象工具層,即機(jī)械和電子設(shè)備層。20世紀(jì)70年代,以計(jì)算機(jī)為代表的信息技術(shù)革命引入了新的抽象層——軟件。通過軟件,人們開始以更高效的方式理解、改造世界,并與之互動(dòng)。隨后,PC互聯(lián)網(wǎng)和智能手機(jī)崛起,進(jìn)一步推動(dòng)了軟件技術(shù)的發(fā)展。
AI如何影響人們的工作?
除了關(guān)注AI帶來的效率提升,我們還要關(guān)注機(jī)器如何替代了人類的工作。據(jù)統(tǒng)計(jì),英國第一次工業(yè)革命之前,農(nóng)業(yè)人口占比約為75%,而工業(yè)革命之后降至16%。美國信息革命之后,工業(yè)人口從38%降至8.5%,當(dāng)時(shí)那些工業(yè)人口大多轉(zhuǎn)變成白領(lǐng)人口。而這次AI的智能革命,首當(dāng)其沖的正是白領(lǐng)人群。
隨著AI技術(shù)的進(jìn)步,商業(yè)社會中的組織形式和協(xié)作方式可能會發(fā)生一系列變化。
首先是,公司可能往小型化發(fā)展。商業(yè)外包可能會變得非常普遍。比如,公司可以把研發(fā)、營銷等板塊外包出去。
其次是工作流的重構(gòu),也就是標(biāo)準(zhǔn)操作程序(SOP)可能會發(fā)生變化。每個(gè)人的能力和精力有所不同,因此,工作流能夠讓人們提高效率,各司其職。研究人員正在探索在AI可能替代某些職能的情況下,人們的工作流該如何調(diào)整。當(dāng)前的語言模型也存在可以提升效率、增強(qiáng)能力的地方,語言模型可能也需要借助工作流的編排,進(jìn)行協(xié)作。
除了技術(shù)技能之外,提高其他能力也變得至關(guān)重要。例如,提升鑒賞力和品味,才能讓AI輔助你生成更好的方案或者作品。再比如,增強(qiáng)批判性思維,能幫助你更好地判斷、鑒別AI生成的內(nèi)容。
我們要更積極地利用AI,把它當(dāng)作工作和生活中的輔助工具,或者說副駕駛,充分利用其潛力和優(yōu)勢。
AI的能力是有邊界的
在AI發(fā)展迅猛的當(dāng)下,不少人提出了AI威脅論,擔(dān)心AI對人類造成的負(fù)面影響。確實(shí),人類目前發(fā)明出了看起來比自己還聰明的工具。如何控制好AI這樣的“硅基生物”,對人類來說無疑是巨大的挑戰(zhàn)??茖W(xué)家們正在嘗試解決這個(gè)問題,OpenAI也曾發(fā)表探討類似問題的論文。
但是,我們也不要那么悲觀,至少目前人類社會的數(shù)字化程度,可以限制AI的能力邊界。
如今的大語言模型主要是用大量文本數(shù)據(jù)訓(xùn)練出來的。文本的數(shù)字化程度很高,又經(jīng)過人類的抽象,信息密度大,所以AI訓(xùn)練的效果很好。
但是離開了文本空間,AI的智能會受到諸多限制,因?yàn)樗鼪]有經(jīng)過相應(yīng)的數(shù)據(jù)訓(xùn)練。所以我們暫時(shí)不用太擔(dān)心,AI并沒有那么厲害和全面。我們有充足的時(shí)間去熟悉和適應(yīng)它,找到跟硅基生物友好相處的方法。
04 展望2024,大語言模型與AI應(yīng)用會如何發(fā)展?
頭部大語言模型陣營
在全球范圍內(nèi),大型語言模型呈現(xiàn)出顯著的區(qū)域化發(fā)展特征。比如,美國和中國的發(fā)展路徑各有特色。美國的頭部大語言模型陣營已基本確立,主要集中在幾家大型科技公司,或者它們跟幾家頭部模型創(chuàng)業(yè)公司的聯(lián)合體??梢哉f,美國的AI領(lǐng)域已進(jìn)入高成本的軍備競賽階段,新的參與者比較難入局。
而中國的大型語言模型則呈現(xiàn)了百花齊放的態(tài)勢,目前有百余個(gè)項(xiàng)目聲稱正在開發(fā)大型模型。中國可能更依賴于開源生態(tài),二次開發(fā)出新的語言模型。
目前,除美國以外的其他國家,都還沒有開發(fā)出與GPT-4相當(dāng)?shù)拇笮驼Z言模型。在大模型技術(shù)領(lǐng)域,中國和美國仍然存在差距。
但全球在AI領(lǐng)域的較量還未到終局。對于中國來說,最重要的是大力發(fā)展AI應(yīng)用生態(tài)。在互聯(lián)網(wǎng)和數(shù)字經(jīng)濟(jì)時(shí)代,中國就是應(yīng)用領(lǐng)域的優(yōu)秀生,也向海外輸出了相關(guān)的應(yīng)用實(shí)踐。在緊跟大模型最新技術(shù)的前提下,等應(yīng)用生態(tài)繁榮起來之后,我們再反向去做技術(shù)突破,可能是一種解決思路。
大語言模型會如何發(fā)展?
雖然大語言模型領(lǐng)域已經(jīng)實(shí)現(xiàn)了眾多技術(shù)突破,但仍然有不少可以迭代、提升的板塊,比如減少“幻覺”、增加上下文長度、實(shí)現(xiàn)多模態(tài)、具身智能、進(jìn)行復(fù)雜推理以及自我迭代。
首先,我們來討論“幻覺”現(xiàn)象。幻覺可以理解為一種錯(cuò)誤的輸出,Meta將其定義為“自信的假話”?;糜X的產(chǎn)生最常見的原因是語言模型采集的知識或數(shù)據(jù)的密度不夠。不過,幻覺也可以被視為創(chuàng)造力的體現(xiàn),就像詩人在酒后能寫出美妙的詩篇,AI的幻覺可能也會給我們帶來奇妙的內(nèi)容。
減少幻覺的方法有很多種,比如使用更高質(zhì)量的語料庫進(jìn)行訓(xùn)練;通過微調(diào)和強(qiáng)化學(xué)習(xí)來提高模型的準(zhǔn)確性和適應(yīng)性;在模型的提示詞中加入更多背景信息,讓模型基于這些信息更準(zhǔn)確地理解和回應(yīng)問題。
第二,增加上下文長度。上下文長度相當(dāng)于語言模型的腦容量,現(xiàn)在通常是32K,最高的是128K,也就是不到10萬字或者英文單詞。如果想讓語言模型理解復(fù)雜的語言文本、處理復(fù)雜的任務(wù),這個(gè)長度還遠(yuǎn)遠(yuǎn)不夠。下一代的模型大概率會努力擴(kuò)大上下文長度,以提高處理復(fù)雜任務(wù)的能力。
第三是多模態(tài)。人類主要依靠視覺來獲取信息,而當(dāng)前語言模型主要依靠文本數(shù)據(jù)來做訓(xùn)練。視覺數(shù)據(jù)能夠幫助語言模型更好地認(rèn)知物理世界。在2023年,視覺數(shù)據(jù)被規(guī)?;丶尤氲侥P偷挠?xùn)練過程中。比如,GPT-4引入了多模態(tài)數(shù)據(jù),Google的Gemini模型據(jù)說也使用了大量的圖像和視頻數(shù)據(jù)。從Gemini演示視頻的表現(xiàn)來看,它的多模態(tài)交互似乎有明顯提升,但復(fù)雜推理等智力的提升還沒看出來。
第四是具身智能,是指一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng),能夠從環(huán)境中獲取信息、理解問題、做出決策并行動(dòng)。這個(gè)概念并沒有那么復(fù)雜,地球上所有的生物,都可以說是具身智能。比如人形機(jī)器人,也被認(rèn)為是具身智能的一種形式。具身智能相當(dāng)于給AI延展出了能活動(dòng)的“手腳”。
第五是復(fù)雜推理。通常,GPT會一次性地給出回答,沒有太明顯地多步推理或回退迭代。而人類在思考復(fù)雜問題的時(shí)候,會在紙上列出一些步驟,反復(fù)推演和計(jì)算。研究人員想了一些方法,比如借助思維樹等思考模型,試圖讓GPT學(xué)會復(fù)雜的多步驟推理。
最后是自我迭代。現(xiàn)在的語言模型主要還是依靠人給它設(shè)計(jì)算法,提供算力,給它喂數(shù)據(jù)。暢想未來,語言模型能夠?qū)崿F(xiàn)自我迭代嗎?這可能要依賴于新的模型訓(xùn)練和微調(diào)方法,例如強(qiáng)化學(xué)習(xí)等。據(jù)說OpenAI正在嘗試一種代號為“Q*”的訓(xùn)練方法,研究如何讓AI自我迭代,但具體進(jìn)展尚未知曉。
大模型還處在高速發(fā)展期,還有很大的提升空間。除了以上列舉的幾點(diǎn)之外,還有很多待解決和提升之處,比如可解釋性、提升安全性、輸出的內(nèi)容更符合人類的價(jià)值觀等等。
未來的應(yīng)用軟件——AI Agent
2023年9月,紅杉美歐(Sequoia Capital)官網(wǎng)發(fā)布了《Generative AI’s Act Two》的文章,提到生成式AI已進(jìn)入第二個(gè)階段。第一個(gè)階段主要集中在語言模型及周邊簡單應(yīng)用的開發(fā),第二個(gè)階段的焦點(diǎn)則轉(zhuǎn)向研發(fā)真正解決客戶需求的智能新應(yīng)用。
未來的應(yīng)用軟件,可能會逐漸轉(zhuǎn)向AI Agent——一種能夠自主執(zhí)行任務(wù)、獨(dú)立決策、主動(dòng)探索、自我迭代并能相互協(xié)作的智能軟件?,F(xiàn)有的傳統(tǒng)軟件可能需要進(jìn)行相應(yīng)的調(diào)整和改進(jìn)。和傳統(tǒng)的1.0版本軟件相比,AI Agent能夠提供更接近真實(shí)的、高質(zhì)量的一對一服務(wù)體驗(yàn)。
但發(fā)展AI Agent的難點(diǎn)在于,語言模型目前還太不成熟和穩(wěn)定。如果要做出好的應(yīng)用體驗(yàn),需要在語言模型基礎(chǔ)上,加上一些小模型、一些規(guī)則算法,甚至在某些關(guān)鍵環(huán)節(jié)加入人工服務(wù),從而在垂類的場景或者具體行業(yè)中輸出穩(wěn)定的體驗(yàn)。
多Agent協(xié)作已經(jīng)成為熱門的研究方向。在標(biāo)準(zhǔn)操作程序的基礎(chǔ)上,相互協(xié)作的多個(gè)AI Agent,能夠產(chǎn)生比單獨(dú)調(diào)用語言模型更優(yōu)的效果。這里有個(gè)比較符合直覺的解釋,每個(gè)Agent可能各有優(yōu)缺點(diǎn)和專攻方向,跟人類的分工是一樣的,大家組合到一起,通過新的標(biāo)準(zhǔn)操作程序(SOP)各司其職、互相啟發(fā)和監(jiān)督協(xié)作。
05 創(chuàng)業(yè)和投資機(jī)會
在非共識的領(lǐng)域,做正確而非容易的事
在一個(gè)新的時(shí)代,作為創(chuàng)業(yè)公司,需要認(rèn)真思考,基于這次技術(shù)革新,有哪些原生新模式的創(chuàng)業(yè)機(jī)會。同時(shí)還要考慮,哪些是新進(jìn)入者的機(jī)會,哪些是現(xiàn)有行業(yè)領(lǐng)先者的機(jī)會。
我們可以回看PC互聯(lián)網(wǎng)和智能手機(jī)兩次技術(shù)變革,如何產(chǎn)生出了新的機(jī)會。
PC互聯(lián)網(wǎng)時(shí)代,提供的主要能力是連接,即全球的PC、服務(wù)器和一些其他設(shè)備實(shí)現(xiàn)了聯(lián)網(wǎng)。PC時(shí)代產(chǎn)出的原生新模式包括:搜索、電商和社交通信等,誕生了BAT等各行各業(yè)的領(lǐng)先企業(yè)。
智能手機(jī)時(shí)代,提供的主要能力是大部分人都擁有一臺手機(jī),具備移動(dòng)互聯(lián)、GPS、攝像頭等功能。這個(gè)基礎(chǔ)條件讓共享經(jīng)濟(jì)、即時(shí)通訊、短視頻分享、移動(dòng)金融支付等新模式成為可能。前一時(shí)代的行業(yè)領(lǐng)先企業(yè)是有很強(qiáng)先發(fā)優(yōu)勢的,搶占了不少新模式的機(jī)會,例如:騰訊和阿里分別做出了微信和支付寶。但是我們也看到美團(tuán)、抖音和滴滴等一些新勢力,獲得了巨大成功。它們?yōu)槭裁纯梢宰龅剑?/p>
我認(rèn)為其成功的關(guān)鍵詞是,在非共識的領(lǐng)域,做正確而非容易的事情。
以美團(tuán)和抖音為例。美團(tuán)選擇的原生新模式叫“餐飲外賣”,屬于“共享經(jīng)濟(jì)”中的“O2O(線上到線下)”部分,左邊大量的餐飲店面,右邊是眾多各式各樣的消費(fèi)者,中間是成千上萬的騎手,是“重模式”,但早期互聯(lián)網(wǎng)大廠更喜歡和擅長做“輕模式”,切入餐飲行業(yè)是“非共識”。外賣的履約服務(wù)鏈條太長、難以數(shù)字化,很難進(jìn)行精細(xì)化運(yùn)營。但最后美團(tuán)把它做成了,這些難的事情成為其最大的核心優(yōu)勢和競爭壁壘。
再看抖音,它選擇的原生新模式叫“短視頻分享”,屬于當(dāng)時(shí)流行的“創(chuàng)作者經(jīng)濟(jì)”的一部分。抖音最大的“反 共識”是:它把視頻創(chuàng)作者經(jīng)濟(jì)跟萬億體量的電商GMV之間的橋梁打通了,形成規(guī)模化、有效率的轉(zhuǎn)化。
在電商直播崛起之前,有兩類直播,一種叫游戲直播,另一種叫網(wǎng)紅直播,變現(xiàn)主要靠觀眾打賞。這類變現(xiàn)模式的經(jīng)濟(jì)體量非常小,容納不了那么多優(yōu)秀的創(chuàng)作者。但抖音通過推薦算法、發(fā)展創(chuàng)作者生態(tài)和商家生態(tài)、建立抖音小店閉環(huán)、優(yōu)化內(nèi)容電商轉(zhuǎn)化等各種努力,把內(nèi)容往電商轉(zhuǎn)化這個(gè)巨大的商業(yè)閉環(huán)給做通了。做通之后,抖音就可以邀請全國最多最優(yōu)秀的創(chuàng)作者來抖音平臺創(chuàng)作內(nèi)容,并報(bào)之以巨大的電商銷售收入作為獎(jiǎng)賞。
所以,抖音的海外版TikTok出海后,很多當(dāng)?shù)氐亩桃曨l和直播平臺都打不過它。因?yàn)門iktok并不僅僅是一個(gè)左邊創(chuàng)作者右邊消費(fèi)用戶的視頻內(nèi)容平臺,它更是一個(gè)新型的創(chuàng)作者經(jīng)濟(jì)和海量電商GMV轉(zhuǎn)化的結(jié)合體,是新物種,具備復(fù)合型競爭優(yōu)勢。
總結(jié)來說,創(chuàng)業(yè)公司要敢于選擇和進(jìn)入非共識的領(lǐng)域,在艱難的環(huán)境下,努力把事做成。
創(chuàng)業(yè)方向和要點(diǎn)
從創(chuàng)業(yè)的方向來說,大模型領(lǐng)域巨頭林立,大概率不會是創(chuàng)業(yè)者的首選方向。而在大模型和應(yīng)用之間有個(gè)“中間層”,大部分是基礎(chǔ)設(shè)施、應(yīng)用框架、模型服務(wù)等,這個(gè)部分容易受到模型和應(yīng)用的雙向擠壓,部分領(lǐng)域巨頭林立,創(chuàng)業(yè)空間不大。
綜上所述,我們傾向于認(rèn)為,結(jié)合目前的技術(shù)和商業(yè)環(huán)境,我們應(yīng)該大力發(fā)展AI應(yīng)用生態(tài)。
上圖是我們投資的生成式AI相關(guān)的創(chuàng)業(yè)公司,包括:為語言模型設(shè)計(jì)的新型DevOps平臺、社交游戲平臺、智能陪伴服務(wù)、AI輔助RNA藥物開發(fā)、門店自動(dòng)化營銷、服務(wù)全球的智能商業(yè)視頻SaaS、新型線上心理咨詢平臺和中美工程師遠(yuǎn)程雇傭工作平臺等等。
我們總結(jié)了AI應(yīng)用領(lǐng)域創(chuàng)業(yè)的幾個(gè)要點(diǎn):
第一,要做出優(yōu)質(zhì)的原生新應(yīng)用。要抓住AI智能時(shí)代提供的新能力,即智能供給和藝術(shù)創(chuàng)作力供給,做出優(yōu)質(zhì)獨(dú)特的原生新應(yīng)用體驗(yàn),這個(gè)難度其實(shí)不小。我們在上文曾提到,語言模型的智能等還不夠成熟穩(wěn)定,存在明顯的能力邊界。創(chuàng)業(yè)公司可能需要選擇相對垂直細(xì)分的場景,采用各種技術(shù)和運(yùn)營手段,做出良好體驗(yàn)。
第二,非共識、更前瞻、有顛覆性。非共識指的是在賽道選擇上不要隨大流,敢于進(jìn)入艱難的領(lǐng)域,“做正確而非容易”的事情。更前瞻是指選擇有挑戰(zhàn)的業(yè)務(wù)和技術(shù)路線。
例如,采用當(dāng)下還在發(fā)展、更先進(jìn)的技術(shù)架構(gòu),例如:創(chuàng)業(yè)者要優(yōu)先做Agent而不是CoPilot,CoPilot們更像是行業(yè)領(lǐng)先者的機(jī)會(想想微軟和Github)。再比如,創(chuàng)業(yè)團(tuán)隊(duì)可以考慮提前按照下一代語言模型的能力(如GPT-5),去構(gòu)思和設(shè)計(jì)應(yīng)用。
顛覆性是指最好對所切入的行業(yè)產(chǎn)生顛覆效果,例如:顛覆性的產(chǎn)品體驗(yàn)、顛覆原有的商業(yè)模式等等。這類顛覆性的好處是有可能跑在行業(yè)領(lǐng)先者前面。比如峰瑞投資的Babel(巴別科技),抓住尚未成熟的“Serverless”、大語言模型等技術(shù)發(fā)展趨勢,致力于重構(gòu)軟件開發(fā)的生產(chǎn)工具和生產(chǎn)要素,讓AI來做編程、調(diào)試、部署和運(yùn)維等工作。
第三,關(guān)注用戶增長和商業(yè)化潛力。用戶增長潛力很重要,大家容易理解,即便你從一個(gè)細(xì)分市場切入,未來也可以做成大的規(guī)模。
我們早期為什么要關(guān)注商業(yè)化呢?
這要回到我們在上文提到的大模型的流量稅。如果你選擇接入大模型,從創(chuàng)業(yè)的第一天開始,你就要給大模型支付流量稅。
面向個(gè)人用戶的應(yīng)用,當(dāng)前規(guī)模商業(yè)化的途徑通常有三種:前向收費(fèi)(如游戲、增值服務(wù)等)、廣告以及電商。只有極少數(shù)應(yīng)用有可能把電商做起來(例如淘寶、抖音等)。新應(yīng)用直接向用戶收費(fèi)很難,大多數(shù)創(chuàng)業(yè)者會有畏懼心理,會考慮選擇比較間接的方式,希望做大用戶規(guī)模后在應(yīng)用里做廣告來商業(yè)化。
從智能手機(jī)時(shí)代的情況來看,除了電商應(yīng)用之外,中國最頭部的幾個(gè)泛資訊類APP估計(jì)每天能夠在單個(gè)活躍用戶上賺到的廣告收入大約在0.1元到0.3元之間,這已經(jīng)是廣告商業(yè)化的極致水平。而一般規(guī)模的APP,可能還遠(yuǎn)遠(yuǎn)達(dá)不到0.1元。
我們在前面講過語言模型的“流量稅”,每個(gè)用戶每天的成本約0.2元,廣告收入通常很難覆蓋得住這樣的成本。用戶規(guī)模越大,虧損反而越嚴(yán)重,除非你通過前面提到的端側(cè)模型等手段把“流量稅”降下來。
因此,AI應(yīng)用在商業(yè)模式設(shè)計(jì)上可能需要優(yōu)先考慮前向收費(fèi)。當(dāng)然,在新的AI智能時(shí)代,說不定我們的創(chuàng)業(yè)者可以找到除上述三種規(guī)模商業(yè)化之外的其他商業(yè)化途徑,讓我們拭目以待。
第四,把握宏觀趨勢紅利。要預(yù)判和抓住中國的宏觀趨勢紅利,比如商品出海、視頻電商、工程師紅利等等。我們要努力抓住屬于時(shí)代的β。
峰瑞投資的創(chuàng)業(yè)公司特看科技,也在抓住中國商品出海、新型視頻電商等新趨勢的機(jī)會,立志通過產(chǎn)品創(chuàng)新技術(shù)打造世界級的商業(yè)視頻SaaS平臺,賦能海外視頻創(chuàng)業(yè)者和商家。
第五,跟大模型保持安全距離,有自己的業(yè)務(wù)縱深。安全距離大家應(yīng)該有所耳聞,知名的海外反例有不少,比如一些生成文案的商業(yè)應(yīng)用公司,雖然實(shí)現(xiàn)了“曇花一現(xiàn)”式的快速增長,終究難以逃脫大模型和其他創(chuàng)業(yè)公司的雙向沖擊。此外,創(chuàng)業(yè)項(xiàng)目的業(yè)務(wù)縱深也很重要,這個(gè)業(yè)務(wù)縱深是指大模型夠不著的地方,特別是一些難以數(shù)字化或者數(shù)字化不充分的場景。
當(dāng)然,最重要的還是團(tuán)隊(duì),技術(shù)要好,團(tuán)隊(duì)成員也要懂行業(yè)和場景,所謂“技術(shù)為先,場景為重”。?????????
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請注明出處。