隨著國(guó)內(nèi)外硬件廠商、云廠商的百花齊放,AI算力成為最容易實(shí)現(xiàn)的要素;AI算法也有相對(duì)成熟的經(jīng)典算法、調(diào)優(yōu)手段,況且還有眾多的AI基礎(chǔ)軟件提供堅(jiān)實(shí)保障。
而大模型之所以“大”,更多的與數(shù)據(jù)相關(guān)。數(shù)據(jù)量越大、數(shù)據(jù)質(zhì)量越高,大模型的效果就越好。PC互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等產(chǎn)生了海量的數(shù)據(jù),而文字、圖片、視頻等多模態(tài)的形式,則進(jìn)一步加大了數(shù)據(jù)的復(fù)雜度。如何有效地解決數(shù)據(jù)存儲(chǔ)、計(jì)算和流通,使之為大模型進(jìn)化提供可靠的學(xué)習(xí)源,成為大模型發(fā)展的當(dāng)務(wù)之急。
2023年6月30日,AI基礎(chǔ)軟件提供商九章云極DataCanvas在北京召開(kāi)新品發(fā)布會(huì),發(fā)布人工智能應(yīng)用構(gòu)建基礎(chǔ)設(shè)施平臺(tái)AIFS的同時(shí),面向全球首提數(shù)據(jù)“向量海”(Vector Ocean),并推出暢游于“向量海”的基于大模型的新一代數(shù)據(jù)架構(gòu)工具產(chǎn)品DataPilot數(shù)據(jù)領(lǐng)航員。

九章云極DataCanvas產(chǎn)品戰(zhàn)略地圖
向量海,數(shù)據(jù)發(fā)展的終極形態(tài)
一直以來(lái),AI和數(shù)據(jù)關(guān)系密切。以往更多的是數(shù)據(jù)對(duì)AI的單向輸出,通常被認(rèn)為是AI的原料、基礎(chǔ)要素,而大模型的出現(xiàn),讓數(shù)據(jù)得到了AI的反向賦能。
當(dāng)AI能力躍升而與數(shù)據(jù)實(shí)現(xiàn)“雙向奔赴”時(shí),數(shù)據(jù)的未來(lái)在哪里?DataPilot給出的答案是——“向量海”。
向量,一個(gè)數(shù)學(xué)名詞,是指具有大小和方向的量。在二維空間中,向量通常由兩個(gè)數(shù)值組成,表示在水平和豎直方向上的大小。在三維空間中,向量通常由三個(gè)數(shù)值組成,表示在三個(gè)方向上的大小。
在計(jì)算機(jī)科學(xué)中,向量是一種常用的數(shù)據(jù)結(jié)構(gòu),也被稱為數(shù)組或列表。每個(gè)向量都包含多個(gè)元素,每個(gè)元素都有一個(gè)索引,可用于訪問(wèn)或修改其對(duì)應(yīng)的值。
在機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)中,向量通常表示為一組數(shù)字,它們構(gòu)成了一個(gè)多維的數(shù)值空間。向量的每個(gè)維度代表該空間的一個(gè)不同的特征或?qū)傩裕鐖D像中不同像素點(diǎn)的顏色值、文本中每個(gè)詞的出現(xiàn)頻率等。通過(guò)對(duì)向量進(jìn)行數(shù)學(xué)運(yùn)算,可以實(shí)現(xiàn)各種機(jī)器學(xué)習(xí)算法和數(shù)據(jù)分析技術(shù),例如聚類、分類、回歸等。
“向量海”的提出,是九章云極DataCanvas基于多年來(lái)在數(shù)據(jù)庫(kù)領(lǐng)域的研究和實(shí)踐,結(jié)合向量數(shù)據(jù)的發(fā)展方向,創(chuàng)造性提出的數(shù)據(jù)發(fā)展的終極形態(tài)。
DataPilot,大模型駛?cè)胂蛄亢5臄?shù)據(jù)領(lǐng)航員
作為向量海和大模型之間需要一座橋梁,九章云極DataCanvas此次提出的DataPilot便是這樣的角色,為向量數(shù)據(jù)在大模型中的應(yīng)用建立鏈接和指明方向。
作為一種數(shù)據(jù)處理新范式、基于大模型的新一代數(shù)據(jù)架構(gòu)工具產(chǎn)品,DataPilot通過(guò)充分利用DataCanvas Alaya九章元識(shí)大模型的通用文本的理解和生成能力以及在數(shù)據(jù)領(lǐng)域的微調(diào)優(yōu)化,幫助用戶實(shí)現(xiàn)數(shù)據(jù)在建模全生命周期的智能化與自動(dòng)化。
據(jù)九章云極DataCanvas公司副總裁周曉凌介紹,DataPilot的特性包括多模“向量海”數(shù)據(jù)架構(gòu),按需自動(dòng)化數(shù)據(jù)集成、代碼生成、流程編排和分析計(jì)算,以及基于自然語(yǔ)言的數(shù)據(jù)獲取、分析和機(jī)器學(xué)習(xí)建模能力。DataPilot能夠大幅降低數(shù)據(jù)集成、治理、建模、計(jì)算、查詢、分析、機(jī)器學(xué)習(xí)建模全鏈路的技術(shù)門檻,降低數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)發(fā)展的成本,加快數(shù)字化創(chuàng)新的進(jìn)程。
正是基于“向量海”理念,DataPilot所包含的DataCanvas RT實(shí)時(shí)決策中心平臺(tái)、開(kāi)源DingoDB多模向量數(shù)據(jù)庫(kù)等各類數(shù)據(jù)軟件,讓用戶具備AI技術(shù)突破情況下亟需的實(shí)時(shí)、多模態(tài)的數(shù)據(jù)能力。
其中,DingoDB作為一款開(kāi)源的多模態(tài)向量數(shù)據(jù)庫(kù),將是向量海時(shí)代的強(qiáng)大引擎。它結(jié)合了數(shù)據(jù)湖和向量數(shù)據(jù)庫(kù)的特性,支持存儲(chǔ)任何類型(鍵值、PDF、音頻、視頻等)和任何大小的數(shù)據(jù)。通過(guò)DingoDB,用戶可以構(gòu)建專屬的數(shù)據(jù)“向量海”,不論是結(jié)構(gòu)化還是非結(jié)構(gòu)化數(shù)據(jù),僅通過(guò)1套SQL即可完成多模態(tài)數(shù)據(jù)的分析與科學(xué)計(jì)算。
向量數(shù)據(jù)庫(kù),未來(lái)已來(lái)
去年以來(lái),隨著生成式AI及大模型的爆火,向量數(shù)據(jù)庫(kù)站上風(fēng)口浪尖。
作為一種專門用于存儲(chǔ)、索引和查詢嵌入向量的數(shù)據(jù)庫(kù)系統(tǒng),向量數(shù)據(jù)庫(kù)可以讓大模型更高效地存儲(chǔ)和讀取知識(shí)庫(kù),并且以更低的成本進(jìn)行 Fine Tune(模型微調(diào))。同時(shí),向量數(shù)據(jù)庫(kù)還自帶多模態(tài)功能,可以大幅度拓展大模型的時(shí)間邊界和空間邊界。這些都注定向量數(shù)據(jù)庫(kù)成為了大模型的數(shù)據(jù)好伴侶。
向量數(shù)據(jù)庫(kù)市場(chǎng)空間巨大,目前尚處于從 0-1 階段。去年以來(lái),國(guó)內(nèi)外多個(gè)向量數(shù)據(jù)庫(kù)產(chǎn)品均獲得了可觀的融資。據(jù)東北證券預(yù)測(cè),到 2030 年,全球向量數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模有望達(dá)到 500 億美元,國(guó)內(nèi)向量數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模有望超過(guò)600億元人民幣。
“數(shù)據(jù)的有效存儲(chǔ)、計(jì)算和流通仍然具有廣闊的發(fā)揮空間,在現(xiàn)實(shí)世界中,行業(yè)、企業(yè)、專業(yè)之間存在眾多獨(dú)立的數(shù)據(jù)領(lǐng)地,龐大的數(shù)據(jù)量和貫通數(shù)據(jù)領(lǐng)地的難度預(yù)示著通用大模型的落地難度。”九章云極DataCanvas公司董事長(zhǎng)方磊表示。
DataPilot攜向量海、向量數(shù)據(jù)庫(kù)DingoDB的出現(xiàn),正是為了解決大模型的新一代數(shù)據(jù)難題而生。面向未來(lái),DataPilot有望在大模型發(fā)展中留下濃墨重彩的一筆。
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: