近日,國內(nèi)領(lǐng)先的人工智能、大數(shù)據(jù)和數(shù)據(jù)安全產(chǎn)品及服務(wù)提供商拓爾思信息技術(shù)股份有限公司在京發(fā)布了拓天大模型,并面向媒體、金融、政務(wù)領(lǐng)域,推出了三大行業(yè)大模型。據(jù)悉,拓天大模型是拓爾思基于在NLP領(lǐng)域30年技術(shù)創(chuàng)新成果、10余年高質(zhì)量數(shù)據(jù)和知識資產(chǎn)積累,以及在垂直行業(yè)10000多家企業(yè)級用戶應(yīng)用實踐而推出的。
拓天大模型四大創(chuàng)新點
拓天大模型擁有內(nèi)容生成、多輪對話、語義理解、跨模態(tài)交互、知識型搜索、邏輯推理、安全合規(guī)、數(shù)學計算、編程能力和插件擴展十大基礎(chǔ)能力,具有中文特性增強的可控生成技術(shù)、融合搜索引擎的生成結(jié)果可信核查、融合稠密向量的跨模態(tài)能力加強以及支持外界知識及時更新四大創(chuàng)新點。
大模型的技術(shù)突破為人類的技術(shù)視野掀開了全新AI宇宙的一角,讓人類可以暢想萬花筒般的未來。拓爾思總裁施水才在之前的成果發(fā)布會上,就從AI科技企業(yè)角度闡述了獨到的大模型世界觀。
總裁施水才
施水才表示,大模型的運營基于算力、數(shù)據(jù)和基礎(chǔ)軟件三大要素,在現(xiàn)實世界中,行業(yè)、企業(yè)、專業(yè)之間存在眾多獨立的數(shù)據(jù)領(lǐng)地,龐大的數(shù)據(jù)量和貫通數(shù)據(jù)領(lǐng)地的難度預(yù)示著通用大模型的落地難度。大模型的落地應(yīng)用會更早、更多地體現(xiàn)在行業(yè)、企業(yè)等垂類大模型,同樣垂類大模型的數(shù)量也會大大超過通用大模型。
通用大模型在專業(yè)領(lǐng)域落地存在巨大的挑戰(zhàn),包括質(zhì)量、時效、可控、成本等。同時每一個領(lǐng)域都有專業(yè)或私域的知識體系,擁有極為龐雜的知識量,僅靠通用大模型無法滿足垂直領(lǐng)域的需求。
和通用大模型相比,拓爾思拓天大模型基于多年自主研發(fā)成果,在自主可控、中文特性加強、專業(yè)知識加強、實時數(shù)據(jù)接入、內(nèi)容安全和價值觀對齊、客戶私有化部署等方面具有領(lǐng)先優(yōu)勢,并與業(yè)務(wù)場景深度融合,為用戶帶來生產(chǎn)力變革。
在談到如何不斷迭代“拓天大模型”的質(zhì)量,以應(yīng)對市場需求時,施水才表示,拓爾思本身就擁有自研的搜索引擎技術(shù),配合專業(yè)領(lǐng)域?qū)崟r數(shù)據(jù),以及自主研發(fā)和開源相結(jié)合的大模型算法,通過對媒體、金融、政務(wù)等垂直領(lǐng)域數(shù)據(jù)集進行清洗與處理,進行專業(yè)預(yù)訓練增強,實現(xiàn)專業(yè)能力的提升。
目前,拓爾思擁有千億級“全、準、新”的無監(jiān)督訓練數(shù)據(jù)和微調(diào)優(yōu)化知識數(shù)據(jù),可針對優(yōu)勢行業(yè)訓練出高質(zhì)量的行業(yè)大模型,為媒體行業(yè)內(nèi)容生產(chǎn)與搜索推薦、金融行業(yè)的智能風控與投研、政府的政策分析與公文輔助寫作等垂直領(lǐng)域提供深度賦能,滿足行業(yè)用戶的專業(yè)化智能創(chuàng)新需求。
同時,拓天大模型通過剪枝、量化、稀疏、蒸餾等部署優(yōu)化方案,可有效降低大模型對算力資源的要求。拓天推出的垂類大模型參數(shù)在百億級,當前市場主流推理卡單卡就可以滿足運行要求,實現(xiàn)模型輕量化部署。
對于拓爾思在大模型領(lǐng)域未來發(fā)展,施水才認為,語言大模型是大模型的核心,也是多模態(tài)大模型的基石。未來,拓爾思將持續(xù)建立和強化拓天大模型商業(yè)生態(tài),與行業(yè)知識專家、平臺型企業(yè)、行業(yè)頭部企業(yè)等展開領(lǐng)域知識、算力、業(yè)務(wù)創(chuàng)新等方面的合作,持續(xù)迭代拓天大模型在更多的行業(yè)落地,讓千行百業(yè)的用戶真正分享到大模型帶來的商業(yè)價值。