人工智能對出版業(yè)到底有什么影響?這些影響意味著什么?眾說紛紜,大致有兩種說法最有代表性。
一種是悲觀派,認(rèn)為人工智能生成內(nèi)容帶來的影響是全方位的,既是工具賦能,也是入口之爭,最終將是范式變革,對于現(xiàn)有內(nèi)容和出版產(chǎn)業(yè),不是快慢問題,而是生死之爭。另一種是樂觀派,在他們看來,生成式人工智能給出版業(yè)內(nèi)容生產(chǎn)帶來巨大變革,改變內(nèi)容生成方式,提高編輯工作效率,改變產(chǎn)品形態(tài)與服務(wù)模式,利于個(gè)性化推薦、精準(zhǔn)營銷、按需出版等。
這兩種看法指向的是兩種可能比較極端的情況,那么不極端的情況是怎樣的呢?科技咨詢公司蓋特納6月發(fā)布的一份報(bào)告指出,雖然已經(jīng)開發(fā)出了許多令人信服的生成型人工智能產(chǎn)品的原型,但在實(shí)際應(yīng)用中,采用這些技術(shù)的成功率卻較低。高盛7月發(fā)布的一份研究報(bào)告顯示,人工智能對所有工作任務(wù)的影響將不到5%,在未來10年內(nèi)僅能提升美國生產(chǎn)力0.5%,推動美國GDP增長0.9%。智庫蘭德公司8月發(fā)布的一項(xiàng)研究顯示,80%的人工智能項(xiàng)目以失敗告終,這一比例是非人工智能項(xiàng)目的兩倍多。
幾個(gè)維度與框架理解當(dāng)下人工智能與出版
出版人對人工智能理解莫衷一是可以理解,因?yàn)槿斯ぶ悄苁钱?dāng)今世界聚集最多風(fēng)險(xiǎn)資本和頂尖人才的熱門前沿科技領(lǐng)域,技術(shù)每天都在升級和迭代,每天都有無數(shù)信息撲面而來,要想從中理出一個(gè)相對清晰的頭緒不大容易。這里提供幾個(gè)相對比較簡單的框架和維度,希望為理解當(dāng)下人工智能與出版提供一點(diǎn)基礎(chǔ)和鋪墊。
人工智能的五級水平。美國人工智能研究公司OpenAI的全新AGI路線圖曝光,將人工智能按一到五的數(shù)字由低到高排列等級。一級:聊天機(jī)器人,能夠使用自然語言進(jìn)行對話的人工智能;二級:推理者,可以解決人類級別問題的人工智能;三級:智能主體,能夠代表用戶采取行動的人工智能;四級:創(chuàng)新者,能助力發(fā)明創(chuàng)新的人工智能;五級:組織者,能夠執(zhí)行復(fù)雜組織任務(wù)的人工智能。
OpenAI自稱其已發(fā)布的大模型處于一級,很快會達(dá)到二級;五級的AGI最快也要到2027年才能實(shí)現(xiàn)。
全球最強(qiáng)的人工智能公司的人工智能能力尚處于初級階段,照理其他的追隨者應(yīng)該不會更強(qiáng),因此無論人工智能公司如何吹噓其功能強(qiáng)大,人工智能當(dāng)下能夠做到的讓人類信任的事情還十分有限。
數(shù)據(jù)與智能。生成式人工智能之所以現(xiàn)在爆發(fā),是數(shù)據(jù)、算法、算力三者發(fā)展合力的結(jié)果。智能不再被視為機(jī)器本身的特性,而被認(rèn)為是數(shù)據(jù)的特性。人工智能的突破性是大語言模型的智力涌現(xiàn),其連續(xù)性在于數(shù)字化在線化數(shù)據(jù)的積累和發(fā)展。
相比較一些領(lǐng)先行業(yè)而言,出版業(yè)數(shù)字化程度整體不高也不均衡,數(shù)據(jù)在線化程度有限,因此限制人工智能開發(fā)、應(yīng)用與能力發(fā)揮。在編印發(fā)產(chǎn)業(yè)鏈3個(gè)環(huán)節(jié)中,出版最高,印刷最低,發(fā)行居中。出版中專業(yè)出版數(shù)字化程度最高,如勵訊集團(tuán)數(shù)字化產(chǎn)品收入占比超過90%;大眾出版最低,數(shù)字化產(chǎn)品收入最高的也就20%左右;教育出版數(shù)字化收入占比居中,最高如圣智集團(tuán)超過70%,麥格勞·希爾集團(tuán)和培生集團(tuán)超過60%。數(shù)字化程度與人工智能應(yīng)用潛力直接相關(guān),勵訊集團(tuán)中國區(qū)高管張玉國說,勵訊集團(tuán)迄今推出了12款人工智能應(yīng)用。
液體與容器。紙質(zhì)圖書的數(shù)字化轉(zhuǎn)型第一輪高潮是2007年亞馬遜發(fā)布Kindle帶動的。如果說十幾年前的出版數(shù)字化是把實(shí)體的出版物變成了流動的水,但水依然還都裝在各自隔開的容器、池子或水庫里,如文本庫、圖畫庫、音頻庫、視頻庫,各個(gè)數(shù)據(jù)庫互相之間不能通融,微弱的聯(lián)通是文本中加個(gè)二維碼掃描出音頻或視頻。而這次人工智能是消除或消融了容器或格擋,比如文本可以一鍵生成圖畫、文本一鍵生成音頻視頻、音頻視頻一鍵生成文本等。人工智能生成內(nèi)容等信息技術(shù)正在重塑信息內(nèi)容容器、文字容器、音頻容器、視頻容器,容器的功能隔閡被打破,出版業(yè)進(jìn)入“活容器”時(shí)代。因此,有人說生成式人工智能之后的時(shí)代是新航海時(shí)代,也意味著這次出版業(yè)面臨的挑戰(zhàn)可能比以往任何時(shí)候都要大。
自然交互和知識計(jì)算。搜狗搜索和百川智能創(chuàng)始人王小川認(rèn)為,人工智能有兩大方向,知識計(jì)算和自然交互。知識計(jì)算代表智能,其核心的智能來自于語言;自然交互是使得人跟它有更好的接觸,包括語音、圖像、視頻。
在大語言模型中,大家過分關(guān)注第一個(gè)關(guān)鍵詞“大”,往往忽略第二個(gè)關(guān)鍵詞“語言”,其實(shí),語言在中間扮演了通向智能最重要的角色,當(dāng)下機(jī)器學(xué)習(xí)主要還是在充滿人類智慧的語言里學(xué)習(xí)。這意味著,以語言文字系統(tǒng)記錄人類智慧的圖書,在人工智能大語言模型訓(xùn)練中的價(jià)值和可能的市場空間要比我們想象的大得多。
發(fā)現(xiàn)與生成。雖然大語言模型涌現(xiàn)的智能被叫作生成式人工智能,但真正用起來其實(shí)有點(diǎn)名不副實(shí),如生成文本時(shí),時(shí)常產(chǎn)生“幻覺”,會“一本正經(jīng)地胡說八道”;生成圖畫時(shí),無標(biāo)準(zhǔn)的想象力發(fā)散有余,但有標(biāo)準(zhǔn)的精確性和連貫性卻很差。但作為數(shù)據(jù)洞察工具,它不僅特別靠譜還讓人驚艷不斷,比如人工智能可以發(fā)現(xiàn)蛋白質(zhì)結(jié)構(gòu)和基因系列,攻克生物領(lǐng)域50年難題,又比如人工智能能夠發(fā)現(xiàn)新的抗生素藥物。因此有人說,生成式人工智能“應(yīng)該當(dāng)作一個(gè)發(fā)現(xiàn)的工具,而不是一個(gè)生成的引擎”。
出版業(yè)與其說需要發(fā)現(xiàn),不如說更需要高水平系統(tǒng)化知識的生成,而且出版業(yè)是一個(gè)對編輯出版質(zhì)量的準(zhǔn)確性、連貫性、穩(wěn)定性有異常高標(biāo)準(zhǔn)和高要求的行業(yè),人工智能算法本身具有概率性,每個(gè)人工智能模型都包含一定程度的隨機(jī)性和不確定性,因此對于目前主要基于概率、其結(jié)果不是很穩(wěn)定的生成式人工智能,要讓其深度參與出版流程和輸出達(dá)標(biāo)結(jié)果,編輯和出版人還是比較慎重的。由此看來,人工智能當(dāng)下顯現(xiàn)出來的特長、能力與出版業(yè)特有需求并不是那么匹配。
功能、產(chǎn)品和生意。功能、產(chǎn)品和生意三者雖然在數(shù)字化環(huán)境里邊界時(shí)常模糊,但還是有很大區(qū)別。功能是現(xiàn)有產(chǎn)品或產(chǎn)品套件的補(bǔ)充。功能可能不會增加任何收入,事實(shí)上可能只會增加成本。產(chǎn)品雖然會產(chǎn)生收入和與之相關(guān)的成本,但它可能不足以支撐整個(gè)生意,一個(gè)成功的生意常常擁有一系列產(chǎn)品組合,就像一個(gè)出版社往往有多種圖書和書系。生意是一種獨(dú)立的經(jīng)濟(jì)存在,以一個(gè)出版社的經(jīng)營為例,它有收入、支出、利潤或盈余。
從現(xiàn)有人工智能在出版的應(yīng)用看,專業(yè)出版場景最多的是搜索,大眾出版中應(yīng)用最多的是營銷,大多是對現(xiàn)有功能的強(qiáng)化和支持,不能構(gòu)成獨(dú)立的產(chǎn)品,形成獨(dú)立的營收,更不是一個(gè)獨(dú)立完整的生意,即便是勵訊集團(tuán)的12款人工智能應(yīng)用,大多也主要是對現(xiàn)有產(chǎn)品服務(wù)和工具的優(yōu)化與強(qiáng)化,增加專業(yè)用戶認(rèn)可度。
3個(gè)階梯。加拿大3位經(jīng)濟(jì)學(xué)家研究發(fā)現(xiàn),新技術(shù)應(yīng)用需要爬過3個(gè)階梯,首先是從點(diǎn)解決方案開始,再到應(yīng)用解決方案,最后到系統(tǒng)解決方案,才能真正使用起來。人工智能作為一種新技術(shù),其應(yīng)用恐怕也需要爬過這3個(gè)階梯,從人工智能點(diǎn)解決方案,即用人工智能改善現(xiàn)有的決策;到人工智能應(yīng)用解決方案,即用人工智能改變做決策的方式;再到人工智能系統(tǒng)解決方案,即人工智能促成了新的決策,整個(gè)生成模式?jīng)Q策方式發(fā)生了改變。
預(yù)測與判斷。人工智能是一種預(yù)測技術(shù),預(yù)測是一個(gè)填補(bǔ)缺失信息的過程。預(yù)測并不是決策,它只是決策的組成部分。預(yù)測通過減少不確定性使人們做出決策更加便利,但判斷的作用則在于分配價(jià)值。人工智能作為預(yù)測機(jī)器并不提供判斷,只有人類才會進(jìn)行判斷,因?yàn)橹挥腥祟惪梢员磉_(dá)不同行動帶來的相對回報(bào)。隨著人工智能接管預(yù)測,人類會減少在決策中扮演預(yù)測加判斷的綜合角色,而更多地專注于發(fā)揮判斷的作用。
幾個(gè)現(xiàn)實(shí)推論提示人工智能與出版的發(fā)力方向
依據(jù)上述幾個(gè)框架對人工智能與出版的理解,結(jié)合歷史上出版與技術(shù)的幾次相遇,可以得出以下幾個(gè)初步推論,或許可以提示出版機(jī)構(gòu)在人工智能上探尋發(fā)力的方向。
人工智能是出版數(shù)字化轉(zhuǎn)型的延長線和深水區(qū)。傳統(tǒng)出版如果轉(zhuǎn)型到位,對傳統(tǒng)出版業(yè)的內(nèi)容生產(chǎn)方式、出版方式、管理方式和經(jīng)營方式等產(chǎn)業(yè)全流程就會帶來深刻變革。在這個(gè)基礎(chǔ)上,人工智能等新型勞動工具的出現(xiàn)會帶來革命性突破,數(shù)據(jù)成為新的生產(chǎn)要素和勞動對象,傳統(tǒng)勞動者升級為數(shù)字化、網(wǎng)絡(luò)化、智能化勞動者,出版業(yè)的全要素生產(chǎn)率也將大幅提升。
一個(gè)出版企業(yè),如果沒有良好的數(shù)字化基礎(chǔ),只希望借助人工智能彎道超車或一飛沖天,大概率不會有理想的結(jié)果。人工智能只是對有準(zhǔn)備的、數(shù)字化基礎(chǔ)好的出版企業(yè)錦上添花,絕不會對沒有準(zhǔn)備的、數(shù)字化基礎(chǔ)薄弱的企業(yè)雪中送炭,盡管人工智能一定程度上也可以為出版數(shù)字化轉(zhuǎn)型賦能,但自身的數(shù)字化基礎(chǔ)是前提。
人工智能提示我們,出版企業(yè)需要繼續(xù)加快數(shù)字化轉(zhuǎn)型各項(xiàng)工作,包括產(chǎn)品數(shù)字化、流程數(shù)字化和營銷數(shù)字化,而且與之前不同的是,需要借助人工智能來倒逼升級數(shù)字化轉(zhuǎn)型,加快速度提升標(biāo)準(zhǔn),不然人工智能大潮不僅不能借力,很可能被甩開。
技術(shù)與內(nèi)容孰輕孰重的邏輯依然沒有變:內(nèi)容是目的,技術(shù)是手段。傳統(tǒng)出版每次遇到新技術(shù),都會引發(fā)技術(shù)和內(nèi)容孰輕孰重之爭,這次也不例外。出版本質(zhì)上是靠賣內(nèi)容賺錢,而不是靠賣技術(shù)賺錢。普林斯頓大學(xué)出版社原社長彼得·J·多爾蒂說,圖書出版業(yè)是一種商業(yè),而且越來越具有技術(shù)性,但它在本質(zhì)上仍然是一門藝術(shù)。保持藝術(shù)的中心地位,同時(shí)運(yùn)用科學(xué)來支持和推進(jìn)它,是出版業(yè)高管的任務(wù),也是維護(hù)聲譽(yù)的本質(zhì)。
從電子書勝出者Kindle和許多模仿者、失敗者的比較來看,內(nèi)容版權(quán)優(yōu)先還是內(nèi)容技術(shù)優(yōu)先,無論對出版公司還是技術(shù)公司,不同選擇導(dǎo)致不同結(jié)果。成功的案例是Kindle,Kindle上市前花的最大功夫是簽下美國主流出版社主要在售和即將上市的圖書,而且價(jià)格是精裝本紙質(zhì)書的三分之一,Kindle勝出是內(nèi)容優(yōu)先的結(jié)果。
技術(shù)推動出版發(fā)展不假,但并非技術(shù)越多就越好,出版技術(shù)含量與其商業(yè)成果不成正比。回看上一輪電子書革命,一個(gè)有趣的事實(shí)值得我們深思:內(nèi)容含量越高,商業(yè)價(jià)值越大,如大眾出版中技術(shù)含量最低的電子書1.0,即轉(zhuǎn)檔電子書賣得最好;相反單品技術(shù)含量最高、技術(shù)投入最大的電子書3.0,即增強(qiáng)型電子書,鮮有成功案例。技術(shù)含量越高,價(jià)值未必越大。
版權(quán)已經(jīng)成為人工智能與出版各方競爭角逐的新陣地,集體版權(quán)與孤兒版權(quán)將再度引關(guān)注。無論是紙質(zhì)出版時(shí)代還是數(shù)字出版時(shí)代,版權(quán)都是最核心最關(guān)鍵的,所謂“內(nèi)容為王”,其內(nèi)在本質(zhì)是“版權(quán)為王”,在人工智能時(shí)代依然如此。
其一,一個(gè)鼓舞人心的跡象,新聞和專業(yè)內(nèi)容版權(quán)率先實(shí)現(xiàn)規(guī)模級市場價(jià)值。
版權(quán)是內(nèi)容行業(yè)能夠立竿見影帶來收入的“低垂的果實(shí)”,人工智能合作伙伴關(guān)系正成為與傳統(tǒng)廣告和訂閱并列的新收入來源。領(lǐng)先的內(nèi)容公司已經(jīng)陸續(xù)成為人工智能技術(shù)公司的核心內(nèi)容供應(yīng)商。生成式人工智能公司需要最高質(zhì)量的內(nèi)容,以確保其產(chǎn)品的相關(guān)性和準(zhǔn)確性。今年2月,谷歌與新聞集團(tuán)簽約,每年付近6000萬美元,獲得授權(quán)使用其新聞內(nèi)容用于大模型訓(xùn)練。據(jù)估計(jì),這項(xiàng)合作在未來5年內(nèi)價(jià)值高達(dá)2.5億美元。
OpenAI也不甘落后,瀏覽OpenAI合作伙伴名單,數(shù)量最多的竟然是內(nèi)容公司,許多全球知名內(nèi)容品牌赫然在列。除了新聞內(nèi)容交易,最近陸續(xù)披露出許多專業(yè)出版內(nèi)容交易,比如英國學(xué)術(shù)出版公司泰勒&弗朗西斯和微軟的內(nèi)容合作,每年付費(fèi)800萬英鎊;威利已經(jīng)和人工智能技術(shù)公司達(dá)成兩筆總額超過4000多萬美元的內(nèi)容授權(quán)生意;劍橋大學(xué)出版社、牛津大學(xué)出版社透露將向人工智能公司出售其作者作品的訪問權(quán),賺取收入達(dá)5800萬英鎊。
其二,圖書版權(quán),特別是文史哲圖書版權(quán)將成為下一個(gè)版權(quán)價(jià)值洼地。
內(nèi)容公司版權(quán)內(nèi)容變現(xiàn)的路徑之所以從新聞內(nèi)容到學(xué)術(shù)內(nèi)容,最后再到大眾圖書,其底層邏輯在于:新聞內(nèi)容對讀者訂戶而言,只有最新的才最有價(jià)值,過時(shí)新聞積累而成的新聞內(nèi)容庫打包賣給人工智能公司可以說是白賺;學(xué)術(shù)出版內(nèi)容經(jīng)過20年的開放存取運(yùn)動,大約一半對讀者是免費(fèi)的,出版商通過向作者收取文章處理費(fèi)已經(jīng)收入不菲,因此其內(nèi)容庫授權(quán)給人工智能公司并無太多顧慮;大眾圖書則不然,主要靠向讀者收費(fèi),因此在內(nèi)容授權(quán)上特別慎重。
雖然現(xiàn)在還沒有看到大眾圖書授權(quán)給人工智能技術(shù)公司形成有規(guī)模收入的消息,但網(wǎng)上一度傳過Meta公司想收購美國西蒙&舒斯特出版公司,因?yàn)槠浞e累了20多萬種優(yōu)質(zhì)版權(quán)圖書。最近美國也出現(xiàn)了一家創(chuàng)業(yè)公司對此躍躍欲試。說明各方都很看好這個(gè)市場。
中國出版協(xié)會理事長鄔書林在前不久的一個(gè)出版論壇上提醒出版界:“人工智能雖然可以高效地處理大量數(shù)據(jù),但在情感表達(dá)、文化理解等方面還存在局限性。因此,我們需要思考如何在人工智能的輔助下,保持出版的獨(dú)特性和人文性,讓出版物更具深度和溫度?!奔兝砉ぶR是形式邏輯,是可以編程的,可以交給外部系統(tǒng)處理。如果說形式邏輯知識像法寶,人工智能流行之后很容易獲得,文史哲知識更像內(nèi)功,需要長時(shí)間不斷修煉。這意味著,大模型需要特別注重文史哲知識訓(xùn)練,文史哲訓(xùn)練不足的大模型會充滿偏見。
現(xiàn)在大模型所訓(xùn)練學(xué)習(xí)的內(nèi)容中,深度系統(tǒng)的文史哲知識嚴(yán)重不足,因?yàn)槲氖氛苤R主要在圖書里,圖書的數(shù)字化程度整體不高,授權(quán)出去的優(yōu)質(zhì)內(nèi)容非常有限,頭部新書和再版書是出版社的“現(xiàn)金?!保话悴粫p易授權(quán),再版長尾圖書許多難以找到數(shù)字版,更多的孤兒圖書根本沒有數(shù)字版,雄心萬丈的谷歌圖書數(shù)字化計(jì)劃涉及1.3億種圖書,據(jù)說也只是人類所有圖書品種的十分之一。
因此,傳統(tǒng)出版界未來一項(xiàng)重要工作就是繼續(xù)將優(yōu)質(zhì)圖書特別是文史哲長尾圖書數(shù)字化,因?yàn)閳D書品種多,許多是不再版且版權(quán)難以確認(rèn)的孤兒作品,全世界解決這一版權(quán)難題的路徑是集體版權(quán)管理,包括如何給版權(quán)定價(jià),如何補(bǔ)償作者都是需要解決的問題。
徘徊不前的專業(yè)數(shù)據(jù)庫工作找到新動力與新方向。在專業(yè)出版數(shù)字化轉(zhuǎn)型浪潮中,盡管中國出版界有同方知網(wǎng)、科學(xué)出版社的期刊數(shù)據(jù)庫以及社會科學(xué)文獻(xiàn)出版社的皮書數(shù)據(jù)庫等亮眼成果,但與世界領(lǐng)先的數(shù)據(jù)庫相比差距依然很大。許多立項(xiàng)并投入很多資金的專業(yè)數(shù)據(jù)庫面臨的問題,不是找不到應(yīng)用場景就是找不到商業(yè)模式。
人工智能的開發(fā)與應(yīng)用為這些專業(yè)數(shù)據(jù)庫找到新的應(yīng)用場景。人工智能的應(yīng)用特別是在專有領(lǐng)域中的應(yīng)用,需要跟領(lǐng)域知識深度結(jié)合,訓(xùn)練專有小模型也需要專業(yè)數(shù)據(jù)庫。因此說人工智能為原來停滯徘徊的專業(yè)數(shù)據(jù)庫工作找到新的動力和方向。
這里需要指出的是專業(yè)數(shù)據(jù)庫,小不是關(guān)鍵,主題關(guān)聯(lián)性強(qiáng)才是關(guān)鍵。無論數(shù)據(jù)集的大小如何,數(shù)據(jù)的相關(guān)性才是真正重要的。
什么是相關(guān)性的數(shù)據(jù)?比如數(shù)學(xué)知識,只有自己出版社出版的少量品種不行,不說把全世界至少也是全中國有代表性的數(shù)學(xué)圖書和文獻(xiàn)差不多都裝進(jìn)來才行。比如要訓(xùn)練人工智能會寫像樣的圖書營銷文案,至少也得收集國內(nèi)幾十萬或幾百萬種圖書的營銷文案數(shù)據(jù)集,這才是相關(guān)性數(shù)據(jù)集。
幾個(gè)建議守護(hù)和挖掘出版的內(nèi)容價(jià)值
避開陷阱和擺正姿勢。據(jù)估計(jì),超過80%的人工智能項(xiàng)目以失敗告終,蘭德公司最新調(diào)查報(bào)告,人工智能項(xiàng)目失敗有五大原因:第一,不清楚需要用人工智能解決的問題是什么;第二,企業(yè)往往缺乏足夠的數(shù)據(jù)來訓(xùn)練有效的人工智能模型;第三,企業(yè)更注重使用最新的最先進(jìn)的技術(shù),而不是為預(yù)期用戶解決實(shí)際問題;第四,企業(yè)通常沒有足夠的基礎(chǔ)設(shè)施來管理數(shù)據(jù)并部署已完成的人工智能模型;第五,企業(yè)將技術(shù)應(yīng)用于人工智能無法解決的問題。這是企業(yè)應(yīng)用人工智能應(yīng)該留意的陷阱。
蘭德公司報(bào)告建議,企業(yè)應(yīng)用人工智能,應(yīng)該確保技術(shù)人員了解項(xiàng)目的目的和領(lǐng)域背景。在開始任何人工智能項(xiàng)目之前,領(lǐng)導(dǎo)者應(yīng)該做好準(zhǔn)備,讓每個(gè)產(chǎn)品團(tuán)隊(duì)至少在一年內(nèi)專注于解決特定問題;應(yīng)該關(guān)注問題本身,而不是技術(shù);應(yīng)該投資于基礎(chǔ)設(shè)施,為支持?jǐn)?shù)據(jù)治理和模型部署而進(jìn)行的前期基礎(chǔ)設(shè)施投資,可以減少完成人工智能項(xiàng)目所需的時(shí)間,并增加可用于訓(xùn)練有效人工智能模型的高質(zhì)量數(shù)據(jù)的數(shù)量;應(yīng)該了解人工智能的局限性,在考慮潛在的人工智能項(xiàng)目時(shí),領(lǐng)導(dǎo)者需要邀請技術(shù)專家來評估項(xiàng)目的可行性。這或許是任何企業(yè)應(yīng)用人工智能需要擺正的姿勢。
行業(yè)層面。無論是發(fā)達(dá)國家的出版協(xié)會還是國際出版協(xié)會,在談到人工智能與出版時(shí),首先說到的是版權(quán)保護(hù),強(qiáng)調(diào)不能任由優(yōu)質(zhì)出版內(nèi)容未經(jīng)授權(quán)就被人工智能公司拿去訓(xùn)練大模型,需要保障作者和版權(quán)人從人工智能的發(fā)展中獲取應(yīng)得的利益。
創(chuàng)作編輯出版優(yōu)質(zhì)內(nèi)容有很高的成本,背后是無數(shù)專業(yè)人士的多年積累與付出。無論是國家還是機(jī)構(gòu)層面,人工智能研究既然有巨額投入,就應(yīng)該支付優(yōu)質(zhì)內(nèi)容成本,這些事情當(dāng)然要政府主管部門或行業(yè)協(xié)會統(tǒng)籌協(xié)調(diào),才能夠解決有望。中國是參照歐盟還是美國,也需要權(quán)衡,在法律出來之前,出版機(jī)構(gòu)可以從合同層面先行改善優(yōu)化。
中國出版界有各級出版基金,用來扶持耗時(shí)長和投入大的出版項(xiàng)目,經(jīng)過多年發(fā)展,成果蔚為大觀,許多都是文史哲的優(yōu)質(zhì)內(nèi)容,只是大多數(shù)只有紙質(zhì)版,如果能夠進(jìn)行數(shù)字化轉(zhuǎn)換,應(yīng)該能夠形成許多優(yōu)質(zhì)的文史哲專業(yè)數(shù)據(jù)庫。新的基金項(xiàng)目成果提交也可以考慮加上數(shù)字版或數(shù)據(jù)庫要求。
考慮到文史哲圖書數(shù)據(jù)庫建設(shè)嚴(yán)重滯后,數(shù)字化建設(shè)成本和孤兒版權(quán)處理成本巨大,可以考慮設(shè)立專項(xiàng)基金來推進(jìn)。外文世界是谷歌以一己之力斥巨資投入建設(shè)的,中文世界也需要類似的圖書數(shù)字化計(jì)劃。
企業(yè)層面。當(dāng)然,更多的專業(yè)數(shù)據(jù)庫,需要企業(yè)自主投入建立,現(xiàn)在出版企業(yè)銷售規(guī)模最大、利潤最多的大多是地方出版集團(tuán),地方出版集團(tuán)恰恰是專業(yè)資源最薄弱的出版機(jī)構(gòu),為了建設(shè)系列高水準(zhǔn)專業(yè)數(shù)據(jù)庫,出版機(jī)構(gòu)有3個(gè)思路可以考慮。
其一,獨(dú)立數(shù)據(jù)庫。自己有足夠的專業(yè)資源優(yōu)勢,自成一體,就可以獨(dú)立建數(shù)據(jù)庫,這樣的情形應(yīng)該不多。
其二,聯(lián)合數(shù)據(jù)庫。就是多家企業(yè)合作,突出優(yōu)勢,資源置換,最后形成多個(gè)專業(yè)資源庫。
其三,聯(lián)邦數(shù)據(jù)庫,也叫聯(lián)邦學(xué)習(xí)。這是一個(gè)折中的策略,就是各自數(shù)據(jù)都在自己的庫里,但使用時(shí)可以在不影響版權(quán)和隱私的前提下以專題來集中使用。
聯(lián)邦學(xué)習(xí)是一種允許多個(gè)參與方在保護(hù)數(shù)據(jù)隱私的前提下,共同訓(xùn)練模型的分布式機(jī)器學(xué)習(xí)方法。它的發(fā)展對數(shù)據(jù)產(chǎn)業(yè)產(chǎn)生了重大影響,尤其是在金融等數(shù)據(jù)敏感性較高的領(lǐng)域。聯(lián)邦學(xué)習(xí)可以解決數(shù)據(jù)孤島問題,同時(shí)保護(hù)數(shù)據(jù)隱私和安全,符合如歐盟通用數(shù)據(jù)保護(hù)條例等法律法規(guī)的要求。
這個(gè)思路出版業(yè)也許可以參考,畢竟是最快而且最折中的解決方案。