被“霸道”的知網(wǎng)控訴侵權(quán)，秘塔AI不妨再多講幾句

硅星人·2024-08-20

小打小鬧還是嚴(yán)肅對待

編者按：本文來自微信公眾號硅星人Pro（ID：Si-Planet），作者：周一笑，編輯：王兆洋，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

斷開鏈接

最近，秘塔AI搜索的用戶在打開網(wǎng)站時(shí)會發(fā)現(xiàn)頂端有一行醒目的文字：“完蛋！我們收到了知網(wǎng)28頁的侵權(quán)告知函”。

點(diǎn)開是秘塔的一份聲明，其表示收到《中國學(xué)術(shù)期刊（光盤版）》電子雜志社有限公司侵權(quán)告知函——也就是此前先后因涉嫌壟斷行為和個(gè)人信息安全等問題被罰8760萬元和5000萬元而爭議不斷的知網(wǎng)，向它發(fā)出了侵權(quán)指控。

簡單地概括，秘塔AI搜索能搜到知網(wǎng)的內(nèi)容，知網(wǎng)認(rèn)為這是一種侵權(quán)行為，要求立即停止在搜索服務(wù)中提供中國知網(wǎng)的數(shù)據(jù)。

“我司不希望我司網(wǎng)站中國知網(wǎng)被秘塔科技搜索到，請立即斷開搜索結(jié)果到我司網(wǎng)站的鏈接。如需商務(wù)合作，請與我司聯(lián)系?！?/p>

秘塔科技在這份聲明中回應(yīng)，秘塔AI搜索的“學(xué)術(shù)”版塊僅收錄了論文的文獻(xiàn)摘要和題錄，并未收錄文章內(nèi)容本身，閱讀正文需通過來源鏈接跳轉(zhuǎn)至網(wǎng)站獲取。而依照學(xué)術(shù)規(guī)范，文獻(xiàn)的摘要和題錄應(yīng)具有獨(dú)立性和自明性，能夠使讀者不閱讀全文就能獲得必要的信息。

目前秘塔學(xué)術(shù)搜索的部分鏈接會跳轉(zhuǎn)到萬方數(shù)據(jù)。

秘塔AI同時(shí)強(qiáng)調(diào)了知識的價(jià)值在于流動(dòng)，學(xué)術(shù)文獻(xiàn)匯集了人類智力成果的重要載體，具有極強(qiáng)的不可替代性?？茖W(xué)文獻(xiàn)若成為一種奢侈品，既不利于知識的公平獲取，也不利于科學(xué)研究的發(fā)展。

不過從人類智慧到學(xué)術(shù)追求談完后，秘塔給出的行動(dòng)是“斷鏈”：“即使不理解，但我們也尊重知網(wǎng)的選擇?！睆募慈掌?，秘塔AI搜索將不再收錄知網(wǎng)文獻(xiàn)的題錄及摘要數(shù)據(jù)，轉(zhuǎn)而收錄其他中英文權(quán)威知識庫的文獻(xiàn)題錄及摘要數(shù)據(jù)，也歡迎其他數(shù)據(jù)庫來合作探討。

也就是秘塔最終按知網(wǎng)的申訴要求做了處理。

沒太說清楚的重要問題

秘塔AI搜索是這一輪AI熱潮里的明星產(chǎn)品，經(jīng)常被比作中國的Perplexity。秘塔也是這一輪大模型創(chuàng)業(yè)公司里的明星公司，最新消息顯示，其完成了一億元的最新融資，投后估值1.5億美元。秘塔成立于大模型熱潮之前，但核心產(chǎn)品秘塔AI搜索是在今年3月正式上線。

知網(wǎng)的侵權(quán)通知中稱秘塔向用戶提供知網(wǎng)的學(xué)術(shù)文獻(xiàn)題錄及摘要數(shù)據(jù)，涉嫌侵權(quán)。對此，上海大邦律師事務(wù)所高級合伙人、律師游云庭表示，網(wǎng)頁不同于論文，知網(wǎng)的學(xué)術(shù)文獻(xiàn)題錄及摘要網(wǎng)頁都是國內(nèi)用戶公開可以訪問的，知網(wǎng)作為在中國境內(nèi)中文學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)數(shù)據(jù)庫服務(wù)市場具有支配地位的經(jīng)營者，其不允許秘塔搜索抓取這兩部分公開信息需要有合理的理由。

本質(zhì)上，知網(wǎng)是要求秘塔不要對其網(wǎng)站進(jìn)行爬蟲。而在傳統(tǒng)搜索引擎的生態(tài)里，這樣的信息抓取爬蟲行為有基本的規(guī)則——各個(gè)網(wǎng)站和各種信息提供方通過一個(gè)Robots.txt文件來告訴搜索引擎哪些內(nèi)容可以抓取，哪些不行。

而像百度、谷歌等搜索引擎會在這個(gè)過程中把自家的爬蟲進(jìn)行命名，讓對方知道自己來過，拿走了什么。但從知網(wǎng)的Robots.txt文件來看，它沒有針對任何爬蟲做屏蔽。

“有意思的是，雖然知網(wǎng)給秘塔發(fā)函要求斷開鏈接，也就是不允許其抓取網(wǎng)頁內(nèi)容，但其robots文件(https://www.cnki.cn/robots.txt)卻并沒有禁止任何搜索引擎爬蟲，根據(jù)知網(wǎng)的robots文件內(nèi)容，不禁止任何人抓取他們網(wǎng)頁，只是cms、query.html?*、 report、paper、qrcode、js、cs這些涉及后臺管理界面、靜態(tài)資源目錄和特定內(nèi)容目錄網(wǎng)頁不能抓取?！?/p>

又沒從行業(yè)規(guī)則上禁止對方爬取，那為何還要發(fā)告知函？

“現(xiàn)在很多的人工智能搜索引擎的爬蟲確實(shí)也不講武德，其不像傳統(tǒng)的百度、谷歌、搜狗、必應(yīng)那樣把自家的爬蟲進(jìn)行命名，而是默不作聲的匿名爬取。”游云庭表示。其實(shí)這些匿名爬取不一定都是以這些AI搜索公司之名展開。市面上有很多第三方的爬蟲服務(wù)，以各種方法繞開這些基本準(zhǔn)則進(jìn)行爬取。而是否使用了這些服務(wù)，在秘塔的回復(fù)中沒有提到。

在此前Peroplexity也已遇到了類似的爭議。

當(dāng)時(shí)連線雜志和開發(fā)者Robb Knight 調(diào)查后發(fā)現(xiàn)，Perplexity并不遵守robots.txt 標(biāo)準(zhǔn)。而創(chuàng)始人Aravind Srinivas在一次采訪里回應(yīng)說Perplexity 并未無視機(jī)器人排除協(xié)議（Robot Exclusions Protocol）……被調(diào)查發(fā)現(xiàn)有問題的網(wǎng)絡(luò)爬蟲屬于第三方供應(yīng)商。

但被問到是否會停止使用第三方爬蟲時(shí)他只是表示“這很復(fù)雜”。此外，當(dāng)時(shí)這個(gè)調(diào)查還顯示，在某些情況下，Perplexity 可能并未總結(jié)實(shí)際的文章，而是根據(jù) URL 和搜索引擎中留下的痕跡（例如摘錄和元數(shù)據(jù)）重建內(nèi)容。似曾相識。

根據(jù)秘塔發(fā)布的文章，知網(wǎng)向秘塔發(fā)送的侵權(quán)通知長達(dá)28頁。秘塔僅截取了告知函發(fā)布出來，而從發(fā)的的截圖來看，剩下的內(nèi)容主要在羅列侵權(quán)的證據(jù)，這些內(nèi)容可能不只是展示各種摘要和標(biāo)題被爬取的情況。

根據(jù)不少用戶此前的分享，秘塔是能獲取到非公開論文的，而且，可以在秘塔的網(wǎng)頁直接閱讀，這些PDF文檔雖鏈接到外部文庫網(wǎng)站，實(shí)際可能存儲于秘塔服務(wù)器。游云庭認(rèn)為如果秘塔建立了包含知網(wǎng)論文全文內(nèi)容的索引庫，可能構(gòu)成侵權(quán)。

“秘塔AI搜索的播客和文庫板塊是有索引庫的，我理解的索引庫可能是秘塔把批量收集的文獻(xiàn)事先直接在內(nèi)部做了一個(gè)索引數(shù)據(jù)庫，當(dāng)用戶搜索時(shí)，秘塔會搜索網(wǎng)絡(luò)對應(yīng)的實(shí)時(shí)內(nèi)容，然后利用人工智能把實(shí)時(shí)搜索結(jié)果和索引庫的內(nèi)容整合在一起提供答案?！庇卧仆フf。也就是雖然核心的展示結(jié)果頁面對索引以標(biāo)注來源形式呈現(xiàn)，但同時(shí)在自己的服務(wù)里把“原文”也搬了過來。

“索引庫很可能是真實(shí)存在的，其實(shí)這個(gè)技術(shù)上也不難證明，我們代理訴訟時(shí)碰到此問題，通常用抓包軟件顯示該文檔的真實(shí)ip地址。如果這個(gè)ip地址位于秘塔的服務(wù)器，則說明是秘塔提供的。”

此外，作為使用預(yù)訓(xùn)練模型為基礎(chǔ)的AI搜索引擎，在訓(xùn)練數(shù)據(jù)里是否用到了這些有知識產(chǎn)權(quán)的數(shù)據(jù)，則是更重要的問題。

當(dāng)訓(xùn)練里的論文數(shù)據(jù)因?yàn)槟Ｐ屯ǔ嬖诘摹斑^擬合”問題而導(dǎo)致最終給用戶輸出內(nèi)容時(shí)與原文高度一致，這就從合理使用進(jìn)入了類似“洗稿”的著作權(quán)侵權(quán)范疇了。

但在這樣的情況下，知網(wǎng)有權(quán)對這些由個(gè)體研究者們撰寫的論文“維權(quán)”么？

“知網(wǎng)無權(quán)主張秘塔訓(xùn)練版權(quán)侵權(quán)?！庇卧仆フJ(rèn)為。

他表示，知網(wǎng)站內(nèi)的多數(shù)論文雖然被收錄，但知網(wǎng)擁有這是雜志社或作者授權(quán)的信息網(wǎng)絡(luò)傳播權(quán)，如果該論文被用于訓(xùn)練，訓(xùn)練涉及的版權(quán)是著作權(quán)法規(guī)定的復(fù)制權(quán)和著作權(quán)其他權(quán)利，并不侵犯知網(wǎng)的信息網(wǎng)絡(luò)傳播權(quán)。當(dāng)然如果是雜志社維權(quán)秘塔訓(xùn)練侵權(quán)的，那么秘塔將面臨《紐約時(shí)報(bào)》起訴OpenAI一模一樣的問題。

是時(shí)候多一些更嚴(yán)肅的討論

所以，秘塔們要“回應(yīng)”的對象其實(shí)不只是被網(wǎng)友評論為“萬惡”的知網(wǎng)。

除了對知網(wǎng)作出回應(yīng)——這些回應(yīng)總能引發(fā)共情，從它回應(yīng)文章的評論區(qū)看，人們依然是苦知網(wǎng)久矣的態(tài)度，紛紛“站”秘塔——秘塔們也許可以對這些訓(xùn)練數(shù)據(jù)背后的個(gè)體作者講解一下這些數(shù)據(jù)的使用情況。

此次陷入爭議的“學(xué)術(shù)”搜索功能，是秘塔區(qū)別于其他Perplexity們的一個(gè)重要設(shè)計(jì)，這個(gè)功能也贏得了不少用戶的好評。這些用戶往往是一些需要為課堂作業(yè)、文章二次創(chuàng)作甚至寫論文等任務(wù)做大量文獻(xiàn)查詢的用戶。

而對于論文的真正作者們，這些數(shù)據(jù)的使用可能帶來另外的問題。

在最近Nature的一篇文章中就指出，很多學(xué)術(shù)出版商已經(jīng)向科技公司授權(quán)訪問自家的論文，用來訓(xùn)練AI模型。比如美國出版商Wiley允許某家公司使用其內(nèi)容訓(xùn)模型后，直接獲得2300萬美元收益。而這些收入與論文作者一點(diǎn)關(guān)系都沒有。

除了這種很可能最終也無法解決的真實(shí)收益分配問題，對于這些研究者來說，學(xué)術(shù)界本身的一些很重要的評價(jià)體系也在這種“AI學(xué)術(shù)搜索”的生成過程里被打亂。比如，學(xué)術(shù)界很重要的一個(gè)指標(biāo)——引用量，在這些AI學(xué)術(shù)搜索的場景里似乎不存在了。大模型本身的隨機(jī)性和不可解釋性，以及數(shù)據(jù)的不完整性，都讓它生成的這些學(xué)術(shù)搜索結(jié)果與學(xué)術(shù)界本身的判斷標(biāo)準(zhǔn)有出入。

一名學(xué)者對硅星人表示，在這些AI搜索自己生成答案的時(shí)候，選哪個(gè)不選哪個(gè)的標(biāo)準(zhǔn)是什么呢？對于把引用量作為最直接含金量標(biāo)準(zhǔn)的學(xué)術(shù)界，如果這些AI結(jié)果越來越多，然后也被許多研究者用在自己的論文里，這是不是也是另一種形式的AI SEO污染？

在秘塔Law里提問展示的結(jié)果

對于這次爭議本身，當(dāng)秘塔清除了索引庫中的知網(wǎng)論文，并不再向用戶提供知網(wǎng)論文的在線閱讀功能，知識產(chǎn)權(quán)侵權(quán)的爭議就很小了，而且游云庭表示，根據(jù)《反壟斷法》和《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》，知網(wǎng)不允許秘塔搜索抓取這兩部分公開信息就不再具有合理的理由。

但如果AI搜索公司們把自己在做的產(chǎn)品當(dāng)作一個(gè)長期和嚴(yán)肅的事，那除了圍著產(chǎn)品的一些小確幸進(jìn)行慶祝，和一些瀟灑的態(tài)度之外，也是時(shí)候正視這些復(fù)雜而現(xiàn)實(shí)的問題，用合適的方式公開的討論它，只有這樣才真正有望觸及它們希望挑戰(zhàn)的今天信息獲取領(lǐng)域真正的癥結(jié)。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。