五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

被“霸道”的知網(wǎng)控訴侵權(quán),秘塔AI不妨再多講幾句

小打小鬧還是嚴(yán)肅對待

編者按:本文來自微信公眾號硅星人Pro(ID:Si-Planet),作者:周一笑,編輯:王兆洋,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

斷開鏈接

最近,秘塔AI搜索的用戶在打開網(wǎng)站時(shí)會發(fā)現(xiàn)頂端有一行醒目的文字:“完蛋!我們收到了知網(wǎng)28頁的侵權(quán)告知函”。

點(diǎn)開是秘塔的一份聲明,其表示收到《中國學(xué)術(shù)期刊(光盤版)》電子雜志社有限公司侵權(quán)告知函——也就是此前先后因涉嫌壟斷行為和個(gè)人信息安全等問題被罰8760萬元和5000萬元而爭議不斷的知網(wǎng),向它發(fā)出了侵權(quán)指控。

圖片

簡單地概括,秘塔AI搜索能搜到知網(wǎng)的內(nèi)容,知網(wǎng)認(rèn)為這是一種侵權(quán)行為,要求立即停止在搜索服務(wù)中提供中國知網(wǎng)的數(shù)據(jù)。

“我司不希望我司網(wǎng)站中國知網(wǎng)被秘塔科技搜索到,請立即斷開搜索結(jié)果到我司網(wǎng)站的鏈接。如需商務(wù)合作,請與我司聯(lián)系?!?/p>

秘塔科技在這份聲明中回應(yīng),秘塔AI搜索的“學(xué)術(shù)”版塊僅收錄了論文的文獻(xiàn)摘要和題錄,并未收錄文章內(nèi)容本身,閱讀正文需通過來源鏈接跳轉(zhuǎn)至網(wǎng)站獲取。而依照學(xué)術(shù)規(guī)范,文獻(xiàn)的摘要和題錄應(yīng)具有獨(dú)立性和自明性,能夠使讀者不閱讀全文就能獲得必要的信息。

圖片

目前秘塔學(xué)術(shù)搜索的部分鏈接會跳轉(zhuǎn)到萬方數(shù)據(jù)。

秘塔AI同時(shí)強(qiáng)調(diào)了知識的價(jià)值在于流動(dòng),學(xué)術(shù)文獻(xiàn)匯集了人類智力成果的重要載體,具有極強(qiáng)的不可替代性??茖W(xué)文獻(xiàn)若成為一種奢侈品,既不利于知識的公平獲取,也不利于科學(xué)研究的發(fā)展。

不過從人類智慧到學(xué)術(shù)追求談完后,秘塔給出的行動(dòng)是“斷鏈”:“即使不理解,但我們也尊重知網(wǎng)的選擇?!睆募慈掌?,秘塔AI搜索將不再收錄知網(wǎng)文獻(xiàn)的題錄及摘要數(shù)據(jù),轉(zhuǎn)而收錄其他中英文權(quán)威知識庫的文獻(xiàn)題錄及摘要數(shù)據(jù),也歡迎其他數(shù)據(jù)庫來合作探討。

也就是秘塔最終按知網(wǎng)的申訴要求做了處理。

沒太說清楚的重要問題

秘塔AI搜索是這一輪AI熱潮里的明星產(chǎn)品,經(jīng)常被比作中國的Perplexity。秘塔也是這一輪大模型創(chuàng)業(yè)公司里的明星公司,最新消息顯示,其完成了一億元的最新融資,投后估值1.5億美元。秘塔成立于大模型熱潮之前,但核心產(chǎn)品秘塔AI搜索是在今年3月正式上線。

知網(wǎng)的侵權(quán)通知中稱秘塔向用戶提供知網(wǎng)的學(xué)術(shù)文獻(xiàn)題錄及摘要數(shù)據(jù),涉嫌侵權(quán)。對此,上海大邦律師事務(wù)所高級合伙人、律師游云庭表示,網(wǎng)頁不同于論文,知網(wǎng)的學(xué)術(shù)文獻(xiàn)題錄及摘要網(wǎng)頁都是國內(nèi)用戶公開可以訪問的,知網(wǎng)作為在中國境內(nèi)中文學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)數(shù)據(jù)庫服務(wù)市場具有支配地位的經(jīng)營者,其不允許秘塔搜索抓取這兩部分公開信息需要有合理的理由。

本質(zhì)上,知網(wǎng)是要求秘塔不要對其網(wǎng)站進(jìn)行爬蟲。而在傳統(tǒng)搜索引擎的生態(tài)里,這樣的信息抓取爬蟲行為有基本的規(guī)則——各個(gè)網(wǎng)站和各種信息提供方通過一個(gè)Robots.txt文件來告訴搜索引擎哪些內(nèi)容可以抓取,哪些不行。

而像百度、谷歌等搜索引擎會在這個(gè)過程中把自家的爬蟲進(jìn)行命名,讓對方知道自己來過,拿走了什么。但從知網(wǎng)的Robots.txt文件來看,它沒有針對任何爬蟲做屏蔽。

“有意思的是,雖然知網(wǎng)給秘塔發(fā)函要求斷開鏈接,也就是不允許其抓取網(wǎng)頁內(nèi)容,但其robots文件(https://www.cnki.cn/robots.txt)卻并沒有禁止任何搜索引擎爬蟲,根據(jù)知網(wǎng)的robots文件內(nèi)容,不禁止任何人抓取他們網(wǎng)頁,只是cms、query.html?*、 report、paper、qrcode、js、cs這些涉及后臺管理界面、靜態(tài)資源目錄和特定內(nèi)容目錄網(wǎng)頁不能抓取?!?/p>

又沒從行業(yè)規(guī)則上禁止對方爬取,那為何還要發(fā)告知函?

“現(xiàn)在很多的人工智能搜索引擎的爬蟲確實(shí)也不講武德,其不像傳統(tǒng)的百度、谷歌、搜狗、必應(yīng)那樣把自家的爬蟲進(jìn)行命名,而是默不作聲的匿名爬取。”游云庭表示。其實(shí)這些匿名爬取不一定都是以這些AI搜索公司之名展開。市面上有很多第三方的爬蟲服務(wù),以各種方法繞開這些基本準(zhǔn)則進(jìn)行爬取。而是否使用了這些服務(wù),在秘塔的回復(fù)中沒有提到。

在此前Peroplexity也已遇到了類似的爭議。

當(dāng)時(shí)連線雜志和開發(fā)者Robb Knight 調(diào)查后發(fā)現(xiàn),Perplexity并不遵守robots.txt 標(biāo)準(zhǔn)。而創(chuàng)始人Aravind Srinivas在一次采訪里回應(yīng)說Perplexity 并未無視機(jī)器人排除協(xié)議(Robot Exclusions Protocol)……被調(diào)查發(fā)現(xiàn)有問題的網(wǎng)絡(luò)爬蟲屬于第三方供應(yīng)商。

但被問到是否會停止使用第三方爬蟲時(shí)他只是表示“這很復(fù)雜”。此外,當(dāng)時(shí)這個(gè)調(diào)查還顯示,在某些情況下,Perplexity 可能并未總結(jié)實(shí)際的文章,而是根據(jù) URL 和搜索引擎中留下的痕跡(例如摘錄和元數(shù)據(jù))重建內(nèi)容。似曾相識。

根據(jù)秘塔發(fā)布的文章,知網(wǎng)向秘塔發(fā)送的侵權(quán)通知長達(dá)28頁。秘塔僅截取了告知函發(fā)布出來,而從發(fā)的的截圖來看,剩下的內(nèi)容主要在羅列侵權(quán)的證據(jù),這些內(nèi)容可能不只是展示各種摘要和標(biāo)題被爬取的情況。

圖片

根據(jù)不少用戶此前的分享,秘塔是能獲取到非公開論文的,而且,可以在秘塔的網(wǎng)頁直接閱讀,這些PDF文檔雖鏈接到外部文庫網(wǎng)站,實(shí)際可能存儲于秘塔服務(wù)器。游云庭認(rèn)為如果秘塔建立了包含知網(wǎng)論文全文內(nèi)容的索引庫,可能構(gòu)成侵權(quán)。

“秘塔AI搜索的播客和文庫板塊是有索引庫的,我理解的索引庫可能是秘塔把批量收集的文獻(xiàn)事先直接在內(nèi)部做了一個(gè)索引數(shù)據(jù)庫,當(dāng)用戶搜索時(shí),秘塔會搜索網(wǎng)絡(luò)對應(yīng)的實(shí)時(shí)內(nèi)容,然后利用人工智能把實(shí)時(shí)搜索結(jié)果和索引庫的內(nèi)容整合在一起提供答案?!庇卧仆フf。也就是雖然核心的展示結(jié)果頁面對索引以標(biāo)注來源形式呈現(xiàn),但同時(shí)在自己的服務(wù)里把“原文”也搬了過來。

“索引庫很可能是真實(shí)存在的,其實(shí)這個(gè)技術(shù)上也不難證明,我們代理訴訟時(shí)碰到此問題,通常用抓包軟件顯示該文檔的真實(shí)ip地址。如果這個(gè)ip地址位于秘塔的服務(wù)器,則說明是秘塔提供的。”

此外,作為使用預(yù)訓(xùn)練模型為基礎(chǔ)的AI搜索引擎,在訓(xùn)練數(shù)據(jù)里是否用到了這些有知識產(chǎn)權(quán)的數(shù)據(jù),則是更重要的問題。

當(dāng)訓(xùn)練里的論文數(shù)據(jù)因?yàn)槟P屯ǔ嬖诘摹斑^擬合”問題而導(dǎo)致最終給用戶輸出內(nèi)容時(shí)與原文高度一致,這就從合理使用進(jìn)入了類似“洗稿”的著作權(quán)侵權(quán)范疇了。

但在這樣的情況下,知網(wǎng)有權(quán)對這些由個(gè)體研究者們撰寫的論文“維權(quán)”么?

“知網(wǎng)無權(quán)主張秘塔訓(xùn)練版權(quán)侵權(quán)?!庇卧仆フJ(rèn)為。

他表示,知網(wǎng)站內(nèi)的多數(shù)論文雖然被收錄,但知網(wǎng)擁有這是雜志社或作者授權(quán)的信息網(wǎng)絡(luò)傳播權(quán),如果該論文被用于訓(xùn)練,訓(xùn)練涉及的版權(quán)是著作權(quán)法規(guī)定的復(fù)制權(quán)和著作權(quán)其他權(quán)利,并不侵犯知網(wǎng)的信息網(wǎng)絡(luò)傳播權(quán)。當(dāng)然如果是雜志社維權(quán)秘塔訓(xùn)練侵權(quán)的,那么秘塔將面臨《紐約時(shí)報(bào)》起訴OpenAI一模一樣的問題。

是時(shí)候多一些更嚴(yán)肅的討論

所以,秘塔們要“回應(yīng)”的對象其實(shí)不只是被網(wǎng)友評論為“萬惡”的知網(wǎng)。

除了對知網(wǎng)作出回應(yīng)——這些回應(yīng)總能引發(fā)共情,從它回應(yīng)文章的評論區(qū)看,人們依然是苦知網(wǎng)久矣的態(tài)度,紛紛“站”秘塔——秘塔們也許可以對這些訓(xùn)練數(shù)據(jù)背后的個(gè)體作者講解一下這些數(shù)據(jù)的使用情況。

此次陷入爭議的“學(xué)術(shù)”搜索功能,是秘塔區(qū)別于其他Perplexity們的一個(gè)重要設(shè)計(jì),這個(gè)功能也贏得了不少用戶的好評。這些用戶往往是一些需要為課堂作業(yè)、文章二次創(chuàng)作甚至寫論文等任務(wù)做大量文獻(xiàn)查詢的用戶。

而對于論文的真正作者們,這些數(shù)據(jù)的使用可能帶來另外的問題。

在最近Nature的一篇文章中就指出,很多學(xué)術(shù)出版商已經(jīng)向科技公司授權(quán)訪問自家的論文,用來訓(xùn)練AI模型。比如美國出版商Wiley允許某家公司使用其內(nèi)容訓(xùn)模型后,直接獲得2300萬美元收益。而這些收入與論文作者一點(diǎn)關(guān)系都沒有。

除了這種很可能最終也無法解決的真實(shí)收益分配問題,對于這些研究者來說,學(xué)術(shù)界本身的一些很重要的評價(jià)體系也在這種“AI學(xué)術(shù)搜索”的生成過程里被打亂。比如,學(xué)術(shù)界很重要的一個(gè)指標(biāo)——引用量,在這些AI學(xué)術(shù)搜索的場景里似乎不存在了。大模型本身的隨機(jī)性和不可解釋性,以及數(shù)據(jù)的不完整性,都讓它生成的這些學(xué)術(shù)搜索結(jié)果與學(xué)術(shù)界本身的判斷標(biāo)準(zhǔn)有出入。

一名學(xué)者對硅星人表示,在這些AI搜索自己生成答案的時(shí)候,選哪個(gè)不選哪個(gè)的標(biāo)準(zhǔn)是什么呢?對于把引用量作為最直接含金量標(biāo)準(zhǔn)的學(xué)術(shù)界,如果這些AI結(jié)果越來越多,然后也被許多研究者用在自己的論文里,這是不是也是另一種形式的AI SEO污染?

圖片

圖片

在秘塔Law里提問展示的結(jié)果

對于這次爭議本身,當(dāng)秘塔清除了索引庫中的知網(wǎng)論文,并不再向用戶提供知網(wǎng)論文的在線閱讀功能,知識產(chǎn)權(quán)侵權(quán)的爭議就很小了,而且游云庭表示,根據(jù)《反壟斷法》和《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》,知網(wǎng)不允許秘塔搜索抓取這兩部分公開信息就不再具有合理的理由。

但如果AI搜索公司們把自己在做的產(chǎn)品當(dāng)作一個(gè)長期和嚴(yán)肅的事,那除了圍著產(chǎn)品的一些小確幸進(jìn)行慶祝,和一些瀟灑的態(tài)度之外,也是時(shí)候正視這些復(fù)雜而現(xiàn)實(shí)的問題,用合適的方式公開的討論它,只有這樣才真正有望觸及它們希望挑戰(zhàn)的今天信息獲取領(lǐng)域真正的癥結(jié)。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱