五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

被“霸道”的知網(wǎng)控訴侵權(quán),秘塔AI不妨再多講幾句

小打小鬧還是嚴(yán)肅對(duì)待

編者按:本文來(lái)自微信公眾號(hào)硅星人Pro(ID:Si-Planet),作者:周一笑,編輯:王兆洋,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

斷開(kāi)鏈接

最近,秘塔AI搜索的用戶在打開(kāi)網(wǎng)站時(shí)會(huì)發(fā)現(xiàn)頂端有一行醒目的文字:“完蛋!我們收到了知網(wǎng)28頁(yè)的侵權(quán)告知函”。

點(diǎn)開(kāi)是秘塔的一份聲明,其表示收到《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)》電子雜志社有限公司侵權(quán)告知函——也就是此前先后因涉嫌壟斷行為和個(gè)人信息安全等問(wèn)題被罰8760萬(wàn)元和5000萬(wàn)元而爭(zhēng)議不斷的知網(wǎng),向它發(fā)出了侵權(quán)指控。

圖片

簡(jiǎn)單地概括,秘塔AI搜索能搜到知網(wǎng)的內(nèi)容,知網(wǎng)認(rèn)為這是一種侵權(quán)行為,要求立即停止在搜索服務(wù)中提供中國(guó)知網(wǎng)的數(shù)據(jù)。

“我司不希望我司網(wǎng)站中國(guó)知網(wǎng)被秘塔科技搜索到,請(qǐng)立即斷開(kāi)搜索結(jié)果到我司網(wǎng)站的鏈接。如需商務(wù)合作,請(qǐng)與我司聯(lián)系?!?/p>

秘塔科技在這份聲明中回應(yīng),秘塔AI搜索的“學(xué)術(shù)”版塊僅收錄了論文的文獻(xiàn)摘要和題錄,并未收錄文章內(nèi)容本身,閱讀正文需通過(guò)來(lái)源鏈接跳轉(zhuǎn)至網(wǎng)站獲取。而依照學(xué)術(shù)規(guī)范,文獻(xiàn)的摘要和題錄應(yīng)具有獨(dú)立性和自明性,能夠使讀者不閱讀全文就能獲得必要的信息。

圖片

目前秘塔學(xué)術(shù)搜索的部分鏈接會(huì)跳轉(zhuǎn)到萬(wàn)方數(shù)據(jù)。

秘塔AI同時(shí)強(qiáng)調(diào)了知識(shí)的價(jià)值在于流動(dòng),學(xué)術(shù)文獻(xiàn)匯集了人類(lèi)智力成果的重要載體,具有極強(qiáng)的不可替代性??茖W(xué)文獻(xiàn)若成為一種奢侈品,既不利于知識(shí)的公平獲取,也不利于科學(xué)研究的發(fā)展。

不過(guò)從人類(lèi)智慧到學(xué)術(shù)追求談完后,秘塔給出的行動(dòng)是“斷鏈”:“即使不理解,但我們也尊重知網(wǎng)的選擇?!睆募慈掌穑厮嗀I搜索將不再收錄知網(wǎng)文獻(xiàn)的題錄及摘要數(shù)據(jù),轉(zhuǎn)而收錄其他中英文權(quán)威知識(shí)庫(kù)的文獻(xiàn)題錄及摘要數(shù)據(jù),也歡迎其他數(shù)據(jù)庫(kù)來(lái)合作探討。

也就是秘塔最終按知網(wǎng)的申訴要求做了處理。

沒(méi)太說(shuō)清楚的重要問(wèn)題

秘塔AI搜索是這一輪AI熱潮里的明星產(chǎn)品,經(jīng)常被比作中國(guó)的Perplexity。秘塔也是這一輪大模型創(chuàng)業(yè)公司里的明星公司,最新消息顯示,其完成了一億元的最新融資,投后估值1.5億美元。秘塔成立于大模型熱潮之前,但核心產(chǎn)品秘塔AI搜索是在今年3月正式上線。

知網(wǎng)的侵權(quán)通知中稱(chēng)秘塔向用戶提供知網(wǎng)的學(xué)術(shù)文獻(xiàn)題錄及摘要數(shù)據(jù),涉嫌侵權(quán)。對(duì)此,上海大邦律師事務(wù)所高級(jí)合伙人、律師游云庭表示,網(wǎng)頁(yè)不同于論文,知網(wǎng)的學(xué)術(shù)文獻(xiàn)題錄及摘要網(wǎng)頁(yè)都是國(guó)內(nèi)用戶公開(kāi)可以訪問(wèn)的,知網(wǎng)作為在中國(guó)境內(nèi)中文學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)服務(wù)市場(chǎng)具有支配地位的經(jīng)營(yíng)者,其不允許秘塔搜索抓取這兩部分公開(kāi)信息需要有合理的理由。

本質(zhì)上,知網(wǎng)是要求秘塔不要對(duì)其網(wǎng)站進(jìn)行爬蟲(chóng)。而在傳統(tǒng)搜索引擎的生態(tài)里,這樣的信息抓取爬蟲(chóng)行為有基本的規(guī)則——各個(gè)網(wǎng)站和各種信息提供方通過(guò)一個(gè)Robots.txt文件來(lái)告訴搜索引擎哪些內(nèi)容可以抓取,哪些不行。

而像百度、谷歌等搜索引擎會(huì)在這個(gè)過(guò)程中把自家的爬蟲(chóng)進(jìn)行命名,讓對(duì)方知道自己來(lái)過(guò),拿走了什么。但從知網(wǎng)的Robots.txt文件來(lái)看,它沒(méi)有針對(duì)任何爬蟲(chóng)做屏蔽。

“有意思的是,雖然知網(wǎng)給秘塔發(fā)函要求斷開(kāi)鏈接,也就是不允許其抓取網(wǎng)頁(yè)內(nèi)容,但其robots文件(https://www.cnki.cn/robots.txt)卻并沒(méi)有禁止任何搜索引擎爬蟲(chóng),根據(jù)知網(wǎng)的robots文件內(nèi)容,不禁止任何人抓取他們網(wǎng)頁(yè),只是cms、query.html?*、 report、paper、qrcode、js、cs這些涉及后臺(tái)管理界面、靜態(tài)資源目錄和特定內(nèi)容目錄網(wǎng)頁(yè)不能抓取。”

又沒(méi)從行業(yè)規(guī)則上禁止對(duì)方爬取,那為何還要發(fā)告知函?

“現(xiàn)在很多的人工智能搜索引擎的爬蟲(chóng)確實(shí)也不講武德,其不像傳統(tǒng)的百度、谷歌、搜狗、必應(yīng)那樣把自家的爬蟲(chóng)進(jìn)行命名,而是默不作聲的匿名爬取?!庇卧仆ケ硎?。其實(shí)這些匿名爬取不一定都是以這些AI搜索公司之名展開(kāi)。市面上有很多第三方的爬蟲(chóng)服務(wù),以各種方法繞開(kāi)這些基本準(zhǔn)則進(jìn)行爬取。而是否使用了這些服務(wù),在秘塔的回復(fù)中沒(méi)有提到。

在此前Peroplexity也已遇到了類(lèi)似的爭(zhēng)議。

當(dāng)時(shí)連線雜志和開(kāi)發(fā)者Robb Knight 調(diào)查后發(fā)現(xiàn),Perplexity并不遵守robots.txt 標(biāo)準(zhǔn)。而創(chuàng)始人Aravind Srinivas在一次采訪里回應(yīng)說(shuō)Perplexity 并未無(wú)視機(jī)器人排除協(xié)議(Robot Exclusions Protocol)……被調(diào)查發(fā)現(xiàn)有問(wèn)題的網(wǎng)絡(luò)爬蟲(chóng)屬于第三方供應(yīng)商。

但被問(wèn)到是否會(huì)停止使用第三方爬蟲(chóng)時(shí)他只是表示“這很復(fù)雜”。此外,當(dāng)時(shí)這個(gè)調(diào)查還顯示,在某些情況下,Perplexity 可能并未總結(jié)實(shí)際的文章,而是根據(jù) URL 和搜索引擎中留下的痕跡(例如摘錄和元數(shù)據(jù))重建內(nèi)容。似曾相識(shí)。

根據(jù)秘塔發(fā)布的文章,知網(wǎng)向秘塔發(fā)送的侵權(quán)通知長(zhǎng)達(dá)28頁(yè)。秘塔僅截取了告知函發(fā)布出來(lái),而從發(fā)的的截圖來(lái)看,剩下的內(nèi)容主要在羅列侵權(quán)的證據(jù),這些內(nèi)容可能不只是展示各種摘要和標(biāo)題被爬取的情況。

圖片

根據(jù)不少用戶此前的分享,秘塔是能獲取到非公開(kāi)論文的,而且,可以在秘塔的網(wǎng)頁(yè)直接閱讀,這些PDF文檔雖鏈接到外部文庫(kù)網(wǎng)站,實(shí)際可能存儲(chǔ)于秘塔服務(wù)器。游云庭認(rèn)為如果秘塔建立了包含知網(wǎng)論文全文內(nèi)容的索引庫(kù),可能構(gòu)成侵權(quán)。

“秘塔AI搜索的播客和文庫(kù)板塊是有索引庫(kù)的,我理解的索引庫(kù)可能是秘塔把批量收集的文獻(xiàn)事先直接在內(nèi)部做了一個(gè)索引數(shù)據(jù)庫(kù),當(dāng)用戶搜索時(shí),秘塔會(huì)搜索網(wǎng)絡(luò)對(duì)應(yīng)的實(shí)時(shí)內(nèi)容,然后利用人工智能把實(shí)時(shí)搜索結(jié)果和索引庫(kù)的內(nèi)容整合在一起提供答案?!庇卧仆フf(shuō)。也就是雖然核心的展示結(jié)果頁(yè)面對(duì)索引以標(biāo)注來(lái)源形式呈現(xiàn),但同時(shí)在自己的服務(wù)里把“原文”也搬了過(guò)來(lái)。

“索引庫(kù)很可能是真實(shí)存在的,其實(shí)這個(gè)技術(shù)上也不難證明,我們代理訴訟時(shí)碰到此問(wèn)題,通常用抓包軟件顯示該文檔的真實(shí)ip地址。如果這個(gè)ip地址位于秘塔的服務(wù)器,則說(shuō)明是秘塔提供的?!?/p>

此外,作為使用預(yù)訓(xùn)練模型為基礎(chǔ)的AI搜索引擎,在訓(xùn)練數(shù)據(jù)里是否用到了這些有知識(shí)產(chǎn)權(quán)的數(shù)據(jù),則是更重要的問(wèn)題。

當(dāng)訓(xùn)練里的論文數(shù)據(jù)因?yàn)槟P屯ǔ?huì)存在的“過(guò)擬合”問(wèn)題而導(dǎo)致最終給用戶輸出內(nèi)容時(shí)與原文高度一致,這就從合理使用進(jìn)入了類(lèi)似“洗稿”的著作權(quán)侵權(quán)范疇了。

但在這樣的情況下,知網(wǎng)有權(quán)對(duì)這些由個(gè)體研究者們撰寫(xiě)的論文“維權(quán)”么?

“知網(wǎng)無(wú)權(quán)主張秘塔訓(xùn)練版權(quán)侵權(quán)。”游云庭認(rèn)為。

他表示,知網(wǎng)站內(nèi)的多數(shù)論文雖然被收錄,但知網(wǎng)擁有這是雜志社或作者授權(quán)的信息網(wǎng)絡(luò)傳播權(quán),如果該論文被用于訓(xùn)練,訓(xùn)練涉及的版權(quán)是著作權(quán)法規(guī)定的復(fù)制權(quán)和著作權(quán)其他權(quán)利,并不侵犯知網(wǎng)的信息網(wǎng)絡(luò)傳播權(quán)。當(dāng)然如果是雜志社維權(quán)秘塔訓(xùn)練侵權(quán)的,那么秘塔將面臨《紐約時(shí)報(bào)》起訴OpenAI一模一樣的問(wèn)題。

是時(shí)候多一些更嚴(yán)肅的討論

所以,秘塔們要“回應(yīng)”的對(duì)象其實(shí)不只是被網(wǎng)友評(píng)論為“萬(wàn)惡”的知網(wǎng)。

除了對(duì)知網(wǎng)作出回應(yīng)——這些回應(yīng)總能引發(fā)共情,從它回應(yīng)文章的評(píng)論區(qū)看,人們依然是苦知網(wǎng)久矣的態(tài)度,紛紛“站”秘塔——秘塔們也許可以對(duì)這些訓(xùn)練數(shù)據(jù)背后的個(gè)體作者講解一下這些數(shù)據(jù)的使用情況。

此次陷入爭(zhēng)議的“學(xué)術(shù)”搜索功能,是秘塔區(qū)別于其他Perplexity們的一個(gè)重要設(shè)計(jì),這個(gè)功能也贏得了不少用戶的好評(píng)。這些用戶往往是一些需要為課堂作業(yè)、文章二次創(chuàng)作甚至寫(xiě)論文等任務(wù)做大量文獻(xiàn)查詢(xún)的用戶。

而對(duì)于論文的真正作者們,這些數(shù)據(jù)的使用可能帶來(lái)另外的問(wèn)題。

在最近Nature的一篇文章中就指出,很多學(xué)術(shù)出版商已經(jīng)向科技公司授權(quán)訪問(wèn)自家的論文,用來(lái)訓(xùn)練AI模型。比如美國(guó)出版商Wiley允許某家公司使用其內(nèi)容訓(xùn)模型后,直接獲得2300萬(wàn)美元收益。而這些收入與論文作者一點(diǎn)關(guān)系都沒(méi)有。

除了這種很可能最終也無(wú)法解決的真實(shí)收益分配問(wèn)題,對(duì)于這些研究者來(lái)說(shuō),學(xué)術(shù)界本身的一些很重要的評(píng)價(jià)體系也在這種“AI學(xué)術(shù)搜索”的生成過(guò)程里被打亂。比如,學(xué)術(shù)界很重要的一個(gè)指標(biāo)——引用量,在這些AI學(xué)術(shù)搜索的場(chǎng)景里似乎不存在了。大模型本身的隨機(jī)性和不可解釋性,以及數(shù)據(jù)的不完整性,都讓它生成的這些學(xué)術(shù)搜索結(jié)果與學(xué)術(shù)界本身的判斷標(biāo)準(zhǔn)有出入。

一名學(xué)者對(duì)硅星人表示,在這些AI搜索自己生成答案的時(shí)候,選哪個(gè)不選哪個(gè)的標(biāo)準(zhǔn)是什么呢?對(duì)于把引用量作為最直接含金量標(biāo)準(zhǔn)的學(xué)術(shù)界,如果這些AI結(jié)果越來(lái)越多,然后也被許多研究者用在自己的論文里,這是不是也是另一種形式的AI SEO污染?

圖片

圖片

在秘塔Law里提問(wèn)展示的結(jié)果

對(duì)于這次爭(zhēng)議本身,當(dāng)秘塔清除了索引庫(kù)中的知網(wǎng)論文,并不再向用戶提供知網(wǎng)論文的在線閱讀功能,知識(shí)產(chǎn)權(quán)侵權(quán)的爭(zhēng)議就很小了,而且游云庭表示,根據(jù)《反壟斷法》和《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》,知網(wǎng)不允許秘塔搜索抓取這兩部分公開(kāi)信息就不再具有合理的理由。

但如果AI搜索公司們把自己在做的產(chǎn)品當(dāng)作一個(gè)長(zhǎng)期和嚴(yán)肅的事,那除了圍著產(chǎn)品的一些小確幸進(jìn)行慶祝,和一些瀟灑的態(tài)度之外,也是時(shí)候正視這些復(fù)雜而現(xiàn)實(shí)的問(wèn)題,用合適的方式公開(kāi)的討論它,只有這樣才真正有望觸及它們希望挑戰(zhàn)的今天信息獲取領(lǐng)域真正的癥結(jié)。

本文為專(zhuān)欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系editor@cyzone.cn。

反饋
聯(lián)系我們
推薦訂閱