我的文檔變成了亂碼?(文檔突然變成亂碼)
841
2022-05-29
Google如何識(shí)別重復(fù)內(nèi)容的主要版本
為什么將一組重復(fù)內(nèi)容中的一個(gè)版本視為主要版本
它是如何工作的?
重復(fù)內(nèi)容帶走
識(shí)別重復(fù)內(nèi)容的主要版本
我們知道Google不會(huì)懲罰Web上的重復(fù)內(nèi)容,但是它可能會(huì)嘗試確定與同一頁(yè)面的其他版本相比,它更喜歡哪個(gè)版本。
我在本周早些時(shí)候從Web上的Dejan SEO上發(fā)現(xiàn)了有關(guān)重復(fù)內(nèi)容的聲明,對(duì)此感到奇怪,并決定進(jìn)行更多調(diào)查:
如果網(wǎng)絡(luò)上同一文檔有多個(gè)實(shí)例,則具有最高權(quán)限的URL將成為規(guī)范版本。其余被視為重復(fù)項(xiàng)。
上面的引文摘自L(fǎng)ink inversion上的帖子,這是鮮為人知的主要排名因素。(這不是我在帖子中所說(shuō)的。我想看看專(zhuān)利中是否可能有類(lèi)似的東西。我發(fā)現(xiàn)了更接近的東西,但并沒(méi)有說(shuō)Dejan所預(yù)言的那樣。
我閱讀了Dejan SEO的有關(guān)重復(fù)內(nèi)容的文章,并認(rèn)為值得進(jìn)一步探討。當(dāng)我環(huán)顧其中包含“ Authority”一詞的Google專(zhuān)利時(shí),我發(fā)現(xiàn)該專(zhuān)利與Dejan所說(shuō)的不完全相同,但是很有趣,因?yàn)樗业搅藚^(qū)分不同重復(fù)內(nèi)容的方法。基于優(yōu)先級(jí)規(guī)則的域,這在確定哪些重復(fù)內(nèi)容可能位于文檔的最高權(quán)限URL時(shí)很有趣。
該專(zhuān)利是:
識(shí)別文檔的主要版本
發(fā)明者:Alexandre A. Verstak和Anurag Acharya
受讓人:Google Inc.
美國(guó)專(zhuān)利:9,779,072
授予:2017年10月3日
提交:2013年7月31日
抽象
一種系統(tǒng)和方法從同一文檔的不同版本中識(shí)別主要版本。系統(tǒng)基于優(yōu)先級(jí)規(guī)則和與文檔版本相關(guān)聯(lián)的信息為每個(gè)文檔版本選擇權(quán)限的優(yōu)先級(jí),并基于權(quán)限的優(yōu)先級(jí)和與文檔版本相關(guān)聯(lián)的信息選擇主要版本。
由于專(zhuān)利的權(quán)利要求是美國(guó)專(zhuān)利商標(biāo)局的專(zhuān)利審查員在起訴專(zhuān)利時(shí)要看的,并決定是否應(yīng)授予專(zhuān)利。我認(rèn)為有必要查看專(zhuān)利中包含的權(quán)利要求,看看它們是否有助于封裝所涵蓋的內(nèi)容。第一個(gè)捕獲了它的某些方面,這些方面在討論特定重復(fù)頁(yè)面的不同文檔版本時(shí)值得考慮,以及如何查看與文檔關(guān)聯(lián)的元數(shù)據(jù)以確定哪個(gè)是文檔的主要版本:
要求保護(hù)的是:
1.一種方法,包括:通過(guò)計(jì)算機(jī)系統(tǒng),識(shí)別特定文檔的多個(gè)不同文檔版本;以及 通過(guò)計(jì)算機(jī)系統(tǒng)識(shí)別與多個(gè)不同文檔版本的每個(gè)文檔版本相關(guān)聯(lián)的第一類(lèi)型的元數(shù)據(jù),其中第一類(lèi)型的元數(shù)據(jù)包括描述提供多個(gè)不同文檔的每個(gè)文檔版本的源的數(shù)據(jù)版本;由計(jì)算機(jī)系統(tǒng)識(shí)別與多個(gè)不同文檔版本的每個(gè)文檔版本相關(guān)聯(lián)的第二類(lèi)型的元數(shù)據(jù),其中第二類(lèi)型的元數(shù)據(jù)描述了多個(gè)不同文檔版本的每個(gè)文檔版本的特征,而不是文件版本的來(lái)源;對(duì)于多個(gè)不同文檔版本中的每個(gè)文檔版本,所述計(jì)算機(jī)系統(tǒng)將優(yōu)先級(jí)規(guī)則應(yīng)用于所述第一類(lèi)型的元數(shù)據(jù)和所述第二類(lèi)型的元數(shù)據(jù),以生成優(yōu)先級(jí)值;由計(jì)算機(jī)系統(tǒng)基于為多個(gè)不同文檔版本中的每個(gè)文檔版本生成的優(yōu)先級(jí)值,從多個(gè)不同文檔版本中選擇特定文檔版本;并由計(jì)算機(jī)系統(tǒng)提供用于呈現(xiàn)的特定文檔版本。
這并沒(méi)有提出將文檔的主要版本視為該文檔的規(guī)范版本的主張,并且指向該文檔的所有鏈接都被重定向到該主要版本。
與該發(fā)明人共享另一項(xiàng)發(fā)明人的專(zhuān)利是,它引用了一個(gè)重復(fù)內(nèi)容URL中的一個(gè)被選為代表頁(yè)面,盡管它沒(méi)有使用“規(guī)范”一詞。根據(jù)該專(zhuān)利:
共享相同內(nèi)容的重復(fù)文檔由網(wǎng)絡(luò)搜尋器系統(tǒng)識(shí)別。接收到新爬網(wǎng)的文檔后,將識(shí)別一組與新爬網(wǎng)的文檔共享相同內(nèi)容的先前爬網(wǎng)的文檔(如果有)。標(biāo)識(shí)新爬網(wǎng)文檔和所選文檔集的信息合并為標(biāo)識(shí)新文檔集的信息。基于每個(gè)此類(lèi)文檔的獨(dú)立于查詢(xún)的度量,重復(fù)的文檔將包括在新文檔集中或從新文檔集中排除。在一組預(yù)定義條件之后,將為新文檔集標(biāo)識(shí)單個(gè)代表文檔。
在一些實(shí)施例中,一種用于從一組重復(fù)文檔中選擇代表性文檔的方法包括:基于第一文檔與獨(dú)立于查詢(xún)的分?jǐn)?shù)相關(guān)聯(lián),在多個(gè)文檔中選擇第一文檔,其中多個(gè)文檔中的每個(gè)相應(yīng)文檔多個(gè)文檔的指紋具有標(biāo)識(shí)各個(gè)文檔的內(nèi)容的指紋,多個(gè)文檔中的每個(gè)相應(yīng)文檔的指紋指示多個(gè)文檔中的每個(gè)相應(yīng)文檔具有與多個(gè)文檔中的每個(gè)其他文檔基本上相同的內(nèi)容,并且多個(gè)文檔中的第一文檔與獨(dú)立查詢(xún)分?jǐn)?shù)相關(guān)聯(lián)。該方法還包括:根據(jù)查詢(xún)獨(dú)立分?jǐn)?shù),對(duì)第一文檔進(jìn)行索引,從而產(chǎn)生被索引的第一文檔;以及
該其他專(zhuān)利是:
一組重復(fù)文檔的代表性文檔選擇
發(fā)明人:Daniel Dulitz,Alexandre A. Verstak,Sanjay Ghemawat和Jeffrey A. Dean
受讓人:Google Inc.
美國(guó)專(zhuān)利:8,868,559
授予:2014年10月21日
提交:2012年8月30日
抽象
公開(kāi)了用于從一組重復(fù)文檔中索引代表性文檔的系統(tǒng)和方法。公開(kāi)的系統(tǒng)和方法包括基于第一文檔與獨(dú)立于查詢(xún)的得分相關(guān)聯(lián)來(lái)在多個(gè)文檔中選擇第一文檔。多個(gè)文檔中的每個(gè)相應(yīng)文檔具有指紋,該指紋指示相應(yīng)文檔具有與多個(gè)文檔中的每個(gè)其他文檔基本上相同的內(nèi)容。公開(kāi)的系統(tǒng)和方法還包括在獨(dú)立于查詢(xún)的分?jǐn)?shù)之后對(duì)第一文檔進(jìn)行索引,從而產(chǎn)生索引的第一文檔。關(guān)于多個(gè)文檔,在文檔索引中僅包括索引的第一文檔。
不管該重復(fù)頁(yè)面集的主要版本是否被視為第二篇專(zhuān)利中建議的代表性文檔(可能確切地意味著什么),我認(rèn)為重要的是要更好地理解文檔的主要版本可能是什么是。
為什么將一組重復(fù)內(nèi)容中的一個(gè)版本視為主要版本
主要版本專(zhuān)利提供了一些原因,為什么其中一個(gè)可以被視為主要版本:
(1)包含同一文檔的不同版本不會(huì)提供其他有用信息,也不會(huì)使用戶(hù)受益。
(2)包含同一文檔不同版本的搜索結(jié)果可能會(huì)擠出應(yīng)包含的各種內(nèi)容。
(3)在搜索結(jié)果中存在文檔的多個(gè)不同版本的情況下,用戶(hù)可能不知道哪個(gè)版本最權(quán)威,最完整或最易于訪(fǎng)問(wèn),因此可能會(huì)浪費(fèi)時(shí)間來(lái)訪(fǎng)問(wèn)不同版本以進(jìn)行比較。
這就是該重復(fù)內(nèi)容專(zhuān)利認(rèn)為從網(wǎng)絡(luò)上出現(xiàn)的文檔的不同版本中識(shí)別主要版本的理想原因的三個(gè)原因。搜索引擎還希望提供“最合適,最可靠的搜索結(jié)果”。
它是如何工作的?
該專(zhuān)利告訴我們,一種標(biāo)識(shí)主要版本的方法如下。
可以從幾種不同的來(lái)源(例如在線(xiàn)數(shù)據(jù)庫(kù),網(wǎng)站和圖書(shū)館數(shù)據(jù)系統(tǒng))中識(shí)別文檔的不同版本。
對(duì)于每個(gè)文檔版本,將基于以下條件選擇權(quán)限的優(yōu)先級(jí):
(1)與文檔版本關(guān)聯(lián)的元數(shù)據(jù)信息,例如
來(lái)源
獨(dú)家出版權(quán)
許可權(quán)
引用信息
關(guān)鍵詞
網(wǎng)頁(yè)排名
類(lèi)似
(2)第二步,然后使用長(zhǎng)度度量確定文檔版本以進(jìn)行長(zhǎng)度限定。具有較高優(yōu)先級(jí)和限定長(zhǎng)度的版本被視為文檔的主要版本。
如果兩個(gè)文檔版本都不具有較高的優(yōu)先級(jí)和限定的長(zhǎng)度,則將根據(jù)與每個(gè)文檔版本相關(guān)的信息總數(shù)來(lái)選擇主要版本。
該專(zhuān)利告訴我們,學(xué)術(shù)作品傾向于按照該專(zhuān)利的程序進(jìn)行工作:
由于學(xué)術(shù)文獻(xiàn)的作品必須遵守嚴(yán)格的格式要求,因此諸如期刊文章,會(huì)議文章,學(xué)術(shù)論文以及期刊文章,會(huì)議文章和學(xué)術(shù)論文的引用記錄之類(lèi)的文檔都具有描述文檔內(nèi)容和來(lái)源的元數(shù)據(jù)信息。結(jié)果,學(xué)術(shù)文獻(xiàn)作品是識(shí)別子系統(tǒng)的良好候選者。
在此過(guò)程中可能要查看的元數(shù)據(jù)可能包括以下內(nèi)容:
標(biāo)題
發(fā)行人
發(fā)布日期
出版地點(diǎn)
關(guān)鍵詞
網(wǎng)頁(yè)排名
引用信息
文章標(biāo)識(shí)符,例如數(shù)字對(duì)象標(biāo)識(shí)符,PubMed標(biāo)識(shí)符,SICI,ISBN等
網(wǎng)絡(luò)運(yùn)行(例如URL)
參考計(jì)數(shù)
引用次數(shù)
語(yǔ)言
等等
重復(fù)內(nèi)容專(zhuān)利對(duì)確定文檔主要版本的方法進(jìn)行了更深入的研究:
優(yōu)先級(jí)規(guī)則生成一個(gè)數(shù)值(例如,分?jǐn)?shù))以反映權(quán)威性, 完整性或?qū)ξ臋n版本的最佳訪(fǎng)問(wèn)。在一個(gè)示例中,優(yōu)先級(jí)規(guī)則基于源優(yōu)先級(jí)列表來(lái)確定由文檔版本的源分配給文檔版本的權(quán)限的優(yōu)先級(jí)。源優(yōu)先級(jí)列表包括源列表,每個(gè)源具有相應(yīng)的權(quán)限優(yōu)先級(jí)。來(lái)源的優(yōu)先級(jí)可以基于編輯選擇,包括考慮外部因素,例如來(lái)源的聲譽(yù),來(lái)源的出版語(yǔ)料庫(kù)大小,更新的頻率或更新頻率,或任何其他因素。因此,每個(gè)文檔版本都與權(quán)限的優(yōu)先級(jí)關(guān)聯(lián);可以在表,樹(shù)或其他數(shù)據(jù)結(jié)構(gòu)中維護(hù)此關(guān)聯(lián)。
該專(zhuān)利包括一個(gè)表格,該表格說(shuō)明了源優(yōu)先級(jí)列表。
該專(zhuān)利還包括一些替代方法。它告訴我們“確定文檔版本是否具有合格優(yōu)先級(jí)的優(yōu)先級(jí)度量可以基于合格優(yōu)先級(jí)值。”
合格的優(yōu)先級(jí)值是根據(jù)優(yōu)先級(jí)規(guī)則確定文檔版本是權(quán)威的,完整的還是易于訪(fǎng)問(wèn)的閾值。當(dāng)文檔版本的分配優(yōu)先級(jí)大于或等于合格優(yōu)先級(jí)值時(shí),根據(jù)優(yōu)先級(jí)規(guī)則,該文檔被認(rèn)為是權(quán)威,完整或易于訪(fǎng)問(wèn)的。替代地,合格優(yōu)先級(jí)可以基于相對(duì)度量,例如給定一組文檔版本的優(yōu)先級(jí),僅將最高優(yōu)先級(jí)視為合格優(yōu)先級(jí)。
重復(fù)內(nèi)容帶走
我們無(wú)法確定是否像我在本文開(kāi)頭鏈接的Dejan SEO文章中所建議的那樣,將主文檔當(dāng)作所有重復(fù)文檔的規(guī)范URL一樣對(duì)待,但有趣的是, Google可以確定文檔的哪個(gè)版本可能是主要版本。我沒(méi)有深入了解用于確定原始文檔的量化長(zhǎng)度,但是專(zhuān)利確實(shí)花了一些時(shí)間來(lái)解決這個(gè)問(wèn)題。
這是鮮為人知的排名因素嗎?在識(shí)別重復(fù)內(nèi)容的主要版本方面,Google專(zhuān)利確實(shí)在識(shí)別其認(rèn)為是許多重復(fù)文檔中最重要的版本方面顯得有些重要。我不確定大多數(shù)網(wǎng)站所有者可以使用這里的任何內(nèi)容來(lái)幫助他們使他們的頁(yè)面在搜索結(jié)果中排名更高,但是很高興看到Google可能對(duì)該主題進(jìn)行了更深入的探討。
網(wǎng)絡(luò)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶(hù)投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。