Google 如何判斷一篇文章是轉載還是原創？

01-19

原創內容識別是搜索引擎的難題之一, google在這方面做的明顯要好, 但和理想的情況還是有差距.
以"談談書價"這個query為例, google的結果已經做的非常棒了

http://www.google.com.hk/#hl=zh-CNsource=hpq=%E8%B0%88%E8%B0%88%E4%B9%A6%E4%BB%B7aq=oaqi=aql=oq=fp=4e9a4bf94dbdf0d9biw=1280bih=679

幾個可能的識別"原創"的方法:
時間:
直觀來想最重要的識別因子就是時間, 但對於google而言, 這個因子卻很難像我們想像的那樣有效. 可能的幾個參考時間:

搜索引擎收錄時間: 由於抓取系統的調度不同, 即使是google, 即使是用ping, 原創結果也不一定優先被收錄(雖然在很多情況下, 已經向這個方向靠攏了). 這是基於優先順序隊列的網頁抓取演算法和機器抓取性能有限共同決定的. 第一時間新浪編輯轉載的內容可能就比原創先收錄.

網頁上文章的生成時間: 拋開完全不靠譜的伺服器lastmodifytime, 網頁上本身就顯示有生成時間, 如果可以被識別, 也是有效的. 但並不是所有的網頁都有這個屬性, http://read.weiwuhui.com/archives/1767.html 這個轉載的內容, 就找不到有意義的時間. 而且即使存在, 對於這個由網頁生成者提供的時間, 是否可信也是一個問題.

基本上是沒有所有網頁通用的有效時間因素, 可以被搜索引擎獲取到. 時間不準確的話, 即使是完全相同的網頁內容, 也無法判斷了. (判斷網頁是否微小改變, 由於時間不靠譜, 在原創問題上就不是重要的因素, 就不展開了. 從方法上看, 列溫斯頓編輯距離這些方法已經是非常成熟有效的. 看起來google沒這麼用)
鏈接關係:
在一個理想化的互聯網裡面, 轉載方會給出原始出處, 鏈接關係就是比較靠譜的識別原創的方法. google可以順著鏈接關係, 找到最終的原始出處. 但目前來看, 這個方法的作用有限:

沒有專業精神的轉載者: 轉載不給出出處, ^C+^Y一黨. 簡體中文互聯網裡面幾乎所有的綜合性站點, 都有一些編輯耍流氓不給出原始出處的現象, 甚至是剽竊別人的內容當做自己的原創. 這種複製和剽竊, 切斷了鏈接的傳播途徑(現在微博上的那些粉絲多的草根微博, 都是走複製粘貼這個路數的貨色, 更不要說採集站了). 搜索引擎識別不能.

沒有統一的出處: 對於一些urban legend或者笑話, 人類自己都搞不清楚源頭是什麼, 甚至很多源頭都不在互聯網上. 鏈接關係也無法指向最終出處, 可能指向的只是可考的鏡像. 這類超出人類自身的問題, 搜索引擎也沒能力.

傳播能力:
目前看, google識別原創的最主要手段就是識別傳播能力. 根據meme理論傳播越廣的內容其價值越高:

http://en.wikipedia.org/wiki/Meme

其實這裡換了概念, 把"原創"換成了"價值高". 這是一種對於識別"原創"困難的折中. 把找出"源頭"的工作, 交給了用戶的群體智慧. 網頁被用戶通過主動的方式看到的越多, 那麼他是"原創"的概率就越大. 把識別的工作, 交給了全體用戶來共同參與. 相當於是我們找出了信息源(但有可能不是原創), 再把這個結果告訴google. 雖然可能不是真正的原創, 但可能是最具影響力的結果.基於此我們經常看到, 對於同一篇內容, 投稿在月光博客上的網頁, 會比真正的原創網頁排名高.
對於query: quora的創新, 知乎的土壤
google的結果第一位的就是月光博客上的結果, 而真正的原創結果是第一頁找不到的.

至於如何識別網頁的"傳播能力", 類似於facebook的like按鈕就是比較典型的代表, google目前自身的產品已經可以獲取到很多類似的數據(目前還不包括+1的數據), 鏈接關係也可以包括在這裡面, 雖然不是最有效的.

呵呵曹凱邀請我幹嘛，你又不是提問者，這個問題好像提出很久了哦，首先聲明谷歌的原創演算法並沒有公開因此沒有統一標準，姚旭說了些還不錯，那我換個角度從谷歌公布的官方資料中去試圖分析蛛絲馬跡：
第一篇：來自《Google（谷歌）中文網站站長博客》：
由抄襲造成的重複內容
http://googlewebmaster-cn.blogspot.com/2008/07/blog-post.html (需要翻牆，因此我把全文先貼過來，如果你沒興趣可以直接跳過)

2008年7月6日上午 11:37:00
發表者：Sven Naumann，搜索質量組
原文：Duplicate content due to scrapers
發表於：2008年6月9日星期一，上午3:40
重複內容一直是網站管理員們熱議的話題之一，我們覺得很有必要對在各種會議上和網站管理員支持論壇中我們被問及的常見問題作以下統一解答。
在做深入探討之前，我想先簡要談談網站管理員們經常擔憂的一個問題：在大多數情況下，網站管理員往往對擅自抄襲和傳播自己內容的第三方無能為力。我們知道這並不能歸咎於網站管理員們，這也就意味著同一內容出現在許多不同網站其本身並不理所當然地被認為是違反了網站管理員指南。這僅僅導致了Google必須增加一個額外步驟，即鑒別內容的原創來源，而這正是Google所擅長的，在大多數情況下原創內容源都能被正確地識別出來，從而不會給發布真正原創內容的網站帶來負面影響。

一般而言，我們把網站內容雷同問題主要分為兩種情況：

站內內容重複，比如同一內容（經常是無意識地）在您的網站內重複出現。

站間內容重複，比如您網站的內容（同樣，經常也是無意識地）在其他網站重複出現。

對於第一種情況，您可以親自動手解決Google對您網站上的重複內容進行索引的問題。您可以閱讀 Adam Lasnik 發表的Deftly dealing with duplicate content以及Vanessa Fox 發表的Duplicate content summit at SMX Advanced。這兩篇文章都提供了一些很好的建議，幫助您解決站內內容重複的問題。這裡還有一個特別的建議幫助您避免站內內容被重複索引：您可以將您希望被抓取的URL序列包含在您的站點地圖文件中。遇到包含同一內容的不同網頁時，這麼做有助於我們準確收錄您真正想提供給用戶的那部分內容。其他有關於站內內容重複的信息您可以參閱討論此主題的有關「幫助中心文章」。
第二種情形可能是有人剽竊了您網站中的內容，並將其展示在其他網站上牟利。同時，網路代理伺服器也經常抓取通過代理方式訪問的網站的部分內容。當在不同網站遇到相同內容的時候，我們會基於許多不同的依據來判斷究竟哪個網站才是原創，而這樣的判斷通常是準確的。這也意味著，當您發現有人剽竊了您的內容時，您大可不必過分擔心它對您的網站在谷歌搜索排名上的負面影響。
如果您將自己網站的內容與他人分享，但同時還希望自己的網站被識別為原創來源的話，您需要請合作夥伴在其網站內容上添加指向您原創內容的鏈接。您也可以在Vanessa Fox最近發表的文章Ranking as the original source for content you syndicate找到其他有關處理這一問題的建議。
有些網站管理員會有這樣的疑問：什麼原因會導致有時候抄襲內容反而比原創內容的排名還要高呢？這應該是個特例，但如果您真的遇到這種情況，請您務必做到：

檢查一下您的內容是否能被我們抓取。您可能無意間在 robots.txt文件中阻止了部分內容被正常訪問。

您可以檢查一下Sitemap文件，看看您自己是否改動過那些被抄襲的特定內容。

檢查您的網站是否符合網站管理員指南。

最後我想指出的是，在絕大多數情況下，含有雷同重複內容並不會對您的網站在谷歌搜索上的排名有負面影響。這些內容可能已經被過濾出去了。如果您參照上述提到的一些建議，您會了解到怎樣才能更精確地控制搜索引擎抓取的內容以及出現在索引中的內容版本。只有被確認為蓄意或惡意抄襲時，雷同重複內容才有可能會被視為違反了網站管理員指南。
如果您想更深入地討論這一話題，請瀏覽我們的網站管理員支持論壇。

然後我們看下穩重提到的：Vanessa Fox最近發表的文章Ranking as the original source for content you syndicate（鏈接： http://www.ninebyblue.com/ranking-as-the-original-source-for-content-you-syndicate/ ）：

Ranking As The Original Source For Content You Syndicate
When you write content on your site, whether it』s a blog post, product description, or an article, you likely want to rank well for it. I』m often asked how best to ensure this when you』re also syndicating that content.

Why Syndicate?
There are good reasons for syndicating content. Syndication can bring traffic, exposure, and sales.
If you』re a blogger, you might syndicate your posts to get wider distribution. If your posts are seen by a bigger audience, you might gain some of those readers for yourself. If your site provides authoritative resources, you might have a partnership with other sites that want to include that content. And if you sell products, you might provide affiliates with content feeds, which in turn brings in additional revenue.
But What Should Rank?
But from a search engine perspective, syndication can cause a bit of a conundrum. If what you wrote is a relevant result for a search, the search engine wants to show it to the searcher. But not show it twice (or three times, or maybe even a thousand times in the case of an affiliate feed). And that makes sense. If you』re searching for something, you don』t want multiple results that all lead to the same content even if that content is on different sites.
So what』s a search engine to do?
Search engines generally identify duplicate results and filter out all but one. They have lots of ways to decide which version to show. They try to figure out which one is the 「original」 by looking at things like which version was published first and which has the most links pointing to it.
我簡單概括性翻譯下：就是互聯網存在各種信息聚合（包括轉載複製聚合等等），因此搜索引擎會去剔除重複內容，而重要的判斷原創的方式就是最多鏈接指向你。
Your content may appear on other sites at times other than when you syndicated it (such as when your RSS feed has been scraped), and search engines try to account for that too by looking at things like which site is more authoritative.
有時候你的網站被別的網站訂閱啊索引啊之類的，有時候呢搜索引擎並不能很好的追蹤到鏈接來源之類的（比如被去掉了鏈接來源），這時候搜索引擎就要考慮哪個網站更權威（也就是尊重版權歷史啊，網站權重啊，自身原創性的頻率和比重啊）

其實下面一大段balabala的說的就是沒有鏈接來源搜索引擎有些時候無法判斷原創來源（多數情況還是能判斷的），那你該怎麼做，說服對方加上你的鏈接來源之類的，還可以給你自己的網站寫些總結性的文章並聚合，比如什麼本站十大原創文章列表，這樣也有利於判斷出來，通過這個就可以推測出：搜索引擎也會通過聚合在一起的其他鏈接屬性的原創性來推測某篇無法判斷來源的文章的原創性。
What If Search Engines Get It Wrong?
Generally, search engine algorithms work pretty well and your original version shows up. However, the system isn』t perfect. Michael Gray recently noted that sometimes Google gets it wrong and shows the version from a more authoritative site, even when that is not the original version. He suggested some ways for making sure that the original version shows up first. And he linked to the Search Illustrated column on Search Engine Land that shows a great illustration of how search engines determine the version to show.
How Can You Make Sure Your Site Ranks First?
So what do I suggest you do if you』re syndicating content but want your original version to rank about the syndicated ones?

Create a different version of the content to syndicate than what you write for your own site. This method works best for things like product affiliate feeds. I don』t think it works as well for things like blog posts or other types of articles. Instead, you could do something like write a high level summary article for syndication and a blog post with details about that topic for your own site.

Always include absolute links back to your own site in the body of the article. This is particularly helpful when your content is scraped.

Ask your syndication partners to block their version of your article (via robots.txt or a robots meta tag). Whenever I suggest this, people laugh and tell me that the sites they are syndicating to would never agree to this as they want the content so they can rank for it. I can completely understand this. But as someone who』s providing your content for syndication, you should then just realize you』re in a competition with your syndication partners for ranking and it』s quite possible they can outrank you. If you are able to, put together a syndication agreement that states they get your content as a benefit for their readers, not as a way to acquire search traffic for that content, then you can keep control of ranking for what you』ve written and they can provide a benefit to their audience.

But Make Sure Duplication Is the Issue
In Michael』s case, he explained that he has an agreement with Web Pro News that enables them to syndicate any blog post of his that they』d like for their own site. And in the case he describes, the article on the Web Pro News site is ranking above the version on his blog. He speculates that』s because Web Pro News is a more authoritative site. I am sure that what he describes can happen (particularly since in this case, his Web Pro News version of the article doesn』t have a link back to his original article; at the very least, he should negotiate an introductory paragraph at the beginning of his syndicated posts that explain where the original is located with a link to it, not only for search engine ranking purposes, but to give readers better content), but in his particular case, I』m not so sure that』s the cause.
I can』t find his original post indexed at all. Obviously, if a page isn』t indexed, it has no chance of ranking. I』m not sure why that particular page isn』t indexed. It』s not blocked with robots.txt or a robots meta tag. It sounds likehe can see it indexed, so maybe I』m hitting a different data center. If that』s the case, I don』t know if the one I』m hitting was refreshed more recently than the one he』s hitting or if his is.

就是要檢查robots.txt文件之類的了，要確保你的網站被收錄不是？即使你的網站和網站內容相當的權威不收錄談何判斷原創呢。
Don』t Give Away Your Control
His point that syndicating content can be tricky if you want to rank for that content remains, even if the root cause of his particular case is a bit hazy. If search is not yet a large acquisition channel for your site, then you may not mind if another site ranks for your material as you may get more traffic from the syndicated site (so make sure you at least have a link back to your site!). But as you site starts to stand on its own and search traffic starts growing, you will want to have more control. So think of your longer term strategy when you negotiate syndication partnerships and don』t give up all of the control of the content you work so hard to create to others.
這段沒啥，就是說做事要堅持。

ok，我們看了上面兩篇權威的文章，我們就可以簡單總結出幾個點：
1.來源鏈接
2.周邊文章的原創性
3.網站本身的權重、權威性
4.持續的原創更新，為你的網站建立良好的原創屬性，有利於搜索引擎對你原創性判斷的依據
5.保證良好的網站結構，持續的更新，確保搜索引擎更好更快的發現你的網站內容（不等同於發布時間）
6.包括採用作者注釋聲明等，包括利用版權協議捍衛自己的合法權益等

7.歷史上轉載過你文章並留下來源鏈接指向你的網站的，你的域名將在原創性上加分，從而在判斷文章原創性上獲得加權。

當然我相信還有更多的判斷因子，但我們沒辦法從權威的信息中得到印證，因此我們可以持續的做我們已知的因素。
同時我相信成為一個優質的網站（被搜索引擎認為）也是原創性優先判斷的一個重要依據，我貼出來希望對大家有用：

關於構建優質網站的更多指導
2011年6月15日下午 04:37:00
發表者：Amit Singhal，谷歌搜索科學家
原文：More guidance on building high quality sites

最近幾個月，我們專註於幫助人們從Google的搜索結果中找到優質網站。通過「Panda」演算法我們已經改善了大量優質網站的排名，所以大多數情況下不必擔心搜索質量。但是，對於那些受到「Panda」影響的網站，我們希望提供有關Google如何搜索優質網站的額外指導。
我們一直以來都建議發布商，要儘可能地關注並實現用戶於網站的最佳體驗，而非Google當前的排名演算法或信息。一些發布商把焦點對準了我們之前的Panda演算法變化，但是「Panda」僅僅是我們預計將在今年推出的500餘項搜索改進項目之一。實際上，自推出「Panda」演算法以來，我們已經對我們的排名演算法做出了其餘十多項的調整，有些網站錯誤地認為他們的排名變化與「Panda」有關聯。搜索是一項複雜、不斷變化著的技術和科學，因此我們建議您不要關注於特定的演算法調整，而應專註於實現最佳的用戶體驗。
哪些網站可算作優質網站?
我們的網站質量演算法的定位在於通過減少劣質內容的羅列，幫助人們找到「優質」網站。最近的「Panda」演算法解決了通過演算法來評估網站質量的艱巨任務。現在，我們希望解釋一些推動我們演算法開發的想法和研究。
以下是一些人們可以用來評估網頁或文章「質量」的問題，這些問題也就是我們在編寫用於評估網站質量的演算法時所考慮的問題。這可以看做是我們對用戶想法的猜測。
當然，我們不是在披露我們的演算法中使用的實際排名信息，因為我們不希望人們去賭我們的搜索結果；但是如果你希望了解Google的思路，以下問題提供了一些有關我們如何看待這一問題的指導：
? 你是否相信此文章中提供的信息？
? 在你看來，此文章是由深諳主題的專家或愛好者所寫，還是在性質上較為膚淺的文章？

? 此網站中是否有相同或相似主題的多餘內容，只是關鍵詞稍微有些變化？
? 你願意向此網站提供你的信用卡信息嗎？
? 文章是否有拼寫、格式或事實錯誤？
? 文章主題是由網站讀者的真實興趣來主導，還是網站通過猜測可能在搜索引擎中排名較好的話題來確定？
? 文章是否提供原創內容、信息，原創報道，原創研究或原創分析？
? 與搜索結果中的其它網頁相比，這個網頁是否具有重大價值？
? 在內容方面有多少質量控制？
? 文章是否兼具描述事物的好壞兩方面？
? 網站是否為其同主題網站方面的公認權威？
? 網站內容是否由許多創建者批量創建或外包創建的？或者由於網站網路巨大，單個網頁或網站的關注度很低？
? 文章是經過精心編輯的，還是隨意或匆忙創建的？
? 你是否相信此網站提供的健康相關的信息?
? 在看到這個網站名稱時，你是否會視此網站為權威信息來源？
? 這篇文章是否提供關於主題的完整或全面的說明？
? 此文是否包含有深刻分析或不那麼淺顯的有趣信息？
? 對於這類網頁，你是否希望添加到收藏夾，與朋友分享或向他人推薦？
? 這篇文章是否有過多分散注意力或干擾主要內容的廣告？
? 你認為你會在紙質雜誌、百科全書或書籍中讀到本文嗎？
? 此文章是否短小、沒有實質內容，或者缺乏有幫助的具體內容？
? 此網頁的製作屬於非常關心和注意細節，還是不那麼注意細節？
? 用戶從此網站看到網頁時會抱怨嗎？
編寫一個評估網頁或網站質量的演算法是更為艱巨的任務，但是我們希望以上問題提供了一些有關我們如何編寫那些區分優質網站和劣質網站的演算法的見解。
你能做什麼
一直以來，我們收到很多人的來信說希望獲得更多如何改善Google排名的指導，尤其是在很多人認為其網站受到了「Panda」演算法更新的影響後。我們建議大家在致力於開發優質內容時考慮上述問題，而不是試圖針對任何特定的Google演算法而進行優化。
我們提供的另一條具體指導意見是，一個網站的部分劣質內容會影響整個網站的排名，因此去除劣質網頁，將個別膚淺的網頁內容合併或改善為更有用的網頁，或將劣質網頁移至一個不同的域名，可能最終有助於獲得較高質量內容的排名。
我們一直致力於開發額外的迭代演算法，以幫助管理優質網站的網站管理員從搜索中得到更多的流量。當你持續改善你的網站，而不是關注特定的演算法調整時，我們建議你問自己一些與我們在總體評估時詢問的同樣類型的問題。這樣做，你的網站更可能獲得較好的長期排名。同時，如果你有任何反饋，請通過我們的網路管理員論壇告訴我們。當我們開發未來的排名迭代演算法時，我們將持續關注論壇的帖子並向搜索質量團隊傳遞網站信息。

哈哈這個回復里的信息量巨大啊需要大家好好嚼咀一下才能消化了。

都跑題了呀，而且沒說到核心...什麼發布時間、鏈接....
你知道搜索引擎是怎麼索引的么？
如果知道搜索引擎是怎麼索引的，那你就知道搜索引擎是如何判斷是否原創的了。
抓取→壓縮→索引
在進行壓縮的時候，可以抽取出文章指紋，在索引過程中就可以進行簡單的比較了。
當然判斷的演算法也分好幾種，其中一種叫啥啥的（如果我還記得回答過問題，查過資料再來補充），就包括對文章的詞語刪減、替換等等進行分析的。還要提段落互換？
真要改的話，不能小改小寫，基本上要重寫一遍才可以——比如「小明請客吃飯」→「星期六小明心情很好請公司的同事吃火鍋。」
如果文章加了TrackBack，那就以TrackBack為準了。
============
好吧，回來補充下關於重複內容的判定。
谷歌站長工具關於重複內容的解釋和解決方法：https://support.google.com/webmasters/bin/answer.py?hl=zh-Hansanswer=66359
然後在查找網路上的權威資料的時候，看到光年論壇藍仁大版主的博客，提到Shingling演算法、I-Match演算法、SimHash演算法、SpotSig演算法（藍版原文http://www.dwhzy.com/seo/390.html），嗯，就是我上面說的去重判斷演算法——有始有終，上面提了，現在總得給個說法。
至於詳細的去重演算法解釋，找谷姐吧，度娘不給力。要是有認識的研究搜索引擎的研究生，應該能幫不少忙。
所以，還是原回答說的，搜索引擎判斷文章是否來自獨立源，是否是重複內容，是有完善的演算法的。而想要讓搜索引擎認定是原創，除了文章大幅修改，還有就是@檀斌說的——沒辦法，誰讓是我邀請來的，不贊同貌似不好(*^__^*) ，不過人家說的很對哈！

看了答案,不是很靠譜.貼一個我知道的答案....
所以如果你要讓機器知道哪一篇文章是原創還是轉載,你需要解決2個問題.
1.把所有同一篇文章找出來.
2.把抓到時間按照時間排序,最先抓來的認為是原創的.
第2個問題非常好解決,所以說一下第1個問題的解決方案.

我先把所有頁面中的文字提取,按照自然斷句,變成一個文檔.

我取出該網頁最長的一個句子,作為簽名,認為這個是這篇文章中一個特徵.

我取出該網頁上次最長句子作為簽名2,認為是是第二個特徵.

把所有網頁上,特徵1,和特徵2一樣的網頁選出來,則完成了同一篇文章的選擇.
第二個問題迎刃而解.

原則上頭尾修改·幅度不超三分之一

搜索引擎的計算單位是網頁，是判斷網頁是否原創，而不是文章。

第一是從時間上，第二是從互聯網有沒有這個相關性的高質量內容。

現在碩博論文都有個反作弊檢查程序，為什麼抄襲和非創新重複建設還是不可杜絕，不少人都下載來自己先看看有沒違規，然後想辦法讓他們看起來不太一樣。然後某人自己寫的文章雖然是同一個內容，但是換種寫法機器是很難識別出來的，這樣就有了很多SCI, EI。。。覺得機器能代替人來判斷在這點上還是太難了。這種情況的造成是因為自然語言系統，和生命系統、社會經濟系統一樣，是科學上所說的複雜系統，目前還沒有大的突破能真正解決，未來幾年會有突破也未可知。
上面是從科技角度說的。話說回來，這問題由人工來斷定卻比較容易，但是沒單位捨得費精力這麼做，難道是不值得，還是另有。。。

沒絕對的，Google做的也不完美，呵呵，上面的答案有的人對搜索引擎有點了解，有的完全不懂。

很理論的東西：首先你這個文章的：標題、段落的第一句、段落的末句、段落的順序。抓取到的內容去和資料庫中比較！看重複度！！！一般地說差異化達到50%（有說60%）就算原創了（另稱偽原創成功）。

應該主要是根據時間來判斷吧，還有文章的相似程度吧。。。

這個連人工都無法做到準確判斷，何況機器演算法。

搜索引擎判斷內容重複除了鏈接，時間，還主要是採用搜索指紋這一方法來判斷重複文章

不可能完美解決，頭尾修改幅度不要超過1/3，SEO現在不好做，看天吃飯。百度520就是一個教訓啊

看看這篇文章吧---數學之美系列十二：餘弦定理和新聞的分類，相信你就明白了

推薦閱讀：

※知乎有不有必要建立法務小組協調解決作者被侵權問題？
※他人以截圖方式轉載自己發的文字，算侵權嗎？
※在知乎上寫的文字，授權給其他媒體轉載使用，什麼情況下應該收取稿費？大概應收取多少？
※韓寒的電子雜誌轉載知乎上面用戶問題的答案算侵權么？
※做原創新聞的媒體如何應對其他媒體的非法轉載？主要的困境是什麼？