SEO搜尋引擎原理 - 爬蟲抓取篇
檢索或抓取(Crawl)是讓網站出現在Google排名的第一步,這個過程的概念其實並不複雜,Google有了一個網址(URL),去拜訪這個網頁,然後從網頁上的內容上發現更多的網址,加進檢索序列中,如此循環下去。
這個過程看似簡單,但是網路世界卻很複雜… (不然也不會寫了這麼多)
前言
最近我在公司講了一場SEO內訓,主題是《Before Google Ranks a Page: The Lifecycle of Googlebot》,探討網頁在有資格出現在搜尋結果前的三個必要階段**「抓(爬)取」、「轉譯」、「收錄」**。過沒多久就讀到Harris先生的文章《SEO基礎觀念:認識檢索 (Crawl) 與索引 ( Index )》,啟發了我寫這篇文章的動力,希望能幫助充實中文的SEO內容。這個系列會把這個觀念分成三篇文章,讓大家對技術面的SEO有更進一步的認識。
為什麼要了 解抓取的概念
因為「抓取」是讓網頁出現在搜尋結果的必要第一步,Google如果連網頁的存在都不知道,那更別提能在搜尋結果上有排名。經營一個網站,我們希望Google爬我們想被找到的網頁,也希望Google不要爬我們不想被看到的網頁。另外,隨著網站的發展,外掛插件的安裝和移除,常常會讓網站留下一些”技術債”。而SEO在這裡的工作就是要讓Google能夠用最有效率的方式抓取網站。

一切都要從網址開始說起
網址(URLs)是網頁的地址,像 https://www.darrenhuang.com/about-darren-huang 就是個網址。這裡要給大家一個測驗,沒答對的話答應我你會把這篇看完!
下面六個網址,那些在搜尋引擎的眼中和上面的網址是一樣的,那些是不一樣的?
A) https://www.darrenhuang.com/about-darren-huang/ (結尾多了斜線)
B) http://www.darrenhuang.com/about-darren-huang (開頭為http而非https)
C) https://www.darrenhuang.com/ABOUT-DARREN-HUANG (大寫)
D) https://darrenhuang.com/about-darren-huang (少了www)
E) https://www.darrenhuang.com/about-darren-huang?utm_source=facebook (後面多了追蹤參數)
F) https://www.darrenhuang.com/about-darren-huang.html (後面多了.html的檔名)
檢索過程的三個階段
檢索是Google收錄網頁三步驟的第一大步,而這一大步又可分成三個階段「加入檢索隊列(Crawl Queue)」、「爬蟲拜訪(Crawler)」、「頁面處理(Processing)」 ,下面依序作介紹。
Step 1: 加入檢索隊列(Crawl Queue)
