檢索服務
經過搜索引擎的抓取和預處理,形成基礎的檢索數據庫,但是還要經過一系列的檢索過程才能返回符合用戶需求的結果。這就是搜索引擎工作與用戶交互的重要流程,用戶在搜索引擎的界面輸人需要查找的關鍵詞,搜索引擎會對關鍵詞進行過濾和拆分,并查找各詞的網頁文件,找出其中的交集,確定最低排名權重值,對達到標準的網頁文件進行排名計算,并加人影響排名的特殊條件,如懲罰和人工加權等,獲得最終的排名結果返回用戶。這就是完整的檢索過程,檢索完成后,搜索引擎還會繼續工作,那就是利用用戶搜索習慣優化檢索服務。圖2.13所示為一般搜索引擎檢索服務的流程。
1.處理搜索詞
對用戶輸人的搜索詞進行拆分、去噪、調用方式選擇等操作,以確定檢索命令。當搜索引擎接收到用戶提交的搜索詞后,搜索引擎首先會對搜索詞進行拆分(主要是在漢字中),因為這是和網頁拆分想對應的,所以拆分方式相同。拆分成最優詞組后,過濾掉搜索詞中對搜索結果意義不大的詞,如“啊”“哈”“了”等,以提高搜索結果的準確率,降低檢索時間。一般情況下,這些經過拆分去噪的詞組會使用邏輯“與”,即“+”類型,就是一個網頁中同時含有這些拆分的關鍵詞才是更符合條件的網頁,如“網站優化”的搜索命令就是,調用含有“網站”和“優化”兩個詞的網頁;另外,搜索引擎中還有其他邏輯類型,如邏輯“或”“非”等,“或”就是網頁含有其中一個詞,“非”就是網頁中不含有某詞。搜索引擎能判斷不同組合的搜索詞,確定搜索命令,用于提取出數據庫中符合條件的網頁文件。
例如,用戶搜索“電腦無法啟動了”,搜索引擎就將其拆分為“電腦”“無法”“啟動”“了”,其中“了”并沒有實際意義,或者說對搜索結果的影響不大,而且含有“了”的網頁文件太多,再做篩選的意義不大,因此“了”就會在搜索命令中去掉,但是有時候我們也能看到有“了”的結果,那是因為搜索引擎把“了”和其他詞作為一個詞,而且數據庫中也有此索引。經過過濾形成“電腦”+“無法”+“啟動”的搜索命令,以查詢同時含有這幾個詞的網頁文件。圖2.14所示為百度搜索“電腦無法啟動了”的結果,從結果第3位看出,搜索詞“了”并不單獨作為搜索命令中的一部分,所以過濾單獨篩選命令,另外結果中同時含有“電腦”“無法”“啟動”三個詞。
2.匹配文件范圍
經過處理的搜索命令會在搜索引擎數據庫中進行檢索,并確定符合命令要求的文件,并按照搜索引擎結果顯示規則確定最低權重值,達到最低權重值符合搜索命令的網頁文件就是全部的顯示結果,但是還未排名。
搜索引擎根據搜索命令單個查詢拆分詞的網頁文件,由于是邏輯“+”,因此只有共同含有各個拆分詞的網頁文件會被提取出來,經過第一層篩選出的網頁文件還不能直接參與排名。因為一般用戶搜索的結果至少有幾十萬甚至幾千萬的結果,全部計算排名的話,計算量就非常大,而用戶并不需要查看全部的結果,通常只會瀏覽幾頁的結果,所以搜索引擎一般顯示100頁以內的結果。圖2.15~圖2.17所示分別為百度、谷歌、搜狗的搜索結果頁數,并且都不超過100頁。
由于這個規則,搜索引擎只需要計算出100頁,即最多1000個結果排名就可以了,這樣大大降低了搜索引擎的工作負擔,提高了搜索引擎的反應速度。這時候搜索引擎就需要利用網頁的權重值判斷網頁的重要性,也就是將網頁權重值排名前1000位或更多一點的網頁作為最后參與計算排名的基礎范圍。
3.排名結果
搜索引擎對確定參與排名的網頁文件進行相關性計算,以獲得最終返回給用戶的搜索結果。
搜索結果的排名是搜索引擎工作中最受SEO人員關注的搜索引擎工作原理,因為直接影響網頁的排名次序。影響排名的因素非常多,后面還會具體進行講解,這里只概況搜索引擎大致排名過程。
在搜索結果中,影響網頁排名的有兩個主要因素,內在網頁自身質量因素和外在網頁記錄因素。通常內在網頁質量的判斷多是分析網頁與搜索詞的相關性,如關鍵詞的完全匹配度、關鍵詞出現的位置、關鍵詞的頻率密度、關鍵詞的形式、網頁權重值等。而外在網頁記錄因素多是對網頁外鏈和網頁瀏覽記錄的分析,如外鏈數量、外鏈廣泛度、關鍵詞外鏈、網頁在搜索引擎的單擊記錄等。
通過對網頁排名的計算,已經大致確定了搜索結果的排名,這時候搜索引擎還會對網頁進行懲罰和人工置前。懲罰是通過算法將有作弊嫌疑的網頁進行固定位置的做法,百度的11位懲罰、谷歌負6位懲罰等;而人工置前是對有特殊需求的網頁進行一定的人工排名提高,如官方網站、特殊通道等。經過干預和過濾后,排名結果就會返回給搜索者。
4.檢索優化
通過收集用戶搜索的數據,優化檢索服務,使搜索準確化、個性化、效率化。
在返回搜索結果后,搜索引擎與用戶會繼續進行交互,搜索引擎會提取用戶的IP、搜
索時間、搜索詞、瀏覽的網頁等。通過IP搜索引擎能獲取用戶的地區、根據各地區用戶搜索的內容差別,返回用戶特定地域的排名結果,以及用戶的搜索習慣,返回用戶經常單擊的網頁等;另外根據用戶的單擊記錄,對網頁的排名優化也有一定幫助,用戶單擊更多的搜索結果能得到更好的排名;一般情況下,搜索引擎還會將用戶經常搜索的關鍵詞結果進行緩存,以便其他用戶在搜索時提高結果返回的速度。
搜索引擎主要通過以上4個方面對搜索的結果進行優化,以達到更快更準確地返回結果給用戶,提升用戶體驗。
2.3搜索引擎的分類
隨著互聯網和搜索引擎技術的發展,搜索引擎的種類也越來越豐富。按其工作方式劃分,主要可分為3種,分別是全文搜索引擎、目錄索引搜索引擎和元搜索引擎。按搜索引擎的搜索內容,可分為通用搜索引擎和垂直搜索引擎。搜索引擎還有很多劃分,本節就將對一些不同的搜索引擎進行大致的介紹。
|