客服電話:400-0755-992
客服郵箱:vip@wapadd.cn
服務時間:周一至周五 9:00-18:00
本人是搜索引擎優(yōu)化技術的愛好者,這篇文章將采用大部分人都可以看得懂的簡單方式,讓大家欣賞一下中國三大搜索引擎的分詞技術。
很幸運,我們的三大搜索引擎都在他們的快照里把查詢語句拆分,然后用不同顏色的高亮來顯示,大家可以一目了然地看到他們的分詞方法。搜狗、有道這些非主流的搜索引擎都沒有這種功能。騰訊搜搜采用的是谷歌的內(nèi)核,快照可以直接看到,但是卻沒有分詞高亮顯示。谷歌已經(jīng)去掉了“快照”功能,只有上Google去,并且需要使用代理服務器或者用一點小技巧才能看到。雅虎跟易搜使用相同的搜索核心,這次我使用的是易搜,也就是以前“悲情謝幕”的一搜,現(xiàn)在馬云同志好馬勇吃回頭草,變成了易搜,繼續(xù)造福中國人民。
分詞技術第一例:紅色搖滾很搞笑
從拆詞的情況來看,谷歌竟然并沒有把“搖滾”看作是一個詞!它是不是在搞笑?這就意味著,當你的谷歌里搜索“搖滾”的時候,谷歌把這句話也當成候選的結(jié)果“斗牛士搖來搖去,公牛說:本牛不操無名之輩,滾!”
雅虎比谷歌更懂中文!人家起碼知道搖滾是一個詞。
呵呵,這就是業(yè)界一直盛傳的百度很牛逼的分詞技術了,把“紅色搖滾”整個兒好地看成一個詞,贊。它連“很搞笑”都看成是一個整體!
分詞技術第二例:比爾蓋茨正在重裝操作系統(tǒng)
谷歌果然不給微軟面子,連“蓋茨”這個名兒都不算一個詞,“重裝”自然也不算了,更不要提“操作系統(tǒng)”了,感覺谷歌就像一個絕世武林高手,把一張紙 拋向空中,然后吆喝一聲,用手中的寶劍唰唰唰唰地把那張紙碎尸萬段。一個美眉淚奔:人家寫給蓋茨的情書,你怎么把它喜唰唰了?谷歌道:查無此人。
谷歌拆分的本領太幼稚了,雅虎當然勝出,“比爾蓋茨”和“重裝”都成了詞,可見馬云忽悠大家說雅虎搜索最好還不算太離譜,起碼分詞比谷歌先進。
百度大亨閃亮登場,一切完美,可以認出“操作系統(tǒng)”。seo優(yōu)化技巧搜索引擎根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統(tǒng)。學習搜索引擎優(yōu)化SEO,必須先了解什么是搜索引擎。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。宏哥果然厲害,嘆服。
分詞技術第三例:誰在用吉它彈奏一曲十八摸
谷歌又來喜唰唰了,不服不行,“吉它”“彈奏”都被棒打鴛鴦兩頭散。注意:我的搜索詞里頭有一個“在”字,谷歌一腳把它踢飛,我也淚奔~
雅虎還行吧,咦?曲十八是什么?是一個風流才子嗎?反正我是不知道,大家有知道的M我。關鍵詞優(yōu)化隨著搜索引擎不斷變換它們的排名算法規(guī)則,每次算法上的改變都會讓一些排名很好的網(wǎng)站在一夜之間名落孫山,而失去排名的直接后果就是失去了網(wǎng)站固有的可觀訪問量。
終于輪到終極Boss出場了,老實說,我不寫這篇文章還不知道宏哥的分詞技術能夠強大到如此的地步!它將我的查詢詞用三種方法來分詞。先下一下這三張快照:
為什么百度會存在多種分詞版本?正如我在“授谷歌絕殺百度的獨孤九劍”那篇文章里提到,優(yōu)秀的分詞策略是這樣:盡量不拆分,需要拆分時,先把長的拆成中的,如果結(jié)果還是少,再把中的拆成短的。
當然,這是原則,執(zhí)行過程中卻并不一定嚴格按照這種拆分來排序,要看別的參數(shù)。在百度里搜“誰在用吉它彈奏一曲十八摸”,有三條搜索結(jié)果,其中只有第二條是包括了完整的“誰在用吉它彈奏一曲十八摸”,排在第一條的結(jié)果是“誰在用吉他彈 奏一曲十八摸”,注意,紅色部分與使用的查詢語句不同。使用“吉它”百度一下,找到相關網(wǎng)頁約2,490,000篇,使用“吉他”百度一下,找到相關網(wǎng)頁 約22,600,000篇。由此可見,“吉他”是比“吉它”更常使用的詞語,百度把查詢語句拆分之后,發(fā)現(xiàn)“吉它”的同義詞“吉他”可能是更好的詞,于 是,百度將更常用的詞“吉他”代替“吉它”之后將更合適的搜索結(jié)果放到第一!兄弟們,不服不行啊!
百度擁有如此強大的分詞技術,加上產(chǎn)品穩(wěn)定、可靠、河蟹,再擁有貼吧、知道等用戶貼性很高的產(chǎn)品,擁有hao123作為把菜鳥導入百度懷抱的利器,怪不得宏哥可以放心地去東京打小日本的主意。關鍵詞優(yōu)化隨著搜索引擎不斷變換它們的排名算法規(guī)則,每次算法上的改變都會讓一些排名很好的網(wǎng)站在一夜之間名落孫山,而失去排名的直接后果就是失去了網(wǎng)站固有的可觀訪問量。seo優(yōu)化技巧搜索引擎根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統(tǒng)。學習搜索引擎優(yōu)化SEO,必須先了解什么是搜索引擎。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。正如百度產(chǎn)品部出來的一位朋友說:“競爭對手太不爭氣。”
百度的分詞技術有什么弊端嗎?
有。
我上次提到過,在搜“上海紫園”的詞時,百度不知道憑什么,把“上海紫”看成了一個詞,并且在搜索結(jié)果里含有一大堆“上海紫”的結(jié)果,嚴重違背了先 不拆,后小拆的原則。在這個詞上,谷歌反倒比百度要好,雖然谷歌的詞庫很小,可是它用兩個詞相近則擁有更高優(yōu)先級的辦法來彌補。我的本意是表揚一下百度的 “先不拆”的良好原則,不料卻發(fā)現(xiàn)了百度的一個弊端。百度應當調(diào)整拆詞的參數(shù),不要把“上海紫”這樣的也看作一個詞。呵呵,應該是我的記憶出問題,我上次 本意應該是讓大家搜索“紫園一號”的。這個詞就大概能看出谷歌跟百度的搜索差別。
由于兩詞相近優(yōu)先級高,所以谷歌的分詞技術弊端并沒有想象的那么嚴重,但是在搜索很多的詞之后,會發(fā)現(xiàn)它的結(jié)果總差那么一點兒,這就是差距了,在此 做個小猜測,谷歌使用的詞庫來自新華字典,還可能是小學生版。雅虎的詞庫則來自漢語大詞典,百度……估計是自創(chuàng)的詞典,連“紅色搖滾”都算詞了呀。
其實我是谷歌的Fans,不喜歡百度和雅虎的商業(yè)氣味太重,寫這個排名出來,是希望谷歌的領導注意谷歌自身水平的提高,而不是用拉攏迅雷、天涯這樣的招術,這是旁門左道,對谷歌的進步毫無用處。網(wǎng)站SEO搜索引擎優(yōu)化是一種利用搜索引擎的搜索規(guī)則來提高目前網(wǎng)站在有關搜索引擎內(nèi)的自然排名的方式。SEO的目的理解是:為網(wǎng)站提供生態(tài)式的自我營銷解決方案,讓網(wǎng)站在行業(yè)內(nèi)占據(jù)領先地位,從而獲得品牌收益。
客服電話:400-0755-992
客服郵箱:vip@wapadd.cn
服務時間:周一至周五 9:00-18:00
掃一掃 關注微加
Copyright © 2021 WapAdd.cn 深圳微加互聯(lián)科技有限公司 粵ICP備14021220號-1 建站加盟首選,微加建站! 粵公網(wǎng)安備 44030402001656號
圖片與文章來源于網(wǎng)絡,版權歸原作者所有,如有侵權,請與我聯(lián)系刪除。