日本一卡精品视频免费丨国产午夜片无码区在线播放丨国产精品成人久久久久久久丨国产亚洲日韩av在线播放不卡丨亚洲日韩av无码

搜索引擎分詞算法

2016/10/29 8:45:58   閱讀:1890    發(fā)布者:1890

  當(dāng)日益劇增的海量信息讓我們眼花繚亂時(shí),搜索引擎的出現(xiàn)可以讓我們快速找到自己想要的答案。因此多了解搜索引擎的分詞算法,可以讓網(wǎng)站在搜索引擎上獲得更好的展現(xiàn)機(jī)會(huì)。網(wǎng)站建設(shè)小編在講解中文分詞技術(shù)之前,先來了解下全文檢索技術(shù)。

  全文檢索技術(shù)

  全文檢索是指索引程序掃描文章中的每個(gè)詞并建立對(duì)應(yīng)索引,記錄該詞出現(xiàn)的位置和次數(shù)。當(dāng)通過搜索引擎查詢時(shí),檢索程序就在記錄的索引進(jìn)行查找并返回給用戶。全文檢索又分為基于字的全文索引和基于詞的全文索引。基于字的全文索引會(huì)對(duì)內(nèi)容中的每個(gè)字建立索引并記錄,此方法查全率高但查準(zhǔn)率低,特別是對(duì)于中文,有時(shí)搜索馬克,會(huì)列出馬克思的結(jié)果。基于詞的全文索引是把一個(gè)詞語作為一個(gè)單位進(jìn)行索引記錄并能處理同義詞。搜索引擎有自己的詞庫,當(dāng)用戶搜索時(shí),搜索引擎會(huì)從詞庫中抽取關(guān)鍵詞作為索引項(xiàng),這樣可以大大提高檢索的準(zhǔn)確率。

  中文分詞技術(shù)

  一直以來大家都比較熟悉百度,百度有自己的中文分詞技術(shù)。一般采用的包括正向最大匹配,反向最大匹配,最佳匹配法,專家系統(tǒng)方法等。其中最大正向匹配是最常用的分詞解決方案,它采用機(jī)械式算法,通過建立詞典并進(jìn)行正向最大匹配對(duì)中文進(jìn)行分詞。舉個(gè)簡(jiǎn)單的例子比如搜索“北京大學(xué)在哪里”則返回結(jié)果很多都是包含北京大學(xué),北大等詞語的網(wǎng)頁,搜索引擎就是采用正向最大匹配去判斷,把北京大學(xué)當(dāng)做一個(gè)詞語來索引記錄并返回。當(dāng)然,正向最大匹配也有不完整性,比如長(zhǎng)度過長(zhǎng)的詞語,搜索引擎有時(shí)無法準(zhǔn)確的分詞或者對(duì)前后都相互關(guān)聯(lián)的詞無法準(zhǔn)確分詞。例如“結(jié)合成分子時(shí)”會(huì)被返回結(jié)合、成分、子時(shí)而有時(shí)我們想要的關(guān)鍵詞是“分子”。

  很多時(shí)候百度都會(huì)根據(jù)自己詞庫中詞語的權(quán)重進(jìn)行拆分,權(quán)重的計(jì)算基于生活各個(gè)方面,比較復(fù)雜,搜索引擎要做的就是返回用戶最想要的結(jié)果,有時(shí)站長(zhǎng)們做網(wǎng)站要站在用戶的角度去考慮問題,其實(shí)這也是站在搜索引擎的角度考慮問題,不論在確定目標(biāo)關(guān)鍵詞或者是長(zhǎng)尾關(guān)鍵詞時(shí),都可以根據(jù)中文分詞的原理來選擇,這樣可以最大化的減少無用功。

  分詞原理不斷在變化,不斷在更新,我們應(yīng)該繼續(xù)學(xué)習(xí),只有掌握了本質(zhì)才能抓住實(shí)質(zhì)。

    相關(guān)閱讀:《關(guān)于搜索引擎分詞的一些理解》

主站蜘蛛池模板: 欧美黑人添添高潮a片www| 色一情一狱一爱一乱| 蘑菇视频黄色| 成人久久久久久久久久久| av福利在线| 夜夜撸影院| 成年女人黄小视频| 欧美性性性性性色大片免费的| 亚洲黄色小视频在线观看| 久久国产毛片| 久久精品久久久久观看99水蜜桃| 欧美精品久久96人妻无码| 国产精品夜夜夜爽阿娇| 99草在线视频| 777米奇影院狠狠色| 日本一区二区三区视频在线| 青青青青操| 国产av福利久久精品can| 人人妻一区二区三区| 亚洲一级一级| 亚洲精品自在在线观看| 久久亚洲国产成人精品性色| 国产午夜影院| 在线观看特色大片免费视频| 小荡货奶真大水多好紧视频| 国产免费拔擦拔擦8x网址| 亚洲午夜免费福利视频| 免费人成网站在线视频| 97久久精品人人爽人人爽蜜臀| 国产激情综合五月久久| 亚洲va在线va天堂xxxx中文| 狠狠综合久久久久综合网| 久久综合视频网| 国产乱妇无码大片在线观看| 欧美色综合网站| 人禽杂交18禁网站免费| a天堂av| 国产a在亚洲线播放|