婷婷久久综合九色综合,欧美成色婷婷在线观看视频,偷窥视频一区,欧美日本一道道一区二区

<tt id="bu9ss"></tt>
  • <span id="bu9ss"></span>
  • <pre id="bu9ss"><tt id="bu9ss"></tt></pre>
    <label id="bu9ss"></label>

    當前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

    TF-IDF:傳統(tǒng)IR的相關排序技術(二)

     2013-08-26 10:04  來源: Rude的博客   我來投稿 撤稿糾錯

      阿里云優(yōu)惠券 先領券再下單

     

    既然是二,就是順著上一篇文章《TF-IDF:傳統(tǒng)IR的相關排序技術》寫下來的。所以,有興趣的同學請先看完第一篇文章再來繼續(xù)。

    好,我們繼續(xù)開始二。

    關于詞頻,只要你的分詞工具夠牛逼,就很好理解和實現(xiàn)。關于反文檔頻率,各位親們,看到時會不會初時感覺很牛叉,然后細想會很有疑惑?

    逆文檔頻率(idf)=log(文檔總數(shù)/包含關鍵詞的文檔數(shù)量)

    對,疑惑就在怎么獲得“文檔總數(shù)”與“包含關鍵詞的文檔數(shù)量”上。

    在搜索引擎上,可以有一個不錯的替代方式,下面聽我細細道來。

    每篇文章每個網(wǎng)頁幾乎都含有“的”這個字,嗯,你想到了吧。在搜索引擎中搜這個字,出來的結果數(shù)量可以理解為所有的文檔數(shù)量,然后再搜你的目標詞即為包含這個詞的文檔數(shù)量,這一數(shù)據(jù)也就得到了解決,下面是我弄的一個例子:

     

    好了,有了這些數(shù)據(jù),我們接下來看看能夠做些什么出來。

    將網(wǎng)站中每個網(wǎng)頁進行分詞,去掉語氣助詞停頓詞之后按照tf-idf值從大到小進行排序。

    網(wǎng)頁A={a1,b1,c1,d1,e1……z1}

    網(wǎng)頁B={a1,b2,c1,d5,e2……z6}

    網(wǎng)頁C={a2,b1,c2,d1,e2……z2}

    ……

    顯然從{a1,b1,c1,d1,e1……z1}中就可以了解到網(wǎng)頁A所表達的意思,B、C亦然。

    如果通過一個方法將A、B、C中的詞進行比對,那豈不是就可以算出來……,你想對了,頁面之間的相似程度。

    這個方法,就是余弦值。具體操作,如下:

    我們首先從A、B、C中選出前N個可以表達頁面主題的詞,組成一個集合。

    {a1,c1,d1,e1,b2,d5,e2,a2,b1,c2}

    然后計算A、B、C頁面針對這個集合中每個詞的詞頻(如有必要,請使用相對詞頻),組成對應的向量。

    A=[2,1,3,5,0,0,0,0,1,0]

    B=[……]

    C=[……]

    請記住這個高中時就學到的公式。

     

    OK,經(jīng)過此公式的計算,不但是頁面之間的相似度,同樣一個頁面最相關的推薦文章也即可由此產(chǎn)生。

    有興趣的同學們,請試驗一下吧。

    轉(zhuǎn)載請注明鏈接地址。

    申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

    相關文章

    熱門排行

    信息推薦