同桌上课用手指进去了好爽_欧美丰满熟妇xxⅹⅹ性大i_成人av天天日天天拍拍_猛男gay帅男gay男男同志_欧美va天堂在线观看_人妻无码av中文系列三里桃花_亚欧免费无码在线观看_久久久精品国产亚洲av水_日韩在线免费看污污污_2021无码专区人妻系列日韩

首頁(yè) 優(yōu)化推廣 網(wǎng)頁(yè)信噪比與相關(guān)度計(jì)算

網(wǎng)頁(yè)信噪比與相關(guān)度計(jì)算

來(lái)源: | 時(shí)間:2010/7/20 15:45:50 |

通常我們對(duì)于文本信息之間得相關(guān)性得計(jì)算都是采用向量的辦法,我在以前的PPT里曾經(jīng)提到過(guò)。然而對(duì)于文本信息更深層次的分析不能單純從字面上分析一篇文章的關(guān)鍵詞,更重要的是它隱含的擴(kuò)展的意義。

傳統(tǒng)的關(guān)于計(jì)算文本相關(guān)度和【網(wǎng)頁(yè)和查詢(xún)的相關(guān)性】的計(jì)算都是采用匹配的方式進(jìn)行的,然而這只能是基于字面意義上的統(tǒng)計(jì)計(jì)算。這里介紹的做法是采用關(guān)鍵詞相關(guān)性擴(kuò)展的做法從而得到更加精確的相關(guān)度計(jì)算。

例子:
文章 A: 談?wù)摰氖谴髮W(xué)教育,最高頻的關(guān)鍵詞是:學(xué)生[3],學(xué)習(xí)[2],大學(xué)[2]
文章 B: 談?wù)摰氖瞧胀ń逃?,最高頻的關(guān)鍵詞是:教育[5],教師[1],進(jìn)修[1]
[]里是相對(duì)的權(quán)重,可以理解成 TF*IDF

根據(jù)傳統(tǒng)的相關(guān)性計(jì)算,我們會(huì)得到如下的結(jié)果:

1. 文章A 與 文章B 不相關(guān)
2. 查詢(xún) 學(xué)生,學(xué)習(xí),大學(xué)只能返回文章A,不能返回文章B
3. 查詢(xún) 教育,教師,進(jìn)修只能返回文章B,不能返回文章A

分析:
這個(gè)顯然是有一定的問(wèn)題的,問(wèn)題的出現(xiàn)在于我們通常將“字面”的意思做為分析的來(lái)源而且依靠和僅僅依靠這些“字面”的關(guān)鍵詞做為文章相關(guān)性和查詢(xún)相關(guān)性判斷的唯一要素。

如何避免?
我在以前的文章中提到過(guò)【關(guān)鍵詞相關(guān)度】的概念,舉例說(shuō)明:
當(dāng)出現(xiàn):{學(xué)習(xí)}這個(gè)詞匯的時(shí)候,真實(shí)的表達(dá)的意義往往是這樣的:
{W1*學(xué)習(xí),W2*教育,W3*教師,W4*大學(xué)。。。。。。}
其中W1,W2...是學(xué)習(xí)和相關(guān)詞匯的相關(guān)權(quán)重。

基于這樣一個(gè)矩陣,我們就能夠?qū)⒁粋€(gè)詞擴(kuò)展成為一組詞匯,因而也同時(shí)可以將文章所對(duì)應(yīng)的向量擴(kuò)展成一個(gè)更多詞匯的集合。

這里的計(jì)算需要一個(gè)完整的相關(guān)度矩陣:M

M(i,j) = {關(guān)鍵詞i,j的相關(guān)度}
而兩篇文章的相關(guān)度的計(jì)算,也由簡(jiǎn)單的
R= Sigma Vi*Vi
變?yōu)?br /> R= Sigma Vi*M(i,j)*Vj

查詢(xún)關(guān)鍵詞和文章的相關(guān)度也由簡(jiǎn)單的
R(i)=TF(i)*IDF(i)
變?yōu)?br /> R(i)=Sigma TF(j)*IDF(j)*M(i,j)


下面碰到一個(gè)核心問(wèn)題就是:關(guān)鍵詞之間的相關(guān)度如何計(jì)算?
例如:學(xué)校和學(xué)生的相關(guān)度是多少?
計(jì)算方法:
假設(shè)一個(gè)文章集合 {C},總文章數(shù)目為N,其中含有單詞A的文章總數(shù)為Na,含有單詞B的文章總數(shù)是Nb,含有{A+B}的文章總數(shù)是 Nab,那么相關(guān)性這么計(jì)算

CorrAB= Nab/(Na+Nb-Nab)-(Na*Nb)/(N*N)

本計(jì)算中可能會(huì)得到負(fù)相關(guān),如果考慮到Na,Nb都是小量,可以忽略,那么

CorrAB= Nab/(Na+Nb-Nab)

至此,要計(jì)算相關(guān)度之間的全部要素都獲得了。

思考,那么到底 學(xué)校 和學(xué)生 之間的相關(guān)度是多少呢?
我們利用google來(lái)回答這個(gè)問(wèn)題吧:

約有91,700,000項(xiàng)符合學(xué)校的查詢(xún)結(jié)果
約有88,200,000項(xiàng)符合學(xué)生的查詢(xún)結(jié)果
約有48,900,000項(xiàng)符合學(xué)生 學(xué)校的查詢(xún)結(jié)果

Corr{學(xué)校,學(xué)生}=48,900,000/(91,700,000+88,200,000-48,900,000)=0.37

這個(gè)原理我以前應(yīng)用在了計(jì)算【網(wǎng)頁(yè)信噪比】上,和網(wǎng)頁(yè)信噪比一起成為衡量一個(gè)網(wǎng)頁(yè)的關(guān)鍵詞的核心算法。
這也就是為什么6e的網(wǎng)頁(yè)信噪比能夠不依靠網(wǎng)頁(yè)上現(xiàn)有的關(guān)鍵詞而準(zhǔn)確的判斷網(wǎng)頁(yè)的分類(lèi)和相關(guān)度,是因?yàn)槌薚F和IDF之外,我們能夠從已有的文本集合里學(xué)到更多的“知識(shí)”。

那么百度和google的相關(guān)度應(yīng)該不難計(jì)算了:

利用 google計(jì)算得到:2,950,000/(61,800,000+6,370,000-2,950,000)=0.03

利用 baidu計(jì)算得到:2,760,000/(21,700,000+12,200,000-2,760,000)=0.08

看來(lái)基本上相關(guān)度小于10%

服務(wù)熱線(xiàn)

153 8323 9821

功能和特性

價(jià)格和優(yōu)惠

網(wǎng)站和維護(hù)

推廣和優(yōu)化

微信服務(wù)號(hào)