在這種概率潛在語義分析模型中,多義詞被歸入不同的主題下,而同義詞被歸入同一主題下。
這樣可以避免同義詞和多義詞對文本相似度計算的影響。
然而,概率潛在語義分析模型的參數(shù)隨著文檔數(shù)量的增加而線性增長。
很容易出現(xiàn)過擬合和泛化不良。
這種情況很大程度又是因為維度爆炸。
因為過擬合只在高維空間中預(yù)測相對少的參數(shù)和低維空間中預(yù)測多參數(shù)這兩種情況下發(fā)生。...
在這種概率潛在語義分析模型中,多義詞被歸入不同的主題下,而同義詞被歸入同一主題下。
這樣可以避免同義詞和多義詞對文本相似度計算的影響。
然而,概率潛在語義分析模型的參數(shù)隨著文檔數(shù)量的增加而線性增長。
很容易出現(xiàn)過擬合和泛化不良。
這種情況很大程度又是因為維度爆炸。
因為過擬合只在高維空間中預(yù)測相對少的參數(shù)和低維空間中預(yù)測多參數(shù)這兩種情況下發(fā)生。...