文本理解模型
基于矢量空间的模型
获取知识最简单的方法为矢量空间模型(VSM)。文件(语料)被视为索引词(关键字)形成的多次元向量空间,搜寻时,输入的检索词q会被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的余弦相似度得知。VSM是最简单的知识表示方法。但VSM的计算量过大(需要计算待检查文本与所有样本组合的余弦相似度)没有考虑单词之间的语义关系以及同义词,且还存在词语语义相互独立性假设。实际上,文本语境中单词词序、同义词、词语语义间的关联性对语义的获取存在较大影响。Salton 等提出了TF-IDF算法,计算索引词的TF-IDF值作为其所在维度的权值,调整权值的目的在于突出重要单词,抑制次要单词。但是基于该算法的 VSM 模型不能表示文本内部结构,只能提供文本的低层语义信息(比如单个关键词的集合)。此类模型忽略了文本中语境的作用。
潜在语义分析
完全基于语言学方法对文本进行知识获取,其通用性及可扩展性较差,难以适应大规模、常变的 Web 文本。比如基于词类的语言模型、结构语言模型等。目前文本知识获取主流方法是以统计学为基础并结合一定的语言规则。
Web文本知识获取中比较流行的统计语言模型是潜在语义分析模型(Latent SemanticAnalysis,LSA)。LSA将文本词语的高维表示通过矩阵的奇异值分解,投影到低维的潜在语义空间,并考虑文本同义词关系。但 LSA 忽略了文本的结构信息,完全依赖数学模型,不能处理单词语义的歧义性等。
Rasmus结合LSA与隐含马尔可夫模型(hiddenMarkov model,HMM)提出状态矢量空间模型(State Space Model, SSM),试图解决 VSM 及 LSA 不能处理单词在文本中的词序问题。但是 SSM 用最大期望算法来估计模型所需要的参数,具有较大计算量。Hou 与 Zhang 把 LSA 应用 Web 页面之间潜在语义的发现,试图提高机器对网页的搜索能力。刘云峰等把潜在语义分析应用到中文信息中。叶浩等把 LSA 应用到多类文本分类中。
潜在语义分析相关模型很大程度上依赖数学计算,其复杂度高,结果解释性差,忽略了文本中的语义约束,需要大量的训练文本,不能体现文本语境的作用。
基于概率主题的模型
从 1999 年到现在,基于概率主题的文本知识获取方法,获得了极大地发展。它们是用较少几种词的分布来描述大量文本集主题的语义信息。该模型的基本方法包括概率潜在语义分析模型(Probabilistic Latent SemanticAnalysis,PLAS),潜在狄力克利分配模型(Latent Dirichlet Allocation,LDA)等。
PLAS 抛弃了词典,利用单词的上下文学习单词的语义,试图消除单词语义的歧义。Hofmann 证明了 PLSA 大大简化了 LSA 从文本中获取潜在语义的运算复杂度。但 PLSA 不能处理未观察到的文本,涉及较多的参数,且参数数量随文本集文本数量的增长而增长。于是 2003 年 Blei 提出了潜在狄力克利分配模型LDA。LDA 试图克服 PLSA 的上述缺点,其假定主题的单词在词表中的分布是Dirichlet 分布。2005 年 Griffiths 利用 HMM 与 LDA 相结合来考虑句子级别的句法结构信息与全局文本级别的语义信息,并应用蒙特卡罗马尔可夫链 MCMC(Markov Chain Monte Carlo)作为简化模型去估计与推理 LDA。Xu 把 PLSA 应用到Web 页面的聚类分析与潜在语义的发现中。这两个模型将在后文进行讲解。
除了 PLSA 与 LDA 模型应用比较广以外,还有其它一些模型比如:Keller 等提出了 TTMM 模型(Theme Topic Mixture Model),Yu 把狄力克利过程引入 LSA中提出了狄力克利多项式分配模型 DMA(Dirichlet Multinomial Allocation)。2005 年冯晋,李春平提出了基于统计学和语义信息的中文文本主题识别技术。还有无监管的概率潜在语义模型 uPSLA 、HITS 模型 (HypertextInduced Topic Selection)[56]、层次主题模型与 Unigrams 混合模型等。其中 Unigrams 混合模型仅适合于文本只有一个主题的情况;HITS 模型速度很慢;TTMM 的推理比 LDA 更加精确,但是调整 TTMM 的超参数比较困难;2007年Heidel 等人提出了基于语境窗口的主题语义模型,其利用语境中的信息提高主题模型中推理的健壮性;2007 年 Wang 等人提出基于 N-Grams 主题模型,用来提高主题和短语挖掘的准确性;同年 Nie 等人优化了基于 Bigram 的 PSLA模型,它通过为每个单词分配不均匀数目的主题,提高了 Bigram 模型的实用性。
综上可知,基于概率主题模型的方法基本上都运用了基于概率分布的先验信息,缺乏理论根据;需要大量文本训练,计算复杂度高。
基于符号逻辑或词典的模型
Waltz 在 1985 年利用语言的语法与词素形成最低层的词汇水平填入到语义网络中。Chelba 等试图用剧本方法来对先验知识进行表示,进而获取文本的潜在语义信息。国内黄曾阳提出了概念分层网络来概念化、层次化、网络化的表达文本的语义。Cardie 运用标准的基于符号的机器学习算法,比如决策树来对文本进行语义分析。诸葛海提出了语义链网络来获取与表示文本中的语义关系。
当系统中存在推理所需要的知识时,基于符号逻辑推理是非常精确的。但是随着时间的发展,语言信息是很难被枚举的。因此基于符号逻辑的文本语义信息的获取方法需要结合其它方法才能发挥出其潜在的优势。所以后文不做介绍。
在基于词典的文本语义获取上,Harabagiu 利用英文语义词典(WordNet)来发现单词之间的语义连接,对文本进行推理,从而解决知识获取的瓶颈。还有一些学者试图用 WordNet整合不同的知识源来消除单词语义的歧义。
基于符号的文本分析方法其推理的灵活性较差。基于词典的文本分析方法虽然利用了 WordNet 的先验知识,但是其灵活性与针对性较弱,语义层次较低;其不能度量文本语境的作用。