則該隨機過 程 Xn 為血液溶漿機離散時 間的 Markov鏈。隨機過 程有兩層 含義:第一,它是 一個時 間函 數(shù),隨時間的改變而改變;第二,每個時刻上的函數(shù)值是不確定的,是按照一定的概率隨機分 布的。實際上,自然語言中每個字母或音素的 出現(xiàn) 隨著 時間的 改變 而改變,是 時間 的函數(shù), 而在每個時刻上出現(xiàn)什么字母(或音 素)則有一定 的概率性,是 隨機的。1913 年,Markov就 注意到語言符號出現(xiàn)概率的相互影響,指出自然語言就是一個由有記憶 信源發(fā)出 的 Markov 鏈,在這一 Markov鏈中,前面的語言符號對后面的語言符號是有影響的。 如果只考慮前面一個語言符號對后面一個語 言符 號出現(xiàn) 概率 的影 響,這 樣得 出的 語言 成分的鏈稱做一階馬爾科夫鏈;如果考慮前面 兩個語 言符 號對后 面一 個語言 符號 出現(xiàn) 概率 的影響,
則稱做二階馬爾科夫鏈,以此類推,當考慮前面 n個 語言符號 對后面 一個語言 符號 出現(xiàn)概率的影響,則稱做 n階馬爾 科夫 鏈。隨著 馬爾 科夫 鏈階 數(shù)的 增大,隨機 試驗 所得 出 的語言符號鏈愈來愈接近有意 義的語 言文 本。然而,正 像語 言學 家喬 姆 斯基(Chomsky)所 指出的,描述自然語言的馬爾科夫鏈的階數(shù)并不是無窮增加的,它的極限就是語法上和語義 上成立的自然語言句子的集合,這樣,就有理由將自然語言的句子看成是重數(shù)很大的馬爾科 夫鏈了。 n-gram 模型是近年來最流行的語 言模 型,它是這 樣定 義的:如 果用 變量 S代 表文 本 中一個任意的符號(字、詞、詞 性標 記 或義 類 標記 符 號)序列,它由 順 序排 列 的 n 個 符號 組 成,即 S= W1 W2… Wi… Wn,則 S在文本中的出現(xiàn)概率 P(W1W2… Wi… Wn)可以用 下式 表示: P(S)= P(W1 W2… Wi… Wn) = P(W1)P(W2/W1)…P(Wn/W1W2… Wn-1) 其中,P(Wn/W1W2… Wn-1)表示在給定上下文 信息 W1 W2… Wn-1的條件 下,Wn 的 出現(xiàn) 的概率,即要考慮前面的 n-1 個符 號對 當前符 號出 現(xiàn)情況 的 影響。 這種 模型 由于
假設 當 前詞的出現(xiàn)只 與前面 n-1 個詞有關,而 與其他詞 無關,可以看 做滿足 Markov模型的 無后 效性條件,也就可以將其看做是一個廣義的 n-1階 Markov模型。 274 第七章 自然語言理解 (2) 隱 Markov模型 隱 Markov模型是由 Baum 首先提出的,后被廣泛地應用于語音識別和詞性標注。 它包 含了雙重隨機過程,一個是系統(tǒng)狀態(tài)變化的過 程,狀態(tài) 變化所 形成 的狀 態(tài)序列 叫做 狀態(tài)鏈; 另一個是由狀態(tài)決定觀察的隨機過程,是一個 輸出 的過 程,所 得到 的輸 出序列 稱做 輸出鏈。 “隱”的意思就是輸出鏈是可觀察到的,但 狀態(tài) 鏈卻 是“隱藏”的、看不 見的。 一個隱 Markov 模型的形式描述為 λ=(A,B,π),其中,A={aij}為狀態(tài)轉移概率矩陣,且0≤aij