[點晴CRM客戶管理系統]掌握中文分詞技術就等于掌握了搜索引擎命脈
當前位置:點晴教程→點晴CRM客戶管理信息系統
→『 經驗分享&問題答疑 』
搜索引擎在我們的日常生活中已經成為了不可分割的一部分了,相信很多朋友都曾在網上看到類似于“沒有了百度我們將面臨什么?”這樣的問話,想必你自己對此也會深有體會吧。就目前來看,在國內的搜索引擎市場上,百度所占的份額是最大的,360其次,但不可否認的是他們都將中文分詞技術應用到了他們的搜索引擎的工作中去了。 那么,到底什么是中文分詞技術呢? 中文分詞技術其實就是重新將一句話中所出現的字進行再次組合,形成另外一句或一個詞組的技術。我就舉個最簡單的例子來給大家演示下好了,“我在南昌做SEO”像這樣的一句簡單的話,就可以分成 我 在 南昌 做 SEO 這樣的幾個詞語,這個其實就是和的中文分詞技術的原理,將原有的中文漢字重新組合成若干個有意的新的詞組或語句,就叫中文分詞技術。 中文分詞技術到底與搜索引擎有著什么樣的關系呢? 話說咱老祖宗留給咱的文化那叫一個博大精深啊,可能一句話中僅僅只是標點符號的位置變換一下,或者僅僅只是一個字的變化,都將有可能使得整句話的意思完全不相同,這里我也舉個在搜索引擎中找到的例子:原句為——下雨天留客天天留我不留。 可以造就以下句子: 1.下雨天,留客天.天留,我不留 2.下雨,天留客,天天留,我不留! 3.下雨,天留客,天天留我?不留。 4.下雨,天留客,天天留我不?留。 5.下雨天,留客,天天留,我不留。 6.下雨天,留客,天天留我?不留。 7.下雨天,留客,天天留我不?留。 8.下雨天,留客天,天留我?不留。 9.下雨天,留客天,天留我不?留。 通過上面這強大的變化,相信大家對于中文的變幻莫測已經有了清晰的認識了吧,而中文分詞技術為的就是能夠通過這一技術,使得搜索引擎在他上億甚至更多的數據庫中,找出與你的搜索詞優選匹配的內容提供給用戶。 然而,人的智慧是無窮無盡的,機器卻是死的,所以人可以創造機器,但機器卻需要通過人給它設定的程序去運行。所以中文章分詞技術基本上遵循以下幾大規則: 一、字符串匹配 通俗點我們可以將這個理解為機械化的分詞技術,即直接查找是否有與你所提供的文字有相同的出現的。這個時候又分為三個小類別的匹配順序: 1、正向匹配 即自左往右出現與你提供完全相同的詞語進行匹配。 2、逆向匹配 即自右往左出現與你提供完全相同的詞語進行匹配。 3、雙向匹配 即將前面所提到的兩種匹配方式結合起來。 機械分詞方法可以說是現有的分詞方法中最成熟,使用最多,范圍最廣的分詞技術了,因此對于每一名SEOER來說,對于此方法必須具備一定的了解,才能更好的在網站的建設過種中獲得提升。 二、模擬分詞方法 這個分詞的方法可能就相對來講比較模糊了,因為通過程序的設計,讓搜索引擎去模擬人的思維對于句子進行理解、分化,從而識別這些詞意的意思,此方法相對較復雜,搜索引擎在使用上還沒有大面積推廣,僅僅只是小部分嘗試,因此大家只需要了解即可。 三、統籌分詞方法 這一分詞方法其實使用的主要是一個出現頻率的計算以及對數據庫比對的一個抽像算法,舉個例子,當“你”、“好”這兩個字連續出現多次數,搜索引擎就會將此詞語當成“你好”這個詞語來處理,但是如果要是中間部分加入了“很”字的話,那么就會產生部分認為是“你好”,部分為“你很好”,等等…… 上面的三種分詞方法可能介紹的不是很詳細,因為筆者的文筆所限,可能表述不是很清楚,還請大家原諒。接下來說下分詞技術中的幾個困難之處,值得大家注意的: 1、詞語的歧義分辯 這主要是因為同一句話有著非常多的分詞方法,并不是固定的,就如同我前面所提到的“下雨天留客天天留我不留”這句話一樣,因為搜索引擎不可能有我們人這樣的智慧,它在拆分這樣的語句的時候就無法達到盡善盡美。再比如“化妝和服裝”這樣的詞語,切分的時候,搜索引擎就無法很好的識別“化妝 和 服裝”與“化妝 和服 裝”這樣的區別了…… 2、專業術語的識別 隨著科技的不斷進步與發展,很多以前從來沒有過的詞語紛紛的現世,諸如“你妹”,“屌絲”,“衰木涕”等等,這些網絡新興術語,在剛剛問世的時候中文分詞詞庫中肯定沒有記錄這些詞語的真正含義,需要后期人去進行收錄。不過好在搜索引擎已經可以初步開始對新興詞語的識別,讓用戶得以到更好的體驗。 最后小編結束語:了解搜索引擎的分詞技術,在日后的建設網站的過程中,充分的將中文分詞技術利用起來,那么你就掌握了搜索引擎的命脈所在,必定無往而不利。 該文章在 2013/9/23 9:53:04 編輯過 |
關鍵字查詢
相關文章
正在查詢... |