- 相關推薦
數字環境下通用概念獲取方法
數字環境下通用概念獲取方法
摘要:在敘詞表、本體等知識組織體系構建過程中,需要獲取通用概念。
筆者試驗了三種獲取通用概念的方法,一是繼承傳統知識組織體系通用概念,二是通過關鍵詞在文獻中詞頻分布情況確定通用概念,三是基于關鍵詞總詞頻與標準差二維信息獲得通用概念。
研究結果表明:以上三種方法各有特點及使用范圍,在概念獲取時可以根據課題具備條件單獨使用或組合使用。
關鍵詞:敘詞表 本體 通用概念 標準差 詞頻
概念的獲取與分類是知識組織體系構建的重要工作。
例如,敘詞表的選詞主要由普通名詞與專有名詞構成,普通名詞主要包括具體事物名稱和抽象事物名稱,具體事物名稱例如“海洋”,抽象事物名稱例如“鑄造”;專有名詞通常為人名、地名、產品名等,例如“孫中山”。
在本體構建中,概念詞匯與實例詞匯也是本體構建的主要成分,例如,可以用“城市”代表一個概念,而“北京市”則是一個實例。
在所有這些概念詞匯的研究中,通用概念具有一定的特征和應用價值,數量上也占有一定的份額。
無論是綜合敘詞表,還是專業敘詞表,通常都有一個單獨的通用概念范疇,有的敘詞表命名為一般概念,有的敘詞表命名為通用詞,這些詞例如“研究”、“設計”、“應用”等,是在不同專業都有應用的泛指詞,在概念組配方面有重要價值。
在國內圖書館學、情報學領域相關機構及領域專家的參與下,中國科學技術信息研究所2009年啟動了《漢語主題詞表》(工程技術版)的編制與修訂工作,通用概念的選詞與詞間關系的建立,是該項目的重要工作之一。
1、從傳統知識組織體系中繼承獲取
1980年,《漢語主題詞表》(以下簡稱《漢表》)編制完成并出版,上世紀80至90年代,我國敘詞表的編制與應用達到了巔峰時期,編制了上百部的綜合及專業性敘詞表。
人類知識總是在繼承中不斷發展的,這些敘詞表概念可以作為重要的原始語料或參考詞匯,經過遴選直接納入候選詞庫,根據修訂和重新編制的原則,進行選詞、分類、建立詞間關系等敘詞表編制工作。
原《漢表》通用概念分自然科學一般概念與社會科學一般概念。
自然科學一般概念的一級范疇號為92,下分為9個二級類目,其中92A是一般概念,例如機理、計算、結論、現狀等概念。
其他二級類目包括92B形狀、尺寸,92C時間、方位等,共收集了475個通用概念。
作為《漢表》修訂項目,這些詞在入選方面應該占有較大的權重,甚至根據這些詞匯的統計數據屬性重新進行分類。
例如,“計算”一詞,需要統計在各級大類中的詞頻情況,根據詞頻大小,確定是繼續放到通用概念下,還是放到0類(數理科學與化學)或TP類(自動化技術、計算機技術)。
另外,還有大量的專業敘詞表,例如《農業科學敘詞表》、《水利水電科技主題詞表》(以下簡稱《水表》)等,同樣有通用概念。
《水表》一級范疇號20“通用詞”下設2個二級類目,20A為“復合通用詞”,例如“安全管理”、“分布規律”等;20B為“一般通用詞”,例如成分、利用、應用等。
2、基于詞頻分布人工獲取通用概念
首先觀察一個具體的例子,“設計”是一個公認的通用概念,以“設計”作為關鍵詞檢索萬方數據,在“工業技術”類文獻下,檢索結果如截圖1所示:
從圖1可以看出,“設計”一詞作為關鍵詞,出現在所有工業技術下的二級類目中,而且詞頻數量巨大,對應的文獻量巨大,有典型的通用概念特征。
使用“水庫”一詞進行檢索,在“工業技術”類下檢索結果如截圖2所示:
從圖2可以看出,“水庫”一詞的詞頻特征也非常明顯,在“水利工程”類目中詞頻上萬次,而其他類目中詞頻都非常低,直觀感覺有顯著的差異。
通過這樣的例子可以看出,“設計”是一個通用概念,“水庫”是一個屬于TV(水利工程)類的專業概念。
雖然以上兩個例子簡單明了,但存在具體操作問題。
在傳統的敘詞表編制中,概念的獲取主要通過領域專家人工提供,耗時長,過度依賴領域專家個人隱性知識。
雖然提供的概念本身是符合編制規范的,但不同人員可能會提供不同數量的概念,存在概念覆蓋面是否全面的問題。
通過統計關鍵詞詞頻分布獲取通用概念,不僅工作量大,而且同樣存在閾值把握問題。
例如,如果詞頻為漸變或等差數列式遞減,沒有顯著差異,則如何判斷?另外,關鍵詞詞頻與不同類目下文獻數量也有一定關系,假設萬方數據中“水利工程”類文獻收集的比較少,可以推斷“水庫”關鍵詞的詞頻也不會如此高,而萬方數據各類目下的文獻數肯定是不一樣的,所以基于詞頻會存在誤差。
3、基于類目間關鍵詞詞頻標準差大小機器輔助獲取
針對以上問題,本文試驗了機器輔助獲取、消除詞頻誤差的相對詞頻與標準差方法,獲取通用概念,統計方法與試驗結果如下。
3.1 材料與方法
試驗材料使用萬方數據學術論文庫,該庫基本采用《中國圖書館分類法》的分類體系,文獻共分22個一級大類。
一級大類“工業技術”下分16個二級大類。
抽取1987-2009年所有學術論文文獻數據,提取論文的關鍵詞,經過去重、去掉詞頻為1的關鍵詞等數據清洗,得到總量約300多萬個關鍵詞,從這些詞中隨機抽取1萬個關鍵詞,用于完成本試驗。
由于課題是《漢語主題詞表》(工程技術版)的編制,所以抽取的關鍵詞必須是在一級大類“工業技術”下的文獻中出現過的關鍵詞。
為了探索一個概念通常情況下出現在幾個類目中,統計了這1萬個關鍵詞在16個二級類目文獻數據庫中的詞頻分布情況。
包括:關鍵詞在各二級類目文獻中的詞頻;在工業技術一級類目下的總詞頻;計算了每個關鍵詞以上兩項統計值相除后的相對詞頻值;使用相對詞頻值,計算了每個關鍵詞相對詞頻值在16個二級類目間的標準差。
3.2 基于標準差排序獲取通用概念
理論上講,關鍵詞首先應該在16個二級類目文獻中都有詞頻,這樣的關鍵詞通常是通用概念,從試驗數據中提取的在所有類目文獻中都有關鍵詞分布的詞匯見表1。
從表1數據可以看出,19個關鍵詞基本上都屬于通用概念或是工業技術中的專業通用概念,標準差比較小的“設計”(0.0697)、“優化”(0.0566)、“調節”(0.0509)等,都是典型的通用概念。
隨著標準差的增大,單個關鍵詞雖然可以應用到所有文獻中,但還是相對集中地出現在某一類文獻中,例如,標準差為0.2121的“變壓器”,應該屬于TM類(電工技術),標準差為0.1487的“可視化”應該屬于TP類(自動化技術、計算機技術)。
對于在15個類目中都有分布的關鍵詞,同樣可以使用標準差分布表,從小到大排序,截取標準差比較小的關鍵詞,進行人工判斷,選擇常見的通用概念。
使用試驗數據,選出“解決辦法”(0.05)、“尺寸”(0.07)、“降溫”(0.07)等關鍵詞,也是非常典型的通用概念。
同樣方法還可以考慮在14個類目、13個類目等文獻中分布的關鍵詞,具體考慮到多少個類目為止,需要根據具體
數據獲取經驗值,并在大規模數據中進行驗證與評價。
3.3基于標準差與總詞頻二維信息獲取通用概念
依據標準差判定通用概念時,重點考察了關鍵詞的均勻分布問題,總詞頻的特征沒有很好地體現,以表1中數據為例,關鍵詞“熱傳導”(0.0438)、“沖擊力”(0.0529)的標準差非常小,但對應的總詞頻分別為253、68,遠遠小于“設計”的總詞頻21252。
從數據特征上看,在判斷優質通用概念時,應該同時考慮標準差與總詞頻兩方面的信息,才能將在多數類目中具有關鍵詞分布的通用概念細分和分塊考慮。
本文借鑒管理學SW0T分析方法解決這個問題,方法是制作關鍵詞二維分布圖,橫坐標為總詞頻,縱坐標為標準差,依據關鍵詞總體數據分布相對集中的區域,給定分區模型,如圖3所示:
根據經驗判斷,圖3基本假設為Ⅰ區,Ⅱ區偏向專業分類,Ⅲ區、Ⅳ區偏向通用類。
具體細分為:處于Ⅰ區的關鍵詞總詞頻低,標準差高,屬于概念專指度相對高的專業低頻概念,例如關鍵詞“分散”(628,0.1233);處于Ⅱ區的關鍵詞總詞頻高,標準差高,屬于使用范圍廣但更集中、可以歸入一個專業類的專業概念,例如關鍵詞“變壓器”(4114,0.2121);處于Ⅲ區的關鍵詞總詞頻低,標準差低,屬于概念專指度相對低、無法具體歸類的低頻通用概念,例如關鍵詞“熱傳導”(253,0.0438);處于Ⅳ區的關鍵詞總詞頻高,標準差低,屬于典型的通用概念,例如關鍵詞“設計”(2l252,0.0697)等。
對15個類目、14個類目等關鍵詞統計的具體數據進行觀察,發現總體特征符合以上規律。
如果作為工程項目,在大規模數據計算實踐中,還需要進一步確定兩個方面的指導值或經驗值:①區分4個區交點的坐標點位置,而且不同的類目數,交點位置也是變動的;②關鍵詞類目的適合數,例如關鍵詞在5―8個類目中分布時是否還可以使用這樣的方法進行判斷。
4、討論
4.1 通用概念與概念應用廣泛的區別
在知識組織體系的概念分類中,通常會涉及到學科和主題問題,也涉及學科與應用問題,例如本文統計的關鍵詞“變壓器”,普遍應用于所有工業技術中,但從分類角度看,放到TM類(電工技術)更合理。
也就是說,如果從應用角度分,可以是通用概念,但從學科角度分應該屬于專業概念。
最典型的例子是“計算機”。
當今信息時代,計算機已經成為各行業普遍使用的工具,統計文獻的關鍵詞詞頻,也會出現在所有分類文獻中,但按學科分類,“計算機”這一概念還是應該放到TP(自動化技術、計算技術)類更合適。
這樣一些概念,例如“設計”,各學科都通用,無法具體歸到某一個專業學科分類中,是典型的通用概念;而類似“計算機”這樣的概念,只能說應用廣泛,而不是通用概念,所以通用概念與概念應用廣泛有著不同的含義。
4.2 通用概念、專業通用概念、專業概念之間的關系
在數據處理中,通用概念與專業概念有時也不是涇渭分明的,在通用概念與專業概念間應該有一類詞是專業通用概念,對應交點附近的那些語詞。
在傳統的知識組織體系中,這種現象也是普遍存在的。
原《漢表》的范疇類目,除了一級大類“自然科學一般概念”、“社會科學一般概念”外,43個一級大類下,也同時設置了大類下的一般概念,例如一級大類“67機械工程”下設“67AA機械工程一般概念”,“69水利工程”下設“69A水利工程一般概念”。
二級范疇"69B水文學”下有三級范疇“69BA水文學一般概念”,“地表水”是其一般概念。
所以,在專業內為通用概念,在專業間又趨向于專業概念,這類專業通用概念還是普遍存在的。
知識組織體系應該將這些概念進行明確區分,以有利于其分類與應用。
4.3 通用概念選詞范圍由知識組織系統的應用目的決定
通常情況下,類似“研究”、“應用”、“實踐”、“理論”等詞匯屬于典型的通用概念,這些詞的特征為專指度低、檢索意義不大,用戶檢索文獻時不會使用“研究”去檢索。
但通用概念在概念組配方而具有重要意義,例如組成“問題研究”、“對策研究”、“經濟研究”、“科學研究”、“理論研究”等先組概念,這些詞多數也是通用概念。
由于知識組織體系的應用不同,一些詞匯也可以放到專業范疇內,例如“經濟問題”,可以放到經濟類下作其專業通用概念,而不是與“研究”、“應用”等典型通用概念聚到一起。
為了加強分類導航功能,新版《漢表》范疇表主要參考了《中國圖書資料分類法》的分類體系,通用概念將時間、地區、民族、科學機構、科學理論等相關術語都認定為通用概念。
所以除了典型的通用概念外,還需要考慮獲取那些偏向于某一專業的通用概念。
5、結論
在敘詞表、本體等知識組織體系構建中,需要獲取并區分出通用概念。
本文研究了三種方法:第一種是知識繼承的方法,即繼承與參考已有知識組織體系的通用概念,這是知識積累方法,過度依賴傳統數據;第二種是依據關鍵詞在分類文獻中的詞頻統計人工判定,凡是詞頻分布比較均勻、總詞頻比較大的基本上是通用概念,這種方法需要對數據分布均勻性進行量化;第三種方法是同時考慮詞頻與標準差的方法,總詞頻高、標準差低是比較規范的通用概念。
在具體的知識組織體系構建中,根據課題組的人力、時間、數據資源和詞表規模等情況,可以考慮分別使用這三種方法或組合發揮作用。
【數字環境下通用概念獲取方法】相關文章:
成功獲取留學推薦信的方法10-07
新環境下數字媒體藝術的教學模式探究論文10-08
方法重載和方法重寫的概念和區別09-06
新概念學習方法大全10-08
淺談數字化校園網新技術下創新環境建設研究10-05
新概念學習方法匯總參考10-10
高中化學概念教學方法論文10-08
新概念第二冊學習方法與指導10-06
數字媒體藝術突破下的傳統藝術論文10-10
數字技術應用下的民間藝術論文10-08