第三千一百零八章統一碼大會


    這樣在大量的思考時間當中,係統並沒有上網,大部分時間都處於斷網狀態,可以節約不少的上網費用。


    “還是要督促通信方麵盡快推出家庭上網包月服務才行啊。”聶棋聖歎氣道:“就目前而言,可能隻有采用這三種方式了。”


    除此以外,還有係統的積分問題,對弈棋手分配問題,係統既可以讓真人進行匹配對弈,也可以選擇虛擬棋手進行對弈。


    虛擬棋手自然就是野狐小智了,但是不能讓野狐小智拿著超一流棋手的水平去欺負人,因此在麵對不同級別對手的時候,往往需要進行“降智”處理,這樣才可以勢均力敵。


    對於係統評級,棋院到現在到時候有一整套段位評價體係,但是那一套體係相當嚴格,適合競技不適合休閑,這和圍棋網以休閑為主,推廣和培養愛好者目的不符,因此肯定要做出相應的調整。


    這方麵周至覺得論壇遊戲模式倒是可供參考,然而考慮到未來發展,論壇遊戲模式明顯受限比較大,加上要照顧家庭訪問模式,因此還是開發成一個小程序,即bs模式比較合理。


    惟一的好消息就是現在java作為麵向網絡對象的語言已經被四葉草開發得相當成熟了,市場環境已經慢慢培養了起來,甚至已經有了好幾個網絡遊戲試水,現在正在進入蓬勃發展的初期,開發這樣的係統可能不會需要太多的時間。


    不過老聶是等不了這麽長的時間了,他很著急,因此周至隻好拿出這種方案,就是先利用論壇架構模式,用專線+棋院模式,先把局域網的對弈模式建立起來,這樣不僅僅可以引入野狐小智作為虛擬棋手,充當各路棋手的磨刀石,還可以由高手們坐鎮首都,通過專線網絡對各地棋院下“指導棋”。


    同時這套模式也包括老聶自己新開的道場,換到中國來叫做“圍棋學校”,那裏是他培養子弟的地方。


    安排好了這一切,周至和麥小苗方得脫身,參加世界統一碼標準組織大會。


    這是極為罕見的信息科技界的世界性大會在國內舉行,方方麵麵都十分重視,世界各國尤其是亞洲泛漢語文化圈內方方麵麵,都派了代表前來參加大會。


    這也是順理成章的事情,畢竟現在統一碼一共就十幾萬個,而亞洲表意區間內的字符代碼就高達十三萬之多,而且還在繼續增長,而世界範圍內其餘字符,加起來也就亞洲表意區間字符集的一個零頭,因此自然要以中文為主。


    雖然周至是瀚文大字庫的主導者和設計者,但是四葉草派出的演講代表,卻是麥小苗。


    用周至的話說,自己搞出來瀚文大字庫,隻代表著過去,而麥小苗基於瀚文大字庫上搞出來的搜索引擎,以及驅動引擎的非線性匹配算法,才真正代表著未來。


    麥小苗演講的題目叫做《漢語在未來信息世界裏的重要性》。


    “作為最古老的象形文字,漢語有一項對於信息技術來講最神奇的特性,那就是它的單位信息量。”


    “以《聯合國憲章》為例,中文版的《聯合國憲章》有26650個字符,而英文版則需要55600個字符,在排版統一的情況下,中文文件的厚度一般隻有英文等字母形語言的一半。”


    (本章未完,請點擊下一頁繼續閱讀)第三千一百零八章統一碼大會(第2/2頁)


    “因此作為書麵文字,漢字是這個星球上最高效,信息密度最高的文字。”


    “究其根本原因,是因為字母形文字是‘一維’的,隻代表了聲音,而漢字是二維的,不僅僅代表聲音,還封裝了海量的信息。”


    “這種信息還可以自由組合,用極簡的方式完成派生詞的產生。”


    “比如國際化這個詞,用英文表述需要二十個字符,用中文隻需要三個字符,換成信息技術的表述,英文需要二十比特,而中文隻需要六比特。”


    “根據香農信息熵的研究,字符的信息熵為4比特,而漢字的信息熵為9.65比特,也就是說,在以計算機技術為主的信息世界裏,中文可以比其餘文字,以更小容量的信息載體,更快的速度,記錄和傳播更大的信息量。”


    “比如中文的舅舅一詞,隻有四個比特,而要用英文來準確瞄準,則需要以‘媽媽的哥哥’來表示,中文詞匯在這裏還包含了血緣,輩分,性別三個維度的信息量,這是聲音記錄類字符型文字所無法表達的。”


    “除了記錄的效率,還有讀取的效率。”麥小苗在台上侃侃而談:“中國有個成語叫做‘一目十行’,意思就是中文信息的讀取可以是麵積式的,圖形化的。”


    “四葉草實驗室做過一個有趣的實驗,那就是將固定中文詞匯的排列順序予以打亂,然後製作出文本交給讀者閱讀,讀者們可以驚奇地發現,混亂的詞匯語序搭配正確的中文語法,並不會對閱讀理解造成任何影響。”


    “也就是說,‘實驗’和‘驗實’在文章裏的作用是一樣的,錯誤的排序會被中文使用者在下意識層麵完成自動糾正。”


    “人類的大腦在閱讀時主要涉及兩條通路,一條叫背側通路,主要進行語音識別,一條叫腹側通路,主要進行視覺處理和語意連接。”


    “大家在閱讀字符型文字的時候,需要先將文字轉化為語音,然後通過背側通路接收;而在閱讀表意型文字的時候,則是兩條通路同時進行,所以才能夠達到‘一目十行’的效果,信息的提取效率也得到了極大的提高。”


    “作為識別工具,漢語的‘六書’法,又提供了強大的功能,瀚文大字庫的所有表意文字,拆分開來,都是‘字根’,而這些字根裏邊,也涵蓋了巨大的信息量。”


    “比如鳥字旁的字,可以圈定一個大概的理解範圍,大家可以發現漢字裏這類文字,大多和鳥,飛翔這類特性相關,而字符型文字很難做到這一點。”


    “對此有人會產生一種直覺,認為漢字的高效,與漢字特別多有關。”麥小苗微笑道:“然而這是一種錯覺。英文總詞匯量超過一百萬,而且目前還在以每年四千到八千的數量增長。而中文常用字大約3500個,基本上隻需要掌握這三千五百字,就能夠自由組合,並且完成中文世界裏百分之九十以上信息量的交互,這也是瀚文基準字庫的範圍。”


    “這一點重要不重要呢?我隻舉一點重要性,那就是中國人基本無需重構專業語言,學習另一套專業詞匯,就可以自由地進行跨專業的學習。”

章節目錄

閱讀記錄

重生之乘風而起所有內容均來自互聯網,飄天文學隻為原作者二子從周的小說進行宣傳。歡迎各位書友支持二子從周並收藏重生之乘風而起最新章節