# 文字和语言 vs 数字和信息
数字和语言的产生都是为了同一个目的——记录和传播信息。
亚尼的死亡之书,收藏与大英博物馆,用于向神描述自己生前没有做过坏事。
几乎所有文明都采用了十进制,那么是否有文明采用二十进制呢?也就是说他们数完全部的手指和脚趾才开始进位,答案是肯定的,这就是玛雅文明。试想一下,如果采用二十进制,大家就得背 19*19 乘法表了。
在中国,数字的解码的规则是乘法 200 万的写法是 2 * 100 * 10000;而在罗马解码的规则是加减法,左边为减,右边为加。比如 IV 表示 5 - 1,VII 表示 5+2。描述数字最有效的是古印度人,他们发明了包括 0 在内的 10 个阿拉伯数字(由阿拉伯人传播),就是今天全世界通用的数字。
在通信时,如果信道较宽,信息不必压缩就可以直接传递;而如果信道较窄,信息在传递之前需要尽可能的压缩,然后在接收端进行解压缩。
在古代两个人讲话说得快是一个宽信道,无需压缩;书写来得慢是一个窄信道,需要压缩。而将文言文解释清楚是解压缩的过程。
如果说从字母到词的构词法是词的编码规则,那么语法则是语言的编码和解码规则。词可以被认为是有限而封闭的集合,而语言则是无限和开放的集合。
# 自然语言处理——从规则到统计
语言出现的目的是为了人类之间的通信。字母文字和数字是信息编码的不同单位。任何一种语言都是一种编码的方式,而语言的语法规则是编码解码的算法。
怀特兄弟发明飞机靠的是空气动力学而不是仿生学。
学习西方语言,都要学习:
- 语法规则(Grammar Rules)
- 词性(Part of Speech)
- 构词法(Morphologic)
- ...
IBM 华生实验室希望解决语音识别的问题,IBM 将当时的语音识别率从 70% 提升到 90%。
采用了基于统计的自然语言处理方法。
# 统计语言模型(Statistical Language Model)
用数学的方法描述语言规律