大学读书笔记之一:数学之美

数学,正确看待时,不仅具有真理,还具有至高的美-一种冷而严峻的美,一种屹立不摇的美,如雕塑一般,一种不为我们软弱天性所动摇的美。也不像绘画或音乐有富丽堂皇的装饰,而是纯粹地崇高、绝对地完美,是最伟大的艺术,然而这是极其纯净的美,只有这个最伟大的艺术才能显示出最严格的完美。数学中一定能找到最卓越的试金石——超越自我时之喜悦感,如同写诗。
– Bertrand Arthur William Russell

摘录

文字是信息的载体,而非信息本身。

罗塞塔石碑带来的启示

·信息的冗余是信息安全的保障。
·语言的数据(语料),尤其是双语式或者多语的,对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。

基于统计的自然语言的处理方法:统计语言模型

隐含马尔可夫模型

最初应用于通信领域,继而推广到语言和语音处理之中,成为连接自然语言处理和通信的桥梁。 同时,也 是机器学习的主要工具之一。需要一个训练算法(鲍姆—韦尔奇算法)和使用时的解码算法(维特比算法)。
马尔可夫链(Markov Chain)

信息熵(H 单位:bit)

一条信息的信息量与其不确定性有着直接的关系。(信息量等于不确定性)
一本书重复的内容多,信息量就小,冗余度大。
互信息在解决二义性方面的作用

布尔代数不仅把逻辑和数学合二为一,而且给了我们一个看待世界的全新的视角。

Truth is ever to be found in simplicity,and not in the multiplicity and confusion of things. -Newton

图论

哥尼斯堡七桥问题
广度优先搜索(BFS)
深度优先搜索(DFS)

“握手”——下载服务器和网站的服务器建立通信的过程。

网络爬虫对网页遍历的次序不是简单地 BFS 或者 DFS,而是有一个相对复杂的下载优先级排序的方法。
在爬虫中 BFS 的成分多一点。

页面分析和 URL 提取问题(脚本语言编写的难提取)

PageRank 算法——民主表决式网页排名技术

度量网页的质量

搜索引擎的质量
·用户的点击数据
·完备的索引
·对网页质量的度量
·用户偏好
·确定一个网页和某个查询的相关性的方法

搜索关键词权重的科学度量 TF-IDF
TF-IDF(Term Frequency/Inverse Document Frequency) 信息检索领域的重要发明
加权

动态规划(Dynamic Programming,DP)

横切(非典型二分法)的应用

余弦定理(自底向上)—>聚类算法——在大量数据的分类中的应用

根据每个网页的特征制作特征向量,进而计算余弦,比较余弦大小。
迭代

矩阵运算(文本和词汇的矩阵)—>奇异值分解(AMN=XMM✘BMN✘YNN)

(第十五章,有点意思)

能较快的得出结果,但很粗糙,适合进行超大规模文本的粗分类

上述两方法结合使用,节省时间,并获得很好的准确性。

信息指纹
可以简单理解为讲一段信息(文字、图片、音频、视频等)随机映射到一个多为二进制空间中的一个点(一个二进制数字)。(不同信息产生相同指纹的概率几乎为 0,10e19 量级)

关键算法:伪随机数产生器算法(Pseudo-Random Number Generator ,PRNG)

特征:不可逆性

素相同,那么他们的指纹一定相同。

相似哈希——排查重复网页

如果两个网页的相似哈希差越小,这两个网页相似性就越高。

密码设计——加密函数不应该通过几个自变量和函数值就能推出函数本身

一般来讲,密码之间分布均匀且统计独立时,提供的信息量最小。均匀分布使敌方无从统计,而统计独立可保证敌人即使知道了加密算法,并且看到一段密码和明码后,也无法破译另一段密码。

公开密钥好处

·简单,一些乘除而已
·可靠。保证产生的密文是统计独立而分布均匀的(无法根据已知的密文和明文来破译下一份密文)。只有掌握密钥 D 的人才能解密,即使加密者自己都无法解密。
·灵活,可以产生很多的公开密钥 E 和私钥 D 的组合给不同的加密者。

利用信息可以消除一个系统的不确定性

搜索引擎反作弊问题和搜索结果权威性问题

数学模型

  1. 一个正确的数学模型应当在形式上是简单的。
  2. 一个正确的模型一开始可能还不如一个精雕细琢过的错误的模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去。
  3. 大量准确的数据对研发很重要。
  4. 准确的模型也可能受噪音干扰而显得不准确;这是不应该用一种凑合的修正方法加以弥补,而是要找到噪音的根源,这也许能通往重大的发现。

最大熵原理和最大熵模型(保留全部的不确定性,将风险降到最小)

布隆过滤器

数学原理:两个完全随机的数字相冲突的概率很小,因此,可以在很小的误差识别率条件下,用很少的空间存储大量的信息。比较常见办法是再建立一个小的白名单,存储那些可能被误判的信息。

马尔可夫链的扩展—>贝叶斯网络(加权的有向图)
所有的因果关系都可以有一个量化的可信度(Belief),即用一个概率描述。也就是说,贝叶斯网络的弧上可以有附加权重。所以,贝叶斯网络也被称为信念网络(Belief Networks)。
贝叶斯网络的拓扑结构比马尔可夫链灵活。可以将讲,马尔可夫链是贝叶斯网络的特例,而贝叶斯网络是马尔可夫链的推广。
使用贝叶斯网络必须先知确定这个网络的拓扑结构,然后还要知道各个状态之间相关的概率。得到拓扑结构和这些参数的过程分别叫做结构训练和参数训练,统称训练。
相比马尔可夫链。贝叶斯网络训练比较复杂,从理论上讲,他是一个 NP 完备问题(NP-Complete),即对于现在的计算机是不可计算的。但是,对于某些应用,这个训练过程可以简化,并在计算机上实现。

从数学层面来讲,贝叶斯网络是一个加权的有向图,是马尔科夫链的扩展。
从认识论的层面来看,贝叶斯网络克服了马尔科夫链那种机械的线性的约束,他可以把任何有关联的事件统一到它的框架下面。
因此,贝叶斯网络有很多应用。贝叶斯网络的描述简单易懂,但导出的模型却十分复杂。

条件随机场是一个非常灵活的用于预测的统计模型。

期望最大化算法(Expectation Maximization Algorithm)

文本的自收敛分类

逻辑回归模型和搜索广告

大数据在现在和未来社会中的重要性。

2018 年 05 月 28 日 09:07:32,初次阅读,完。