信息检索与数据挖掘 - ustchome.ustc.edu.cn/~zhufengx/ir/pdf/ir-review_2015.pdf ·...

2015年5月25日信息检索与数据挖掘 1

信息检索与数据挖掘关于课程内容的一些思考

5月29日周五答疑【不讲课】6月1日周一 9:45 – 11:45 考试


课程内容

• „第1章绪论• 第2章布尔检索及倒排索引• 第3章词项词典和倒排记录表• 第4章索引构建和索引压缩• 第5章向量模型及检索系统• 第6章检索的评价• 第7章相关反馈和查询扩展• 第8章概率模型• 第9章基于语言建模的检索模型• 第10章文本分类• 第11章文本聚类• 第12章 Web搜索• 第13章多媒体信息检索• 第14章其他应用简介

图像分类的算法思想

期末考试主要范围


今日内容提要

•关于相似度模型的思考

•关于“海量”和“稀疏性”的思考

•关于多媒体检索的思考

•课程的内容•IR、分类、聚类问题如何建模？•特定模型下如何求解相关性？•采用不同模型时效果如何评估？


今日内容提要

•关于相似度模型的思考• 布尔模型

• 向量空间模型

• 概率模型：二值独立概率模型(BIM)

• 概率模型：语言模型

• Naive Bayes text classification

• 基于向量空间模型的文本分类

• K-均值聚类

• 层次聚类




信息检索模型

• 信息检索模型是指如何对查询和文档进行表示，然后对它们进行相似度计算的框架和方法

• 本质上是对相关度建模

• 信息检索模型是IR中的核心内容之一

•相关度的表示：0或1 0-1间的数值概率


词项-文档关联矩阵

•每个文档用一个二维向量表示∈{0,1}|V|

•布尔检索的本质• 将查询q中出现的词项对应行取出做布尔运算

Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth

Antony 1 1 0 0 0 1

Brutus 1 1 0 1 0 0

Caesar 1 1 0 1 1 1

Calpurnia 0 1 0 0 0 0

Cleopatra 1 0 0 0 0 0

mercy 1 0 1 1 1 1

worser 1 0 1 1 1 0


词项-文档计数矩阵

•考虑词项在文档中出现的次数

• 将每个文档看成是一个计数向量：矩阵中的一列

• 查询q对应的向量与文档对应的列向量求相似度


Antony 157 73 0 0 0 0

Brutus 4 157 0 1 0 0

Caesar 232 227 0 2 1 1

Calpurnia 0 10 0 0 0 0

Cleopatra 57 0 0 0 0 0

mercy 2 0 3 5 5 1

worser 2 0 1 1 1 0

tf,查询q中词项在文档中出现的频度词项的概率表征相关性？


二值→ 计数 → 权重矩阵（ tf-idf值）

•每个文档可看成一个向量，其中每个分量对于词典中一个词项，分量值为对于词项的tf-idf值


Antony 5.25 3.18 0 0 0 0.35

Brutus 1.21 6.1 0 1 0 0

Caesar 8.59 2.54 0 1.51 0.25 0

Calpurnia 0 1.54 0 0 0 0

Cleopatra 2.85 0 0 0 0 0

mercy 1.51 0 1.9 0.12 5.25 0.88

worser 1.37 0 0.11 4.15 0.25 1.95

tf,查询q中词项在文档中出现的频度词项的概率表征相关性？idf,罕见词的idf高而高频词的idf低根据语言学修正词项的概率


从布尔模型到向量空间模型

文档

评分

布尔检索结果太少或太多

对结果进行排序

词项频率TF

TF-IDF

布尔

词项-文档计数矩阵

词项-文档权重矩阵

词项-文档关联矩阵

布尔模型

向量空间模型

文档和查询均表示成向量，计算余弦相似度

d和q的相关性是0或1

d和q的相关性是0-1之间的一个数值


今日内容提要







• K-均值聚类

• 层次聚类




回顾：信息检索模型之经典模型

•集合论模型 (Set Theoretic models)• 布尔模型（ Boolean Model, BM）、模糊集合模型、扩展布尔模型

•代数模型 (Algebraic models)• 向量空间模型（Vector Space Model, VSM）、广义向量空间模型、潜在语义标引模型、神经网络模型

•概率模型 (Probabilistic models)• 经典概率论模型（PM）、推理网络模型、置信网络模型

概率检索模型是通过概率的方法将查询和文档联系起来


二值独立概率模型(Binary Independence Model，简称BIM)

• “二值” ：文档和查询都表示为词项出现与否的布尔向量。文档d表示为向量 x =(x1, …, xM ) ，其中当词项t 出现在文档d 中时，xt=1，否则xt=0。

• “ 独立性”：词项在文档中的出现是互相独立的

Bayes公式

分别表示当返回一篇相关或不相关文档时文档表示为的概率

分别表示对于查询返回一篇相关和不相关文档的先验概率。

q和d的相似度表示为优势率


BIM排序函数的推导

•利用“二值性”，xt 取值要么为0要么为1

•忽略常数项•只考虑出现在文档中的查询词项•pt 词项出现在一篇相关文档中的概率•ut 词项不出现在一篇相关文档中的概率


RSV（retrieval status value，检索状态值）

排序函数只需计算

最终用于排序的是

定义

ct 查询词项的优势率比率（odds ratio）的对数值

ct 如何计算？


今日内容提要







• K-均值聚类

• 层次聚类




语言模型的种类：n-gram

•一元语言模型（unigram language model）,也称上下文无关语言模型

•二元语言模型（bigram language model），即计算条件概率时只考虑前一个词项的出现情况：

•三元语言模型（ trigram language model ）

• …

• Unigram bigram…n-gram

Pbi(t1t2t3t4) = P(t1)P(t2|t1)P(t3|t2)P(t4|t3)

Puni(t1t2t3t4) = P(t1)P(t2)P(t3)P(t4)

一阶马尔科夫链


语言模型如何应用到IR 中？P(d|q) P(q|Md)

• IR中使用LM的问题

• N个文档，各自有一个语言模型，给定一个查询，求查询与哪个文档相关度最高？

•总体分布&抽样

• 文档的模型(风格)实际上是某种总体分布

• 文档和查询都是该总体分布下的一个抽样样本实例

• 根据文档，估计文档的模型，即求出该总体分布(一般假设某种总体分布，然后求出其参数)

• 然后计算该总体分布下抽样出查询的概率

一种可能的思路：把相关度看成是每篇文档对应的语言模型下生成该查询的可能性


语言模型如何应用到IR 中？

查询似然模型

•查询似然模型（query likelihood model, QLM）

• 目标：将文档按照其与查询相关的似然P(d|q) 排序

• 实现目标的途径：按照P(q|d)进行排序

•具体的方法是：

• (1) 对每篇文档推导出其LM

• (2) 估计查询在每个文档di 的LM 下的生成概率P(q |Mdi )

• (3) 按照上述概率对文档进行排序

文档表示为模型相似度表示为条件概率


扩展的LM 方法

• 查询似然类：文档建模，计算查询的似然，例子--基本QLM模型、翻译模型等

• 文档似然类：查询建模，计算文档的似然，例子--BIM模型、相关性模型(Relevance模型)等

• 模型比较类：文档建模、查询建模，计算两个模型的距离，KL距离模型


KL距离模型

• 通过计算查询模型和文档模型的KL距离（Kullback-

Leibler divergence）来对返回文档d的风险进行建模

• KL 距离是源自信息论的一个非对称距离度量方法，主要度量的是概率分布Mq 对Mq 建模的无效程度（参见Cover 和Thomas 1991 及Manning 和Schütze 1999）。Lafferty 和Zhai（2001）给出的结果表明基于模型对比的方法比查询似然和文档似然的方法都好。

• 使用KL 距离作为排序函数的一个缺点是最后的得分在查询之间没有可比性。这对于ad hoc 检索来说没有关系，但是对于一些其他应用（如话题跟踪）却影响很大。

查询和文档均表示为模型相似度表示KL距离


更多关于模型…

基于模型的聚类

在文本分类中，选择某篇具体文档的生成似然最大的那个类。在这里，选择生成给定文档集的似然最大的聚类方法Θ。

其中，L(D|Θ)是度量聚类结果质量好坏的目标函数。给定具有同样簇数目的两个聚类结果，选择具有更大L(D|Θ)值的结果。

K个类别对应Θ = {Θ1,…, ΘK}，而ΘK对应一个类别的一组参数



GMM将k个高斯模型混合在一起，每个点出

现的概率是几个高斯混合的结果。假设有K个高斯分布，每个高斯对data points

的影响因子为πk，数据点为x，高斯参数为theta，则

要估计的模型参数为每个类的影响因子πk，每个类的均值（μk）及协方差矩阵（Σk）



多元贝努利混合分布

EM 是一个最大化L(D|Θ)的迭代算法，可应用于不同类型的概率建模中。这里使用的概率分布模型是多元贝努利混合分布

其中，Θ = {Θ1,…, ΘK}，Θk = (αk, q1k, …, qMk)，qmk = P(Um=1|ωk)是模型的参数。P(Um=1|ωk)是簇k中的文档包含词项tm的概率。αk是簇ωk的先验概率，即在对d没有任何先验知识的情况下d属于ωk的概率。于是，混合模型如下：

该模型中，生成一篇文档的过程如下：首先以概率αk 选择一个簇ωk ，然后按照参数qmk 生成文档的词项。


更多关于模型… 用Expectation Maximization (EM)算法迭代求解模型参数

EM 在步骤上和K-均值算法类似，它在E 步（Expectation Step

，期望）和从步（Maximization Step，最大化)这两步之间交替迭代，计算的参数是αk 和qmk。

在M步中，可以按照如下方式对参数qmk 和αk 进行计算

其中，如果tm∈ dn，那么I(tm∈ dn) = 1，否则为0。rnk 表示dn 到簇k 的软分配概率。


今日内容提要







• K-均值聚类

• 层次聚类




27

朴素贝叶斯分类器Naive Bayes text classification

27

朴素贝叶斯是一个概率分类器

文档 d 属于类别 c 的概率计算如下：

<t1, t2, . . . , tnd>是d 中的词条，它们是分类所用词汇表的一部分，nd 是文档的长度(词条的个数)

P(tk |c) 是词项tk 出现在类别c中文档的概率

P(c) 是类别c的先验概率

如果文档的词项无法提供属于哪个类别的信息，那么我们直接选择P(c)最高的那个类别

独立性的假设


NB与多项式LM的关系

•上述NB 模型形式上等价于多项式一元LM

•这种NB分类器使用的是基于多项式的方法

•稍后我们还介绍另外一种建立NB分类器的方法

文档表示为模型相似度表示为条件概率


朴素贝叶斯：训练与测试过程

•训练过程已得到了估计参数Pˆ(c)及Pˆ(tk |c )

•如何估计参数Pˆ(c)及Pˆ(tk |c ) ？

•测试过程根据Pˆ(c)及Pˆ(tk |c )计算文档d的 cmap


今日内容提要







• K-均值聚类

• 层次聚类




基于向量空间模型的文本分类的思路

•向量空间模型

• 词项-文档矩阵：二值→ 计数 → 权重矩阵（ tf-idf值）

• 相关性=向量距离：欧氏距离→夹角→余弦相似度

利用向量空间模型进行文本分类的思路主要基于邻近假设（contiguity hypothesis）：①同一类的文档会构成一个邻近区域， ②而不同类的邻近区域之间是互不重叠的。

核心问题是如何找到分类面决策边界（decision boundary）

Government

Science

Arts


待测试文档d与类别c的相关性

•线性分类器：超平面

•文档d与类别c的相关性点到超平面的距离

• Two-class Rocchio as a linear classifier

• Naive Bayes is a linear classifier

• SVM

• kNN不是线性分类器

• 将每篇测试文档分到训练集中离它最近的k篇文档所属类别中最多的那个类别


今日内容提要







• K-均值聚类

• 层次聚类




K-均值聚类算法思想

• K-均值聚类算法中的每个簇都定义为其质心向量

•划分准则：使得所有文档到其所在簇的质心向量的平方和最小

•质心向量的定义：

•

• 其中 ω 代表一个簇

•通过下列两步来实现目标优化:

• 重分配(reassignment): 将每篇文档分配给离它最近的簇

• 重计算(recomputation): 重新计算每个簇的质心向量

或许是最著名的聚类算法。算法十分简单，但是在很多情况下效果不错。是文档聚类的默认或基准算法

K-均值聚类中的文档表示是向量空间模型


K-均值聚类中的目标函数

•一个衡量质心对簇中文档的代表程度的指标是RSS

（Residual Sum of Squares，残差平方和），即所有向量到其质心距离的平方和：

• RSS 是K-均值算法的目标函数，我们的目的就是要是让这个函数取最小值。由于N 是固定

•的，最小化RSS 也就等价于最小化平方距离，而平方距离度量的正是质心对文档的代表能力。

文档与簇的相关性是欧氏距离


今日内容提要







• K-均值聚类

• 层次聚类




关键问题：如何定义簇相似度

•单连接(Single-link): 最大相似度

• 计算任意两篇文档之间的相似度，取其中的最大值

•全连接(Complete-link): 最小相似度

• 计算任意两篇文档之间的相似度，取其中的最小值

•质心法: 平均的类间相似度

• 所有的簇间文档对之间相似度的平均值 (不包括同一个簇内的文档之间的相似度)

• 这等价于两个簇质心之间的相似度

•组平均(Group-average): 平均的类内和类间相似度

• 所有的簇间文档对之间相似度的平均值 (包括同一个簇内的文档之间的相似度)

文档表示是向量空间模型簇间相似度为欧氏距离的不同形式


四种簇相似度示例1

单连接：最大相似度全连接：最小相似度

质心：平均类间相似度组平均：所有相似度平均


小结：相似度模型

• 布尔模型






• K-均值聚类

• 层次聚类

文档和查询表示为词项的集合相关度为布尔运算结果文档和查询表示为向量（词项对应不同的维度）相关度为向量的余弦相似度文档和查询表示为随机变量相关度为随机变量(二值或非二值)文档和查询表示为模型相关度为随机变量(二值或非二值)

文档和类表示为向量相关度欧式距离


今日内容提要

• 关于相似度模型的思考

• 关于“海量”和“稀疏性”的思考• 海量稀疏数据的压缩

• 词项-文档矩阵的存储• Web图的存储

• 零概率问题：平滑• 高维相关数据的降维

• 分类中的特征选择• LSI中词项-文档矩阵的低秩逼近

• 海量数据的计算• 分布式计算• 统计学中的抽样：近似重复检测

• 图像的稀疏编码

• 关于多媒体检索的思考


超大词项文档矩阵倒排索引

term-document incidence matrix inverted index

Antony and Cleopatra：《安东尼与克莉奥佩特拉》又名《埃及艳后》Julius Caesar：《尤利乌斯·凯撒》又名《凯撒大帝》The Tempest：《暴风雨》Hamlet：《哈姆雷特》，四大悲剧之一Othello：《奥赛罗》，四大悲剧之一Macbeth：《麦克白》，四大悲剧之一


索引依然是硕大的Reuters-RCV1语料的统计数据

符号含义值

N 文档总数

L 每篇文档的平均词条数目 200

M 词项(Terms)总数 400,000

每个词条(Tokens)的平均字节数(含空格和标点符号) 6

每个词条的平均字节数(不含空格和标点符号) 4.5

每个词项的平均字节数 7.5

T 倒排记录总数词条–文档ID记录数（即总词条数目） 100,000,000

216+1

220+7

0.8GB?


Reuters-RCV1语料的压缩

数据结构 Size in MB

词典，定长数组 11.2

词典，长字符串+词项指针 7.6

词典，按块存储, k = 4 7.1

词典，按块存储+前端编码 5.9

文档集(文本、XML标签等) 3,600.0

文档集(文本) 960.0

词项关联矩阵 40,000.0

倒排记录表，未压缩(32位字) 400.0

倒排记录表，未压缩(20bit) 250.0

倒排记录表，可变字节码 116.0

101.0


WebWeb图

•我们可以将整个静态Web 看成是静态HTML 网页通过超链接互相连接而成的有向图，其中每个网页是图的顶点，而每个超链接则代表一个有向边。

•包含两个顶点A、B 的Web 图，每个顶点代表一个网页，Ａ网页上有一个超链接指向Ｂ。我们将所有这样的顶点和有向边集合称为Web 图。


连接服务器

•支持Web图上的快速查询

• 哪些URL指向给定的URL？

• 给定的URL指向哪些URL？

•在内存中存储了映射表

• URL到出链, URL到入链

•应用

• 采集控制

• Web图分析• 连通性Connectivity, 采集优化

• 链接分析Link analysis

Web图在计算机中如何表示？


邻接表

•假定每个网页都用唯一的整数来表示。我们建立一个类似于倒排索引的邻接表（adjacency table），

其每行都对应一个网页，并按照其对应的整数大小来排序。任一网页p 对应的行中包含的也是一系列整数的排序结果，每个整数对应的是链向p 的网页编号。这张邻接表允许我们应答类似于“ 哪些网页指向p？” （“ which pages link top?” ）的查询。以同样的方法，可以建立所有p 所指向的网页的邻接表。

•E.g., 对40亿网页，每个节点需要32bit• Log24,000,000,000 = 31.897352853986


邻接表压缩

•压缩时可以利用的属性:

• 相似度（表中的很多行有公共元素）

• 局部性(很多链接会指向很近的网页——同一主机的网页)

• 在排序表中使用间隔编码

• Eg. Boldi/Vigna 对每个链接只需要3bit进行编码


今日内容提要










BIM中的平滑方法

•在减少出现事件的概率估计值的同时提高未出现事件的概率估计值的方法称为平滑（smoothing）

能出现的0 概率？

一种最简单的平滑方法就是对每个观察到的事件的数目都加上一个数α

相当于在所有词汇表上使用了均匀分布作为一个贝叶斯先验α的大小表示我们对均匀分布的信心强度


LM中的平滑方法线性插值LM（linear interpolation LM）

•如果tft,d=0，那么有

•其中，cft 是t 在整个文档集的出现次数，T 是所有

文档集中词条的个数。一个实际效果较好的简单方法是，将基于文档的多项式分布和基于全部文档集估计出的多项式分布相混合，即

•其中，0 < λ < 1，Mc是基于全部文档集构造的LM

。上述公式混合了来自单个文档的概率词在整个文档集的出现频率。该模型中如何设置正确的λ是获得良好性能的关键。


51

NB分类避免零概率: 加一平滑

51

平滑前：

平滑后: 对每个量都加上1

其中，B = |V| 是词汇表中所有词项的数目。加一平滑可以认为是采用均匀分布作为先验分布（每个词项在每个类中出现一次）然后根据训练数据进行更新得到的结果。


今日内容提要










特征选择算法（feature selection）

•给定类别c，对词汇表中的每个词项t，我们计算效用指标A(t,c)，然后从中选择k 个具有最高值的词

项作为最后的特征，其他的词项则在分类中都被忽略。

减少有效的词汇空间去除噪音特征


不同的效用指标

• 互信息 A(t, c) = I (Ut ;Cc )

• 其中，U 是一个二值随机变量，当文档包含词项t 时，它取值为et=1

，否则取值为et=0。而C也是个二值随机变量，当文档属于类别c 时，它取值为ec=1，否则取值为ec=0。

• χ2 统计量 A(t, c) = X2(t,c)

• 字母N 表示的是D中观察到的频率，而E 则是期望频率

• 词项频率A(t, c) = N(t, c)

• 即选择那些在类别中频率较高的词项作为特征。频率可以定义为文档频率或文档集频率。


小结：特征选择

Precision=P(relevant|retrieved)

Recall =P(retrieved|relevant)

互信息 A(t, c) = I (Ut ;Cc )

χ2 统计量 A(t, c) = X2t,c)

词项频率A(t, c) = N(t, c)


矩阵分解及隐性语义索引

•词项-文档矩阵，即由M个词项和N 篇文档组成的一个M×N的权重矩阵C，矩阵的每行代表一个词项，每列代表一篇文档。即使对于一个中等规模的文档集来说，词项—文档矩阵C 可能都会有上万的行和列。在18.1.1 节中，我们首先给出了线性代数中的一类所谓矩阵分解（matrix decomposition）的运算。18.2 节中，我们将使用矩阵分解的某个具体形式来建立词项—文档矩阵的低秩（low-rank）逼近矩阵。18.3 节考察了该低秩逼近矩阵在索引和检索文档时的应用，这也就是人们常常提到的LSI（Latent Semantic Indexing，隐性语义索引）技术。


LSI在IR中使用的原因

• LSI 能够发现文档的语义上的关联 . . .

• . . . 但是在原始向量空间中这些文档相似度不大 (

因为它们使用不同的词语) . . .

• . . . 通过LSI可将它们映射到新的低维向量空间 . . .

• . . . 在新的空间下，两者相似度较高

•因此， LSI能够解决一义多词(synonymy) 和语义关联问题

•在标准向量空间下，同义词对文档相似度计算没有任何贡献

• LSI所期望的效果：同义词对文档相似度贡献很大


今日内容提要










分布式索引构建-基于词项分割MapReduce进行分布式索引构建

59

裂片

分析器

分析器

分析器

主控节点

a-f g-p q-z

a-f g-p q-z

a-f g-p q-z

倒排器

倒排器

倒排器

倒排记录表

a-f

g-p

q-z

分配分配

Map阶段分区文件 Reduce阶段


网页相似性计算

• 特征

• 对文档进行分割 (自然或人造的断点来断开)

• 搭叠Shingles (N元词Word N-Grams)

• a rose is a rose is a rose →

a_rose_is_a

rose_is_a_rose

is_a_rose_is

a_rose_is_a …

• 文档(即Shingles集合）间相似性

• 交集Set intersection

• 交集的大小/并集的大小

给定正整数k及文档d的一个词项序列，可以定义文档d的k-shingle为d中所有k

个连续词项构成的序列。

直观上看，如果两个文档的shingle集合几乎一样，那么它们就满足近似重复。

Jaccard系数：衡量重复度


搭叠 + 交集

•计算所有文档对之间搭叠的精确交集是非常费时而且难以处理的

• 使用一种聪明的方式从Shingles中选出一个子集(素描sketch)来近似计算

• 在素描Sketch上计算交集大小/并集大小

Doc

AShingle set A Sketch A

Doc B

Shingle set B Sketch B

Jaccard

ji

ji

jiCC

CC)C,Jaccard(C


测试 if Doc1.Sketch[i] = Doc2.Sketch[i]

Document 1 Document 2

264

264

264

264

264

264

264

264

是否相等？

进行200次随机置换: p1, p2,… p200

A B


今日内容提要










稀疏编码起源 Sparse coding (Olshausen & Field,1996)

s.t. aj’s are mostly zero (“sparse”)

Input: Images x(1), x(2), …, x(m) (each in Rn x n)

Learn: Dictionary of bases f1, f2, …, fk (also Rn x n), so that each

input x can be approximately decomposed as:

Bruno Olshausen和 David Field 收集了很多黑白风景照片，从这些照片中，提取出400

个小碎片，每个照片碎片的尺寸均为 16x16 像素，不妨把这400个碎片标记为 S[i], i =

0,.. 399。接下来，再从这些黑白风景照片中，随机提取另一个碎片，尺寸也是 16x16

像素，不妨把这个碎片标记为 T。他们提出的问题是，如何从这400个碎片中，选取一组碎片，S[k], 通过叠加的办法，合成出一个新的碎片，而这个新的碎片，应当与随机选择的目标碎片 T，尽可能相似，同时，S[k] 的数量尽可能少。

1996年Cornell大学心理学院的Bruno在Nature上发表了一篇题名为：“emergence of

simple-cell receptive fieldproperties by learning a sparse code for nature images”的文章，大

意是讲哺乳动物的初级视觉的简单细胞的感受野具有空域局部性、方向性和带通性（在不同尺度下，对不同结构具有选择性），和小波变换的基函数具有一定的相似性。

http://ufldl.stanford.edu/eccv10-tutorial/


稀疏编码图像稀疏表示的示例

Natural Images

Learned bases (f1 , …, f64): “Edges”

50 100 150 200 250 300 350 400 450 500

50

100

150

200

250

300

350

400

450

500

50 100 150 200 250 300 350 400 450 500

50

100

150

200

250

300

350

400

450

500

50 100 150 200 250 300 350 400 450 500

50

100

150

200

250

300

350

400

450

500

0.8 * + 0.3 * + 0.5 *

x 0.8 * f36

+ 0.3 * f42 + 0.5 * f63

[0, 0, …, 0, 0.8, 0, …, 0, 0.3, 0, …, 0, 0.5, …]

= [a1, …, a64] (feature representation)

Test example

Compact & easily

interpretablehttp://ufldl.stanford.edu/eccv10-tutorial/


稀疏编码音频的稀疏编码

大牛们发现，不仅图像存在这个规律，声音也存在。他们从未标注的声音中发现了20种基本的声音结构，其余的声音可以由这20种基本结构合成。

Deep Learning（深度学习）学习笔记整理系列http://blog.csdn.net/zouxy09/article/details/8775488


稀疏编码的图像分类Sparse coding

•Feature

• Harris detector、salient region

detector...

•Descriptor

• SIFT、color moment

•Code

• 一个或多个特征排列起来是一个vector；再聚类得到Codebook；把每个descriptor用码本中的code表示出来

Picture Source:

Locality-constrained Linear Coding for image classification

Jinjun Wang, Jianchao Yang, Kai Yu, Fengjun Lv, Thomas Huang, Yihong Gong

Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on

(Wang, Yang et al. 2010)

clustering over all descriptors.


小结：“海量”和“稀疏性”

•稀疏性为海量稀疏数据的压缩提供条件

•稀疏性带来零概率问题：平滑

•稀疏性使高维相关数据存在降维的可能

•海量数据的计算通过分布式方式实现

• 海量数据可通过抽样降低运算量

•图像的稀疏编码

• 视觉的简单细胞的感受野具有空域局部性、方向性和带通性


今日内容提要




• BoF：连接文本检索与多媒体检索的重要桥梁

• 典型图像全局特征的提取方法

• 典型图像局部特征的提取方法

• 视网膜采样模式的应用

• 卷积神经网络的生物学机理


从文本检索图像检索

• TermFeature: 图像的表示？

• Bag of Words Bag of Features


图像分类与识别系统基本结构

特征提取与图像表示分类器特征矢量

场景标签

特征提取与图像表示监督式分类器训练

训练图类别标签

分类器参数（判别函数）

分类器参数学习（训练）


感知鸿沟(Sensory Gap) /语义鸿沟(Sematic Gap)

Saliency and Similarity Detection for Image Scene Analysis

清华大学博士论文《图像内容的显著性与相似性研究》，程明明，2012

http://mmcheng.net/


今日内容提要










全局特征：颜色特征与图像分类/检索

•直方图

• 分块直方图

• 梯度图像的直方图

•直方图的比较

•二维傅里叶变换幅度谱


全局特征：纹理特征与图像分类/检索

•基于纹理特征的图像分类、检索常用的方法：• 基于梯度的算子

• 一阶微分算子：Robert 算子，Sobel 算子，Prewitt算子等

• 二阶微分算子：Laplace 算子，LOG 算子和 Canny 算子等

• 基于 Gabor 小波的纹理特征提取

• LBP 纹理统计特征提取

• HOG: Histogram of Oriented Gradient 2005

• CENTRIST (CENsus TRansform hISTogram) 2011

• 基于灰度共生矩阵的纹理分析

• 基于傅里叶变换的纹理特征提取

• ……


方向梯度直方图HOG: Histogram of Oriented Gradient

http://tel.archives-ouvertes.fr/docs/00/39/03/03/PDF/NavneetDalalThesis.pdf

Histogram of Oriented Gradient, Navneet Dalal and Bill Triggs, CVPR 2005

http://lear.inrialpes.fr/people/triggs/pubs/Dalal-cvpr05.pdf 2015.05 google cited:11065

• 将图像分成16*16的cell，用9个bin的直方图来统计cell的梯度信息（9维特征向量）。即可形成每个cell的descriptor；

• 2*2个cell组成一个block，block内所有cell的特征descriptor串联起来便得到该block的HOG特征descriptor。

• 将图像内的所有block的HOG特征descriptor串联起来就可以得到该image的HOG特征descriptor了。


方向梯度直方图结果示例Histogram of Oriented Gradient, HOG

HOG features for numOrientations equal to 3, 4, 5, 9, and 21 repsectively.

HOG

Cell: 8*8

Bin: 9

http://www.vlfeat.org/overview/hog.html

原始图像

梯度计算：对于彩色图像，3个颜色通道单独计算，取最大值


全局特征：形状特征与图像分类/检索

•如何描述形状特征

• 基于轮廓、基于区域

•草图检索

• 通过手绘的线条图在海量图片中找到与之形状相似的图像

• 难点：特征表示、特征匹配和建立索引结构

•显著性检测

• Itti 的显著性视觉注意模型

• 基于全局对比度的图像视觉显著性区域检测


今日内容提要










图像的局部特征

•图像中存在一些能够描述图像主要内容的像素点(也称为显著点)，换句话说，图像中各个部分对表

达图像内容的重要性是不同的。因此，使用图像的局部特征比上述全局特征能够更好地反映图像的内容。

•局部特征提取的一般步骤

• 特征点的检测

• 特征点的描述


Scale-invariant feature transform (SIFT)


SIFT

二维图像的尺度空间

the scale space of an image is defined as a function, L(x, y, σ ),

where ∗ is the convolution operation in x and y, and

G(x,y,σ) 是尺度可变高斯函数

尺度空间理论的基本思想是：在图像信息处理模型中引入一个被视为尺度的参数，通过连续变化尺度参数获得多尺度下的尺度空间表示序列，对这些序列进行尺度空间主轮廓的提取，并以该主轮廓作为一种特征向量，实现边缘、角点检测和不同分辨率上的特征提取等。


5*5的高斯模板卷积计算示例

σ = 0.6 σ = 10

5x5 Gaussian filter, with σ = 1.4


图像的金字塔模型

图像金字塔：将原始图像不断降阶采样，得到一系列大小不一的图像，由大到小，从下到上构成的塔状模型。原图像为金子塔的第一层，每次降采样所得到的新图像为金字塔的一层(每层一张图像)。

为了让尺度体现其连续性，高斯金字塔在简单降采样的基础上加上了高斯滤波。将图像金字塔每层的一张图像使用不同参数做高斯模糊，使得金字塔的每层含有多张高斯模糊图像，将金字塔每层多张图像合称为一组(Octave)

i为塔的层数（即Octave数目），s为每层（Octave）内图像数目。尺度空间的取值为：

塔内每张高斯模糊图像对应一个特定的σ


高斯差分尺度空间（DOG scale-space）

difference-of-Gaussian function convolved with the image, D(x, y, σ)

拉普拉斯算子做二阶微分: ∇2G

拉普拉斯高斯算子(Laplacian of Gaussian, LOG)进行了滤波和二阶微分DOG近似是尺度归一化的LOG: G(x, y, kσ) - G(x, y, σ) ≈ (k-1)σ 2∇2G

高斯拉普拉斯和高斯差分的比较

DOG：σ=1 & σ=3LOGLaplacian


高斯差分金字塔DoG (difference-of-Gaussian) images构造

Gaussian

sampled by a factor of 2, and

第一个octave的scale为原图大小，后面每个octave为上一个octave降采

样的结果，即原图的1/4

在检测极值点前对原始图像的高斯平滑以致图像丢失高频信息，所以 Lowe 建议在

建立尺度空间前首先对原始图像长宽扩展一倍，以保留原始图像信息，增加特征点数量。


检测D(x, y, σ)的极值点这些极值点为备选特征点

如图所示，中间的检测点和它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较，以确保在尺度空间和二维图像空间都检测到极值点。一个点如果在DOG尺度空间本层以及上下两层的26个领域中是最大或最小值时，就认为该点是图像在该尺度下的一个特征点。

为了寻找尺度空间的极值点，每一个采样点要和它所有的相邻点比较，看其是否比它的图像域和尺度域的相邻点大或者小。


从备选特征点中去除不好的特征点

去除低对比度的点后剩余729个特征点点再去除边缘响应后剩余635个特征点通过Hessian矩阵

检测到832个极值点

绿色圈内的点为低对比度的特征点

丢弃|D(x)|<0.03

的极值点

红色圈内的点为边缘响应的点


计算特征点的主方向Orientation assignment

前述步骤检测出的特征点的邻域构成一个关键点（Keypoint）A SIFT keypoint is a circular image region with an orientation.

每个关键点（Keypoint）有三项信息：位置，尺度、方向It is described by a geometric frame of four parameters: the keypoint center

coordinates x and y, its scale (the radius of the region), and its orientation (an

angle expressed in radians).

主方向的计算：

以关键点为中心的邻域窗口内采样，并用直方图统计邻域像素的梯度方向。梯度直方图的范围是0～360度，其中每10度一个柱，总共36个柱。直方图的峰值则代

表了该关键点处邻域梯度的主方向，即作为该关键点的方向。

Picture Source http://www.vlfeat.org/api/sift.html


SIFT描述子SIFT descriptor

接下来需要为每个关键点建立一个描述子（descriptor），用一组向量将这

个关键点描述出来，使其不随各种变化而改变，如光照变化、视角变换等。这个描述符不但包括关键点，也包含关键点周围对其有贡献的像素点。

将坐标轴旋转为关键点的方向，Lowe建议描述子使用关键点尺度空间内4*4的窗口中计算的8个方向的梯度信息，共4*4*8=128维向量表征。


小结：SIFT原理

缺点：实时性不高、有时特征点太少、对边缘光滑的目标无法准确提取特征点

1、Detection of scale-space extreme 构建尺度空间2、Accurate keypoint localization 关键点检测3、Orientation assignment 指定方向4、The local image descriptor 局部图像描述子


SIFT之后的特征检测算法

主要论文及截止2015年5月Google cited情况

• Alexandre Alahi, Raphael Ortiz, Pierre Vandergheynst: 'FREAK: Fast Retina Keypoint',

CVPR 2012 Google cited: 462

• Rublee, E., Rabaud, V., Konolige, K., and Bradski, G.: ‘ORB: An efficient alternative to

SIFT or SURF’. ICCV 2011 Google cited: 1037

• Leutenegger, S., Chli, M., and Siegwart, R.Y.: ‘BRISK: Binary Robust Invariant Scalable

Keypoints’, ICCV, 2011 Google cited: 666

• Calonder, M., Lepetit, V., Strecha, C., and Fua, P.: ‘BRIEF: Binary Robust Independent

Elementary Features’, ECCV 2010 Google cited: 972

• Bay, H., Tuytelaars, T., and Gool, L.V.: 'SURF: Speeded Up Robust Features', ECCV,

2006 Google cited: 5428

• Lowe, D.G.: ‘Distinctive Image Features from Scale-Invariant Keypoints’,

International Journal of Computer Vision, 2004 Google cited: 29656

• Lowe, D.G.: ‘Object recognition from local scale-invariant features’. ICCV 1999

Google cited: 9366

Traditional (slower, accurate)

Binary (faster, real time)


今日内容提要










FREAK: Fast Retina Keypoint

• http://www.ivpe.com/freak.htm

• CVPR 2012 Open Source Code Award

• we propose a novel keypoint descriptor inspired by the human visual system and more precisely the retina, coined Fast Retina Keypoint (FREAK).

• A cascade of binary strings is computed by efficiently comparing image intensities over a retinal sampling pattern. • 特征点的检测和BRISK一样（multi-scale AGAST）

• Our experiments show that FREAKs are in general faster to compute with lower memory load and also more robust than SIFT, SURF or BRISK.


FREAK: From human retina to computer vision

retina 视网膜photoreceptor 感光器ganglion 神经中枢, 神经节fovea 小凹（尤指视网膜的中央凹）foveola 小凹，孔穴para- 表示“侧面，超越”之义peri- 表示“周围，近”之义

视网膜细胞的分布中间密集，四周稀疏。靠近中心的区域采样更密集，四周区域采样稀疏

感光细胞神经元神经中枢

It is believed that the human retina extracts

details from images using Difference of

Gaussians (DoG) of various sizes and encodes

such differences with action potentials.[G. Field, J. Gauthier, et al. Functional connectivity in the

retina at the resolution of photoreceptors. Nature, 2010]


FREAK: Retinal sampling pattern

视网膜采样模式

BRIEF寻找相关性较低的随机点对

BRISK在同心圆上的邻域采样BRIEF的几种不同的随机采样模式

Circular with the difference of having

higher density of points near the center.

The density of points drops exponentially.


采样模式与视网膜神经中枢的感受野一致

Each sample point needs to be smoothed to be less sensitive to noise. BRIEF and

ORB use the same kernel for all points in the patch. To match the retina model, we

use different kernels size for every sample points similar to BRISK. The difference

with BRISK is the exponential change in size and the overlapping receptive fields.

每个圆圈代表一个感受野（receptive

field），对应一个特定方差的高斯滤波核（ Gaussian kernel. ）


FREAK如何生成描述子？描述子为DoG比特串记 I(Pa

ri ) 为点对Pa经过第i个感受野高斯平滑后的强度。若点对中一个点属于感受野r1，另一个点属于感受野r2，定义该点对one-bit Difference of Gaussians (DoG)为T(Pa)

N个点对可生成一个比特串F

特征点筛选：类似ORB，穷举贪婪搜索找相关性小的。43个感受野，大概共有一千对点的组合，作者认为这样找出的前512就足够了，再多的都是相关的了。


由粗到细构建描述子Coarse to fine descriptor

Interestingly, the first cluster involves mainly peripheral receptive

fields whereas the last ones implicates highly centered fields.

We first use the perifoveal receptive fields to estimate the location of

an object of interest. Then, the validation is performed with the more

densely distributed receptive fields in the fovea area.

512对分成四组，第一组前128对

是相关性更小的，可以代表粗的信息，后面的越来越精细。

外围感受野提供粗的信息

中心感受野提供精细信息


描述子的快速匹配Saccadic search

由于512比特长的FREAK描述子是由粗到细构造的，因此匹配的时候，先看前16bytes，即代表粗信息的部分。如果距离小于某个阈值，再继续看后面精的部分，如果大于就不用往后看了。

More than 90% of the

candidates are discarded

with the first 16 bytes of

our FREAK descriptor.

To compare 1 byte or 16

bytes is almost

equivalent with Single

Instruction and Multiple

Data (SIMD)

instructions on Intel.


如何获取特征点的主方向？

In order to estimate the rotation of our keypoint, we sum the estimated local

gradients over selected pairs similar to BRISK. The latter is using long pairs to

compute the global orientation whereas we mainly select pairs with symmetric

receptive fields with respect to the center.

在BRISK中特征点的主方向就等于长距离点对的局部梯度之和的平均。

FREAK中选择了与圆心对称的45个点对来计算局部梯度和的平均。


FREAK示例：特征点检测结果

经过筛选之后的特征点左图为ORB

右图为FREAK

检测到的特征点左图为ORB，右图为FREAK

http://blog.csdn.net/yang_xian521/article/details/7732835


FREAK示例：目标检测结果

http://www.ivpe.com/freak.htm


FREAK性能旋转、缩放、视角、亮度、模糊


小结：FREAK

•主要创新点： Retinal sampling pattern

•贡献：Coarse to fine descriptor

Intel Duo core of 2.2 GHZ using a single core


今日内容提要










视觉皮层的响应

http://cseweb.ucsd.edu/classes/fa06/cse252c/

Object recognition with features inspired by visual cortex

http://cbcl.mit.edu/software-datasets/standardmodel/cvpr05.pdf

http://cseweb.ucsd.edu/classes/fa06/cse252c/mbuibas1.pdf

http://en.wikipedia.org/wiki/Visual_cortex


http://cseweb.ucsd.edu/classes/fa06/cse252c/

Object recognition with features inspired by visual cortex

http://cbcl.mit.edu/software-datasets/standardmodel/cvpr05.pdf

http://cseweb.ucsd.edu/classes/fa06/cse252c/mbuibas1.pdf

http://en.wikipedia.org/wiki/Visual_cortex


深度学习和人类学习的共同点

pixels

edges

object parts

(combination

of edges)

object models

Deep Architecture in the Brain

Retina

Area V1

Area V2

Area V4

pixels

Edge detectors

Primitive shape

detectors

Higher level visual

abstractions

Source 《深度学习和多媒体搜索》，余凯，百度技术副总监， CCF 2013.09

总的来说，人的视觉系统的信息处理是分级的。从低级的V1区提取边缘特征，再到V2区的形状或者目标

的部分等，再到更高层，整个目标、目标的行为等。也就是说高层的特征是低层特征的组合，从低层到高层的特征表示越来越抽象，越来越能表现语义或者意图。而抽象层面越高，存在的可能猜测就越少，就越利于分类。


卷积神经网络Convolutional Neural Networks (CNN)

A Convolutional Neural Network (CNN) is comprised of one or more convolutional

layers (often with a subsampling step) and then followed by one or more fully

connected layers as in a standard multilayer neural network.

20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了CNN。

Gradient Based Learning Applied to Document Recognition ， Yann LeCun等, 1998 2015.05 Google cited: 3313

LeNet-5系统结构：用于文字识别的7层卷积网络


Convolutional Neural Networks (CNN)

卷积Convolutions

http://ufldl.stanford.edu/tutorial/supervised/FeatureExtractionUsingConvolution/

此处的卷积：来自上层局部感受野数据的加权和



局部感受野 local receptive fieldsEach unit in a layer receives inputs from a set of units located in a small

neighborhood in the previous layer. The idea of connecting units to local receptive

fields on the input goes back to the Perceptron in the early 60s, and was almost

simultaneous with Hubel and Wiesel discovery of locally-sensitive, orientation

selective neurons in the cat�'s visual system.

Sparse ConnectivityGradient Based Learning Applied to Document Recognition ， Yann LeCun等, 1998

http://deeplearning.net/tutorial/lenet.html



权值共享 Shared Weights

Natural images have the property of being “stationary”, meaning that the statistics of

one part of the image are the same as any other part. This suggests that the features that we

learn at one part of the image can also be applied to other parts of the image, and we can

use the same features at all locations.

Shared WeightsGradient Based Learning Applied to Document Recognition ， Yann LeCun等, 1998

http://deeplearning.net/tutorial/lenet.html



LeNet-5文字识别系统的卷积神经网络

• C1层是一个卷积层，由6个特征图Feature Map构成（每个特征图对应一种卷积核）。特征图中每个神经元与输入中5*5的邻域相连。

• S2层是一个下采样层，有6个14*14的特征图。特征图中的每个单元与C1中的2*2邻域相连接。• C3层也是一个卷积层，它同样通过5x5的卷积核去卷积层S2，然后得到的特征map就只有10x10个神

经元，但是它有16种不同的卷积核，所以就存在16个特征map了。• S4层是一个下采样层，由16个5*5大小的特征图构成。每个单元与C3中2*2邻域相连接。• C5层是一个卷积层，有120个特征图。• F6层计算输入向量和权重向量之间的点积，再加上一个偏置。• 输出层由欧式径向基函数（Euclidean Radial Basis Function）单元组成，每个单元代表一个类别（

如果要识别0-9数字的话，需要10个节点）。

Gradient Based Learning Applied to Document Recognition, Yann LeCun等, 1998


小结：Convolutional Neural Networks (CNN)

• Convolution Layers 卷积层

• Sub-sampling Layers 子采样层

• Local Receptive Rields 局部感受野

• Shared Weights 权值共享


关于多媒体检索的思考


•典型图像全局特征的提取方法

• 颜色、纹理、形状

•典型图像局部特征的提取方法

• SIFT

•视网膜采样模式的应用

• FREAK

•卷积神经网络的生物学机理

• Convolutional Neural Networks (CNN)


关于考题形式

• „第1章绪论• 第2章布尔检索及倒排索引• 第3章词项词典和倒排记录表• 第4章索引构建和索引压缩• 第5章向量模型及检索系统• 第6章检索的评价• 第7章相关反馈和查询扩展• 第8章概率模型• 第9章基于语言建模的检索模型• 第10章文本分类• 第11章文本聚类• 第12章 Web搜索• 第13章多媒体信息检索• 第14章其他应用简介

简答题为主

综合题为主：给定简单的文档集，按照各种方法计算


谢谢大家！

感谢一学期来同学们的支持！

预祝每位同学均取得期望成绩！

5月29日周五答疑【不讲课】6月1日周一 9:45 – 11:45 考试

信息检索与数据挖掘 - ustchome.ustc.edu.cn/~zhufengx/ir/pdf/ir-review_2015.pdf ·...

Documents