0%

NLP

NLP任务:分词、词性标注、未登录词识别

语言的性质:共时性;历时性

语法单位

1
2
3
4
句子是语言中最大的语法单位
词组是词的组合,它是句子里面作用相当于词而本身又是由词组成的大于词的单位。
词是最重要的一级语法单位,它是造句的时候能够独立运用的最小单位。
语素是语言中音义结合的最小单位。就汉语来说,大抵一个汉字就是一个语素,但是也有两个字表示一个语素的,如:“咖啡”

语料库

• 语料库(corpus)一词在语言学上意指大量的文本,通常经过整理, 具有既定格式与标记

语料库的种类

1
2
共时语料库与历时语料库
通用语料库与专用语料库

语料加工

文本处理

1
2
3
4
5
6
7
8
垃圾格式问题
大小写
标记化
空格
连字符
词法
句子定义—启发式算法
句子边界的研究

格式标注

1
2
3
通用标记语言SGML
SGML是超文本格式的最高层次标准,是可以定义标记语言的元语言
语法标注

Zipf法则 • 一个词地频率f和它的词频排序位置r: f*r=k (k为常数)

image-20211227150000774

如果设置参数B=1, ρ=0,Mandelbrot公式就简化为Zipf法则

搭配抽取

image-20211227150045052

语料库加工_双语句子自动对齐& 双语词典获取

句子对齐问题描述

基于长度的句子对齐  基本思想:源语言和目标语言的句子长度存在一定 的比例关系

要求:最小(句珠内无句珠); 唯一(一个句子仅属于一个句珠); 无交叉(后句对齐一定在前句对齐位置之后)

基于共现的双语词典的获取

基本思想:如果汉语词出现在某个双语句对 中,其译文也必定在这个句对中。

汉英词典的迭代获取策略

1
2
3
4
5
6
7
8
迭代策略
1) 初始化;
2) 使用对数相似性模型计算汉英翻译词对候选;
3) 选取前n个汉英对译词对;
4) 双语句对中剔除选定的翻译词对;
5) 若不满足终止条件,重复步骤2;
 几点说明:复合词暂未考虑;可加入交互方式;

基于共现的词汇对译模型

评价方式:专家独立于上下文进行判别

1
2
评价1:每5000个翻译词对候选中正确的译文数
评价2:综合考虑翻译词典的性能

汉语自动分词

词法分析

词干提取vs词形还原:分别用于IR 和 NLP

1
2
词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义
词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义)
1
2
3
4
词干提取主要是采用“缩减”的方法
词形还原主要采用“转变”的方法
在复杂性上:词干提取方法相对简单,词形还原更复杂
在实现方法上:主流方法类似,但具体实现上各有侧重

词性标注

1
2
3
4
5
6
词性标注(part-of-speech tagging),又称为词类标注或者简称
标注,是指为分词结果中的每个单词标注一个正确的词性的程序,
也即确定每个词是名词、动词、形容词或者其他词性的过程
• 词性标注是很多NLP任务的预处理步骤,如句法分析,经过词性
标注后的文本会带来很大的便利性,但也不是不可或缺的步骤

分词算法

正向最大匹配分词(Forward Maximum Matching method, FMM)

1
2
3
4
5
6
7
8
9
基本思想:将当前能够匹配的最长词输出
• 1. 设自动分词词典中最长词条所含汉字个数为I
• 2. 取被处理材料当前字符串序数中的I个字作为匹配字段,查找分词词典。
若词典中有这样的一个I字词,则匹配成功,匹配字段作为一个词被切分出
来,转6
• 3. 如果词典中找不到这样的一个I字词,则匹配失败
• 4. 匹配字段去掉最后一个汉字,I--
• 5. 重复2-4,直至切分成功为止
• 6. I重新赋初值,转2,直到切分出所有词为止

逆向最大匹配分词(Backward Maximum Matching method, BMM法

1
2
3
分词过程与FMM方法相同,不过是从句子(或文
章)末尾开始处理,每次匹配不成功时去掉的是
最前面的一个汉字

实验表明:逆向最大匹配法比最大匹配法更有效

最大匹配法的问题

1
2
3
• 存在分词错误:增加知识、局部修改
• 局部修改:增加歧义词表,排歧规则
无法发现分词歧义->从单向匹配改为双向最大匹配

双向匹配法(Bi-direction Matching method, BM法)

1
2
3
双向最大匹配法是将正向最大匹配法(FMM)得到的分词
结果和逆向最大匹配法(BMM)得到的结果进行比较,从
而决定正确的分词方法

最少分词法

1
2
3
4
5
6
7
8
9
10
11
• 分词结果中含词数最少
• 优化代替了贪心
• 等价于最短路径
•算法:
• 动态规划算法
• 优点:好于单向的最大匹配方法
• 最大匹配:独立自主/和平/等/互利/的/原则
• 最短路径:独立自主/和/平等互利/的/原则
• 缺点:忽略了所有覆盖歧义,也无法解决大部分交叉歧义
• 结合成分子时
• 结合|成分|子 {} 结|合成|分子 {} 结合|成|分

分词问题:歧义

交集型切分歧义

1
2
汉字串AJB被称作交集型切分歧义,如果满足AJ、JB同时
为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。

组合型切分歧义

1
2
• 汉字串AB被称作组合型切分歧义,如果满足条件:A、
B、AB同时为词

交集型歧义字段中含有交集字段的个数,称为链长

“真歧义”和“伪歧义”

1
2
• 真歧义指存在两种或两种以上的可实现的切分形式
• 伪歧义一般只有一种正确的切分形式

分词问题

1
2
3
4
歧义
未登录词
新词

分词质量评价

image-20211227193857156

中文分词_统计建模

基于N元文法的分词(MM)

MM(马尔可夫模型/过程) :有限历史假设,仅依 赖前n-1个词

一种最简化的情况:一元文法

1
2
3
4
5
6
P(S)=p(w1) ·p(w2) ·p(w3)….p(wn)
 等价于最大频率分词
 即把切分路径上每一个词的概率相乘得到该切
分路径的概率
 把词概率的负对数理解成路径“代价”,输出
结果就是整体代价最“小”分词序列

采用二元语法(bi-gram):性能进一步提高

image-20211227195204331

 更大的n:对下一个词出现的约束性信息更多,更大的辨别力。  更小的n:出现的次数更多,更可靠的统计结果,更高的可靠性。

等价类映射:降低语言模型参数空间

数据平滑(smoothing):保持模型的辨别能力

基于HMM的分词/词性标注一体化

输入:待处理句子S

输出:S的 词序列 W = w1 ,w2…wn

词性序列 T = t1 ,t2…tn

提示  W可以代表S  分词结果即观测序列  词性序列是状态序列

公式推导

image-20211227200001707

image-20211227200011651

image-20211227200200077

由字构词的汉语分词方法

基本思路  分词过程:一个字的分类问题;  每个字在词语中属于一个确定位置

字的的标注过程中,对所有的字根据预定义的特 征进行词位特征学习,获得一个概率模型

由字构词的分词技术的优势

1
 简化了分词系统的设计  文本中的词表词和未登录词都是用统一的字 标注过程来实现的,分词过程成为字重组的 简单过程。  既可以不必专门强调词表词信息,也不用专 门设计特定的未登录词识别模块

汉语分词方法的后处理方法

为什么不采用更精巧的模型?

1
四元或更高阶...  不可行,需要大量的参数  不得不做一些平滑或差值  难度随模型复杂度而加剧

两个重要组成部分:

1
2
 允许的错误校正转换的详细说明
 学习算法

输入数据

1
2
一个已经标注好的语料库,
*一个词典

基于转换错误驱动的规则方法

1
2
3
4
5
6
 学习和标注在该方法种都是简单和直观的
 成功用于词性标注、句法分析、介词附着以及
语义消歧
 经验上,没有出现过拟合现象
 可以被用来解决大部分后处理问题
 效率的提升优化,考验工程能力

标注可以采用

1
 隐马尔科夫模型(HMM)  最大熵(ME)  最大熵马尔科夫模型(MEMM)  条件随机场(CRF)等

隐马尔科夫模型

马尔科夫(Markov)模型

马尔科夫模型是一种统计模型,广泛的应用在语音识别, 词性自动标注,音字转换,概率文法等各个自然语言处理 的应用领域。

随机过程又称为随机函数,是随时间随机变化的过程。马 尔科夫模型描述了一类重要随机过程。

系统在时间t处于状态𝑠𝑗的概率取决于其在时间1,2,…t-1的 状态,该概率为:

1
𝑃(𝑞𝑡 = 𝑠𝑗|𝑞𝑡−1 = 𝑠𝑖, 𝑞𝑡−2 = 𝑠𝑘, … )

离散的一阶马尔科夫链:系统在时间t的状态只与时间t-1 的状态有关。

1
𝑃(𝑞𝑡 = 𝑠𝑗|𝑞𝑡−1 = 𝑠𝑖, 𝑞𝑡−2 = 𝑠𝑘, … ) = 𝑃(𝑞𝑡 = 𝑠𝑗|𝑞𝑡−1 = 𝑠𝑖)

状态转移概率𝑎𝑖𝑗必须满足以下条件:

image-20211227203707059

N个状态的一阶马尔科夫过程有𝑁2,可以表示成为一个状 态转移矩阵

eg:状态𝑠1:名词 状态𝑠2:动词 状态𝑠3:形容词

如果在该文字中某句子的第一个词为名词,那么该句子 中三类词出现顺序为O=“名动形名”的概率。

image-20211227203903492

马尔科夫(Markov)模型:有限状态机

1
2
3
4
5
6
7
马尔科夫模型可视为随机的有限状态机。
圆圈表示状态,状态之间的转移用带箭头的弧表示,弧上
的数字为状态转移的概率。
初始状态用标记为start的输入箭头表示。
假设任何状态都可作为终止状态。
对每个状态来说,发出弧上的概率和为1。

eg:

image-20211227204121800

一般地,一个HMM记为一个五元组μ=(S,K, A,B,π),其中,S为状态的集合,K为输出符 号的集合,π,A和B分别是初始状态的概率分布、 状态转移概率和符号发射概率。为了简单,有时也将其记为三元组μ=(A,B,π)

隐马尔可夫模型:三个基本问题

1
2
3
4
5
6
7
8
9
10
1.估值问题:给定一个观察序列 O = 𝑂1𝑂2 … 𝑂𝑇 和模型μ=(A,
B,π),如何快速地计算出给定模型μ情况下,观察序列O的
概率,即𝑃 𝑂 𝜇 ?
2.序列问题:给定一个观察序列 O = 𝑂1𝑂2 … 𝑂𝑇 和模型μ=(A,
B,π),如何快速有效的选择在一定意义下“最优”的状态序
列 𝑄 = 𝑞1𝑞2 … 𝑞𝑇 ,使得该状态序列“最好的解释”观察序列?
3.参数估计问题:给定一个观察序列O = 𝑂1𝑂2 … 𝑂𝑇,如何根
据最大似然估计来求模型的参数值?即如何调节模型μ=(A,
B,π)的参数,使得𝑃 𝑂 𝜇 最大?

隐马尔可夫模型:求解观察序列的概率

1
给定观察序列O = 𝑂1𝑂2 … 𝑂𝑇和模型𝜇 =(𝐴, 𝐵, π),快速的计算出给定模型𝜇情况下观察序列O的概率,即𝑃 (𝑂|𝜇) 。

image-20211227210645264

隐马尔可夫模型:前向算法

1
基本思想:定义前向变量𝛼𝑡(𝑖),前向变量𝛼𝑡(𝑖)是在时间t,HMM输出了序列𝑂1𝑂2 … 𝑂𝑡 ,并且位于状态𝑠𝑖的概率。

image-20211227211103464

前向算法总的复杂度为O(𝑁2𝑇)

隐马尔可夫模型:后向算法

1
后向变量𝛽𝑡(𝑖)是在给定模型𝜇 = (𝐴, 𝐵, π),并且在时间t状态为𝑠𝑖的条件下,HMM输出观察序列𝑂𝑡+1 … 𝑂𝑇的概率。

与计算前向变量一样,可以用动态规划的算法计算后向变量。

image-20211227211441031

时间复杂度:O(𝑁2𝑇)

序列问题

隐马尔可夫模型:维特比算法

1
2
3
4
维特比算法用于求解HMM中的第二个问题,给定一个观
察序列O = 𝑂1𝑂2 … 𝑂𝑇和模型𝜇 = (𝐴, 𝐵, π),如何快速有效
的选择在一定意义下最优的状态序列𝑄 = 𝑞1𝑞2 … 𝑞𝑇,使得
该状态序列“最好的解释”观察序列。

image-20211227211917788

image-20211227211938609

存在问题

1
单独最优不一定整体最优

参数估计

最 大似然估计

EM

句法分析

句法分析概述

基本任务:确定句子的句法结构或句子中词汇之间的依存关系。

定义:判断单词序列(一般为句子)判读其构成是否合乎 给定的语法(recognition),如果是,则给出其(树)结构 (parsing)

描述一种语言可以有三种途径

1
2
3
穷举法:把语言中的所有句子都枚举出来。显然,这种方法只适合句子数目有限的语
语法/文法描述:语言中的每个句子用严格定义的规则来构造,利用规则生成语言中合法的句子
自动机法:通过对输入句子进行合法性检验,区别哪些是语言中的句子,哪些不是语言中的句子

形式语法

1
2
3
4
5
四元组 𝐺 = {𝑁, Σ, 𝑃, 𝑆}
𝑁是非终结符(non-terminal symbol)的有限集合(有时也称变量集或句法种类集)
Σ是终结符号(terminal symbol)的有限集合,𝑁 ∩ Σ = ∅
𝑃是一组重写规则的有限集合:𝑃 = 𝛼 → 𝛽 ,其中𝛼, 𝛽是由V中元素构成的串,但是𝛼中至少应含一个非终结符
𝑆 ∈ 𝑁称为句子符或初始符

形式语法种类

1
2
3
4
正则文法
上下文无关文法
上下文相关文法
无约束文法

控制策略

1
2
3
4
5
自顶向下、自底向上
移进-归约是自底向上语法分析的一种形式
 使用一个栈来保存文法符号,并用一个输入缓冲区来存放将要进行语
法分析的其余符号

搜索策略

1
深搜广搜

扫描策略

1
自左至右,自右至左

移进-归约是自底向上语法分析的一种形式

CFG缺陷

1
2
3
4
5
6
7
8
9
10
 对于一个中等长度的输入句子来说,要利用大覆盖度的语法规
则分析出所有可能的句子结构是非常困难的,分析过程的复杂
度往往使程序无法实现
 即使能分析出句子所有可能的结构,也难以在巨大的句法分析
结果集中实现有效的消歧,并选择出最有可能的分析结果
 手工编写的规则一般带有一定的主观性,对于实际应用系统来
说,往往难以覆盖大领域的所有复杂语言
 写规则本身是一件大工作量的复杂劳动,而且编写的规则对特
定的领域有密切的相关性,不利于句法分析系统向其他领域移

概率上下文无关文法(PCFG)

概率上下文无关文法就是一个为规则增添了概率的简单CFG, 指明了不同重写规则的可能性大小

在基于PCFG的句法分析模型中,假设满足以下三个条件:

1
2
3
上下文无关性
祖先无关性
位置不变性

剪枝策略:Beam search(集束搜索)

1
2
3
4
一种启发式图搜索算法,为了减少搜索占用的时间和空间,在每一步深度扩展的时候,
减掉一些质量比较差的节点,保留质量较高的一些节点
优点是减少空间消耗,提高时间效率
缺点是有可能存在潜在的最佳方案被丢弃,beam search算法是不完全的

PCFG的优点

1
2
3
4
5
可利用概率减少分析过程的搜索空间
可以利用概率对概率较小的子树剪枝,加快分析效

可以定量地比较两个语法的性能

PCFG的缺陷

1
2
结构相关性
词汇相关性

词义消歧

word sense disambiguation WSD

义位:语义系统中能独立存在的基本语义单位

WSD需要解决三个问题:

1
2
3
(1)如何判断一个词是不是多义词? 如何表示一个多义词的不同意思?
(2)对每个多义词,预先要有关于它的 各个不同义项的清晰的区分标准
(3)对出现在具体语境中的每个多义词,为它确定一个合适的义项
1
2
3
4
5
基于机器词典的WSD
基于义类词典的WSD
基于语料库的WSD
基于统计方法的WSD
基于规则的WSD
1
2
3
4
5
6
7
总结:
用词典资源进行词义排歧,是利用词典中对多义
词的各个义项的描写,求多义词的释义跟其上下
文环境词的释义之间的交集,判断词义的亲和程
度,来确定词义;
由于词典释义的概括性,这种方法应用于实际语
料中多义词的排歧,效果不一定理想

基于义类词典的WSD方法

image-20211227233833336

互信息:I(X;Y)反映的是在知道了Y的值 以后X的不确定性的减少量。

基于Bayes判别的WSD方法

image-20211227235729108

词义消歧——基于多分类器集成

1
2
3
4
5
6
总结
还有很多问题需要探讨
❖如何选用更有效的分类器
❖单分类器的结果怎样更高效地集成
❖如何在单分类器中选取更有效的特征
 集成学习的研究对自然语言处理中的其他任务

篇章

概念

1
2
3
4
5
Anaphor:指代语
Entity(referent):实体(指称对象)
Reference:指称。用于指称实体的语言表示
Antecedent:先行语。语篇中引入的一个相对明确的指称意义表述(如张三);
Coreference:共指(同指)。当两种表述均指称相同对象(实体)时,这两种表述具有共指关系

六类指称表示

1
2
3
4
5
6
7
 Indefinite NPs(不定名词): 一辆汽车
 Definite NPs (有定名词): 那个人
 Pronouns (人称代词): 它,他
 Demonstratives (指示代词): 这,那
 One-anaphora (one指代): one (in English)
 Zero anaphora (0型指代): 省略

指代一般包括两种情况

1
2
3
4
5
6
7
– 回指(Anaphora):强调指代语与另一个表述之间的关
系。指代语的指称对象通常不明确,需要确定其与先行
语之间的关系来解释指代语的语义
• 张先生走过来,给大家看他的新作品
– 共指(coreference):强调一个表述与另一个表述是否
指向相同的实体,可以独立于上下文存在
• 第44任美国总统 与奥巴马

衔接和连贯

以词汇表示的关联,通常称为“衔接(cohesion),强调其构成成分

通过句子意义表示的关联称为连贯Coherence,强调整体上表达某种意义

篇章表示和相似度计算

将文档表示为如下所示的向量: 𝑑𝑗 = (𝑤1,𝑗 , 𝑤2,𝑗 , 𝑤3,𝑗 , … , 𝑤𝑡,𝑗)  向量的每一维都对应于词表中的一个词。  如果某个词出现在了文档中,那它在向量中的值就非 零。  这个值有很多计算方法,我们使用词语在文档中出现 的次数表示。

机器翻译

传统机器翻译方法

1
直接翻译法

基于规则的翻译方法

1
2
3
对源语言和目标语言均进行适当描述
吧翻译机制与语法分开
用规则描述语法的翻译方式
1
2
3
4
5
6
▪优点:
▪ 可以较好地保持原文的结构,产生的译文结构与源文的结构关系密切
▪ 尤其对于语言现象的或句法结构的明确的源语言语句具有较强的处理能力
▪弱点:
▪ 规则一般由人工编写,工作量大,主观性强,一致性难以保障
▪ 不利于系统扩充,对非规范语言现 象缺乏相应的处理能力

基于实例的翻译方法

1
方法:输入语句->与事例相似度比较->翻译结果
1
2
3
4
5
6
7
8
▪ 方法优点
▪ 不要求源语言句子必须符合语法规定;
▪ 翻译机制一般不需要对源语言句子做深入分析;
▪ 方法弱点
▪ 两个不同的句子之间的相似性(包括结构相似性和语义相似性)往往难以把握
▪ 在口语中,句子结构一般比较松散,成分冗余和成分省略都较严重;
▪ 系统往往难以处理事例库中没有记录的陌生的语言现象;
▪ 当事例库达到一定规模时,其事例检索的效率较低;

基于统计的机器翻译模型

噪声信道模型

1
一种语言T 由于经过一个噪声信道而发生变形从而在信道的另一端呈现为另一种语言 S

翻译问题可定义为:

1
▪ 如何根据观察到的 S,恢复最为可能的T 问题。

image-20211228101907190

▪三个关键问题 ▪ (1)估计语言模型概率 p(T); ▪ (2)估计翻译概率 p(S|T); ▪ (3)快速有效地搜索T 使得 p(T)×p(S | T) 最大

基于词的统计机器翻译模型

IBM模型1:词汇翻译(词对齐)

1
2
3
4
5
6
7
8
▪ 基于词的统计翻译模型
▪ 引入了词对齐的问题
▪ 通过EM算法学习词对齐
▪ 缺陷
▪ 无法刻画翻译过程中重排序、添词、舍词等情况;
▪ 例如:
▪ Seldom do I go to work by bus.
▪ 我很少乘公共汽车上班

IBM模型2:增加绝对对齐模型

IBM模型3:引入繁衍率模型

1
2
3
前述模型存在的问题
▪ 在随机选择对位关系的情况下,与目标语言句子中的单词t对应的源语言句子中的单
词数目是一个随机变量;

繁衍率

1
2
3
4
定义:与目标语言句子中的单词t对应的源语言句子中的单词数目的变量
▪ 记做Фt,称该变量为单词t的繁衍能力或产出率(fertility)。一个具体的取值记做:Фt
▪ 繁衍率刻画的是目标语言单词与源语言单词之间一对多的关系

基于短语的统计机器翻译模型

基本思想

1
2
3
4
5
▪ 把训练语料库中所有对齐的短语及其翻译概率存储起来,作为一部带
概率的短语词典
▪ 这里所说的短语是任意连续的词串,不一定是一个独立的语言单位
▪ 翻译的时候将输入的句子与短语词典进行匹配,选择最好的短语划分,
将得到的短语译文重新排序,得到最优的译文.

系统融合

几个相似的系统执行同一个任务时,可能有多个输出结果,系统融合将这些结果进行融 合,抽取其有用信息,归纳得到任务的最终输出结果。

目标:最终的输出比之前的输入结果都要好

句子级系统融合

1
2
两种技术
最小贝叶斯风险解码;通用线性模型

句子级系统融合方法不会产生新的翻译句子,而是在已有的翻 译句子中挑选出最好的一个

短语级系统融合 ▪ 利用多个翻译系统的输出结果,重新抽取短语翻译规则集合,并利用 新的短语翻译规则进行重新解码

1
2
3
基本思想:首先合并参与融合的所有系统的短语表,从中抽取
一个新的源语言到目标语言的短语表,然后使用新的短语表和
语言模型去重新解码源语言句子。

词语级系统融合 ▪ 首先将多个翻译系统的译文输出进行词语对齐,构建一个混淆网络, 对混淆网络中的每个位置的候选词进行置信度估计, 最后进行混淆网 络解码

小结

1
2
3
4
5
6
7
8
9
10
11
句子级系统融合
▪ 未生成新的翻译假设,有效的保护原来翻译假设中短语的连续性和句子词序,但
是也没有吸收借鉴其他翻译假设中词或者短语层次的知识。
▪ 短语级系统融合
▪ 借鉴其他翻译系统的短语表知识,利用传统的基于短语的翻译引擎来重新解码源
语言的句子。有效的保持短语的连续性和译文的局部词序。但是不能很好的利用
非连续短语和句法知识来克服译文的远距离调序问题
▪ 词语级系统融合
▪ 从词的粒度重组了输出译文,充分利用了各个翻译假设的词汇级别的知识,取长
补短。但是在混淆网络解码时,并不能保证新生成的翻译句子的词序一致性和短
语连续性

应用:语言自动生成

自然语言生成概述

NLG生成模型

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
1. 马尔可夫链:通过当前单词可以预测句子中的下一个单
词。
缺点:无法探测当前单词与句子中其他单词的关系以及句
子的结构,使得预测结果不够准确。
2. 循环神经网络(RNN):通过前馈网络传递序列的每个项目
信息,并将模型的输出作为序列中下一项的输入,每个项
目存储前面步骤中的信息。
优点:能够捕捉输入数据的序列特征
缺点:第一,RNN短期记忆无法生成连贯的长句子;第二,
因为 RNN 不能并行计算,无法适应主流趋势。
3. 长短期记忆网络(LSTM),解决梯度消失问题,但难以并行化
4. Seq2Seq,能够解决大部分序列不等长的问题
5. Attention模型
6. Transformer模型,能够在不考虑单词位置的情况
下,直接捕捉句子中所有单词之间的关系
7. ELMO模型
8. BERT模型

数据到文本的生成

以包含键值对的数据作为输入,旨在 自动生成流畅的、贴近事实的文本以描 述输入数据。

1
2
3
4
 信号分析模块(Siganl Analysis)
 数据阐释模块(Data Interpretation)
 文档规划模块(Document Planning)
 微规划与实现模块(Microplanning and Realisation)

应用领域:

1
2
3
4
5
6
 天气预报领域的文本生成系统
 针对空气质量的文本生成系统
 针对财经数据的文本生成系统
 面向医疗诊断数据的文本生成系统
 基于体育数据生成文本摘要

文本到文本的生成

对给定文本进行变换和处理从而获得新文本的技术

应用

1
2
3
4
5
 对联自动生成
 诗歌自动生成
 作文自动生成
 对话生成*---这个任务现阶段一般不作为NLG的研究分支来探讨

词和文档表示与相似度计算

词的表示

独热表示

1
每个词对应一个向量,向量的维度等于词典的大小,向量中只有一个元素值为1,其余的元素均为0 ,值为1的元素对应的下标为该词在词典中的位置

词频 -逆文档频率(TF -IDF)

词嵌入方法的问题

1
2
3
4
5
6
静态词向量
词向量无法随语境变化
不能处理一词多义
多义词无法区分多个含义
不能有效区分反义词
反义词的上下文很相似

词向量

skip-gram

1
2
3
4
5
6
7
1. 将目标词和邻近的 
语境词作为正面例子。
2.随机抽取词库中的其他词
词库中的其他词,以获得负面样本。
3. 使用逻辑回归来训练一个分类器,以区分这两种情况。
区分这两种情况。
4. 使用权重作为嵌入。

文档表示

image-20211228162546651

文本相似度计算

编辑距离,动态规划

信息抽取

信息抽取的定义、任务及发展

信息抽取中的主要任务

1
2
3
4
5
6
7
8
命名实体识别:
识别和分类文本中出现的“实体提及”
实体链接:
将“实体提及”链接到知识库中对应的实体
关系抽取:
找到句子中有关系的两个实体,并识别出他们之间的关系类型
事件抽取:
事件抽取就要是找到一个事件对应的元素。

命名实体识别

挑战

1
2
3
4
5
6
7
8
种类繁多,命名方式灵活多样
同一实体对应很多变体
相同的词或者短语可以表示不同类别的实

存在嵌套
细粒度
语言不断进化,新的挑战不断出现

主要方法

1
基于规则的方法 基于词典的方法 机器学习方法 ◼最大熵 ◼条件随机场 ◼深度学

命名实体识别的评价

image-20211228163639194

image-20211228163649954

实体链接

将“实体提及”链接到知识库中对应的实体

关系抽取

自动识别由一对实体和联系这对实体的关系构成的 相关三元组

预定义关系抽取

1
2
3
4
5
6
任务
给定实体关系类别,给定语料,抽取目标关系对
评测语料(MUC, ACE, KBP, SemEval)
专家标注语料,语料质量高
抽取的目标类别已经定义好

基于神经网络的关系抽取方法

1
2
主要问题:如何设计合理的网络结构,从而捕捉更多的信息,进而更准确的完成关系的抽取
网络结构:不同的网络结构捕捉文本中不同的信息

开放域关系抽取

1
2
3
4
5
6
7
8
9
实体类别和关系类别不固定、数量大
难点问题
 如何获取训练语料
 如何获取实体关系类别
 如何针对不同类型目标文本抽取关系
需要研究新的抽取方法
 基于句法的方法
 基于知识监督的方法

深度学习简介

常用的深度学习模型

1
2
3
4
5
激活函数
深度神经网络(Deep Neural Network, DNN)
卷积神经网络(Convolutional Neural Network,CNN)
循环神经网络 (Recurrent Neural Network, RNN)
注意力机制(Attention Mechanisms)

pooling

1
2
3
4
5
目的:
扩大视野:就如同先从近处看一张图片,然后离远一些再看同一张图片,有些细节就会被忽略。
降维:在保留图片局部特征的前提下,使得图片更小,更易于计算。
平移不变性,轻微扰动不会影响输出。
维持同尺寸,便于后端处理。

深度学习模型的应用

1
2
3
4
5
6
7
8
DBN的应用
基于DBN的问答对挖掘
CNN的应用
关系分类
句子分类
LSTM-RNN的应用
命名实体识别