Seq2Seq 中 Exposure Bias 现象的浅析与对策
转载自《Seq2Seq中Exposure Bias现象的浅析与对策》,作者:苏剑林,部分内容有修改。
Seq2Seq 模型的典型训练方案 Teacher Forcing 是一个局部归一化模型,它存在着局部归一化所带来的毛病——也就是我们经常说的“Exposure Bias”。
经典的 Seq2Seq 模型图示
本文算是一篇进阶文章,适合对 Seq2Seq 模型已经有一定的了解、希望进一步提升模型的理解或表现的读者。关于 Seq2Seq 的入门文章,可以阅读旧作《Seq2Seq 模型入门》。
本文的内容大致为:
Exposure Bias 的成因分析及例子;
简单可行的缓解 Exposure Bias 问题的策略。
Exposure Bi...
CRF or MEMM?
转载自《简明条件随机场CRF介绍(附带纯Keras实现)》和《CRF用过了,不妨再了解下更快的MEMM?》,作者:苏剑林,部分内容有修改。
HMM、MEMM、CRF 被称为是三大经典概率图模型,在深度学习之前的机器学习时代,它们被广泛用于各种序列标注相关的任务中。一个有趣的现象是,到了深度学习时代,HMM 和 MEMM 似乎都“没落”了,舞台上就只留下 CRF。相信做 NLP 的读者朋友们就算没亲自做过也会听说过 BiLSTM+CRF 做中文分词、命名实体识别等任务,却几乎没有听说过 BiLSTM+HMM、BiLSTM+MEMM 的,这是为什么呢?
softmax 和 CRF
我们首先来对比一下普通的逐帧 softmax 和 CRF 的异同。
逐帧 softmax
CRF ...
浅谈泛化性:从随机噪声、对抗训练到梯度惩罚
转载自《对抗训练浅谈:意义、方法和思考(附Keras实现)》 和《泛化性乱弹:从随机噪声、梯度惩罚到虚拟对抗训练》,作者:苏剑林。
提高模型的泛化性能是机器学习致力追求的目标之一。常见的提高泛化性的方法主要有两种:
第一种是添加噪声,比如往输入添加高斯噪声、中间层增加 Dropout 以及对抗训练等,对图像进行随机平移缩放等数据扩增手段某种意义上也属于此列;
第二种是往 loss 里边添加正则项,比如 $L_1, L_2$ 惩罚、梯度惩罚等。
本文试图探索几种常见的提高泛化性能的手段的关联。
添加随机噪声
我们记模型为 $f(x)$,$\mathcal{D}$ 为训练数据集合,$l(f(x), y)$ 为单个样本的 loss,那么我们的优化目标是
\[\mat...
方方的武汉日记:该滚去美国的卖国贼?
转载自纽约时报《方方的武汉日记和一场政治风暴》,英文版
周一,武汉,长江边的垂钓者。
在武汉被新冠病毒吞噬时,中国作家方方伏案到深夜,写下自己家乡城市的生死纪事。新冠病毒从那里开始演变成一场全球疫情。
她的网络日记尽管有时会遭到审查,但对于上千万的中国读者来说,却成为必读之物,那是对武汉民众困在家里11周的恐惧、沮丧和希望的自然直率的呈现。
她的叙述最近遭到了狂热的中国民族主义者的严厉谴责,他们说日记的英文版出版计划是对政府的诽谤,破坏了武汉的英雄形象。
方方是笔名,她的本名叫汪芳。她说,自己既不想被当作政府的欢呼者,也不想被塑造成一个满腹牢骚、为反对而反对的批评者。她称自己为见证者,日记凸显了医生、环卫工人和互助的邻居的勇敢,同时誓言要对渎职官员问责。
“如果说,作...
中国和美国都把对方最大的弱点当成了唯一
转载自端传媒《专访戴博:中国和美国都把对方最大的弱点当成了唯一》,作者:邢泰
本文是对基辛格中美研究所主任戴博(Robert Daly)的专访。他自1986年任驻华外交官,后出演电视剧《北京人在纽约》,并先后在康奈尔大学、约翰·霍普金斯大学、马里兰大学执教和进行中美文化研究。和主张中美更激烈对抗的“鹰派”不同,他的主要观点是中美对彼此有偏见,而他希望打破这些偏见。在两国关系日益紧张,两边的强硬派都越来越“大声”的今天,端传媒请他分享了他对当下中美关系处境、双方责任和未来可能性的一些看法。
“你们怎么看待穆斯林问题在中国的未来?”2020年2月,在美国华盛顿基辛格中美研究所举办的一场讲座上,台下一位美国观众抛出一个有关新疆问题的提问,他自称是前外交官。
“是不是中美关系以...
统计自然语言处理之美:从 NNLM 到 Bert
要不要让机器理解语言?
自然语言处理六十多年的发展历程,基本可以分为两个阶段。第一阶段从 20 世纪 50 年代到 70 年代,人们对计算机处理自然语言的认识都局限在人类学习语言的方式上,用了二十年时间苦苦探寻让计算机理解语言的方法,最终却一无所获。当时学术界普遍认为,要让机器完成翻译等自然语言处理任务,首先必须让机器理解语言,因此分析语句和获取语义成为首要任务,而这主要依靠语言学家来人工总结文法规则。特别是 20 世纪 60 年代基于乔姆斯基形式语言的编译器得到了很大的发展,更加鼓舞了人们通过概括自然语言语法来解决自然语言处理问题的决心。但是人类的自然语言既复杂又灵活,仅靠手工编写的文法规则根本无法覆盖(这还不考虑规则之间存在的矛盾),而且与规范严谨的程序语言不同,自然语言是一种复...
中东百年往事:欺骗、斩首、革命
转载自《中东百年往事:欺骗、斩首、革命》,作者:奥特快,数据支持:远川研究
1998年5月28日,美国广播公司记者约翰·米勒(John Miller)开始了他职业生涯中最危险的一次采访。
从美国出发,经漫长飞行后,米勒落地巴基斯坦,随后驱车直奔巴基斯坦最北部的村庄并在那里等候接应。到村庄后,武装人员光是核验米勒的身份就花了3天,问了无数问题。之后他们被要求换上阿拉伯长袍,于黄昏出发进入阿富汗,顺着干涸的河床走了好几个小时才遇到前来接应的卡车。
卡车在山谷中沿着崎岖不平的石子路前行,一路都是检查站,到处都是闪烁的枪口,所有电子设备都要被没收,以防美军定位空袭。第二天夜里,他们被安排坐上一辆完全封闭的小货车车厢,周围什么都看不到。隔三差五就有武装人员突然打开车厢门,用枪顶着他们要求...
依存句法分析在深度学习中的应用:从 Tree-LSTM 到 GCN
本文魔改自《依存句法分析在深度学习中的应用》,原作者:何晗
句法分析是一项核心的 NLP 任务,目标是获取句子的主谓宾等句法结构。在传统机器学习方法中,我们通常是在给定的依存句法树上,利用规则手工提取句法树的特征。随着神经网络方法的兴起,这种特征工程方法已经不再适用,那么我们应该如何提取树的向量表示呢?本文简单地通过 7 种模型来介绍依存句法分析在深度学习中的应用,涵盖 Tree-LSTM、DCNN 和 GCN 等。
Tree-LSTM
最著名的方法当属 Tree-LSTM (Tai et al., 2015),它扩展了经典的 LSTM 模型,使得原本的序列化模型可以处理树形结构。下图中左边就是标准的线性结构 LSTM,右边就是树形结构 LSTM。
与标准的 LSTM 单...
共计 106 篇文章,14 页。