情感史的主要研究面向,自然语言交流系统

2019-09-22 02:32 来源:未知

每一个对这个世界适应不良的孩子都拥有反败为胜的力量。捕捉你的情绪化 并坚持把它付诸于画纸之上。每一种情感都是有色体 每一种声响都可幻化与众不同的奇异形象 只是他们常被人们视作无意义。难过吗?快乐吗?当情感大量流出的时候记得用画笔描摹出他们的生命迹象。

情感倾向可认为是主体对某一客体主观存在的内心喜恶,内在评价的一种倾向。它由两个方面来衡量:一个情感倾向方向,一个是情感倾向度。

近年来,情感史研究倍受关注。虽然学界对情感史的一些基本问题尚未达成一致,但越来越多的史家开始重视情感因素在历史进程中的作用。史学研究中所使用的情感词汇,即所谓情感描述如喜悦、痛苦、悲伤、愤怒、嫉妒等,其实包含两层意思,一是指人们内心深处感受到的情感体验,二是人们以语言、表情、手势以及眼神等各种方式所表达的情感,即情感表达。同样的喜怒哀乐等情感体验,每个人的表达方式不同。情感史研究的目的,就是解读情感背后的历史意义。然而,问题也随之而来。历史学家如何才能了解过去人们内心深处的情感体验?以语言等方式表达的情感,在多大程度上是真实的?如果我们根本无法了解人们内心深处的情感,那么情感史研究又从何说起?这是每个情感史研究者必须首先面对的问题,即表达——体验问题。也就是说,情感体验与情感表达之间存在巨大差别,人们表达的情感未必是他内心感受到的真情实感。这也是情感史最受质疑的问题之一。

情感倾向方向也称为情感极性。在微博中,可以理解为用户对某客体表达自身观点所持的态度是支持、反对、中立,即通常所指的正面情感、负面情感、中性情感。例如“赞美”与“表扬”同为褒义词,表达正面情感,而“龌龊”与“丑陋”就是贬义词,表达负面情感。

一、“研究情感表达的众多方式是我们了解情感的唯一入口”

情感倾向度是指主体对客体表达正面情感或负面情感时的强弱程度,不同的情感程度往往是通过不同的情感词或情感语气等来体现。例如:“敬爱”与“亲爱”都是表达正面情感,同为褒义词。但是“敬爱”远比“亲爱”在表达情感程度上要强烈。通常在情感倾向分析研究中,为了区分两者的程度差别,采取给每个情感词赋予不同的权值来体现。

人们对情感史的质疑,其实源于对情感本身的看法,即把情感与理性对立起来,认为一个人的情感变化无常,既无法预见也不可控制,毫无理性可言。把情感纳入史学研究范畴,首先必须打破这种把情感与理性对立起来的观点。威廉·雷迪对情感史研究的一个重要突破,就是提出情感体验与情感表达相互影响、互为因果。雷迪借鉴神经科学的研究成果,认为情感是一种特殊的认知过程。人感受到某种情感并非只是脸红、心跳、肾上腺素增加等纯粹生理机能的结果,心理学家以大量实验证据表明,情感是通过大量学习获得的习惯。雷迪提出:“人感受到的所有情感,实际上都是训练的结果”。也就是说,一个人在感受到某种情感的时候,其实含有一定的价值判断,他快乐或生气,都是受到外界刺激的结果。人们或者把自己的真实情感表达出来,或者小心掩盖自己内心的真情实感,每种表达方式都被赋予特定的意义。因此,“研究情感表达的众多方式是我们了解情感的唯一入口”。情感史家所关注的,是这些情感表达背后所揭示的人与人、人与社会的关系。每个人都受到情感准则的约束,一个人表达情感的过程其实是在进行情感自我塑造。所以,对于情感史而言,“追问一个人的情感是否发自内心,即情感的‘真’与‘伪’,这种提问本身没有什么意义,因为所有成年人的情感体验其实都是被训练的结果”。

目前,情感倾向分析的方法主要分为两类:一种是基于情感词典的方法;一种是基于机器学习的方法,如基于大规模语料库的机器学习。前者需要用到标注好的情感词典,英文的词典有很多,中文主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD两个情感词典,还有哈工大信息检索研究室开源的《同义词词林》可以用于情感词典的扩充。基于机器学习的方法则需要大量的人工标注的语料作为训练集,通过提取文本特征,构建分类器来实现情感的分类。

雷迪据此提出了情感表达理论。这一理论是对英国哲学家奥斯汀的言语——行为理论的延伸。奥斯汀认为语言不但有描述作用。而雷迪认为除上述两种功能外,语言还有表达情感的作用,情感表达类似于“以言行事”,但更多地强调情感表达与情感体验之间的相互作用,即“以言导情”。情感表达可以成为达致理想情感状态的一种工具。然而,所有情感表达是否能够达到目的,就不得而知了,因而情感表达只是一种尝试,是一种情感努力与情感经营。如果能够达致理想的情感状态,人们便感受到较大程度的情感自由,达不到的就感受到更多的情感痛苦。有时人们为了避免情感痛苦,还会寻找能够自由地表达情感的场所或机构甚至某种仪式,即所谓情感避难所。各种社会情感准则,以及人们试图突破限制以便自由地表达情感的努力,构成了一个完整的情感体系,即整个社会的情感体制。

文本情感分析的分析粒度可以是词语、句子也可以是段落或篇章。段落篇章级情感分析主要是针对某个主题或事件进行倾向性判断,一般需要构建对应事件的情感词典,如电影评论的分析,需要构建电影行业自己的情感词典效果会比通用情感词典效果更好;也可以通过人工标注大量电影评论来构建分类器。句子级的情感分析大多事通过计算句子里包含的所有情感词的平均值来得到。

情感表达是一种交流方式,通常情况下人的情感表达不可能完全达到目的,也就是说,情感表达与内心的真实情感并不吻合。这其实就是人们通常所说的情感的“真”与“伪”,但无论真伪与否,人们总会按照自己所理解的情感准则来表达自己的情感,因此情感表达有一定的目的性,至于是否达到目的,这不是情感表达者可以自我控制的。这种情况恰恰为情感史研究提供了空间,也是情感史研究的意义之所在。情感史并非单纯地研究某个孤立的个人的内心情感体验,它更多的是通过研究情感体验与情感表达之间的张力,以此了解这个社会中人与人之间的关系。当然,一个人内心的情感体验,也是某种关系的体现,一个人之所以产生喜欢与厌恶的情感,其实大体上是被这个社会的情感准则教化训练的结果。情感准则对人的影响力十分强大,任何个人、团体与阶层都不可能忽视如何依照准则表达情感的问题,因此情感表达有非常重要的政治与社会意义。

篇章级的情感分析,也可以通过聚合篇章中所有的句子的情感倾向来计算得出。因此,针对句子级的情感倾向分析,既能解决较短文本的情感分析,同时也可以是篇章级文本情感分析的基础。本文正是根据这一思路,设计的情感分析算法。

二、情感史研究的若干事例

算法主要由三部分组成:

雷迪本人以“情感主义”为切入点,研究启蒙时代及法国大革命时期人们情感表达方式的变化及其意义。沙龙、共济会、咖啡馆等情感避难所的出现,是人们避免情感痛苦,追求情感自由的表现。人们在日记、通信、演讲中表露出对情感自由的向往,报纸刊物以及私人发行的小册子也在这方面发挥了引领作用。呼吁情感真挚、拒绝伪善成为人们在情感表达方面的基本要求。这种情感表达方式并不仅限于小说、戏剧等文学创作,而是成为一种社会行为规范,上升为一种政治上的“美德”。罗伯斯庇尔早在1789年竞选三级会议代表期间,就提出当选议员的人必须是情感真挚、愿意为公众利益献身的人。罗伯斯庇尔的这个看法并非是他个人一时的心血来潮,这与“情感主义”自启蒙时代以来一直占据主导地位有关。

1、文本切割转换

法国大革命期间要求人们情感真挚,更多的是把情感当作一种政治工具。指责革命的对象情感不真挚,就成为一种政治斗争的手段。真挚的情感来自美德,而不真挚的情感自然就来自于“恶”,这样一来,把贵族指责为仇敌也就有了合理性。罗伯斯庇尔等人的指责,使民众开始燃起对贵族的仇恨。雅各宾派所信奉的是,正确的政治行为出自于人们的慷慨与同情等自然的情感,这些情感使人们一方面对暴君与不公正充满了愤恨,同时又心甘情愿地自我牺牲。残酷的政策是必须的,因为有些人对革命不真诚,仅有服从是不够的,还必须立法强制人们心甘情愿地忠诚。而且,真诚的自然情感必须是强烈的,情感不真挚的人由于缺乏激烈的情感而容易背叛革命。因此,那些不真诚支持革命的人就是邪恶的“怪物”。这样一来,恐怖政策的出台也就在所难免。当整个社会处于激情状态的时候,任何个人也无力阻挡革命一步步走向激进。

算法设计的最大分析对象为篇章,最小对象为句子,我们可以把句子视作特例——单句的篇章,故算法分析的对象为文档D。

传统观点在解释法国大革命的暴力与恐怖问题时,大都流于抽象表述。在这些空泛的概念背后,人们的真实生活到底是什么样的?如果缺失情感因素的分析,法国大革命的历史就很难被理解。更重要的是,情感并不是一个人与生俱来的生理机能的结果,无论人们内心深处的情感体验,还是人们的情感表达,都是他与外部世界联系与互动的结果。法国大革命期间,人们相信情感真挚是道德高尚的表现,情感发挥了无以复加的政治作用。但热月政变之后,这种情感表达方式遭到质疑,人们意识到追求真挚的情感,以此作为政治工具而构建的社会关系所带来的困扰。在特定背景下,情感真挚反而给公共秩序带来。

Paragraph = Document.split(“/n”) ## 将文档以换行符”/n”分割成段落P
Sentence = Paragraph.split( punc ) punc = [“。”,”;”,”?”,”!”] ## 将段落用中文里常用的句号、分号、问号、感叹号等划分句意的符号,切割成不同的句子L
Group = Sentence.split(“,”) ## 用逗号划分出句子里的意群(表示情感的最小单元)
Seg( each Group ) ##调用在线分词工具或者本地分词函数,对意群进行分词

情感因素的引入,促使学界重新反思一些传统的学术定见。比如雷迪曾经使用大量法庭原始记录,分析19世纪法国人的情感表达状况,以此挑战学界传统上对工业社会的所谓“定性”分析,即这是一个理性的、遵从了契约精神的、一味追求经济利益的社会。这里不妨介绍雷迪所研究的一个案例。1840年,距巴黎西南部大约2英里的一个名为莫冬的村庄里,有一位叫尼古拉·玛利·乔古的小伙子迎娶了邻村的一个叫帕勒米尔·德兹里·皮卡尔的姑娘。与新郎一样,新娘的家里也经营着酿造葡萄酒的作坊,并在自家开了一个小酒馆。两家可以说是门当户对。孰料婚礼第二天,新郎逢人就说新娘婚前与别人私通,并且已经怀孕两个月了。根据警察的调查记录,他至少跟他的两个亲戚说过这样的话:“我以为自己走进了鲜花盛开的花园,但这里却是杂草丛生之地。”新郎的父亲认为这场麻烦始于婚礼当天,乔古看到他的新娘与一个名叫纪尧姆的家伙眉来眼去。纪尧姆曾在新娘家的作坊里干活,也是来她家喝酒的常客。但无论出于什么原因,乔古所说的话,构成了在大庭广众之下对妻子进行言语侮辱的事实。不久,整个村庄里的人都知道他时常侮辱打骂妻子,妻子开始与他分床睡,他们两个人已经不住在一起的事也搞得尽人皆知。几个月后,乔古更加变本加厉地对待他的妻子,揪住她的头发殴打她,把她从床上拎到地上。有一次甚至还试图掐死她,她大声呼救,多亏几个邻居闻声来到卧室,她才得以活命。警察的调查记录显示,新娘的脖子与腿上都有伤痕。妻子第二天返回母亲家居住,并诉至法院要求分居。当时法国的法律不允许离婚,但夫妻双方可以根据法律规定提出分居。这位妻子向法院起诉丈夫要求分居时,他丈夫的种种行为包括虐待、殴打等,显然使她得到了更多的法律支持。警察记录还显示,因为妻子怀孕了,所以乔古殴打她的行为更加恶劣。法院根据她身上的伤痕,几个村民的证言,以及新郎在大庭广众之下对妻子进行言语侮辱等事实,很快判决两人分居。

开源中文分词工具有很多,如在线的SCWS(PHP),张华平博士团队开发的NLPIR(C、Python、Java),哈工大的LTP(C 、Python),还有R语言的分词包RWordseg(NLPIR的R接口)。几款分词工具各有各自的特点,在这里不详细介绍了,读者可以自行检索查阅。

在本案的14位证人中,有13位证人,包括新娘的母亲与新郎的父亲,都没有在证言中提到事情的起因。但警察在记录中推断乔古是对的,姑娘在举行婚礼时的确有孕在身。新娘的哥哥在证词中说,这两个人在婚礼当夜开始争吵,几乎没有来得及发生什么亲密行为。但无论乔古说的是对是错,在婚礼第三天,他的父亲严厉训斥了乔古,告诫他要“管住你自己的舌头”,并让他向妻子与岳母道歉。乔古跪在地上,痛苦流涕地请这两人原谅,他的妻子接受了他的道歉。但几天之后,乔古还是忍不住发脾气,又开始到处宣扬妻子婚前与人私通并怀孕的丑事。新郎的父亲在法庭调查的证词中,指责儿子的岳母在婚礼后还让纪尧姆来家里喝酒,这更加激怒了他的儿子,使他失去了控制自己的能力,如果他的妻子与岳母能够有所收敛,他本来是可以很快恢复理智的。

文本切割的目的是将文本变成我们后续分析需要的格式,如句子“我今天很不高兴。”,进行文本切割后,转换成:

这个案例中的14位证人,没有任何人提及新娘的做法是对还是错,因为说这样的话会构成对新娘的公开侮辱,证人都极力避免评价她的德性。乔古的父亲与叔叔虽然没有明说,但根据他们的证言可以推断,他们认为新娘是否婚前与人私通这件事,与本案关系不大。重要的是,乔古必须保护他妻子的名声,即使他妻子不值得他这么做,因为这么做其实是在保护他自己的名誉。他应该以最好的方式处理这件事情。乔古的父亲与叔叔没有指责新娘婚前与人私通,但却对她坚持起诉分居异常气愤,认为她应该把对新郎的伤害降到最低,给丈夫一个保护名誉的机会。于是,这个案子的核心问题变成了乔古应该设法不要表达出这些疯狂的嫉妒、痛苦与愤怒等情感,他不应该逢人就说什么“我以为自己走进了鲜花盛开的花园,但这里却是杂草丛生之地”。有人甚至作证说,他有一次对他妻子说:“要不是你怀孕了,我一定会杀了你。”这样的情感表达违背了邻里乡亲所能接受的情感表达准则,连乔古的家人也认为他没有好好控制自己的情感,这个错误的结果是使他自己与家族的名誉受损。在乔古的家人看来,他内心深处的嫉妒与痛苦等情感体验是次要的,关键是要控制自己的情感表达,人在表达自己的情感时必须符合这个社会的情感表达准则。

[(1,“我”,“r”),(2,“今天”,”t”),(3,“很”,”d”),(4,“不”,”d”),(5,“高兴”,“a”)]

雷迪的这番分析,无疑使19世纪的法国社会增加了层次感。传统观点认为,处于工业社会的法国,个人主义、市场社会盛行,尤其是《民法典》颁布以后,法国社会充满“契约精神”,人们根据法律规定合理合法地逐利,对经济利益的追求开始成为最具实质意义的社会关系准则。雷迪的研究表明追求经济利益只是一个空泛的概念,传统的重视名誉的人情社会依然存在。与《民法典》相对应的,还有一个“看不见的法典”发挥着强大的作用,雷迪有时把它称作“名誉法典”。这个隐形的名誉法典,对个人的情感表达具有特别强大的影响力,引导人们做出价值判断,并在某种程度上决定着人们的行为。

选择不同的分词工具,可以获得不同的词语属性,用SCWS分词,还可以获得每个词的IDF值;用LTP分词,可以获得句子的依存关系、语义角色等。这些属性对于我们后面计算句子的情感倾向都是有帮助的。本文只用都了词语的词性,感兴趣的读者可以思考如何用其他的属性来实现更好的情感分析。

在这个案件中,人们对离婚的真正原因三缄其口。乔古的家人所抱怨的,是他没有很好地控制自己的情感,导致自己与家族的名誉受损。只有那些深刻理解名誉法典、善于控制情感的人,才能符合这个社会的情感表达准则。根据法庭证词不难看出,乔古的父亲与叔叔就明白如何在婚姻之外找到“鲜花盛开的花园”,只要乔古别这么死心眼儿。事实上,“看不见的法典”要求人们对妻子与人私通这件事必须保持沉默,但却助长了人们期待不那么纯洁的情感,特别是使年轻人对情感无所期待,这种失望情绪又反过来对整个社会产生影响。芭芭拉·罗森宛恩曾经质疑雷迪研究的这些个案究竟在多大程度上反映了这个社会不同群体的情感状态。然而,有一点却是肯定的,雷迪的情感史研究,无疑大大丰富了对这一时期法国社会的认识。

2、情感定位

伊彦·普兰普尔的研究也对学界认识情感表达的意义不无启发。他从医疗史角度入手,研究了两次世界大战期间苏俄士兵的情感变化,认为某些情感词汇在历史档案中消失的情况,并不意味着这种情感就不存在了。苏联官方档案中允许谈论第一次世界大战期间士兵在战场上表露的恐惧情感,这种记录为十月革命增加了合法性。但有关第二次世界大战期间的官方记录中,几乎没有出现“恐惧”这样的字眼,然而,这并不意味着士兵的恐惧情感的消失。伊彦·普兰普尔在医疗记录中发现患病士兵的人数大量增加,证明这种情感在军队中的普遍性,只是这种恐惧无法进入官方档案记载。可见,情感表达对理解这个社会的权力运作与权力争斗至为关键。

本文基于已有的中文情感词库,构建了一张情感词表,然后对文本进行中文分词处理,将处理后得到的单词依次与预先构建好的情感词表逐个查找,若能找到,则是情感词,并读取情感极性及相应权值,否则,不是情感词,则进入下一个候选单词,直至整句话判断结束。

以上情感史研究的几个案例表明,情感表达是最基本的社会交流方式,情感是一切历史进程中不可或缺的因素。情感史研究的目的,就是通过研究情感体验与情感表达之间的张力来解读社会的权力关系、组织结构与文化特征。正如伊彦·普兰普尔所言:“情感表达从来都不是单纯地描述个人的内心体验,必须把它和外部的社会关系联系在一起来理解。”某种程度上可以说,一个人的一言一行都包含着情感因素,个人或团体是否表达他们的情感,如何表达情感,为什么表达以及何时、何地、向谁表达情感,甚至故意表达与真实的内心情感体验相反的情感等,这些都是情感史家所关注的问题。

过程可以表示如下:

三、如何认识人们内心深处的情感?

For each Paragraph in Document:
   For each Line in Paragraph:
      For each Group in Line:
         For each Word in Group:
            If word in senDict:
               senWord = (句中位置,情感倾向,情感强度)

再回到本文开头提出的问题,历史学家如何了解过去人们内心深处的情感体验?罗森宛恩曾经提到,即使看上去最为私密的日记,也只能对日记作者的情感生活进行大致的勾勒,研究者无法知道日记中所表达的情感是否是作者本人内心深处的情感,甚至日记的作者本人也不能完全知晓。然而,这是否说明一个人内心的情感体验是绝对无法认识的?也不尽然。

文本的情感分析是从发现句中的情感词开始,通过情感词的倾向和倾向度,来决定句子的情感,从而决定整个文本的情感。但是我们在实际生活中会发现,否定词的修饰会使情感词语的情感极性发生改变。比如:“我今天很不高兴”,该句中“高兴”是褒义词,由于否定词“不”的修饰,使其情感极性发生了改变,转变成了负面情感。由于汉语中存在多重否定现象,即当否定词出现奇数次时,表示否定意思;当否定词出现偶数次时,表示肯定意思。本文单独构建了一个否定词典notDict,并设置其权值为-1,常见的否定词如:不、没、无、非、莫、弗、毋、勿、未、否、别、無、休。

罗森宛恩曾谈到历史学家无法通过采访来了解过去人们的情感,更无法观察他们的表情、动作与声音以判断他们表达的情感是否真诚。对于现实中的人们,可以通过追问问题,以获取更多的信息作出判断,但对过去的人却无法做到这一点。历史学家更容易通过“同情”作用了解现实中其他人的情感,而过去人们的情感表达与今天是不同的。如此看来,了解历史上人们的情感,的确是件很难做到的事。然而,罗森宛恩却没有如此悲观。她说,“我虽然不能追问古人问题,但我在研究维达尔时却有许多诗歌可以研究,通过研究跟他打交道的人,或者他所属的情感团体中的其他人,我甚至可以得到更多的史料,可以分析出这个情感团体高度认同的某种情感。从这个意义上说,我们对现实中人们的了解,并不比古人更多。”罗森宛恩的这番话,颇具启发意义。罗森宛恩所说的情感团体研究,其中一个重要的考量即是情感表达与情感体验之间的关系。

对否定词的处理过程可以简化为:

关于如何确定过去人们的情感体验,历史学家妮可·尤斯塔斯曾经讲过这样一个研究案例。在18世纪的弗吉尼亚,一位种植园奴隶主威廉·伯德的儿子不幸夭折。他在日记中简单地记下这件事情,并没有表达任何悲伤或难过的情感。一位历史学家研究后得出结论说,现代早期的家庭中父母对孩子没有爱的情感。十年后,另一位历史学家也注意到这本日记,他发现尽管伯德没有表达儿子夭折的悲痛之情,但同一时期的日记中记录了他胃痛发作,身体虚弱不堪。这位历史学家据此推断,伯德虽然没有表达他的悲痛,但身体的病痛却忠实地记录了他内心的丧子之痛,只不过,他没有把这份悲痛直接表达出来而已。

For each Paragraph in Document:
   For each Line in Paragraph:
      For each Group in Line:
         For each Word in Group:
            If word in senDict:
               senWord = (句中位置,情感倾向,情感强度)
               LastSenWordPosition = 0 ##上一个情感词在句中的位置
               for i in range(senWord[0],LastSenWordPosition,-1):
                  if Group[i] in notDict:
                     notWord.append( (句中位置,-1) )
               LastSenWordPosition = senWord[0]

历史学家如何理解威廉·伯德内心深处的情感呢?恐怕连威廉·伯德本人也不清楚自己内心的情感。尤斯塔斯认为雷迪提出的情感理论,让她明白情感表达所使用的语言与真实的情感体验之间是有差异的,这种差异为历史学家研究社会的权力关系提供了新的角度。雷迪说:“情感控制是权力运作的真正场所”。在这个例子里,最为关键的事实也许在伯德的妻子那里,妻子为儿子的夭折悲伤不已,而伯德在日记里详细记录了他如何告诫妻子要控制自己的情感。尤斯塔斯写道:“作为一个研究者,我永远都不可能知道威廉·伯德内心的真实情感,事实上连他自己也未必清楚,但是我能够通过解读情感表达与情感准则的关系,获得关于这个社会的组织结构与政治控制的特别有用的信息。”可见,情感表达为历史学家提供了一个重要的解读社会等级关系的密码。情感克制是情感史分析的重要依据之一,以此解读人们如何付出情感努力以达成某种社会关系。

版权声明:本文由乐白家网页版发布于影视影评,转载请注明出处:情感史的主要研究面向,自然语言交流系统