《纳博科夫最喜欢的词》读书笔记与思考

作家们确实有各自的风格,而且是可以进行预测的。事实证明,所有书籍的作者都在写作中不断重复自己的遣词造句和行文方式。

简洁 “地” 用词

“写作和飞行、数学、物理学一样有章可循,遵循的法则不可动摇”,海明威坚信作品应尽可能精简,只留最核心部分,多余的文辞只会损害作品。如果对副词的定义为 “修饰动词、形容词或其他副词的词”,那么海明威作品的副词比例并不低;但是如果定义为 “ly 结尾的词”,海明威作品的副词比例极低。

帕拉尼克的看法是:“作品应该用更多线索让读者体会到一个角色有多么瞌睡、暴躁或悲伤,应该通过场景的设置厘清上下文的含义,而不是依靠使用 ly 结尾的副词去告诉读者他们应该如何联想”。

不同作者之间存在差异,同一作者不同作品副词使用率也不一样。以 ly 结尾的副词普遍使用率较低。统计显示,伟大作家的伟大作品,确实较少使用 ly 结尾的副词。

对中文来说有些困难,可能只能通过加一个 IGNORE 词表来使用。注意使用的计算为每万词副词数。

刘易斯用了很多副词,但最受欢迎的仍然是最简洁的作品。对所有作家来说也是一样:副词越少,作品越受欢迎。

注意同时也存在很多反例,这只是统计上的一种趋势,并不是 100% 确定的。另外,相关性并不意味着因果关系。

业余作家使用副词多于职业作家,副词好像与好作品有一些相关性,有种也许合理的解释:副词的使用方式呈现了作者的专注度,一个不借助副词却能让故事场景和人物动作栩栩如生的作家,往往需要花费很多时间删除和修改那些不必要的词,努力让文本尽可能完美。

那么如果一篇文章以 ly 结尾的副词少就能说明它超越了所有的作品吗?当然不是。但至少我们知道,当一个人力图创作杰出作品时,总会有意地避免使用那些会带来麻烦的词,这总是有益无害的。

男女作家

统计大多数情况下只能说明大部分情况下是这样,除此之外再无其他结论。也就是说,更多时候是个相对指标,而不是绝对指标。

选择词取决于作品情节和内容,向同性别的作家选择的题材相当一致。统计显示,一个性别的作家会比另一个性别的作家更频繁地使用某些词。

科拉维茨的方法:选择男性和女性使用较多的词(非常普通的日常词语),每个词对应一个分值,出现一次计算一次分值,用某一性别的分值除以两个性别的分值得到的百分比就是性别可能百分比。

有论文研究男女对话的区别,提出这样的理论:男性较多使用关于事物的 “信息性” 语言,女性较多使用人际间的 “关系性” 语言。

采用统计常用虚词的方法,能让一本小说作者性别的准确率达到 80%。詹姆斯:“所有小说都有大量的自传色彩”,即所有作家都会自觉或不自觉地根据自己的经历来创造角色,词频分析为了解作者的思想提供一个入口。这一说法可以帮助我们理解为什么男作家倾向于创造男性角色,根据自己的经验创造角色能让作家有机会写他们熟悉的东西。

有些词似乎本身具有一定的性别色彩(比如女人咕哝,男人嘀咕;女人尖叫,男人大喊),男女作家都在作品中使用了这些附加色彩。有趣的是,作者认为有些作家用来描写异性角色的词,可能暗示着作者希望实现的心愿。

这样的方式是否可以区分不同的作家?根据之前的经验,通过用词区分不同作家的作品,准确率达到 80% 以上。我们选择了高频词(以及不同作家高频词的交集)作为特征,针对句子级别做判断,准确率最高达到 86.6%。直觉是不同作者对词使用的分布不同,比如同一个词 A 作者可能用的频次远超 B 作者。

值得说明的是,如果是句子级别,统计频率就没有意义了,一般用 1 表示出现 0 表示未出现。

如果是文章级别,书中的方法都是采用每万词出现的数量。

搜寻指纹

不能直接简单地用一些词的分布来判断,选择不同的词可能得出相反的结论。可以选择一个通用词表(甚至一个只有几百单词的基本词表),或者双方的词表(高频词表)交集。(操作时,可以采用贝叶斯方法、SVM 等)。

前面对作品作者的识别有一个假设:作者的所有作品,同一个词的使用频率大致相同。

这有点类似风格,或者说遣词造句和行文方式。

作者只用了 250 个基本单词,对不同作家的不同作品检验成功率超过 99.4%。而对 J. K. 罗琳的量化分析得出:词频更大程度上取决于作家,而非小说类型。即便是合著,也有明显的个人特征。同人小说的准确率也接近 100%。

  • 同一作者改变类型,写作风格同样独特;

  • 同人小说类型相同,每个作者风格独特。

每个作者的文字中总有深层次的风格指纹,将他与其他作者区分开来。

向榜样学习

听从任何人建议前,先思考两个简单的问题:

  • 提建议的人有没有遵从他自己的建议?
  • 有谁靠听从这些建议获得成功了吗?

埃尔默·伦纳德《写作十规》:

  • 每 10 万字感叹号不能超过 3 个(同人小说作者用的感叹号远比职业作家多)
  • 绝对不要用 ”突然“ 这个词(同人小说作者和职业作家没有区别,建议过于极端)

亨利·华生·福勒的《现代英语用法词典》建议:诗歌以外的其他问题要少用感叹号。在记叙文中用过多感叹号显然是写作者缺乏经验的特征,或是一个人想在平淡无奇的内容里加入一点虚假的刺激。“

恰克·帕拉尼克:”不要写角色知道什么事情,而是写出细节来让读者自己了解;不要让角色需要什么东西,而是对这样东西进行描绘,让读者产生需要的感觉。“他对思考类动词的谴责与 ”呈现出来而不是说出来“ 想契合。他指出的思考类动词包括:思考、知道、理解、意识到、相信、想、记住、想象、渴望、爱、恨 等上百个词。业余和专业作家在使用 ”思考类动词“ 上不存在根本性区别,他的建议可能只适用于一小部分作品。

我理解是不要把作者的主观(上帝视角)感受代入到小说,以图让读者直接理解,而应该让角色活灵活现。

威廉·斯特伦克和 E.B. 怀特《风格的要素》的一些建议(全书建议的目的在于建立一种简单而直接的风格):

  • 不要为了对简单的陈述进行加强而使用感叹号
  • 用名词和动词写作,而不是形容词和副词
  • 读者不喜欢作者告诉自己 ”不是什么“,而是 ”是什么“,一般来说即使在表达否定的意思也最好用肯定的方式
  • 避免使用修饰词:rather(想当),very(非常),little(略微),pretty(颇)

有些建议有明显的统计结果支持(比如感叹号、very),另外的建议可能只是作者个人的偏好,是一种写作习惯和写作态度。

罪疚的快感

弗莱施提出阅读难度等级的公式:0.39 × (总单词书/总句子数) + 11.8 × (总音节数/总单词数) - 15.59

实际上有不止一种阅读难度等级的计算公式,比如还有 Gunning FOG Formula

统计结果显示,阅读难度随时间递减,一方面可能是畅销书里更简单的句子和单音节词越来越多了,另一方面是畅销书排行榜变笨了(作者称之为罪疚的快感)。如今畅销榜单上罪疚快感型小说比过去的多,且更新速度快很多。

严肃文学作品的阅读难度并没有下降很多。罪疚快感型小说越来越多并不是畅销书阅读难度下降的唯一原因,通俗类作品本身也在不断趋向简单。

多数计算阅读难度的方法中,句子长度都起着重要作用。另一个方法是戴尔-查尔可读性公式,独特部分是专门处理文本中出现 ”复杂“ 单词的数量(计算时用百分比)。复杂单词统计的数量也在逐年下降。

英国与美国

对《哈利波特》同人小说统计分析显示:即便美国人在日常会话中不使用某些词(英国人使用),但同人小说中却更多地使用这些词。给我们的启示是:热爱《哈利波特》的美国同人粉丝也热爱扮演英国人(使用这些词)。如果不是同人小说这一前提,这类词可能会被看作是美式词语。另一个现象是:英国人偏爱但一般人印象里英国色彩又不那么浓厚的词语,美国同人作品中出现的并不多。

美国人的作品比英国人的更 ”大声“(判断标准是使用 ”大声词“ 和 ”安静词“ 的比例,两者比例和为 100%),如大声词包括:cried, shouted…安静词包括:whispered, murmured…

陈词滥调,重复以及偏好

首语重复指的是连续句子的开头都是同一个单词或短语,与不同作家的风格和背景有关。

陈词滥调的定义是 ”被滥用的词句“,陈词滥调与词典收录、时代因素和对话的问题有关。统计指标为每 10 万词的数量。统计显示:畅销书使用陈词滥调次数的中位数比普利策文学奖获奖作品高出将近 40%。

不常用但某位作者很喜欢用,且将其变成了自己的日常词汇的词,就是 ”依赖“ 词。这些词几乎成为作者思考和写作的一部分。

最喜欢的词满足的要求:

  • 必须在作者一半以上的作品中出现
  • 以作者的所有作品为基数,每 10 万词至少出现 1 次
  • 不能太罕见,在美国历史语料库中每 100 万词至少出现 1 次
  • 不是专有名词

找出满足要求的所有词,然后与语料库进行对比,选出使用率相对最高的。对一些作家来说,这样的词反映了作品的独特语气或主题,不一定是真的喜欢。

依赖词的要求:

  • 必须在作者所有作品中出现
  • 以作者的所有作品为基数,每 10 万词至少出现 100 次
  • 不能太罕见,在美国历史语料库中每 100 万词至少出现 1 次
  • 不是专有名词

找出满足要求的所有词,与语料库进行比较,选出使用率相对最高的。这些词有时由主题和故事设定所决定,但相对来说可能更平淡无味。依赖词能够揭示写作的内在机制,作者也是依靠它们来推动情节、转换场景的。

如何通过封面判断一本书

统计显示,榜首作品越多,作家的名字越大,但也只是大到一定程度。名气到达特定水平后,名字大小也趋于稳定,而非不断增长。但也不是绝对的,有些作家名气很大,但他们要求书名印的大一些。对于合著者,地位不同的作者的名字极少有大小相同的情况。

作者发现自己开始走红后,常常会越写越长,这同样发生在严肃文学界。可能作者或编辑缺乏让下一部作品变短的动力(读者期盼更多,篇幅无关紧要(不像刚起步时长度会受限))。

开头与结尾

好的开头是一定的独创性,让人难忘。无论句子长短都可以做到这一点。

流行惊悚小说家用一句话结束章节,或在最后一句使用明显的悬念符号(感叹号、问号、破折号、省略号等),是为了制造悬念,但并没有延伸到文学小说中,也没有迹象表明大批严肃文学作家越来越多地采用这种方法。

结语

关于本书的讨论有两个阵营的反对:极端怀疑论者和世界末日论者。

极端怀疑论者认为写作是一门艺术而不是科学,数学能提供什么实质内容?本书告诉我们,一次检验数百万个单词有一个明显的好处,即对作者产生一种新的欣赏,即便看不到某个词对某一页的影响。

世界末日论者无法接受本书的做法,认为如果接受的话终有一天算法会取代作家。本书的分析是帮助我们阅读和发现其中的模式,但这种分析不能告诉我们该在什么时候打破模式。本书试图回答的都是一些基本问题:有没有需要避免的词语?畅销作家如何使用某些词?不同背景的人写作最本质的差异是什么?这些问题仅仅是思考的起点,分析的目的是理解或描述艺术,而不是试图去 ”炮制“ 艺术。

读后感

事实上,在读这本书的过程中我一直也是很矛盾的,既非常认同本书的做法和观点,同时心里面又有那么一丝疑惑和排斥(同时有两个反对阵营那般的想法)。我的矛盾绝不单单表现在本书所涉及内容层面,而且还表现在认识论和哲学层面。

优秀的作家我认为分为两种,一种是天才式作家,比如张爱玲、王小波、莫言、毛姆、钱钟书等等;另一种是训练出来的作家,比如其余的大部分作家。我相信天才式的作家写作时从来不会考虑各种模式和条条框框,他们笔下的刻画源自于灵魂深处的敏感和洞察;我也不觉得通过书中类似的分析能够把一个人训练成天才式的作家,我甚至觉得那样的作家是没办法 ”训练“ 的。正因为秉持这种观点,所以对天才作家的天才作品进行类似的分析让我觉得有一点难以接受,不仅仅是做法,还有结果。比如《月亮与六便士》,即便我们分析出比如名词比例、平均句子长度、单音节词比例等等指标又能说明什么呢?难道一部作品具备这些特质就是好作品?连本书的作者都持否定态度,所以分析的结果顶多只能算是好作品的必要而非充分条件。既然这样,分析的意义又在哪里?

但是当看到结余后,我觉得作者的解释是能够接受的,概括为两点:第一,一种新的欣赏方式;第二,目的是帮助我们理解和描述艺术。作为对不同作者个人风格的鉴别我是有实际经验的,之前做过类似的试验,选了张爱玲、王小波、毛姆、鲁迅、卡夫卡、沈从文、海明威等作家的作品,句子级别准确率最高达到将近 87%。重要的特征往往表现在虚词、甚至标点符号上,这就说明不同作家不同的特征更多地是一个习惯问题。而且每位作家有自己特定的风格从直觉上也可以理解。作者在分析完每项内容后也非常谨慎,他试图去找到一个解释和说明为什么会这样。比如在副词使用的分析时:

业余作家使用副词多于职业作家,副词好像与好作品有一些相关性,有种也许合理的解释:副词的使用方式呈现了作者的专注度,一个不借助副词却能让故事场景和人物动作栩栩如生的作家,往往需要花费很多时间删除和修改那些不必要的词,努力让文本尽可能完美。

我觉得这样的做法是值得称赞的,也是必须的。因为只有这样我们才有可能从中真正学到东西,而不是用几个统计数字看似科学地抛出一些莫名其妙的结论,还好全书从头至尾没有让人失望,比如后面的修饰词、阅读难度、陈词滥调等,我相信这些建议对于大多数普通写手是有用的(我还是固执地觉得天才作家完全不需要)。

如果要在实际中使用,我觉得在给出建议之前务必要说明这样的建议遵从的是什么样的写作风格(或方式),除了上面谈到的原因外,还有一个至关重要的原因,那就是:所有的结论都是统计上的相对结果,也就是概率上更可能是哪个而不是一定是那个。举个极端的例子,50.1% 和 49.9% 其实并没有相差多少,但统计和概率上会认为前者更加可能。所以,结论本身就是代表的 ”可能是“,而不是 ”一定是“,那么建议当然也是 ”可能要这样做“,而不是 ”必须要这样做“。如果在这点上没有问题,我觉得本书的观点完全没有问题。这也是我在开始提到的认识论层面的矛盾。