您的位置: 潍坊资讯网 > 体育

公式测算作家语言指纹

发布时间:2019-11-18 22:23:11

怎样鉴定一部文学作品是否为某位作家所作?瑞典研究人员设计出一种分析作家“语言指纹”的公式,通过分析作品中较少出现的单词数与作品长度间的关系来研究作家的写作习惯。

这项研究成果发表在10日出版的《新物理学杂志》。

“母本”理论

研究人员说,一位作家的某一部作品其实只是从其“母本”中抽取的一部分。

所谓“母本”,可以大致理解为某位作家的语言习惯和词汇量构成的“框架”。作家的每一部作品都从这一“框架”中来。

英国广播公司(BBC)10日援引研究负责人塞巴斯蒂安·伯恩哈德松的话报道:“你正在写的东西就是从‘母本’这本大书中抽出的一部分。”

美国哈佛大学语言学家乔治·齐普夫于19 5年发现一部作品中某一单词出现的频率与这一频率高低次序之间的关系。他指出,最高频单词比第二高频单词出现频率高一倍,比第三高频单词出现频率高两倍,以此类推。

齐普夫揭示的这一规律为后来许多语言学中的定量研究奠定了基础。不少学者把它当作英语甚至所有语言中普遍适用的原则。

有所突破

瑞典于默奥大学研究人员在齐普夫的这一理论基础上进一步研究指出,该理论并非放之四海皆准。一部作品中单词出现的频率高低与作家本人语言水平有关,不能一概而论。

研究人员经过分析托马斯·哈代、赫尔曼·梅尔维尔和戴·赫·劳伦斯三位作家的全部作品后发现,随着作品篇幅加长,文中出现生僻单词的几率呈现下降趋势。

他们还发现,这三位作家的“生僻单词出现几率下降曲线”各不相同。更重要的是,这种下降趋势在每位作家的全部作品中都有所体现。

研究人员认为,今后在研究作者不详的作品时,可以用这种方法将其与已知的前人作品相比较,对比这种“语言指纹”的相似性。

后续研究

“母本”这一概念不仅包含某位作者掌握的词汇,还包含他自创的新词汇。不论是写《战争与和平》这样的名著,还是平时随便写写电子邮件,人们都有可能创造出新词汇。

伯恩哈德松说:“不论是从10万字的作品还是从20万字的作品中抽出1万字来研究,总能得出相同的写作习惯。你永远需要从庞大的‘母本’中抽取素材进行写作。这就是你的写作风格。”

研究小组将继续对更多使用英语和其他语言的作家展开研究。随着他们的“语言指纹”库不断扩充,伯恩哈德松期望未来能够利用这种方法鉴定出作者不详的作品“身世”之谜。

(实习编辑:秦彩萍)

兰州最好的癫痫病医院
昆明检查妇科项目多少钱
厦门治疗宫颈糜烂医院
济南市传染病医院怎么样
长春在哪家医院治银屑病效果好
猜你会喜欢的
猜你会喜欢的