英文幽默文本的计算机自动识别分析_英语论文
文档分类: 英语论文 文档上传会员:Alyssa 上传时间:2020-12-04
文档价格: 1000金币立即充值 包含内容: 完整论文 文章下载流程
文章字数: 7161 字 (由Word统计) 文章格式: Doc.docx (Word) 本站文章可以通过查重吗?
文章简介: 加入收藏

摘要

随着计算机技术的发展,越来越多的语言学问题可以用计算机的思维模式来解决。应运而生的计算机语言学通过研究生活中实际存在的语言现象,通过数学与计算逻辑的定量方法对语言进行分析,从而探索语言背后的内在成因。而幽默,作为一种人类特有的感知状态,一直是计算机语言学家关注的问题。对于计算机而言,幽默的识别是困难的,具体体现在:1)幽默的定义众说纷纭,人们对于幽默的理解有一定认知上的差异。2)幽默的产生与上下文紧密相关,简单的计量方法无法处理这种联系。3)尽管幽默本身有多种类型,例如嘲讽、说反话,针对幽默的正式分类却非常少。本文结合深度学习的思想,运用循环神经网络与Word2vec的词汇向量训练方式,形成接近人类思维的神经网络,从而使计算机能达到自动对幽默与非幽默文本进行辨别。在前人的基础上,本文实现了97%的分类准确率,较为成功地实现了幽默文本的自动识别。

关键词:幽默识别;计算机语言学;文本分类

Contents

Chapter One Introduction 1

Chapter Two Literature Review 3

2.1 Humor Theory 3

2.2 Humor Research in Computational Linguistics 4

Chapter Three Method 6

3.1 Data preparation 6

3.1.1 Humorous Dataset 6

3.1.2 Non-humorous Dataset 6

3.2 Theory of Models 7

3.2.1 Word2vec model 7

3.2.2 Recurrent Neural Network 8

3. 2. 3 Long Short-Term Memory Model 9

3. 2. 4 Dropout Neural Net Model 10

Chapter Four Results 11

4.1 Data Preprocess 11

4.2 Word2vec Model 12

4.3 RNN Model 13

4.4 Experimental Evaluation 13

4. 4. 1 Accuracy 14

4. 4. 2 Precision 14

4. 4. 3 Recall 14

4. 4. 4 F1 Score 14

4.5 Experimental Result 14

4.6 Analysis of incongruity 15

Chapter Five Discussion and Conclusion 17

References 21


上一篇:英汉玫瑰的国俗语义对比研究_英语论文
下一篇:没有了
相关文章推荐: TAG: 幽默文本 自动识别