Hate Speech Detection问题论文阅读

《On Analyzing Annotation Consistency in Online Abusive Behavior Datasets》论文阅读

1. 摘要说了什么?

网上辱骂言论很能引起社会关注。研究人员提出、收集并标注网上的辱骂言论数据集。然而,标注数据集很困难,很多文本因为语义不同在标签上存在争议。我们提出一个研究网络暴力和语言歧视的分析框架去评估三个广泛使用的数据集上的标注一致性的问题。我们发现现有数据集上存在大量的标注不一致问题,尤其在语义相似的情况下。

2. 方法?

image-20200715113401614
image-20200715113401614

《DeepHate: Hate Speech Detection via Multi-Faceted Text Representations》论文阅读

1. 摘要说了什么?

网络暴力和歧视言论引起广泛关注。研究者开发许多传统机器学习和深度学习的方法自动检测网络暴力和歧视言论。然而,大多数方法只考虑到了单一文本的特征,如词频、或者词嵌入。这些方法忽略了其它可以被用来提高检测精度的文本信息。这篇论文中,我们提出了DeepHate,一个新的结合了多方面的文本表征,如词嵌入、语义和主题信息的深度学习模型,在社交平台检测负面言论。我们在三个大的公开可得的现实世界数据集上做了测试。我们的实验结果显示DeepHate效果达到了SOTA。我们还对突出特征进行了细致的分析。

2. 相关工作有什么?

可以归类为两个方面:

  1. 传统机器学习策略;
  2. 深度学习。
传统机器学习策略:
  1. 初始特征提取:TF-IDF分数、词袋向量和其它语言属性。
  2. 分类器:LR、SVM、随机森林。
深度学习策略:

各种CNN、RNN、LSTM、梯度提升决策树。

3. 本文方法?

DeepHate 模型:
image-20200715111524380
image-20200715111524380

《Graph Convolutional Networks for Text Classification》论文阅读

1. 摘要?

文本识别是NLP中一个重要问题,很多研究应用CNN去完成分类。然而,很少有人探究图神经网络。本项工作中,我们提出用图神经网络用到文本识别。我们通过词语同现和文本词语联系的语料库构建了一个单一文本图。然后学得了一个Text GCN。我们的Text GCN用单词和文件的one-hot表示初始化,它连带地学得词语和文本的初始化,通过文本的已知类别标签。我们的实验结果说明纯粹的Text GCN没有任何词嵌入就胜过SOTA方法。另一方面,Text GCN还学会了预测单词和文档嵌入。并且,实验结果显示在数据量减少时候优势更大,说明鲁棒性很强。

2. 相关工作?

传统的文本识别
  1. 特征工程:词袋属性,n-grams, entity in ontologies。
  2. 分类算法。
文本分类深度学习

分为两类:

  1. 词嵌入:词的表示很关键。
  2. 深度神经网络:CNN、RNN等。

3. 怎么构建图的?

异质图,包含单词节点、文档节点。

image-20200715123015565
image-20200715123015565

我的看法

DeepHate: 优点就是多方面特征的提取,融合。有没有自动化地提取信息的方式?

Text GCN: 主要就是提出了怎么将数据表述成图,然后利用GCN做。

我感觉,这些论文都是应用,可以说就是将deep learning的最新技术引进到这个问题的处理上。比较适合我现在的阶段:了解了新方法,但还没有实际使用过。