别催~ 在加载了 . . .

论文阅读 1


Enhancing Graph Neural Networks with Limited Labeled Data by Actively Distilling Knowledge from Large Language Models

简述

此篇论文提出了一个以LLM指导GNN进行训练拟合从而提升GNN表现的方法。总体分为普通的GNN网络、从LLM中获取知识、将知识传递给GNN以及Active Learning这几个部分。在LLM的帮助下,GNN能够在实验数据集的few-shot分类预测任务上相比之前表现更好。

模型

GNN网络

先把原始文本信息通过SBERT网络转换为embedding向量,输入GNN网络,在GNN的最后一层输出加上softmax得到分类预测标签。此步的GNN损失函数选取分类任务常见的交叉熵损失函数。

从LLM中获取知识

选取LLM帮助GNN的灵感来源于LLM出色的zero-shot预测能力,GNN可以从LLM学到隐藏的标签传递信息并且增强特征信息,从而让GNN的少标签分类能力得到提升。

GNN将向LLM学习以下两个方面的知识:(i)软标签和原始得分 (ii) LLM做出分类预测背后的逻辑依据 (i)揭示了隐藏的无标签节点传播的信息 (ii)则丰富了节点的信息 这样使得GNN能够从无标签节点中受益,同时增强原始节点。

实现方法:(i)将原始文本按一定的格式输入给LLM,询问标签和所有可能类别的置信度。 (ii)不同于常见的将LLM输出的embedding直接与节点特征拼接或者替换,该论文选择将LLM输出的embedding与node embedding做一个损失函数,通过损失函数来减小两者间的差别、进行对齐。具体操作为:询问LLM对某个节点进行分类的依据文本,将依据通过语言模型如SBERT转换为向量,并经过MLP转换为node embedding的维度(不采用最小或最大池化是因为会丢失信息)。

将知识传递给GNN

现在我们除软标签外有两个数据,一个是LLM给出的各类别的原始概率,一个是LLM给出的分类依据的向量化表示。

知识蒸馏损失函数:我们将原始概率用于带有温度参数的softmax函数,它表明了节点为某类别的概率,温度参数用于我们控制想让LLM传授多少知识给GNN。于是我们得到了软标签交叉熵损失函数。

特征对齐损失函数:我们将分类依据的向量化表示与GNN网络最后一层的输出进行MSE运算作为损失函数。

到此,我们一共得到了三个损失函数:(i)GNN交叉熵损失函数 (ii)知识蒸馏软标签交叉熵损失函数 (iii)分类依据MSE损失函数。为了节约训练开销,这里将三个损失函数相加得到一个总的损失函数,各损失函数乘上一个未知参数。(如a,b,1-a-b)

Active Learning

为了更好提升GNN的表现,要选取最有价值的节点来对LLM进行询问。这里给各个类别选取B个GNN最终分类结果置信度比较低的节点,让LLM通过它庞大的知识获取高质量的假标签。

具体选取方法如下:定义两个评估指标(i)第一个指标由三个排序构成,a排序对GNN产生的置信度进行从低到高排序(我们选取的有价值的节点应该是GNN较难分类的节点),b排序对节点的同质度进行排序(LLM能为同质度更高的节点提供高质量假标签),c排序对节点的度数进行排序(LLM能为度数更大的节点提供高质量假标签)。(ii)第二个指标为该节点在标签传播、模型优化中的作用。计算一个节点的邻居的熵值,然后移除该节点再计算一次熵值,根据两次熵值的变化来判断该节点是否重要(直觉是如果这个节点重要,那么它的离开将使熵值产生较大的变化) 最后两个评估指标相加得到一个总的评估指标。

试验结果

该论文提出的模型在给出的测试数据集上的few-shot预测表现均优于作为base-line的传统GNN方法,最高超出10%。为了论证各模块的必要和有效性。论文对soft-label,根据分类依据进行节点增强,Active Learning三个模块进行了组合实验,最终发现增加任一模块都能给模型带来正收益,所以各个模块都是有意义的。论文还比较了池化层进行对齐的方法、其他被用于LLM的节点的选择方法与本模型的效果差别,论文模型的准确率均高于常见方法。

分析总结

虽然此论文从最终效果来看在few-shot上的准确率相比base-line的提升不是很令人惊喜。但这篇论文所提出的GNN与LLM相结合的模型架构涉及的方面广泛,包含了很多此方向上的经典内容,比如通过prompt询问LLM获取软标签、通过prompt获取LLM提供的节点增强embedding、将LLM的embedding与节点的embedding对齐、如何选取需要LLM帮助的节点等,系统性较强,适合进行阅读、学习、获取灵感,能够让读者对LLM与GNN相结合的方向有一个总的直觉。

论文链接

Enhancing Graph Neural Networks with Limited Labeled Data by Actively Distilling Knowledge from Large Language Models

此篇文章如有不妥,请联系我立即删除


文章作者: codeYu233
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 codeYu233 !
评论
  目录