智慧教育经典ML模型---DKVMN模型工作机制

1. DKVMN工作机制

在这里插入图片描述

概述

      蓝色分量描述获取注意权值的过程，绿色分量描述更新值记忆的过程，红色分量描述预测的过程。⊗和⊕分别表示按元素进行的乘法和加法。

1.1 获取注意力权重

接收问题 $q_t$
从KC嵌入矩阵 $A$ ∈ $R^{Q×d_k}$ 提取 $q_t$ 的嵌入向量记作 $k_t$
查询DKVMN模型中的密钥存储矩阵 $M_k$ 查询结果为该题目应该在每个知识点上投入的权重 $w_t$ ∈ $R^N$ ,计算方式如下
$w_{ti}=Softmax(M^k_ik_t)$

1.2 对该题目用户的做对概率做预测(读过程)

DKVMN模型读取t时刻值存储器 $M^v_t$ 中的潜在知识状态，形成读取向量
$r_t=Σ^N_{i=1}w_{ti}(M^v_{ti})^T$
其中 $M^v_{ti}$ 是 $M^v_t$ 的第i个行向量表示第i个学生的知识储备状态
将读取向量 $r_t$ 与KC嵌入向量 $k_t$ 垂直拼接在一起生成一个特征向量 $f_t$ ，并计算做对该题的概率
$f_t=tanh(W_f[r_t,k_t]+b_f)$
$p_t=P(a_t)=σ(W_pf_t+b_p)$

1.3 更新V值内存（写操作）（更新 $M^v_t$ 矩阵）

输入元组 $q_t,a_t)$ 表示t时刻输入的题目与用户做题情况
输入 $w_t$ 权重
从KC响应矩阵 $B∈R^{2Q×d_v}$ 中检索 $q_t,a_t)$ 的嵌入向量，记作 $v_t∈R^{d_v}$
- 代表在标签为at的KC $q_t$ 上工作后的知识增长。
当更新内存的时候，一些内存首先用之前的擦除向量 $e_t∈R^{d_v}$ 擦除 (擦除记忆类似于LSTM细胞的遗忘功能)
将新向量加入到内存中 $a_t∈R^{d_v}$ 每个值内存槽更新如下所示
$e_t=σ(W_eV_t+b_e)$
$a_t=tanh(W_av_t+b_a)$
$\overline{M}^v_{t+1,i}=M_{ti}^v×(1-w_{ti}e_t)^T$
$M_{t+1,i}^v$ $=\overline{M}_{t+1,i}^v$ $+w_{ti}a^T_t$

(其中第三行×为元素级乘法，即两个向量里面每个元素两两相乘)

版权声明：本文为qq_42392049原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/qq_42392049/article/details/126574345