数据集

dataset-vector

图片 (MNIST数据集)

下面是一张像素为28×28黑白图片,像素矩阵的元素值在区间[0, 1]
mnist_5
上面的图片来源与MNIST ,该数据集收集了70,000张手写体数字图片,每张图片均由28*28的二维矩阵来表示,矩阵元素介值于区间[0, 1],且每张图片附有对应的标签,也就是数字0, 1, .. 9

因此神经网络模型的训练数据为train_X, train_y分别为[n_samples, 784], [n_samples, 10]的二维矩阵,其中矩阵中每行表示一个样本的像素和标签数据,n_samples表示样本数量。下面是将100张图片按照10*10排列的效果图。
mnist_10_by_10

语言(ATIS数据集)

下面是来自 ATIS (Airline Travel Information System) 数据集中的一条英文句子
what aircraft is used on delta flight 1984 from kansas city to salt lake city

在 ATIS 数据集中,共有 3983条句子, 572个单词(word),并将这572个词汇划分为127个类别 (class),即每个单词对应一个类标签。
为了将单词转换成可以运算的数字,数据集把每个类别进行编号,即将词编号为0, 1, 2, .. 571,将类别编号为0, 1, 2, .. 126, 比如下面的四行分别表示句子列表,句子编号列表,类别列表,类别编号列表:

sentense list: ['what', 'aircraft', 'is', 'used', 'on', 'delta', 'flight', 'DIGITDIGITDIGITDIGIT', 'from', 'kansas', 'city', 'to', 'salt', 'lake', 'city']

(其中DIGITDIGITDIGITDIGIT 表示1984

number list: [554  23 241 534 358 136 193  11 208 251 104 502 413 256 104]
class label list: ['O', 'O', 'O', 'O', 'O', 'B-airline_name', 'O', 'B-flight_number', 'O', 'B-fromloc.city_name', 'I-fromloc.city_name', 'O', 'B-toloc.city_name', 'I-toloc.city_name', 'I-toloc.city_name']
class number list: [126 126 126 126 126   2 126  43 126  48 109 126  78 123 123]

训练神经网络时,我们会先随机初始化一个二维词嵌入矩阵emb = [voc_size, emb_dim],其中voc_size表示 vocabulary size, 即是本例中的572emb_dim表示词嵌入向量的维度,由用户自行设置(比如100),矩阵中向量emb[i]用来表示编号为i的词。
这时神经网络模型 (自然语言处理的问题) 有两个任务
* 训练一组模型参数(包括权重)
* 训练词向量矩阵emb中的词向量,使得词向量之间的相关性能够真实的反应它们之间的语义相关性。


版权声明:本文为zhaohuizhu135原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。