数据集 – 源码巴士

Public dataset for machine learning
http://homepages.inf.ed.ac.uk/rbf/IAPR/researchers/MLPAGES/mldat.htm
Practice Machine Learning with Datasets from the UCI Machine Learning Repository
http://machinelearningmastery.com/practice-machine-learning-with-small-in-memory-datasets-from-the-uci-machine-learning-repository/

dataset-vector

图片 (MNIST数据集)

下面是一张像素为28×28黑白图片，像素矩阵的元素值在区间[0， 1]
mnist_5
上面的图片来源与MNIST ，该数据集收集了70,000张手写体数字图片，每张图片均由28*28的二维矩阵来表示，矩阵元素介值于区间[0, 1]，且每张图片附有对应的标签，也就是数字0， 1， .. 9。

因此神经网络模型的训练数据为train_X, train_y分别为[n_samples, 784], [n_samples, 10]的二维矩阵，其中矩阵中每行表示一个样本的像素和标签数据，n_samples表示样本数量。下面是将100张图片按照10*10排列的效果图。
mnist_10_by_10

语言(ATIS数据集)

下面是来自 ATIS (Airline Travel Information System) 数据集中的一条英文句子
what aircraft is used on delta flight 1984 from kansas city to salt lake city

在 ATIS 数据集中，共有 3983条句子， 572个单词(word)，并将这572个词汇划分为127个类别 (class)，即每个单词对应一个类标签。
为了将单词转换成可以运算的数字，数据集把每个词和类别进行编号，即将词编号为0, 1, 2, .. 571，将类别编号为0, 1, 2, .. 126, 比如下面的四行分别表示句子列表，句子编号列表，类别列表，类别编号列表：

sentense list: ['what', 'aircraft', 'is', 'used', 'on', 'delta', 'flight', 'DIGITDIGITDIGITDIGIT', 'from', 'kansas', 'city', 'to', 'salt', 'lake', 'city']

(其中DIGITDIGITDIGITDIGIT 表示1984）

number list: [554  23 241 534 358 136 193  11 208 251 104 502 413 256 104]

class label list: ['O', 'O', 'O', 'O', 'O', 'B-airline_name', 'O', 'B-flight_number', 'O', 'B-fromloc.city_name', 'I-fromloc.city_name', 'O', 'B-toloc.city_name', 'I-toloc.city_name', 'I-toloc.city_name']

class number list: [126 126 126 126 126   2 126  43 126  48 109 126  78 123 123]

训练神经网络时，我们会先随机初始化一个二维词嵌入矩阵emb = [voc_size, emb_dim]，其中voc_size表示 vocabulary size, 即是本例中的572，emb_dim表示词嵌入向量的维度，由用户自行设置（比如100），矩阵中向量emb[i]用来表示编号为i的词。
这时神经网络模型 (自然语言处理的问题) 有两个任务
* 训练一组模型参数（包括权重）
* 训练词向量矩阵emb中的词向量，使得词向量之间的相关性能够真实的反应它们之间的语义相关性。

原文链接：https://blog.csdn.net/zhaohuizhu135/article/details/52644393