Public dataset for machine learning
http://homepages.inf.ed.ac.uk/rbf/IAPR/researchers/MLPAGES/mldat.htm
Practice Machine Learning with Datasets from the UCI Machine Learning Repository
http://machinelearningmastery.com/practice-machine-learning-with-small-in-memory-datasets-from-the-uci-machine-learning-repository/
dataset-vector
图片 (MNIST数据集)
下面是一张像素为28×28黑白图片,像素矩阵的元素值在区间[0, 1] 
上面的图片来源与MNIST ,该数据集收集了70,000张手写体数字图片,每张图片均由28*28的二维矩阵来表示,矩阵元素介值于区间[0, 1],且每张图片附有对应的标签,也就是数字0, 1, .. 9。
因此神经网络模型的训练数据为train_X, train_y分别为[n_samples, 784], [n_samples, 10]的二维矩阵,其中矩阵中每行表示一个样本的像素和标签数据,n_samples表示样本数量。下面是将100张图片按照10*10排列的效果图。 
语言(ATIS数据集)
下面是来自 ATIS (Airline Travel Information System) 数据集中的一条英文句子
what aircraft is used on delta flight 1984 from kansas city to salt lake city
在 ATIS 数据集中,共有 3983条句子, 572个单词(word),并将这572个词汇划分为127个类别 (class),即每个单词对应一个类标签。
为了将单词转换成可以运算的数字,数据集把每个词和类别进行编号,即将词编号为0, 1, 2, .. 571,将类别编号为0, 1, 2, .. 126, 比如下面的四行分别表示句子列表,句子编号列表,类别列表,类别编号列表:
sentense list: ['what', 'aircraft', 'is', 'used', 'on', 'delta', 'flight', 'DIGITDIGITDIGITDIGIT', 'from', 'kansas', 'city', 'to', 'salt', 'lake', 'city'](其中DIGITDIGITDIGITDIGIT 表示1984)
number list: [554 23 241 534 358 136 193 11 208 251 104 502 413 256 104]class label list: ['O', 'O', 'O', 'O', 'O', 'B-airline_name', 'O', 'B-flight_number', 'O', 'B-fromloc.city_name', 'I-fromloc.city_name', 'O', 'B-toloc.city_name', 'I-toloc.city_name', 'I-toloc.city_name']class number list: [126 126 126 126 126 2 126 43 126 48 109 126 78 123 123]训练神经网络时,我们会先随机初始化一个二维词嵌入矩阵emb = [voc_size, emb_dim],其中voc_size表示 vocabulary size, 即是本例中的572,emb_dim表示词嵌入向量的维度,由用户自行设置(比如100),矩阵中向量emb[i]用来表示编号为i的词。
这时神经网络模型 (自然语言处理的问题) 有两个任务
* 训练一组模型参数(包括权重)
* 训练词向量矩阵emb中的词向量,使得词向量之间的相关性能够真实的反应它们之间的语义相关性。