谷歌发布TensorFlow Lattice:得益于先...

谷歌发布TensorFlow Lattice:得益于先验知识,提升模型泛化能力_IT新闻 发表时间:2017-10-13 09:55

点上方绿标即可收听朗读音频

双击文章内容从指定位置处朗读

  近日谷歌科学家发布 TensorFlow Lattice这是一套预建的 TensorFlow Estimators易于使用它相当于是 TensorFlow 运算符用来构建点阵模型(lattice model)点阵是多维插值查找表(look-up table)与几何教材背面近似于正弦函数的查找表类似

  雷锋网 AI 科技评论编译整理如下

  我们利用查找表的结构(它可以通过多个输入进行键控)来估计比较随意及灵活的关系并满足于指定的单调关系以便更好地泛化也就是说训练查找表值使得训练样例的损失最小化另外查找表中的相邻值被约束为在输入空间的给定方向上增长因此模型的输出值也是在这些方向上增长重要的是因为是在查找表值之间进行插入所以点阵模型很平滑预测也是有界的这有助于避免测试阶段出现有较大偏差的杂散预测

  视频地址http://static.video.qq.com/TPout.swf?auto=1&vid=z0560xy9zaa

  点阵模型的作用

  设想一下你正在设计一个向用户推荐附近咖啡店的系统你需要让模型学习“如果两家咖啡店是一样的那就选择更近一点的。”

  下图中我们展示了一个灵活的模型(粉色曲线)它可以精确地与来自东京用户的训练数据(紫色圆点)相匹配在用户附近有很多咖啡店

  由于训练样例比较嘈杂可以看到粉色曲线模型产生了过拟合并且模型还忽略了总的趋势——越近的咖啡店越好如果用这条粉色曲线模型排列来自德克萨斯州(蓝色)的测试样本在德克萨斯州咖啡店的分布更加分散你会发现模型的表现变得很奇怪有时甚至会认为更远的咖啡店更好!

  对比起来运用东京相同的样本训练的点阵模型能被约束为满足单调关系最终得到一个灵活的单调函数(绿色曲线)这个函数能与东京的训练样例精准匹配但是也能泛化到德克萨斯州的样例上不会出现更远的咖啡店更好的情况

  一般说来输入会有每个咖啡店的咖啡质量、价格等等灵活模型很难捕捉到这种形式的整体关系特别是在一些特征空间中训练数据非常稀疏和杂乱“如果其他所有输入占的权重一样那么更近就更好”能捕捉到先验知识(例如输入是怎么对预测值产生影响的)的机器学习模型在实际中取得的效果更好更易于调试并更具有解释性

  预建 Estimators

  我们提供一系列点阵模型架构作为 TensorFlow Estimators我们提供的最简单的 estimator 是校准线性模型(calibrated linear model)它能利用1-d 点阵学习到每个特征的最佳1-d 转化然后线性地将所有校准特征结合起来如果训练数据集很小或没有复杂的非线性输入交互模型将非常有效

  另外一个 estimator 是校准点阵模型(calibrated lattice model)这个模型能利用两层单一点阵模型非线性地将校准特征结合起来能在数据集中表示复杂的非线性交互如果有2-10 个特征那么校准点阵模型会是很好的选择但对于 10 个或 10 个以上的特征我们认为利用一组校准点阵将会得到最佳结果这时候你能利用预建的一组架构来进行训练比起随机森林单调点阵集合(Monotonic lattice ensembles)能增加 0.3% -- 0.5% 的准确度另外比起之前顶尖的单调性学习模型这些新的 TensorFlow 点阵 estimator 能增加 0.1% -- 0.4% 的准确度

  动手建立模型

  你或许想要用更深的点阵网络进行实验或者利用部分单调函数(作为深度神经网络或其他 TensorFlow 架构的一部分)来进行研究我们提供构件TensorFlow 校准运算符、点阵插入和单调性投影(monotonicity projections)下图是一个 9 层深度点阵网络

  在 TensorFlow Lattice 中除了模型的灵活选择以及标准的 L1、L2 正则化我们还提供新的正则化矩阵

  大家可以在如下地址看到详细信息并开始进行实验

  GitHub 地址https://github.com/tensorflow/lattice

  tutorials 地址https://github.com/tensorflow/lattice/blob/master/g3doc/tutorial/index.md

  参考文献

  [1] Lattice Regression, Eric Garcia, Maya Gupta, Advances in Neural Information Processing Systems (NIPS) 2009

  [2] Optimized Regression for Efficient Function Evaluation, Eric Garcia, Raman Arora, Maya R. Gupta, IEEE Transactions on Image Processing, 2012

  [3] Monotonic Calibrated Interpolated Look-Up Tables, Maya Gupta, Andrew Cotter, Jan Pfeifer, Konstantin Voevodski, Kevin Canini, Alexander Mangylov Wojciech Moczydlowski, Alexander van Esbroeck, Journal of Machine Learning Research (JMLR) 2016

  [4] Fast and Flexible Monotonic Functions with Ensembles of Lattices, Mahdi Milani Fard, Kevin Canini, Andrew Cotter, Jan Pfeifer, Maya Gupta, Advances in Neural Information Processing Systems (NIPS) 2016

  [5] Deep Lattice Networks and Partial Monotonic Functions, Seungil You, David Ding, Kevin Canini, Jan Pfeifer, Maya R. Gupta, Advances in Neural Information Processing Systems (NIPS) 2017

  viaGoogle Research Blog

亲,眼睛太累了,关注exread(睿读吧)微信号,用耳朵“阅读”微信。

您可以将文章的链接或收藏的微信发送到睿读吧微信号中,我们会帮您转换成音频来听读,让您的眼睛休息一下吧!
查看来源 违规举报