XGBoost:一个可伸缩的树增强系统_金融工程外文翻译
文档价格: | 100 金币 立即充值 | 文章语言: | 英语-中文 | 原文出处: | 请在文档内查看 | |||||
译文字数: | 10507 字 (节选翻译) | 译文格式: | Doc.docx (Word) | 更新时间: | 2020-02-15 |
XGBoost:一个可伸缩的树增强系统_金融工程外文翻译
译文(字数:10507):
摘要
树的提升是一种非常有效且被广泛使用的机器学习方法。在本文中,我们描述了一个名为XGBoost的有延展性的端到端的树提升系统,数据科学家们广泛使用该系统来实现许多机器学习挑战的最新成果。我们提出了一种新颖的稀疏数据感知算法用于稀疏数据,一种带权值的分位数略图(weighted quantile sketch) 来近似实现树的学习。更重要的是,我们提供有关缓存访问模式,数据压缩和分片的见解,以构建有延展性的提升树系统。通过结合这些见解,XGBoost可用比现系统少得多的资源来处理数十亿规模的数据。
关键词:大规模机器学习
1. 绪论
机器学习和数据驱动的方法在许多领域变得非常重要。智能垃圾邮件分类器通过从大量的垃圾邮件数据和用户反馈中学习来保护我们的邮箱;广告系统学习将正确的广告与正确的背景相匹配;欺诈检测系统保护银行免受恶意攻击;异常事件检测系统帮助实验物理学家发现新的物理现象。有两个重要因素可以推动这些成功的应用:使用能捕获复杂数据依赖性的有效的(统计)模型,以及能从大型数据集里学习出模型的可扩展的学习系统。
在实际应用的机器学习方法里,梯度树增加(GBDT)是一个在很多应用里都很出彩的技术。提升树方法在很多有标准分类基准的情况下表现很出色。LambdaMART这个提升树的变种,用来排序的,也表现出了不错的结果,它除了被用于单独的预测器,还在实际生产中被用于广告点击率预测。它是很多集成方法里的实际选择,此外还用于Netflix这样的比赛。
原文(PDF格式,未统计字数):
XGBoost:A Scalable Tree Boosting System