在荷兰利用人工智能破解多孔沥青混凝土知识发现与数据挖掘,土木工程外文翻译
文档价格: | 100 金币 立即充值 | 文章语言: | 英语-中文 | 原文出处: | 请在文档内查看 | |||||
译文字数: | 11955 字 (节选翻译) | 译文格式: | Doc.docx (Word) | 更新时间: | 2018-05-18 |
在荷兰利用人工智能破解多孔沥青混凝土知识发现与数据挖掘,土木工程外文翻译,公路设计,路面设计,涵洞设计
译文(字数:11955):
7 数据准备
如前所述,数据准备包括数据清理,变量选择/缩减和数据缩放。本节讨论PAC损耗的数据怎样准备以用于下一步数据挖掘。在数据准备之前,如前所述,数据集中的可用数据点数为79。
7.1 数据清理
要清理数据,需要先检查数据集的缺失值,错误类和离群值。检查SHRP-NL数据集显示,施工5年和8年后的Meq损耗值的最终数据集中都没有错误类和缺失值。
离群值是位于分布的整体模式之外的数据点。使用统计方法(Renze 2008),来调查数据集是否包含离群值。该方法计算的两个值域称为内围栏和外围栏,落在栅栏之外的数据点是离群值。唯一却别的是,外围栏为非离群值创建了一个较大的窗口,结果将数据点较少地确定为离群值。
调查显示,输入变量石子种类和输出变量损耗Meq包含离群值。下面解释怎样确定的这些离群值。
对于石子的种类,每种类型的数据点数可以在图14中看到。可以看出,石子类型斑岩和灰色玄武岩/灰色石英岩的数据点总数为5。训练集中这几个数据点的存在可能会导致生成一个更为广泛的模型。换句话说,使用这些数据点会导致所训练的模型表现性能太低,并且会对学习过程造成困扰。因此,决定删除包含两种石子类型的5个数据点来提高模型的质量。从数据集中删除5个数据点之后,剩下74个数据点。
原文(PDF格式,未统计字数):