1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 应用分类算法 预测泰坦尼克号乘客幸存结果

应用分类算法 预测泰坦尼克号乘客幸存结果

时间:2023-10-08 03:27:32

相关推荐

应用分类算法 预测泰坦尼克号乘客幸存结果

应用分类算法,预测泰坦尼克号乘客幸存结果

一、业务场景二、数据集说明三、操作步骤阶段一、启动HDFS、Spark集群服务和zeppelin服务器阶段二、准备案例中用到的数据集阶段三、对数据集进行探索和分析

未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计3832字,阅读大概需要3分钟

一、业务场景

受某咨询公司委托,拟根据泰坦尼克号乘客信息数据,来预测乘客在遇到海难时的幸存结果。经过分析,这是一个二元分类问题,因此决定使用逻辑回归算法进行预测分析。

二、数据集说明

本案例所使用的数据集,以CSV格式提供,有两个文件:train.csv和test.csv。其中train.csv文件包含label列。

数据集路径:/data/dataset/ml/titanic/

三、操作步骤

阶段一、启动HDFS、Spark集群服务和zeppelin服务器

1、启动HDFS集群

在Linux终端窗口下,输入以下命令,启动HDFS集群:

1.$ start-dfs.sh

2、启动Spark集群

在Linux终端窗口下,输入以下命令,启动Spark集群:

1.$ cd /opt/spark2.$ ./sbin/start-all.sh

3、启动zeppelin服务器

在Linux终端窗口下,输入以下命令,启动zeppelin服务器:

1.$ zeppelin-daemon.sh start

4、验证以上进程是否已启动

在Linux终端窗口下,输入以下命令,查看启动的服务进程:

1.$ jps

如果显示以下6个进程,则说明各项服务启动正常,可以继续下一阶段。

2288 NameNode2402 DataNode2603 SecondaryNameNode2769 Master2891 Worker2984 ZeppelinServer

阶段二、准备案例中用到的数据集

1、将本案例要用到的数据集上传到HDFS文件系统的/data/dataset/ml/目录下。在Linux终端窗口下,输入以下命令:

1.$ hdfs dfs -mkdir -p /data/dataset/ml2.$ hdfs dfs -put /data/dataset/ml/titanic /data/dataset/ml/

2、在Linux终端窗口下,输入以下命令,查看HDFS上是否已经上传了该数据集:

1.$ hdfs dfs -ls /data/dataset/ml/

这时应该看到titanic文件夹及其中的数据集已经上传到了HDFS的/data/datset/ml/目录下。

阶段三、对数据集进行探索和分析

1、新建一个zeppelin notebook文件,并命名为titanic_project。

2、读取数据源。在notebook单元格中,输入以下代码:

1.// 使用Logistic回归算法预测Titanic乘客的存活率2.import org.apache.spark.ml.Pipeline3.import org.apache.spark.ml.feature.{VectorAssembler,StringIndexer}4.import org.apache.spark.ml.classification.LogisticRegression5.import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator6. 7.// 加载数据8.val file = "hdfs://localhost:9000/data/dataset/ml/titanic/train.csv"9.val titanic_data = spark.read.option("header", "true").option("inferSchema","true").csv(file)10. 11.println("乘客共有" + titanic_data.count() + "位")12.titanic_data.show(5,false)

同时按下”【Shift+Enter】”键,执行以上代码,输出内容如下:

3、探索模式schema。在notebook单元格中,输入以下代码:

1.titanic_data.printSchema

同时按下”【Shift+Enter】”键,执行以上代码,输出内容如下:

4、选择特征列。所提供的数据本身包含许多特征,不过我们只使用age、gender和ticket_class这三个属性作为特征。在notebook单元格中,输入以下代码:

1.val titanic_data1 = titanic_data.select('Survived.as("label"), 'Pclass.as("ticket_class"),2.'Sex.as("gender"), 'Age.as("age")).filter('age.isNotNull)

同时按下”【Shift+Enter】”,执行以上代码。

5、将数据集拆分成训练集(80%)和测试集(20%)。在notebook单元格中,输入以下代码:

1.// 将数据分成训练集(80%)和测试集(20%)2.val Array(training, test) = titanic_data1.randomSplit(Array(0.8, 0.2))3. 4.println(s"training count: ${training.count}, test count: ${test.count}")

同时按下”【Shift+Enter】”,执行以上代码,输出内容如下:

6、组建管道。在notebook单元格中,输入以下代码:

1.// estimator(数据转换算法的estimator): 将gender字符串转换为数值2.val genderIndxr = new StringIndexer().setInputCol("gender").setOutputCol("genderIdx")3. 4.// transfomer: 将这些特征组合成一个特征向量5.val assembler = new VectorAssembler().setInputCols(Array("ticket_class","genderIdx", "age"))6..setOutputCol("features")7. 8.// estimator(机器学习算法的estimator)family值:"auto"、"binomial"、"multinomial"9.val logisticRegression = new LogisticRegression().setFamily("binomial")10. 11.// 设置三个阶段的管道12.val pipeline = new Pipeline().setStages(Array(genderIndxr, assembler, logisticRegression))

同时按下”【Shift+Enter】”,执行以上代码。

7、拟合数据,训练模型。在notebook单元格中,输入以下代码:

1.val model = pipeline.fit(training)

同时按下”【Shift+Enter】”,执行以上代码。

8、使用训练出来的模型,对测试数据集进行预测。在notebook单元格中,输入以下代码:

1.// 执行预测2.val predictions = model.transform(test)3.predictions.show(5,false)

同时按下【Shift+Enter】,执行以上代码,输出内容如下:

由以上输出内容可以看出,最后一列”prediction”即为预测结果列。

9、执行模型性能的评估,默认的度量标准是ROC下面的面积。在notebook单元格中,输入以下代码:

1.val evaluator = new BinaryClassificationEvaluator()2.evaluator.evaluate(predictions)

同时按下【Shift+Enter】,执行以上代码,输出内容如下:

:每个人每次运行的结果可能不同,因为数据集是随机拆分的。

 BinaryClassificationEvaluator产生的度量值为0.86,对于只使用了三个特征,这算是一个很好的性能了。

— END —

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。