1200字范文 > kaggle数据分析经典案例泰坦尼克号生还预测

kaggle数据分析经典案例泰坦尼克号生还预测

时间：2024-04-17 14:45:02

请注意，这只是一个简单的示例，实际应用中需要更多的数据清洗、特征工程和模型优化。首先，我们需要导入必要的库和数据集：```pythonimport pandas as pdimport numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_split# 导入数据集data = pd.read_csv('titanic.csv')```接下来，我们需要对数据进行清洗和特征工程。这里我们只选择一些简单的特征，包括性别、年龄、船票等级和是否有兄弟姐妹或配偶同行。我们还需要将性别和船票等级转换为数值型变量。```python# 选择特征features = ['Sex', 'Age', 'Pclass', 'SibSp']# 清洗数据data = data[features + ['Survived']].dropna()# 特征工程data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})data['Pclass'] = data['Pclass'].astype('category')data = pd.get_dummies(data)# 分离特征和标签X = data.drop('Survived', axis=1)y = data['Survived']```现在我们可以将数据集分为训练集和测试集，并训练线性回归模型：```python# 分离训练集和测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 训练模型model = LinearRegression()model.fit(X_train, y_train)```最后，我们可以使用测试集评估模型的性能：```python# 预测测试集y_pred = model.predict(X_test)# 计算准确率accuracy = np.mean((y_pred > 0.5) == y_test)print('Accuracy:', accuracy)```这里我们使用了简单的准确率作为评估指标，实际应用中可能需要更多的指标和交叉验证来评估模型的性能。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。