(1)数据预处理
1)将Excel数据(我提供)导入到Python中,了解数据的基本结构和特征。
2)数据清洗:处理无关变量,如:policy Number和customer ID等变量与是否骗保无关,可直接删除,不参与后续模型训练;异常值处理:若出现年龄为负数、索赔金额异常高等情况,进行处理;缺失值处理:缺失值处理:数据集中可能存在缺失值如:property_damage、police_report_available等字段中的`?`,需要进行填充。
(2)分析车险数据的整体情况以及可视化
1)骗保比例图,可以利用绘制饼图,查看数据中有多少骗保(Y)和非骗保(N),了解二者之间的比例。
2)按照是否骗保统计各类数据数量以及占比:查看每个大类类别数在数据集中的占比。
(3)客户信息与骗保行为之间的分析
1)将年龄分为若干组,绘制客户年龄分布柱状图,看看不同年龄段的客户中,谁会更容易涉及骗保。
2)按照性别分类,绘制柱状图,查看骗保和非骗保的次数及比例。
3)按照被保人学历分类,绘制柱状图,查看一下骗保和非骗保在各小类的分布占比。
(4)事故特征与骗保行为之间的分析
1)绘制在不同事故类型和事故严重程度中骗保分布的柱状图,了解其与骗保的相关性。
2)分析是否有警方记录报告与骗保行为的关系,绘制柱状图看骗保分布情况。
(5)理赔特征与骗保行为之间的分析
1)绘制箱线图,分析索赔金额的分布情况,看高理赔金额是否存在欺诈风险的可能。
2)按照汽车品牌分类,查看各小类之间骗保与非骗保的频次,分析品牌的骗保可能性大小。
(6)多种机器学习模型构建及分析
1)将数据集划分为训练集和测试集,训练集用于模型构建。
2)利用多种机器学习算法构建模型,如:决策树,随机森林,XGBoost等方法进行训练,通过设置不同的参数优化模型,提高各模型识别的准确率。
(7)模型评估
1)利用测试集分析模型,给定车险相关数据,得到识别分类结果。
2)对比分析各模型利用评价指标评定,如:AUC曲线衡量各模型的分类能力。
3)选择最优模型,并对模型进行优化,如利用K折交叉验证,提高模型的稳定性和泛化能力。
(8)骗保识别系统设计
利用B/S架构,使用HTML、CSS等技术开发前端网页,后端使用Python语言进行开发以及MySQL数据库,设计一个车险骗保检测系统,系统应具备数据输入、模型预测、结果展示、风险预警等功能。