| 
                        副标题[/!--empirenews.page--]
                         前言: 
本文研究的是大数据量(284807条数据)下模型选择的问题,也参考了一些文献,但大多不够清晰,因此吐血整理本文,希望对大家有帮助; 
本文试着从数据分析师的角度,设想“拿到数据该如何寻找规律、选哪种模型来构建反欺诈模型?”的角度来分析,以业务导向为主,不深究算法原理; 
下一篇文章会说明数据结构极度不平衡的情况下,该如何修正数据集、如何调整参数。 
数据来源及项目概况 
数据是从kaggle上看到的项目,具体链接如下: 
https://www.kaggle.com/mlg-ulb/creditcardfraud 
获取本例数据的,可在上述项目详情链接中下载数据。 
数据集包含欧洲持卡人于2013年9月通过信用卡进行的交易。该数据集提供两天内发生的交易,其中在284,807笔交易中有492起欺诈行为。 
数据集非常不平衡,负面类别(欺诈)占所有交易的0.172%。 
它只包含数值输入变量,这是PCA变换的结果。不幸的是,由于保密问题,我们无法提供有关数据的原始特征和更多背景信息。特征V1,V2,...  V28是用PCA获得的主要组件,唯一没有用PCA转换的特征是'Time'和'Amount'。 
    - “时间”包含每个事务与数据集中第一个事务之间经过的秒数。
 
    - '金额'是交易金额,该特征可以用于依赖于例子的成本敏感性学习。
 
    - “Class”是响应变量,在欺诈的情况下其值为1,否则为0。
 
 
2、准备并初步查看数据集 
- # 导入包 
 - import numpy as np 
 - import pandas as pd 
 - import matplotlib.pyplot as plt 
 - import matplotlib.gridspec as gridspec 
 - import seaborn as sns; plt.style.use('ggplot') 
 - import sklearn 
 - from sklearn.preprocessing import StandardScaler 
 - from sklearn.model_selection import train_test_split 
 - from sklearn.utils import shuffle 
 - from sklearn.metrics import confusion_matrix 
 - from sklearn.manifold import TSNE 
 - pass 
 - # 倒入并查看数据 
 - crecreditcard_data=pd.read_csv('./creditcard.csv') 
 - crecreditcard_data.shape,crecreditcard_data.info() 
 - <class 'pandas.core.frame.DataFrame'> 
 - RangeIndex: 284807 entries, 0 to 284806 
 - Data columns (total 31 columns): 
 - Time 284807 non-null float64 
 - V1 284807 non-null float64 
 - V2 284807 non-null float64 
 - V3 284807 non-null float64 
 - V4 284807 non-null float64 
 - V5 284807 non-null float64 
 - V6 284807 non-null float64 
 - V7 284807 non-null float64 
 - V8 284807 non-null float64 
 - V9 284807 non-null float64 
 - V10 284807 non-null float64 
 - V11 284807 non-null float64 
 - V12 284807 non-null float64 
 - V13 284807 non-null float64 
 - V14 284807 non-null float64 
 - V15 284807 non-null float64 
 - V16 284807 non-null float64 
 - V17 284807 non-null float64 
 - V18 284807 non-null float64 
 - V19 284807 non-null float64 
 - V20 284807 non-null float64 
 - V21 284807 non-null float64 
 - V22 284807 non-null float64 
 - V23 284807 non-null float64 
 - V24 284807 non-null float64 
 - V25 284807 non-null float64 
 - V26 284807 non-null float64 
 - V27 284807 non-null float64 
 - V28 284807 non-null float64 
 - Amount 284807 non-null float64 
 - Class 284807 non-null int64 
 - dtypes: float64(30), int64(1) 
 - memory usage: 67.4 MB 
 - ((284807, 31), None) 
 - crecreditcard_data.describe() 
 - pass 
 - crecreditcard_data.head() 
 - pass 
 - # 看看欺诈与非欺诈的比例如何 
 - count_classes=pd.value_counts(crecreditcard_data['Class'],sort=True).sort_index() 
 - # 统计下具体数据 
 - count_classes.value_counts() 
 - # 也可以用count_classes[0],count_classes[1]看分别数据 
 - 284315 1 
 - 492 1 
 - Name: Class, dtype: int64 
 - count_classes.plot(kind='bar') 
 - plt.show() 
 
  
 
0代表正常,1代表欺诈,二者数量严重失衡,极度不平衡,根本不在一个数量级上; 
                                                (编辑:泰州站长网) 
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! 
                     |