12

image

我们已经陆续发布过多篇有关 Amazon SageMaker 的技术文章了,今天,不妨通过一个实例来看看在将该服务用于机器学习的情况下,到底使用有多简单,而功能又有多强大。一起试试看借助 SageMaker 检测保险欺诈问题。

背景

根据美国国家医疗保险反欺诈协会(NHCAA)估算,医疗保险欺诈每年给美国造成大约680亿美元损失,占国家医疗保险支出(2.26万亿美元)的3%。这还是保守估算,有估算显示这项损失高达年度医疗保险支出的10%,即2300亿美元。

医疗保险欺诈必然会导致消费者保费和自付费用升高,利益受损或保险覆盖面缩小。

将索赔认定为欺诈可能需要复杂而详尽的调查。本文介绍了如何训练 Amazon SageMaker 模型来标记后付费医疗保险的住院异常索赔,并针对它们的欺诈嫌疑进行进一步调查。这个解决方案不需要标记数据;它使用非监督机器学习(ML)创建一个模型来定位可疑的索赔。

由于面临以下挑战,这方面的异常检测困难重重:

  • 正常和异常数据之间的区别往往并不明显。异常检测方法可能特定于应用场合。例如,在临床数据中,凭借一个小的偏差就可以判定为离群值;而在营销应用中,要判定为离群值则需要一个显著的偏差。
  • 数据中的噪声数据可能显示为属性值偏差或缺失值。噪声数据可能会掩盖离群值或将偏差标记为离群值。
  • 清晰合理地解释离群值可能会很困难。

此解决方案使用 Amazon SageMaker,它可以帮助开发人员和数据科学家构建、训练和部署 ML 模型。Amazon SageMaker 是一项完全托管的服务,涵盖了 ML 的整个工作流,可以标记和准备数据、选择算法、训练模型、调整和优化模型以便部署、预测和执行操作。

此外我们也可以使用 Amazon SageMaker Jupyter Notebook 端到端应用此解决方案。更多信息请参阅 GitHub存储库

解决方案概览

在此示例中,我们将使用 Amazon SageMaker 执行以下操作:

  1. 使用 Jupyter Notebook 下载数据集并将其可视化;
  2. 在 Jupyter Notebook 内进行本地数据清理并查看数据样本;
  3. 使用 Word2vec 对文本列执行特征工程;
  4. 将主成分分析(PCA)模型拟合到预处理数据集;
  5. 对整个数据集进行评分;
  6. 对得分应用阈值,以识别任何可疑或异常的索赔。

使用 Jupyter Notebook 下载数据集并将其可视化

本文使用了2008年的医疗保险住院索赔数据集。该数据集名为 CMS 2008 BSA Inpatient Claims PUF,是可公开获取的基础版(BSA)住院公共使用文件(PUF)。

本文的 Jupyter Notebook 说明了如何下载数据集,更多信息请参阅GitHub存储库

数据集包含一个作为记录索引的索赔主键和六个分析变量,另外还有一些基础属性变量以及与索赔相关的变量。但是由于文件没有提供受益人 ID,因此我们无法关联来自同一受益人的索赔,不过数据集包含了为此解决方案构建模型所需的充足信息。

就特征而言,这是最小的数据集。数据集未提供所需的部分特征(例如治疗机构的邮政编码)。我们可以添加更多数据来构建一组特征,从而不断提高此解决方案的准确性。

大家可以下载数据集的副本,也可以通过 GitHub 存储库访问该数据集。

接下来将分析七个分析变量、通过修复空值清除每个变量中的数据,并用其对应的描述替换 ICD 9诊断和治疗代码。

清除列名

请通过以下步骤清除列名。

  1. 打开文件 ColumnNames.csv
  2. 去掉所有空格和双引号

这会生成已编码列的相关名称,然后就可以开始处理数据集了。请参阅以下代码示例:

colnames = pd.read\_csv("./data/ColumnNames.csv")

colnames\[colnames.columns\[-1\]\] = colnames\[colnames.columns\[-1\]\].map(lambda x: x.replace('"','').strip())

display(colnames)

下表显示了本数据集中本项目所使用到的列名。
image

以下是所使用的数据集的特征:

  • 2008年的医疗保险住院索赔
  • 每条记录都是由医疗保险受益人(5%的样本)提出的住院索赔
  • 未提供受益人身份
  • 未提供患者治疗机构的邮政编码
  • 该文件包含8个变量,一个主键和7个分析变量
  • 提供了解释数据集中的代码所需的数据字典

可视化数据集

从以下屏幕截图可以明显看出,通过目测难以分辨出异常和非异常记录。即使采用统计技术,也没那么容易。这是因为面临着以下挑战:

  • 有效地对正常对象和异常对象进行建模。数据正常与异常(离群值)之间的界限通常并不明确。
  • 离群值检测方法特定于应用场合。例如,在临床数据中,凭借小的偏差就可以判定为离群值;而在营销应用中,要判定为离群值则需要较大的偏差。
  • 数据中的噪声数据可能显示为属性值偏差,甚至是缺失值。噪声数据可能会掩盖离群值或将偏差标记为离群值。
  • 从可解释的观点合理地解释离群值可能会很困难。

以下屏幕截图显示了数据集中的示例记录:
image

在 Jupyter Notebook 内进行本地数据清理并查看数据样本

在数据集上生成列统计信息

以下命令可识别带有空值的列:

\# check null value for each column

display(df\_cms\_claims\_data.isnull().mean())

我们会在结果中看到一些“NaN”,以及 ICD9 主过程代码的均值 (0.469985)。“NaN”表示“非数字”– 如果执行计算,但无法将计算结果表示为数字,则会获得此浮点值。这表明需要为 ICD9 主过程代码修复空值。

替换 ICD9 诊断代码

要替换空值,请执行以下代码并将类型从 float 更改为 int64。数据集将所有过程代码作为整数编码。

#Fill NaN with -1 for "No Procedure Performed"

procedue\_na = -1

df\_cms\_claims\_data\['ICD9 primary procedure code'\].fillna(procedue\_na, inplace = True)

#convert procedure code from float to int64

df\_cms\_claims\_data\['ICD9 primary procedure code'\] = df\_cms\_claims\_data\['ICD9 primary procedure code'\].astype(np.int64)

分析性别和年龄数据

接下来对性别和年龄进行分布是否平衡分析。执行以下过程,以绘制各个性别和年龄字段的条形图。

  1. 读取性别/年龄字典 csv 文件
  2. 将受益人类别代码与年龄组/性别定义联接起来,并描述索赔数据集中不同年龄组的分布
  3. 将数据集中的性别/年龄分布投影到条形图上

以下屏幕截图显示了年龄组分布的条形图。可以看到,索赔分布略有失衡,Under\_65和85\_and\_Older的索赔比例更高。由于这两个类别代表的年龄组是开放式的,涉及的范围更广,因此可以忽略这一失衡。
image

以下屏幕截图显示了性别条形图,其中同样略有失衡。女性的索赔比例略高一些。但是由于只是略有失衡,因此可以忽略。
image

分析天数、付款代码和付款金额数据

在此阶段,我们无需对住院天数代码、DRG 五分位数付款代码和 DRG 五分位数付款金额的数据进行任何转换。数据会被清晰地编码,而且任何失衡的数据都可能暗含模型用以捕获异常的信号,因此无需进行进一步的失衡分析。

使用 Word2vec 对文本列执行特征工程

数据集中共有七个分析变量。在7个变量中,我们直接使用患者年龄、患者性别、住院天数、DRG 五分位数付款代码和 DRG 五分位数付款金额作为特征,而无需进一步进行任何转换。不需要对这些字段执行特征工程。这些字段被编码为整数,可以安全地应用数学运算。

但是我们仍然需要从诊断和过程描述中提取相关特征。诊断和过程字段被编码为整数,但是对编码值进行数学运算所产生的结果会歪曲其含义。例如,两个过程代码或诊断代码的平均值可能导致用于第三个过程/诊断的代码与用于计算平均值的两个过程/诊断代码完全不同。本文讨论的技术以更有意义的方式对数据集中的过程和诊断描述字段进行编码。该技术使用连续词袋模型(CBOW),这是一种对词嵌入技术的特定 Word2vec 实施。

词嵌入技术是将词转换为数字。将文本转换为数字的方法多种多样,例如频率计数和独热编码。大多数传统方法会生成一个稀疏矩阵,在语境中和计算上效率较低。

Word2vec 是一个浅层神经网络,可将词映射到同样是词的目标变量。在训练过程中,神经网络学习充当词矢量表示的权重。

该 CBOW 模型在给定的语境(可以是句子等)中预测一个词。Word2vec 学习的词的稠密矢量表示带有语义。

对诊断和过程描述进行文本预处理

以下代码对诊断描述执行文本处理,以加强某些首字母缩略词对于词嵌入的意义。

a) 更改为小写

b) 将

i. ‘&’ 替换为 ‘and’、

ii. ‘non-’ 替换为 ‘non’

iii. ‘w/o’ 替换为 ’without’

iv. ‘w’ 替换为 ‘with’

v. ‘maj’ 替换为 ‘major’

vi. ‘proc’ 替换为 ‘procedure’

vii. ‘o.r.’ 替换为 ‘operating room’

c) 将短语拆分为词

d) 返回词矢量

\# function to run pre processing on diagnosis descriptions

from nltk.tokenize import sent\_tokenize, word\_tokenize

def text\_preprocessing(phrase):

 phrase = phrase.lower()

 phrase = phrase.replace('&', 'and')

 #phrase = phrase.replace('non-', 'non') #This is to ensure non-critical, doesn't get handled as {'non', 'critical'}

 phrase = phrase.replace(',','')

 phrase = phrase.replace('w/o','without').replace(' w ',' with ').replace('/',' ')

 phrase = phrase.replace(' maj ',' major ')

 phrase = phrase.replace(' proc ', ' procedure ')

 phrase = phrase.replace('o.r.', 'operating room')

 sentence = phrase.split(' ')

 return sentence

在标记和预处理诊断描述之后,将输出传入到 Word2vec 以生成词嵌入。

为单个词生成词嵌入

要在预处理过程和诊断描述中为单个词生成词嵌入,请完成以下步骤:

  1. 训练 Word2vec 模型,将预处理的过程和诊断描述转换为特征,并使用名为 sns 的 Python 可视化库在 2D 空间中可视化结果。
  2. 使用 CBOW 从预处理的诊断和过程代码描述中提取特征矢量。
  3. 在 Amazon SageMaker Jupyter Notebook 实例上针对诊断和过程描述从本地训练 Word2vec 模型。
  4. 使用该模型为过程和诊断描述中的每个词提取固定长度的词矢量。

本文使用 Word2vec(可通过gensim软件包获取)。更多信息请参阅 Python Package Index 网站上的 genism 3.0.0。完成以上步骤后,最终每个词的矢量包含72个浮点数。在诊断和过程描述中,将它用作标记词的特征矢量。

从过程和诊断描述短语生成词嵌入

在获得每个词的词矢量后,可以生成新的词嵌入。

  1. 使用过程和诊断描述中所有词矢量的均值,为描述诊断和过程的每个完整短语构建新的矢量。新的矢量将成为数据集中诊断和过程描述字段的特征集。请参阅以下代码示例:
\# traing wordtovec model on diagnosis description tokens

model\_drg = Word2Vec(tmp\_diagnosis\_tokenized, min\_count = 1, size = 72, window = 5, iter = 30)
  1. 获取短语中所有词矢量的平均值。这将为完整的诊断描述短语生成词嵌入。请参阅以下代码示例:
#iterate through list of strings in each diagnosis phrase

for i, v in pd.Series(tmp\_diagnosis\_tokenized).items():

 #calculate mean of all word embeddings in each diagnosis phrase

 values.append(model\_drg\[v\].mean(axis =0))

 index.append(i)

tmp\_diagnosis\_phrase\_vector = pd.DataFrame({'Base DRG code':index, 'DRG\_VECTOR':values})
  1. 将诊断描述矢量扩展为特征。请参阅以下代码示例:
\# expand tmp\_diagnosis\_phrase\_vector into dataframe

\# every scalar value in phrase vector will be considered a feature

diagnosis\_features = tmp\_diagnosis\_phrase\_vector\['DRG\_VECTOR'\].apply(pd.Series)

\# rename each variable in diagnosis\_features use DRG\_F as prefix

diagnosis\_features = diagnosis\_features.rename(columns = lambda x : 'DRG\_F' + str(x + 1))

\# view the diagnosis\_features dataframe

display(diagnosis\_features.head())

以下屏幕截图显示了生成的词嵌入。但是它们是抽象的,对可视化没有帮助。
image

  1. 对过程代码重复上面对诊断代码执行的过程,最终我们会获得过程描述的特征集。见以下截图。

image

可视化诊断和过程描述矢量

本文使用一项称之为 t-SNE 的技术以 2D 或 3D 形式可视化词嵌入的结果(多维空间)。以下屏幕截图显示了 t-SNE 图,它绘制了 Word2vec 算法生成的词矢量的 2D 投影。

即使用于训练模型的参数相同,Word2vec 和 t-SNE 图也不一定相同。这是因为在开始每个新训练会话时都进行了随机初始化。

t-SNE 图不存在理想的形状。但是请避免使用以下模式,即所有词都出现在一个聚类中,而且彼此非常接近。下图效果不错。
image

为过程描述重复上述过程。以下屏幕截图显示了在处理和应用 Word2vec 后的 2D 投影。同样地,此图效果不错。
image

汇聚所有特征集并组成最终的训练特征集

接下来,汇聚从六个分析变量中提取的所有特征,并组成最终的特征集。我们可以使用适用于数据科学的标准 Python 库。

将主成分分析(PCA)模型拟合到预处理的数据集

下一步演示如何使用PCA进行异常检测。我们将使用 A Novel Anomaly Detection Scheme Based on Principal Component Classifier(基于主成分分类器的新型异常检测方案)中描述的技术来演示基于 PCA 的异常检测方法。

将数据拆分为训练用数据和测试用数据

在使用 PCA 进行异常检测前,我们需要将数据拆分为训练用数据和测试用数据。确保此随机拆分的样本可以覆盖所有规模的付款分布。本文对 DRG 五分位数付款金额代码执行分层混洗拆分,将30%的数据用于测试,70%的数据用于训练。请参阅以下代码示例:

from sklearn.model\_selection import StratifiedShuffleSplit

sss = StratifiedShuffleSplit(n\_splits=1, test\_size=0.3, random\_state=0)

splits = sss.split(X, strata)

for train\_index, test\_index in splits:

 X\_train, X\_test = X.iloc\[train\_index\], X.iloc\[test\_index\]

下一步是对数据进行标准化,以避免被高尺度变量主导。

根据训练样本标准化数据

由于随后用于训练的 PCA 算法会最大化数据中的正交方差,因此请在执行 PCA 之前将训练数据标准化,让其具有零均值和单位方差。通过这样做,我们可以确保 PCA 算法与这种尺度变换是幂等的,并防止高尺度变量主导 PCA 投影。请参阅以下代码示例:

from sklearn.preprocessing import StandardScaler

n\_obs, n\_features = X\_train.shape

scaler = StandardScaler()

scaler.fit(X\_train)

X\_stndrd\_train = scaler.transform(X\_train)

至此,我们已经完成从数据集中提取特征并将其标准化。我们可以使用 Amazon SageMaker PCA 进行异常检测。为此可使用 Amazon SageMaker PCA 减少变量数,并确保变量彼此独立。

Amazon SageMaker PCA 是一种非监督式ML算法,可减少数据集中的维数(特征数量),同时仍保留尽可能多的信息。它通过查找一组称为成分的新特征来这样做,这些成分是由彼此不相关的原始特征组合而成的。它们还受到约束,以便第一个成分解释数据中最大的潜在可变性,第二个成分解释第二大可变性,以此类推。

利用 Amazon SageMaker PCA 基于数据训练的输出模型通过计算每个变量如何彼此关联(协方差矩阵)、数据分散的方向(特征向量)以及这些不同方向的相对重要性(特征值)完成。

将数据转换为二进制数据流并上传到 Amazon S3

启动 Amazon SageMaker 训练作业前,先将数据转换为二进制数据流并上传到 Amazon S3。请参阅以下代码示例:

\# Convert data to binary stream.

matrx\_train = X\_stndrd\_train.as\_matrix().astype('float32')

import io

import sagemaker.amazon.common as smac

buf\_train = io.BytesIO()

smac.write\_numpy\_to\_dense\_tensor(buf\_train, matrx\_train)

buf\_train.seek(0)

调用 Amazon SageMaker fit 函数以启动训练作业

下一步是调用 Amazon SageMaker fit 函数以启动训练作业。请参阅以下代码示例:


#Initiate an Amazon SageMaker Session

sess = sagemaker.Session()

#Create an Amazon SageMaker Estimator for Amazon SageMaker PCA.

#Container parameter has the image of Amazon SageMaker PCA algorithm #embedded in it.

pca = sagemaker.estimator.Estimator(container,

 role,

 train\_instance\_count=num\_instances,

 train\_instance\_type=instance\_type,

 output\_path=output\_location,

 sagemaker\_session=sess)

#Specify hyperparameter

pca.set\_hyperparameters(feature\_dim=feature\_dim,

 num\_components=num\_components,

 subtract\_mean=False,

 algorithm\_mode='regular',

 mini\_batch\_size=200)

#Start training by calling fit function

pca.fit({'train': s3\_train\_data})

调用 pca.fit 函数将触发单独训练实例的创建。这可让我们选择不同的实例类型来进行训练以及构建和测试。

对整个数据集进行评分

下载并解压经过训练的 PCA 模型

完成训练作业后,Amazon SageMaker 将模型构件写入指定的S3输出位置。我们可以下载并解压返回的 PCA 模型构件,以降低维数。

Amazon SageMaker PCA 构件包含 ?、特征向量主成分(按 ? 的升序排列)和它们的特征值。成分的特征值等于成分解释的标准偏差。例如,单一成分的特征值平方等于该成分解释的方差。因此,要计算每个成分解释的数据的方差比例,请求出特征的平方,然后除以所有特征值平方的总和。

如果希望解释最多方差的成分首先出现,请颠倒此返回的顺序。

绘制 PCA 成分图以进一步降低维数

我们可以使用PCA来降低问题的维数。我们具有?个特征和?−1个成分,但是在下图中可以看到许多成分对解释数据的方差用处不大。仅保留?个主要成分,这些成分可以解释95%的数据方差。

十三个成分解释了95.08%的数据方差。下图中的红色虚线重点指示了95%的数据方差所需的截断值。
image

计算马氏距离以对每个索赔进行异常评分

本文使用每个点的马氏距离作为其异常得分。将这些点中最高的 ?%视为离群值,其中 ? 取决于所需的检测敏感度。本文取最高的1%,即?\=0.01。因此,计算分布?的(1−?)分位数,将其作为判定数据点异常的阈值。

下图是根据从特征集中得出的马氏距离生成的,该特征集是 Amazon SageMaker PCA 算法的输出。红线根据 ? 定义的敏感度描述异常检测的阈值。
image

我们可以使用通过马氏距离和敏感度得出的异常分数,将索赔标记为“is anomaly” TRUE/FALSE。具有“anomalous” TRUE 的记录会达到异常阈值,应被视为可疑。“anomalous” FALSE 记录不会达到阈值,因此不被视为可疑。这将异常索赔与标准索赔分隔开来。

对得分应用阈值以识别任何可疑或异常的索赔

绘制异常记录图并进行分析

我们可以按照在 CMS 索赔数据集上执行的操作顺序,单纯地使用数学技术(无需使用未标记的数据)来标记异常的索赔记录。

以下屏幕截图显示了标准记录示例。
image

以下屏幕截图显示了异常记录示例。
image

既然已将标准数据与异常数据分隔开来,现在我们可以把任何将“anomalous”标记为 TRUE 的数据点视为可疑数据,并对它们进行深入调查。

经过专家调查,可以确认索赔是否确实存在异常。如果对此感兴趣并希望提出自己的解释、假设或模式,则可以在不同变量(例如年龄、性别、住院天数、五分位数代码、五分位数付款方式、过程和诊断代码)之间绘制两两特征图。

对于基本分析,我们可以使用 seaborn 库绘制两两特征图。以下屏幕截图显示了一幅图形中的两两特征图,标准索赔为蓝色,异常索赔为橙色,它们相互重叠。您可以看到,橙色点或者与蓝色点不对称,或者孤立存在(附近没有蓝色点)。

以红色突出显示的两两特征图显示了不对称图案。蓝色和橙色之间是一些孤立的区域,其中有橙色点,但没有蓝色点。您可以更深入地研究这些图形和分析突出显示的图形背后的数据,以找到模式或提出假设。由于本文没有提供标签数据,因此很难检验假设。然而,随着时间的推移,我们的标签数据可能会不断增多,它们可用来检验我们的假设和提高模型的准确性。
image

小结

本文演示了如何构建模型以标记可疑的索赔。在构建支持支付完整性的流程时,我们可以使用该模型作为起点。我们可以从现有源引入更多数据或添加更多数据源,以进一步扩展该模型。本文中的模型可以扩展并可以吸收更多数据,以改善结果和性能。

使用此模型有助于最大程度地减少欺诈案件。由于害怕被标记,虚报的索赔将得到遏止,用户的医保费用也会降低。如果想试用本文介绍的这种技术,请使用自己的 Amazon SageMaker Jupyter Notebook。GitHub 存储库提供了相关说明和构件。

image


亚马逊云开发者
2.9k 声望9.6k 粉丝

亚马逊云开发者社区是面向开发者交流与互动的平台。在这里,你可以分享和获取有关云计算、人工智能、IoT、区块链等相关技术和前沿知识,也可以与同行或爱好者们交流探讨,共同成长。