首页 > 论文范文 > 社科论文 > 基于决策树的呼叫中心分时段话务量预测模型_免费论文全文下载

基于决策树的呼叫中心分时段话务量预测模型_免费论文全文下载

申明:本网站内容仅用于学术交流,如有侵犯您的权益,请及时告知我们,本站将立即删除有关内容。

摘要:为解决交通服务热线12328呼叫中心坐席安排难的问题,提高坐席人员工作效率,针对呼叫中心分时段话务量特性,提出了由预测分时段话务量占当日总话务量比例间接得出分时段话务量的思路,并以比例向量作为叶节点构建决策树模型。应用分类和回归树算法构建决策树时,考虑到分时段话务量样本间的相关性,引入马氏距离对算法中度量切分误差的方法进行改进。结合实际需求,对常用的误差衡量标准进行了修改,以更好地反映分时段话务量预测效果。实验证明,相比于直接预测分时段话务量,该方法预测误差降低了8%,提升了预测准确性。

关键词:呼叫中心;分时段话务量;分类和回归树算法;决策树;预测误差
DOIDOI:10.11907/rjdk.171968
中图分类号:TP319
文献标识码:A 文章编号:1672-7800(2017)006-0138-04
0 引言
为了畅通群众交通运输服务监督渠道,建立交通运输服务监督业务协同处理工作机制,提升交通运输行业科学决策水平,交通运输部自2013年开通全国服务监督电话,建设部、省、市三级联网运行的交通运输服务监督电话系统[1-2]。服务监督电话系统要达到提高服务监督质量、建立协同工作机制、提升科学决策水平的目的,必须实现呼叫中心坐席的科学安排。而话务量数据是坐席安排的关键依据,针对不同的话务量安排对应的坐席,使得在满足呼叫中心服务水平的前提下,实现人力资源最优配置。
话务量具有高度的非线性和时变特性[3],传统的经验排班模式难以准确预知话务量大小,无法满足实际生产需求。话务量分析旨在对未来话务量进行预测,以此来合理分配资源,从而进行科学的呼叫中心坐席安排。因此准确有效的话务量预测,对交通运输服务监督电话系统建设有重要意义。
现阶段,国内外很多研究机构都设计有话务量的预测模型,并且取得了丰富成果,主要有自回归移动平均模型(Autoregressive Integrated Moving Average Model,ARIMA)[4-5]、神经网络[6-8]、灰色模型[9]、支持向量机[10]、k近邻算法[11-13]以及一些组合模型[14-15]。日话务量的预测准确度基本上可以满足实际需求,但每半小时的分时段话务量预测却缺乏相应研究,而后者在实际排班应用中具有非常重要的指�Ъ壑怠U攵苑质倍挝侍猓�本文提出一种先预测分时段话务量占当日话务量的比例,再得到分时段话务量值的间接预测思路,并以比例组成的向量作为决策树叶节点进行建模。在构建决策树过程中,考虑到话务量样本间的相关性,改进了分类和回归树(Classification and Regression Tree,CART)算法中度量划分数据集误差的方法。实验证明,应用这种思路和改进的方法进行预测相比于直接预测各时段话务量值,预测误差降低了8%。
1 决策树模型
1.1 决策树
决策树是机器学习中用于分类和回归的一种主要预测模型,代表对象属性与对象值之间的映射关系[16]。它从一组表面上看似无序的数据集中学习出决策规则,采用自顶而下的递归方式,构建出决策树模型。因此,决策树本身就是由IF-THEN组成的规则集合,从根节点到叶节点的路径对应着一条决策规则。在决策树算法中,分类和回归树是一种通用的算法,采用简洁的二叉树结构,既可用于分类,也可用于回归,目前已得到广泛研究和应用。本文将CART算法用于构建分时段话务量预测模型,并针对话务量数据的特性,对其中划分误差的度量标准进行讨论和改进。
1.2 改进的CART算法
根据实际情况,选取季节、日期类型(1工作日、2周末、3节假日)、最高温、最低温、平均温、降雨、降雪、风力等因素作为影响话务量的特征,按图1所示的流程图判断是否进行二元切分以及如何确定最佳切分条件。
在构建决策树时,根据特征及特征值对数据集进行二元切分。通过遍历所有的特征及其可能的取值,找到使误差最小化的切分点,确定最佳的切分特征以及在该特征上切分的最佳位置。如果节点的特征值大于对应的切分特征值,那么该节点被划分为左子树节点,否则该节点被划分为右子树节点。然后再分别对左、右子树的数据集执行上述二元切分的操作。为了反映一次切分效果,采用式(4)的形式度量切分误差。
为了控制构建决策树过程中的切分终止条件,在决策树模型中引入两个参数,α和β。其中,参数α是容许的总方差减少量阈值,如果一次切分后,数据集的总方差减少量小于该阈值,则停止切分,否则继续切分。参数β是切分后节点中的最少样本数。如果一次切分之后,某一个节点中的样本数小于该参数,则说明该节点中的样本数量达到了设定的下限,为了防止叶子节点中的样本数量过少,停止切分。这两个参数的取值可以通过可视化视图,观察在不同取值组合下决策树模型对训练集数据的预测值与训练集中实际值的拟合情况确定。构建出决策树之后,对每个叶节点的话务量比例取均值得到该叶节点的值。因此,构建出的决策树叶节点都是1×48的向量。
1.4 决策树优化
如果决策树模型中节点过多,可能出现过拟合问题,可通过交叉验证[18]的方法来判断。在构建决策树时,已经通过参数α和β来为决策树的切分设定了终止条件,这实际上是对决策树进行了预剪枝操作。但是,在实验中发现构建出的决策树对这两个参数十分敏感。如果输入的参数过于严格,则构建出的决策树叶节点很少,甚至只有一个;反之,如果设定的参数不够严格,则构建出的决策树结构非常复杂。可见单一的预剪枝操作并不足以优化决策树,因此,进行后剪枝操作是必要的。
所谓后剪枝,就是用测试集数据验证已构建的决策树结构的合理性,如果有不合理的划分则采取相应的方法调整树结构。具体方法是从上至下遍历树中每个节点,计算将当前两个节点合并后的误差,并与合并前的误差相比较。若误差减小,则合并;否则保留原结构。将预剪枝与后剪枝操作结合使用能够有效地优化决策树的结构,解决过拟合问题。 2 分时话务量预测
2.1 历史话务量分析
呼叫中心主要承担了业务咨询、故障报修、投诉等职责[19],显然,这些业务受天气、季节、节假日以及资费政策等不确定性因素的影响,因此每天的话务量也随之变化,而各时段话务量的特性还需要进一步分析。以某省2014年12月24日至2016年11月30日的话务量为例进行分析,图2展示了这段时期内每半小时话务量占当日总话务量比例的平均值,在48个时段中出现了两个峰值,两个谷值,在某些时段内话务量占比非常小。一般在第19~22时段(上午9时~11时)达到一个峰值,通常称为早忙时,然后出现一个谷值,在第30~32时段(下午3时~4时)达到另一个峰值,通常称为晚忙时,而在第6~10时段(凌晨3时~5时)达到最低点。
以yij,j=1,2,...,48表示各个时段的话务量,yi表示日话务量,则满足yij

本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。QQ:522-52-5970