摘要:文章以提升客户体验为核心,研究了通信运营商大数据应用建设方法,通过对通信运营商大数据特征、分析方法、数据处理、运营场景设计等过程的研究,总结出影响客户体验的关键指标,既数据处理及时性、数据挖掘准确性、数据展现美观性、平台运行稳定性,并对这些指标的提升方法进行了深入的研究。
关键词:客户体验;通信运营商;大数据
一、通信运营商大数据应用的主要场景
(1)公共安全。通信运营商大数据能够实现客户全景的画像,实现对用户衣、食、住、行的分析,用户行为轨迹、职住关系、交往圈、社会地位等属性也可通过数据挖掘得出,通过流数据处理能够实时分析人员聚集预警、密度超标预警等公共安全事件的预防,为相关部门提供应急救援的手段,让相关决策更加符合大众的愿望,提高公共安全管理的档次。
(2)智慧旅游。通过通信用户位置分析,能够汇总景区内人流量规模、客流来源及去向、热门旅游路线等数据。并对过热景区进行信息提醒,方便广大游客合理选择旅游线路,也为旅游监管部门、景区的经营决策提供有效参考,实现智慧旅游。
(3)市政交通。通信运营商基站不但覆盖到城市,对乡村、偏远山区也有覆盖,通过基站与道路辐射模型,可以分析出道路人流和车流情况,分析出各个道路的使用效率,为交通管理部门进行交通线路规划、交通扩容提供有效的参考。在出现重大交通拥堵事故时,能够预测出附近聚集的趋势,周边出口人车流量概况,从而形成有效的交通疏导方案,也可以通过公共短信的方式提醒周边车辆绕行,避免拥堵情况的进一步加剧。
(4)资讯规划。智慧城市和大型商业机构的规划需要大数据支撑,通过人口分布特征、职业和居住地分布特征、交通出行特征、人流聚集密度,为城市管理部门和相关机构的规划部门提供依据,可以保障规划咨询项目的水平,提升市民幸福指数、提高商业机构盈利水平。
(5)金融征信。通信运营商大数据可以是金融征信行业的重要补充,能够核实姓名、手机号、身份证三要素的一致性验真。通信运营商大数据具有丰富的客户画像属性,能够评价客户理财意向,辅助理财销售。能够分析出客户的消费能力、社会地位、在网时长、停开机记录,对客户进行信用评分,可以作为客户金融授信额度维度之一。通信运营商征信评估情况也可以为婚恋网站、租房租车、电商网站等提供授信的依据,应用场景非常广泛。
二、运营商数据处理过程
(1)数据统一采集。通信运营商大数据平台要面对各种数据源,统一采集是汇聚数据的主要功能,一方面将数据获取的接入方式进行统一,适用于计费、客服、营业、网络、管理类数据源;另一方面数据结构上支持结构化和非结构化,也支持两者之间的相互转换;三是支持ETL全流程,包括数据的抽取、清洗、加载等环节。统一采集功能支持以下方式:
批量采集:能够将一批文件统一采集入库,采集的周期可以设定,并能够实现自动化采集,一般文件传输协议采用FTP,使用MD5进行加密确保数据一致性。
流式采集:数据流形式采集主要面向实时的网络信
令数据、上网数据等,数据格式主要为消息、码流,并支持分布式、可扩展的,以适应海量的实时数据。流式采集与大数据的对接方式应该自由灵活,可定制。
爬虫采集:爬虫是对互联网数据的爬取,能够具体到客户听的每一首歌名、每一篇文章的页码、购买的具体商品详情。爬虫是用户上网数据的延伸,能够极大丰富运营商数据源,让数据资产更具价值。
上网数据深度解析:上网数据解析的深度既DPI,决定运营商管道数据价值发挥的程度。主要面向运营商O域数据进行,可以分为多层级的解析,一级分类包括网页浏览、音乐、阅读,二级分类包括军事新闻、财经新闻、流行音乐、悬疑小说等,三级分类可以进一步细分到国际军事、国内财经、华人歌曲等。上网数据深度解析是爬虫采集的基础。
(2)统一数据中心。包括三大类功能组件,一是由分布式文件系统、分布式数据库、分布式关系型数据库、传统数据仓库构成的混搭式存储结构;二是统一资源调度框架;三是各类计算引擎组成。具体如下:
混搭式存储:分布式文件系统和建立在其上的分布式NoSQL数据库,构成企业级省大数据平台分布式存储系统,是管理非结构化及半结构化的主要存储系统,与分布式关系型数据库、原有数据仓库一起,构成混搭式存储体系,满足数据的最优化分层存储。
统一资源调度框架:统一资源调度框架完成大数据平台资源调度、作业执行调度、优先级管理、运行日志记录分析等功能。
计算引擎:计算引擎设计能够为各类应用场景提供计算功能,主要有面向流数据的计算,与客户端进行交互式的计算,批量的非在线计算等。
(3)统一数据标准。运营商大数据平台是由数据仓库、MPP、Hadoop等构建的混搭型平台。数据仓库在整合相关业务系统数据的基础上,为各类应用场景提供最基本的数据支撑。MPP数据库以分布式计算、大规模并行方式,为数据集市关键数据处理进行支持,更好地服务于客户标签、自助服务等重点应用;Hadoop平台作借助分布式计算平台,用于处理B/O/M三域的海量、非结构化数据。三者融合为大数据平台提供数据支撑。
建立数据标准是大数据平台的基础,约定了系统架构和数据模型标准要求。
三、客户体验提升研究
完成通信运营商大数据的特征、架构标准设计、数据处理过程、应用场景设计等工作还是不够的,要让客户体验到大数据的魅力,大数据的影响力,前提条件是我们必须能提供快速、准确、友好、稳定的极致大数据产品。大数据产品面对庞大的、源源不断的,高速的、高并发、流式的大数据,如何保障计算的速度,查询的速度、接收/推送的速度,是我们在大数据产品开发中面临的首要问题。面向不同行业需求的大数据产品,需要对原始数据进行挖掘之后,才能满足各行业个性化需求,如何从海量的数据中,挖掘出准确且有价值的行业信息,解决用户痛点,是决定是否有用户买点的关键。移动互联网时代,对大数据产品的使用体验有了更高的要求,如何保证展现在用户面前的大数据产品更友好,使用体验更好,吸引用户的眼球,是达成大数据产品销售的催化剂。开发大数据产品作为通信运营商来说属于对外变现的破冰之旅,如何保障产品运行的稳定性,避免数据的漏传、停传,保障服务的有序启停?良好的稳定性才能让用户买得放心,用得省心。
除了引入大数据新技术以外,还需要因地制宜,进行
本地化改造,打造具有更快数据处理、更准数据挖掘、更美数据展现、更稳平台运营的极致大数据产品。
四、更快数据处理技术
采用sparkstreaming+hbase+kafka,各个技术分工明确,合理使用,通过高速计算能力、高速查询能力和高速接收/推送能力的调优,保障大数据产品数据提供的快速性。
高速计算能力sparkstreaming:传统技术上topic接收数据分区数为50,每个分区数据过大,在理想时间内处理不完,经过多次的实验尝试,理论推算,可以对脏数据过滤后使用重分区,打碎大分区,根据实际情况可以扩展无限量分析,提高并发数。
高速查询能力hbase:通过均衡分布算法,尽量实现数据均匀、热点均匀,避免查询或者写入热点单机分布。最大程度发挥Hbase的列式机制,让查询实现秒级响应,对客户产生惊艳的体验。
高速接收/推送能力kafka:提高数据写入缓存,提高partition数量,使用广播变量发送数据到kafka。
五、更准数据挖掘
使用神经网络算法、随机森林算法、通信行为匹配算法等多种机器学习算法联合运用,提升大数据产品数据准确性,不同的挖掘算法应用场景也有所不同。
神经网络:通信运营商数据结构复杂,数据量庞大,如果找出数据之间的规律,挖掘数据价值,在数据规律不明确的情况下,神经网络算法是很好的选择。神经网络特别适合于海量的大数据资源中找出数据规律,达到智能化的效果。例如通过上网日志海量数据进行学习,自动能够挖掘出其中蕴含的规律,例如阅读规律、消费规律等,而通过人工假设的模式设计几千个维度,人工成本是巨大的,神经网络可以实现机器自动完成,且可无限扩展。
随机森林:面对海量的通信运营商大数据,将这些数据代表的客户、商品、事件等内容进行分类,也是数据挖掘的巨大挑战,而这类需求又很旺盛。例如某商业机构需要对它的数十万客户能够进行分类,却不知道分类的角度,随机森林算法能够对客户从多个维度进行聚类分析。当客户对所要归类的事务无头绪时,通过随机森林实现清晰的、高效的归类。
通信行为匹配算法:在客户全景画像的基础上,将合适的产品通过合适的渠道推送给客户。客户的偏好等画像信息,通过通信行为基本可以匹配出来,这也是产品销售的有力时机,抓住通信行为,与待销售产品进行匹配,实现精准营销和服务。
六、更美更快数据展现
(1)加载环节优化。随着H5的普及,所展现的效果越来越绚丽,用户感知也越来越好,但是H5的加载库还有较大的压缩空间,动辄几十兆的库文件加载需要一定的时间,影响客户的体验,而加载的内容并不是应用场景全部所需的,通过加载环节的优化,根据实际情况按需加载,引入webpack构建框架提升页面静态内容的展示速度,同时对CSS代码和JavaScript代码进行合并压缩,减小资源体积,提升页面加载速度。统一采用canvas作为图表渲染,引入echarts图表,以达到最佳页面性能和用户体验。
合并压缩使页面加载速度得到大幅提升,同样一个JS文件,加载时间由原来的434毫秒缩短至25毫秒,页面加载速度提升17.4倍,时间效益非常可观。
(2)展现环节优化。统一采用canvas作为图表渲染的底层技术,引入基于canvas技术实现的echarts图表,以达到最佳页面性能和用户体验。
大数据展示对于性能要求较高,更加适合使用前端原生语言实现,即canvas技术,基于canvas实现的echarts图表,更直观反应数据特征,也可以响应鼠标交互展示更详细的内容。当渲染元素近5000个时,canvas的展现和交互依然流畅,平均渲染时间455毫秒。此图表若使用SVG渲染,在普通的计算机中,页面会直接卡住无法响应,等待时间可能会是几分钟。当渲染元素近5000个时,canvas的展现和交互依然流畅,平均渲染时间455毫秒。此图表若使用SVG渲染,在普通的计算机中,页面会直接卡住无法响应,等待时间可能会是几分钟。
海量大数据给用户应该是直观的,因此数据可视化至关重要。常用的数据可视化方法可以采用图标,例如柱形图、曲线图、大屏展现图等。通信运营商大数据更适合GIS方式展现,实现位置与地图的完美结果,利用空间效果,给客户带来一目了然的体验。
七、更稳平台运行
通过全流程各阶段多机制保障的流式数据计算保障大数据产品运行的稳定。
(1)设置检查点并加强容错能力。打开Spark运行作业完成后的环节开关,实现每个点的归档日志能力,出现运行故障时,从归档日志这个点进行重试,直到运行正常为止。避免重头开始尝试,大幅降低了计算时间消耗,节省集群资源,节约容错需要的时间成本,且能达到更好的效果。
(2)预写日志机制。引入了基于容错的文件系统的
WAL机制,如果启用该机制,Receiver接收到的所有数据都会被写入配置的checkpoint目录中的预写日志这种机制可以让driver在恢复的时候,避免数据丢失,并且可以确保整个实时计算过程中,零数据丢失。
(3)数据转换过程监控。通过定时程序校验数据传输过程中,每一个步骤落地文件大小,记录数,检查程序运行的稳定性,如果发现问题,通过短信告警机制通知给运维人员。通过Sparkui进行数据流入速度,平均运行时间,平均延迟时间,总延迟时间等监控。
八、结论
通信运营商大数据就是金矿,而在掘金过程中,并不是通过引入数据仓库、Hdoop等先进技术平台就可以的,需要站在客户的角度,对各个环节进行精雕细琢,才能让客户体验到数据之美。
参考文献:
[1]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述
[J].软件学报,2014(9):1889-1908.
[2]郑海权.科技期刊如何抢占读者心智[J].科技与出版,2011(10):58-60.
[3]徐计,王国胤,于洪.基于粒计算的大数据处理[J].计算机学报,2015(8):1497-1517.
[4]阿里巴巴数据技术及产品部.大数据之路:阿里巴巴大数据实践[M].北京:电子工业出版社,2017.
[5]科特勒等著,梅青豪译.市场营销管理亚洲版2版[M].北京:中国人民大学出版社,2014.
[6]陈封能等著,范明等译.数据挖掘导论(完整版)[M].北京:人民邮电出版社,2011.
[7]熊平.数据挖掘算法与Clementine实践[M].北京:清华大学出版社,2011.