WAP上网用户访问行为分析报告
**移动W AP 上网用户访问行为分析报告(WAP GW关键数据挖掘与分析报告---2009.03.18)1 ,目 录一、**移动WAP 上网用户访问流量概要分析 ....
**移动
W AP 上网用户访问行为分析报告
(WAP GW关键数据挖掘与分析报告---2009.03.18)
1
,目 录
一、**移动WAP 上网用户访问流量概要分析 ............................................................... 3
1.1分析时段(全量数据)人气指数(以流量为统计标准) . .......................................... 3
1.2分析时段(全量数据)用户请求次数趋势分析 . ........................................................ 3
1.3按照WAP 上网业务类型统计和分析......................................................................... 4
1.4分析时段(WAP 业务数据)流量和访问量趋势分析 ................................................ 5
1.5分析时段(MMS 业务数据)流量和访问量趋势分析 ................................................ 7
1.6对比时段(参考时段)WAP 总体流量/请求次数分析................................................ 9
二、**移动WAP 上网用户对网络内容资源利用状况分析 . ............................................11
2.1 网站访问量排行(含MMS 业务 ).......................................................................11
2.2 部分WAP 计费业务(SP 业务)访问情况排名及分析............................................13
2.3 对指定域名进行(含二级域名)访问情况/流量的下探式分析 . ..............................16
2.4主要MMS 业务访问情况排名及分析 . ......................................................................17
2.5同类网站(资源)流量/访问量对比与拟合分析 ......................................................20
三、**移动WAP 上网用户客户群体分析(客户画像) ................................................21
3.1用户聚类分析(以访问资源类型为聚类划分标准) . ................................................21
3.2 用户活跃度分析 ....................................................................................................22
3.3用户访问路径分析 . .................................................................................................23
3.4用户群综合画像(包括用户活跃度分析以及用户终端型号信息结合等) .................26
2
,一、**移动WAP 上网用户访问流量概要分析
1.1分析时段(全量数据)人气指数(以流量为统计标准)
下图所列的是2009年03月18日0点至8点30分各小时的**移动W AP GW 流量的趋势图(由于全天数据处理量比较大,因此对全量数据仅截取了0点至8点30分的数据)。从趋势图中我们可以看到WAP GW 的流量在0点至8点30分基本呈现“U ”字型分布,这也基本符合用户对各项业务的使用习惯。与此同时我们注意到在凌晨4点30分左右和6点左右流量出现了2个小的峰值。同时此数据对于确定业务系统维护时机亦有帮助。
注:流量单位Byte 。
1.2分析时段(全量数据)用户请求次数趋势分析
下图所列的是2009年03月18日0点至8点30分各小时的**移动WAP GW访问次数的趋势图(由于全天数据处理量比较大,因此对全量数据仅截取了0点至8点30分的数据)。从趋势图中我们可以看到W AP GW 的访问次数与流量
3
,趋势基本一致,在0点至8点30分也基本呈现“U ”字型分布,这也基本符合用户对各项业务的使用习惯。与此同时对比流量趋势图中凌晨4点30分左右和6点左右流量出现了2个小的峰值时点的访问次数我们发现没有出现明显的波动,这说明在这两个时点使用业务的用户数没有发生明显的波动,导致流量波动的原因可能是用户使用业务流量出现激增。
1.3按照WAP 上网业务类型统计和分析
2009年3月18日,按照W AP 承载业务类型(上网浏览,彩信和W AP 计费业务)以用户的访问量为统计标准分别进行了统计。
承载业务类型
上网浏览
彩信(MMS ) 访问量 58472349 1418564 比例() 81.8254 1.9917 15.9074 WAP 计费业务(SP) 11329348
4
,通过承载业务类型分析可以看到,绝大部分用户还是通过W AP 来访问或浏览相关的业务和资源。
1.4分析时段(WAP 业务数据)流量和访问量趋势分析
下面两张图分别记录了2009年03月18日0点至3月18日24点**移动W AP GW 记录的各小时的W AP 业务(剔除掉主要MMS 业务)流量与访问量的趋势图。
从趋势图中我们可以看到**移动W AP 业务的整体使用状况,从流量趋势分析看,全天除3个峰值流量时段外,业务的流量分布趋势比较均匀,总体波动范围不大,结合用户的请求数量趋势分析我们推断出现流量激增(3个峰值)的 原因主要有2个:一个是使用业务的用户数出现了正向波动(从用户请求次数的趋势分析可以得到证明);另外是否与当日进行的业务推广活动有关,关联度到底有多大亦需进一步研究。
通过用户对业务的请求次数分析我们可以看到在当日10点至11点,15点以及23点左右形成了3个请求数量的峰值。这对于我们重新识别和确认用户对W AP 业务的使用行为模式提供了很好的数据支撑,通过与流量峰值所在时段的对比分析我们发现,除了11点和23点两个时段流量和业务请求次数峰值能够重叠(可以理解为有较高的关联度,但是具体的关联系数还需要进一步确认)外,流量趋势图显示的在9点左右出现的峰值对应的用户请求次数并没有出现明显
5
注:流量单位Byte 。
的激增,同样在15点左右出现的用户请求数量的峰值亦未使业务流量出现
6
峰值,上述现象对于进一步发现和识别用户访问行为模式以及评估业务推广效果都具有重要的参考价值和意义。
首先,对于业务流量和用户请求数量同时出现峰值的时段,我们重点分析其内在的关联度以及出现峰值的原因。出现峰值可能是用户访问模式决定的(大量用户都在该时段集中使用业务);亦有可能由于当日的业务推广活动导致,若当日进行了业务推广活动,则针对峰值出现的时段可以有效的评估该次业务的推广效果。
其次,对于流量和请求次数峰值没有重叠的时段进行重点分析,则有利于我们发现和识别用户使用业务的特点。在流量峰值请求次数不是峰值的时段,是否说明用户在使用了流量较大的业务;反之在请求次数是峰值而流量不是峰值的时段,是否说明了大量的用户在使用流量较少的业务。
1.5分析时段(MMS 业务数据)流量和访问量趋势分析
下面两张图分别记录了2009年03月18日0点至3月18日24点**移动W AP GW 记录的各小时的主要MMS 业务流量与访问量的趋势图。
其中主要MMS 业务包括:通过MMS 中心IP 产生的流量和请求次数,手机报,飞信,号簿管家,全曲下载,手机电视,139邮箱和彩信相册等。
采用与W AP 业务流量和请求趋势同样的分析办法,我们可以看到MMS 业务 业务流量和请求次数的峰值出现时段的拟合度比较高。这一方面反映了两种业务类型和模式的差别,同时通过峰值出现时段的不同也能够发现使用两种业务用户的访问行为和模式上也存在着一定的差异。
7
,注:流量单位Byte 。
8
1.6对比时段(参考时段)WAP 总体流量/请求次数分析
45000000
40000000
35000000
30000000
25000000
20000000
15000000
10000000
5000000
01234567891011121314151617181920212223线性 (09.03.18)线性 (09.03.17)09.03.17
09.03.18
通过上图对2009年3月17日(0点至24点)和2009年3月18日(0
点至24点)的用户访问趋势情况对比分析可以得到以下几个分析结论:
1. 用户的请求在总体趋势上没有明显的变化,线性趋势分析曲线的斜
率均大于0(且线性拟合度较高),即说明以天为单位分析凌晨时段的请求
数量要小于其他时段的请求数量。
2. 两天用户的请求情况在20点至23点这个时段有较好的拟合度,而
在其他时段2009年3月17日的请求数量略高于2009年3月18日(仅在
15点和20点略低于2009年3月18日的求情量),这一点从两天的线性趋
势曲线可以明确的反应出来。总体上分析2009年3月17日的用户请求数
量要高于2009年3月18日的水平。
说明:由于本次仅采集了3月18日的W AP GW数据,因此在进行对
比分析时采用了模拟数据进行说明。这种分析可以直观的了解对比时段内
9
,业务流量以及请求次数的变化趋势,从长期分析的角度有利于建立业务预测模型。
10