大规模网络流量分析:IP地址大小估计与流量异常检测
1. 引言
如今,大量互联网服务如网页搜索、网页邮件、地图等基于网页的应用程序高度可用且免费提供。这些服务的设计、部署和维护成本高昂,其得以实现主要依赖互联网广告带来的收入。2011 年,仅美国的互联网广告行业收入就超过 310 亿美元。
检测恶意广告点击对于众多互联网服务的健康发展至关重要。恶意点击攻击指的是在对所宣传产品无实际兴趣的情况下,为在线广告商制造费用的欺诈行为,是互联网广告行业面临的最大威胁。恶意点击可分为发布商攻击和广告商攻击:
- 发布商攻击 :利用虚假流量增加发布商的在线广告收入。
- 广告商攻击 :旨在增加竞争对手广告的活动量,如展示次数或点击量,主要目的是消耗竞争对手的广告预算,限制其市场曝光度。
恶意点击的生成方式多样,使用不同的网络基础设施和复杂程度。例如,发布商可能让朋友反复点击广告,或者雇佣僵尸网络自动生成大量虚假流量。
2. IP 大小:挑战与方法
2.1 定义维度
IP 大小基于应用和时间两个维度定义:
- 应用维度 :每个 IP 针对不同应用有特定大小,取决于该应用的人类用户数量。例如,IP 的查询大小是查询搜索引擎(如 Google)的人类数量,可能与点击广告的用户数量不同。因此,应使用受估计活动的应用日志文件来估计大小。
- 时间维度 :IP 背后的人类用户数量随时间变化,如出现突发流量高峰或 IP 重新分配给家庭或公司时。大小估计