会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

解题思路

题目要求在给定初始聚类中心的前提下，按 $KMeans$ 聚类算法迭代更新中心点。

核心流程（重复给定迭代次数 $T$ 轮）：

分配样本：对每个样本点，计算它到每个聚类中心的欧式距离 $( d=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2+(z_1-z_2)^2} )$ 将样本分配给距离最近的中心（若距离相同，取编号更小的中心即可，代码里自然满足）。

P4571.第2题-网络流量分析

1000ms

Tried: 5048

Accepted: 610

Difficulty: 6

所属公司 : 华为

算法与标签>机器学习算法

题目内容

网络流量分析是网络安全和性能优化的关键任务。假设你有一个包含网络流量数据的数据集，每条数据包含以下特征：

$packet$ _ $size$ (数据包大小，单位，字节)

$inter$ _ $arrival$ _ $time$ (数据包到达间隔时间，单位：毫秒)

$protocol$ _ $type$ (协议类型，如 $TCP、UDP、ICMP$ 等，已转换为数值编码)

你的任务是使用 $KMeans$ 聚类算法对网络流量进行分类，分类后的中心点再经过一个分类头，能识别出可能的流量类型(如正常流量、异常流量、 $DDoS$ 攻击流量等)。 $KMeans$ 算法原理为：先将数据分为 $K$ 组，随机选取 $K$ 个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，将每一个对象分配给距离它最近的聚类中心，聚类中心以及分配给它们的对象就代表一个聚类。(为保证结果固定，本题初始的聚类中心已给出，不需要随机)

输入描述

初始聚类点个数 $k$

初始聚类中心集合(往下 $k$ 行，一行一个中心点)

迭代次数

样本个数 $m$

样本数 $m$ ，每个样本有三个特征(往下 $m$ 行，假定各特征数据已归一化处理，各维度权重占比一致)

输出描述

按给定次数迭代后新的聚类中心集合

样例1

输入

输出

35.33 30.00 30.00
50.00 9.17 60.00
25.67 80.83 90.00

说明

采用欧式距离计算不同数据之间的距离：

$d=\sqrt{\left(x_{1}-x_{2}\right)^{2}+\left(y_{1}-y_{2}\right)^{2}+\left(z_{1}-z_{2}\right)^{2}}$

计算每个特征距离中心点的距离，选择距离最近的点作为当前特征归属的类别；按照划分的类别，使用重新计算每个类别的中心点，完成一轮迭代(中心点为对应类里所有样本的平均值)

重复上述流程 $k$ 次得到结果，最终结果保留两位小数，注意四舍五入

样例2

输入

3
50 20 30
60 10 60
180 180 180
3
8
50 20 30
30 50 30
60 10 60
25 75 90
100 5 60
30 60 90
80 10 60
180 180 180

输出

40.00 35.00 30.00
59.00 32.00 72.00
180.00 180.00 180.00

说明

采用欧式距离计算不同数据之间的距离：

$d=\sqrt{\left(x_{1}-x_{2}\right)^{2}+\left(y_{1}-y_{2}\right)^{2}+\left(z_{1}-z_{2}\right)^{2}}$

重复上述流程 $k$ 次得到结果，最终结果保留两位小数，注意四舍五入

提示

取值范围

初始聚类中心点个数： $0<=n<=1000$ ，类型为 $int$

初始聚类中心点集合：每个特征的取值范围为 $0<=f<=1000$ ，类型为 $float$

迭代次数： $0<=k<=1000$ ，类型为 $int$

初始特征个数： $0<=n<=1000$ ，类型为 $int$

初始特征集合：每个特征的取值范围为 $0<=f<=1000$ ，类型为 $float$

编辑器加载中…

输入

预期输出（选填）

解题思路

P4571.第2题-网络流量分析

题目内容

输入描述

输出描述

样例1

样例2

Status

Development

Support

About