6500
5.
假设
12
个销售价格记录如下:
6,11,205,14,16,216,36,51,12,56,73,93
。
(
1
)
使用等深划分时,将其划分为四个箱,
16
在第几个箱?
(
2
)
使用等宽划分时,将其划分为四个箱,
16
在第几个箱?
(
3
)
利用等深分箱法,将其划分为
3
个箱,平均值平滑法进行平滑处理,第
2
个箱的取值为多少?
(
4
)
利用等宽分箱法,将其划分为
3
个箱,边界平滑法进行平滑处理,第
2
个箱内数据值为多少?
6.
取鸢尾花数据集(
http://www.ics.uci.edu/~mlearn/MLRepository.html
),利用
pyspark
中的
Bucketizer
函数,对四个数值型属性分别进行数据离散化。
7.
为了调查某个微信小程序受众人群分布情况,
可采用哪些抽样方法?哪种方
法效果更好?请分析原因。
8.
给定
m
个元素的集合,这些元素划分成了
k
组,其中第
i
组的大小为
𝑚𝑚
𝑖𝑖
。如
果目标是得到容量为
n
(
n
<
m
)
的样本,
下面两种抽样方案有什么区别?
(假
定使用有放回抽样)
(
1
)从每组随机地选择
𝑛𝑛
×
𝑚𝑚
𝑖𝑖
/
𝑚𝑚
个元素。
(
2
)从数据集中随机地选择
n
个元素(不考虑元素属于哪个组)。