A.缺失值處理 B.噪聲數(shù)據(jù)清除 C.一致性檢查 D.重復(fù)數(shù)據(jù)記錄處理
20Newsgroups數(shù)據(jù)集是機(jī)器學(xué)習(xí)研究中常用的標(biāo)準(zhǔn)數(shù)據(jù)集,它使用20個Usenet新聞單位上幾個月發(fā)布的18828個消息,共18828個文件,如果對該數(shù)據(jù)集使用mahout進(jìn)行文本分類,分類后得到的混淆矩陣中,部分結(jié)果如下圖所示:圖中第一行是類別名稱,第二行是屬于a類的分類情況(a類文本原有168篇),第三行是屬于b類的分類情況(b類文本原有180篇),第四行是c類的分類情況(c類文本原有189篇),根據(jù)各行的分類情況,以下分析正確的是()
A.分類算法對a類文本分類情況較好 B.分類算法對c類文本分類情況較好 C.分類算法對b類文本分類情況較好 D.分類算法對c類文本分類情況較差
A.Kdfka B.Flume C.Twitter D.Zero