我们已经讨论了特征选择和特征缩减,我们探索的所有技术都是严格相关的并且仅适用于文本挖掘领域。 我们已经讨论了特征选择和特征缩减,我们探索的所有技术都是严格相关的并且仅适用于文本挖掘领域。 我想向您展示一种非常强大的方法,易于实现且极其通用,因为它与问题的本质无关。 该方法称为 约束系数 (Coombs、Dawes 和 Tversky 1970)或 不确定性系数 (Press & Flannery 1988),它基于互信息概念。 更多阅读 数据驱动的白标 SEO 数据挖掘真的有助于白标 SEO 吗? IT 硬件初创公司利用数据分析进行市场研究 数字标牌中大数据和分析的力量 数据分析提高投资信托的投资回报率 释放胜利:数据收集如何彻底改变足球表现分析! 互信息 如您所知,两个随机变量 X 和 Y 之间的互信息I( X,Y )衡量的是 X 知道 Y 的不确定性,它表示 X 的不确定性(熵)被 Y 减少了多少 。看下面的公式就清楚了: 其中 H 是熵泛函。 像往常一样,我不想参与理论讨论,但我衷心推荐您深入阅读《信息论原理》一书:在我看来,这是该领域最好的书。 现在让我们重新考虑将互信息作为“特征X对分类具有标签L的文档有多大帮助”的衡量标准: 因此,对于每个标签和每个特征,我们可以计算特征排名! 当然,您可以考虑每个标签 L_i 的I(L_i,X)的平均值,或者也可以考虑更复杂的函数。
顺便说一句,您必须为特征 Xj 分配更高的排名,以最大化所有I(L_i,Xj)。 不确定系数 考虑一组标有两个不同标签的人的数据,比方说蓝色和红色,并假设对于这些人,我们有一堆变量来描述他们。 此外,我们假设变量之一是社会安全号码 (SSN) 或每个人的任何明确 ID。 让我做一些 巴拿马电话号码表 考虑: 如果我使用 SSN 来区分属于红色集的人和属于蓝色集的人,我可以达到 100% 的准确率,因为分类器不会发现不同人之间的任何重叠。 在分类器从未见过的新数据集中使用 SSN 作为预测器,结果将是灾难性的! 这种变量的熵非常高,因为它几乎是一个均匀分布的变量! 关键点是:SSN 变量可能有很大的 I 值,但它对分类工作毫无用处。 为了在“互信息排名”中考虑这一事实,我们可以将其除以特征的熵。 因此,即使 SSN 等特征具有较高的I值,它也会获得较低的排名。 这种归一化称为不确定系数。 对比实验 你对这个理论了解得够多了吗?我知道……我尽了最大努力来简化它(也许太多了……)。

我对伯克利大学本文中使用的相同数据集做了一些测试在这个测试中,作者在REUTERS数据集上做了一个布尔实验(实际上这是非常简单的测试),他们比较了使用数据集中所有单词作为特征和通过潜在狄利克雷分配方法提取的特征所获得的准确率。 该数据集包含 8000 个文档和 15818 个单词。他们在论文中声称,他们将特征空间减少了 99.6%,并使用整个数据集来“提取”特征。 在这种情况下,他们使用不超过 20% 的数据集作为训练集进行测试。 在比较测试中,我重点关注提到的第二个实验:谷物与非谷物。 这是我遵循的过程: 我选择 20% 的文档作为训练集。 从上面的训练集中,我提取了(在词干和过滤过程之后)所有单词,并使用它们来构建布尔向量。 我通过不确定性系数对单词进行排序。 我提取了前 60 个特征:仅占原始特征空间的0.38% 我训练了一个具有高斯核和非常高的 C 值的 SVM 我测试了剩余 80% 的数据集。