首页 文章
  • 4 votes
     answers
     views

    决策树中的Shannon熵测度

    为什么Shannon的熵测量用于决策树分支? 熵(S)= - p()log(p()) - p( - )log(p( - )) 我知道这是衡量否定的标准 . 编码信息所需的比特数;分布越均匀,熵越多 . 但我不明白为什么它经常应用于创建决策树(选择一个分支点) .
  • 6 votes
     answers
     views

    是否存在“完美”压缩算法?

    让我澄清一点,我不是在谈论能够压缩任何给定源材料的算法意义上的完美压缩,我意识到这是不可能的 . 我想要得到的是一种能够将任何源位串编码到其绝对最大压缩状态的算法,由其的Shannon熵确定 . 我相信我听说过一些关于霍夫曼编码在某种意义上最优的东西,所以我相信这个加密方案可能是基于这个,但这是我的问题: 考虑位串:a =“101010101010”,b =“110100011010” . 使用简...
  • 1 votes
     answers
     views

    如何计算N个变量的shannon熵和互信息

    我需要计算互信息,以及N个变量的shannon熵 . 我写了一个代码来计算某种分布的shannon熵 . 假设我有一个变量x,数组 . 在definition of shannon entropy之后我需要计算归一化的概率密度函数,因此使用numpy.histogram很容易得到它 . import scipy.integrate as scint from numpy import* from ...
  • 0 votes
     answers
     views

    Shannon熵用于块中符号的非等概率出现

    我试图理解香农熵的概念并决定码长 . 在第一种情况下, b 是一个包含5个符号的数组 . 通常, b 中可以有1到8之间的任何整数值 . 为此,Shanneon的熵= NaN . clear all b = [1,3,2,6,1]; p_1 = sum(b==1)/length(b); p_2 = sum(b==2)/length(b); p_3 = sum(b==3)/length(b); p_...
  • -1 votes
     answers
     views

    Python中用于实数数据集的信息内容

    这个问题是对previous question的补充 . 我需要从两个Python列表中计算信息内容 . 这些列表包含实数 . 我知道我可以使用以下公式,其中概率是从列表的直方图计算的 . sum_ij p(x_i,y_j) log_2 (p(x_i,y_j)/(p(x_i)p(y_j)) / - sum_i p(y_i) log_2 p(y_i) 是否有内置的Python API来计算信息内...
  • 1 votes
     answers
     views

    互信息/熵计算帮助

    希望有人可以给我一些关于这个熵问题的指示 . 假设X是从均匀整数分布0-32(包括)中随机选择的 . 我计算熵,H(X)= 32位,因为每个Xi具有相同的发生概率 . 现在,说下面的伪代码执行 . int r = rand(0,1); //随机整数0或1 r = r * 33 X; 我如何计算出两个变量r和X之间的互信息? 互信息被定义为I(X; Y)= H(X) - H(X | Y)但我真的不...
  • 2 votes
     answers
     views

    什么部分的数字有更多的熵?

    鉴于来自某些来源的序列pf数字,而不是PRNG但是说传感器或某种类型的记录数据,可以安全地假设像这样处理它 Nn / B = Qn Rem Mn 会导致序列 Q 比序列 M 具有更少的熵? 注意:假设 B 是 Q 和 M 具有相同的大小范围 . 这与the observation that most real world data sets, regardless or there sour...
  • 1 votes
     answers
     views

    如何在两步决策中计算信息熵?

    我有一个问题,我认为它涉及信息理论领域的“条件熵” . 我试图绕过它,但可以使用一些帮助 . 考虑一个我们有四个房子的例子 . 在第一个房子里有八个人,四个人住在第二个房子里,第三个房子里有两个人,第四个房子里有两个人 . 所以,四个房子和十六个人 . 如果我只是随意选择这些人中的一个,那么该选择是从16个人中选择的,产生用于该选择的4比特的信息熵 . 但现在考虑两步选择,首先我随机选择一个房子,...
  • 13 votes
     answers
     views

    一串英文文本的熵如何表示低质量?

    杰夫阿特伍德最近发布了一个CodeReview帖子的链接,他想知道社区是否可以改进他的“calculating entropy of a string”代码片段 . 他解释说,"We're calculating entropy of a string a few places in Stack Overflow as a signifier of low quality." ...
  • 0 votes
     answers
     views
  • 0 votes
     answers
     views

    R中的熵和互信息

    我想在R中计算条件互信息,我使用了名为infotheo的包 . 我用两种方法来计算I(X; Y1,Y2 | Z) . 首先是使用以下代码, condinformation(X$industry,cbind(X$ethnicity,X$education),S=X$gender, method="emp") [1] -1.523344 而且我认为互信息可以分解为两个熵:I(X;...
  • 2 votes
     answers
     views

    python zlib - 压缩字符串的大小与香农熵

    我试图更好地理解压缩算法的输出 - 如zlib - 如何与一个人的理论预期相比较 . 所以我有几个问题 . (1)首先,我想检查一下我是否正确计算了压缩率 . 假设我想压缩1000个数组,我可以执行以下操作 # encode the array such that len(s) == 1000 bytes s = np.ones(1000, dtype='uint8').tostring() ...
  • 38 votes
     answers
     views

    如何计算位串的近似熵?

    有没有标准的方法来做到这一点? 谷歌搜索 - "approximate entropy" bits - 揭示了多篇学术论文,但我想找到一个伪代码块来定义任意长度的给定位串的近似熵 . (如果这说起来容易做起,而且取决于应用程序,我的应用程序涉及16,320位加密数据(密文) . 但加密为难题并不意味着无法破解 . 我想我首先检查一下熵但是不能轻易找到这样的好定义 . 所以它...
  • 7 votes
     answers
     views

    香农的熵公式 . 帮助我的困惑

    我对熵公式的理解是,它用于计算表示某些数据所需的最小位数 . 在定义时通常措辞不同,但之前的理解是我到目前为止所依赖的 . 这是我的问题 . 假设我的序列为100'1',后跟100'0'= 200位 . 字母表是{0,1},熵的基数是2.符号“0”的概率是0.5而“1”是0.5 . 因此熵是1或1位来表示1位 . 但是,您可以使用类似100 / 1/100/0的行程对其进行行程编码,其中输出的位数...
  • 0 votes
     answers
     views

    决策树中的特征重要性,离散化和标准

    我正在使用数字功能,我想在sklearn中使用决策树分类器来查找要素重要性 . 因此,如果我选择用于分裂的熵标准,则使用信息增益作为分割数据的杂质的度量 . 我猜,这相当于Fayyad和Irani二元离散化 . 最后,分类器返回一个名为“feature importances”的属性 . 功能重要性 . 功能越高,功能越重要 . 特征的重要性计算为该特征带来的标准的(标准化的)总减少量 . 它也...
  • 59 votes
     answers
     views

    什么是熵的计算机科学定义?

    我最近在我的大学开设了数据压缩课程 . 但是,我发现使用术语“熵”,因为它适用于计算机科学而不是模棱两可 . 据我所知,它大致转化为系统或结构的“随机性” . 计算机科学“熵”的正确定义是什么?

热门问题