首页 文章
  • 0 votes
     answers
     views

    计算R中LCA的非整数值的熵

    我使用R中的gmnl包创建了我的潜类模型,然后我需要计算熵 - 这些类是如何相互分离的 . 我尝试了下面的代码(使用poLCA包),但我得到了以下错误消息,因为并非所有变量都是整数 . 我不认为我可以将所有值转换为整数 . R中有解决方法吗? lcaE < - poLCA(LCbest,MWx1.scale,nclass = 2) ALERT :某些清单变量包含的值不是正整数 . 要...
  • 1 votes
     answers
     views

    关于ID3机器学习算法中统计熵概念的一些疑问

    我正在研究 statistic entropy concept used by ID3 machine learning algorithm 对于以学习集S(即用于构建决策树的示例集)为例的域,我需要对对象进行分类所需的平均信息量由 entropy measiure 给出 . 所以我有以下公式: 所以,例如: If S is a collection of 14 examples with 9 ...
  • 38 votes
     answers
     views

    如何计算位串的近似熵?

    有没有标准的方法来做到这一点? 谷歌搜索 - "approximate entropy" bits - 揭示了多篇学术论文,但我想找到一个伪代码块来定义任意长度的给定位串的近似熵 . (如果这说起来容易做起,而且取决于应用程序,我的应用程序涉及16,320位加密数据(密文) . 但加密为难题并不意味着无法破解 . 我想我首先检查一下熵但是不能轻易找到这样的好定义 . 所以它...
  • 7 votes
     answers
     views

    香农的熵公式 . 帮助我的困惑

    我对熵公式的理解是,它用于计算表示某些数据所需的最小位数 . 在定义时通常措辞不同,但之前的理解是我到目前为止所依赖的 . 这是我的问题 . 假设我的序列为100'1',后跟100'0'= 200位 . 字母表是{0,1},熵的基数是2.符号“0”的概率是0.5而“1”是0.5 . 因此熵是1或1位来表示1位 . 但是,您可以使用类似100 / 1/100/0的行程对其进行行程编码,其中输出的位数...
  • 3 votes
     answers
     views

    解释熵大小的经验法则

    我对熵的解释有疑问 . 对于我的数据集中的每个人,我有一个长度为17个字符(年)的字符串/序列 . 我对这个观察期内发生了多少变化特别感兴趣 . 我正在考虑使用R的TraMineR软件包来计算序列内的熵 . 我知道这可以归一化,所以最大熵变为1(最小值为0,显然) . 我的问题是,是否有任何经验法则可以说什么是高和什么是低熵(例如在相关系数的情况下) . 例如,0.4是高还是低? 谢谢 .
  • 4 votes
     answers
     views

    决策树中的Shannon熵测度

    为什么Shannon的熵测量用于决策树分支? 熵(S)= - p()log(p()) - p( - )log(p( - )) 我知道这是衡量否定的标准 . 编码信息所需的比特数;分布越均匀,熵越多 . 但我不明白为什么它经常应用于创建决策树(选择一个分支点) .
  • 6 votes
     answers
     views

    是否存在“完美”压缩算法?

    让我澄清一点,我不是在谈论能够压缩任何给定源材料的算法意义上的完美压缩,我意识到这是不可能的 . 我想要得到的是一种能够将任何源位串编码到其绝对最大压缩状态的算法,由其的Shannon熵确定 . 我相信我听说过一些关于霍夫曼编码在某种意义上最优的东西,所以我相信这个加密方案可能是基于这个,但这是我的问题: 考虑位串:a =“101010101010”,b =“110100011010” . 使用简...
  • 3 votes
     answers
     views

    英语词典的熵

    我有一个trie数据结构,存储一系列英语单词 . 例如,给定这些词,字典是这样的: aa abc aids aimed ami amo b browne brownfield brownie browser brut butcher casa cash cicca ciccio cicelies cicero cigar ciste conv cony crumply diarca diarchi...
  • 2 votes
     answers
     views

    J语言中的熵公式

    我试图从概率列表中创建一个用于计算熵的动词(事件的结果,公式在python / pesudocode中会是这样的: -sum([p*log(p,2) for p in ps]) ) . 我尝试使用合成( @: )的版本可以工作,但基于钩子和叉子的版本似乎正在做其他事情,我关心 why it's doing 它做了什么 . 我正在尝试使用钩子和叉子,这个案例确实证明了我的直觉是错误的 . 这是代码:...
  • 0 votes
     answers
     views

    Shannon熵用于块中符号的非等概率出现

    我试图理解香农熵的概念并决定码长 . 在第一种情况下, b 是一个包含5个符号的数组 . 通常, b 中可以有1到8之间的任何整数值 . 为此,Shanneon的熵= NaN . clear all b = [1,3,2,6,1]; p_1 = sum(b==1)/length(b); p_2 = sum(b==2)/length(b); p_3 = sum(b==3)/length(b); p_...
  • -1 votes
     answers
     views

    Python中用于实数数据集的信息内容

    这个问题是对previous question的补充 . 我需要从两个Python列表中计算信息内容 . 这些列表包含实数 . 我知道我可以使用以下公式,其中概率是从列表的直方图计算的 . sum_ij p(x_i,y_j) log_2 (p(x_i,y_j)/(p(x_i)p(y_j)) / - sum_i p(y_i) log_2 p(y_i) 是否有内置的Python API来计算信息内...
  • 1 votes
     answers
     views

    如何为每个字符设置0位?

    我有一个字符串ABABABAB的例子,我必须计算这个字符串的熵 . 很明显,我可以在使用不同的字母表时得到不同的数字 . 当我拿字母A = {a,b}时,我得到了熵=每个字符1位的答案(使用香农的公式)=>表示整个字符串的8位 . But what about a case when we take A={ab,aa,bb,ba}? 我们得到每个字符的熵= 0位(这也很明显,因为没有随机性)...
  • 1 votes
     answers
     views

    互信息/熵计算帮助

    希望有人可以给我一些关于这个熵问题的指示 . 假设X是从均匀整数分布0-32(包括)中随机选择的 . 我计算熵,H(X)= 32位,因为每个Xi具有相同的发生概率 . 现在,说下面的伪代码执行 . int r = rand(0,1); //随机整数0或1 r = r * 33 X; 我如何计算出两个变量r和X之间的互信息? 互信息被定义为I(X; Y)= H(X) - H(X | Y)但我真的不...
  • 1 votes
     answers
     views

    二进制文件中的熵 - 目的是什么?

    我已经阅读了香农的理论来熵以及如何为二进制文件实现这样的算法(非常简单) 但我无法弄清楚计算.exe或任何二进制文件的熵的目的是什么 我可以理解计算电信消息的熵(最坏的情况:每个符号具有相同的概率),但我无法得到二进制文件的目的 . 有人可以解释一下吗?
  • 2 votes
     answers
     views

    什么部分的数字有更多的熵?

    鉴于来自某些来源的序列pf数字,而不是PRNG但是说传感器或某种类型的记录数据,可以安全地假设像这样处理它 Nn / B = Qn Rem Mn 会导致序列 Q 比序列 M 具有更少的熵? 注意:假设 B 是 Q 和 M 具有相同的大小范围 . 这与the observation that most real world data sets, regardless or there sour...
  • 13 votes
     answers
     views

    一串英文文本的熵如何表示低质量?

    杰夫阿特伍德最近发布了一个CodeReview帖子的链接,他想知道社区是否可以改进他的“calculating entropy of a string”代码片段 . 他解释说,"We're calculating entropy of a string a few places in Stack Overflow as a signifier of low quality." ...
  • 0 votes
     answers
     views
  • 0 votes
     answers
     views

    R中的熵和互信息

    我想在R中计算条件互信息,我使用了名为infotheo的包 . 我用两种方法来计算I(X; Y1,Y2 | Z) . 首先是使用以下代码, condinformation(X$industry,cbind(X$ethnicity,X$education),S=X$gender, method="emp") [1] -1.523344 而且我认为互信息可以分解为两个熵:I(X;...
  • 0 votes
     answers
     views

    决策树中的特征重要性,离散化和标准

    我正在使用数字功能,我想在sklearn中使用决策树分类器来查找要素重要性 . 因此,如果我选择用于分裂的熵标准,则使用信息增益作为分割数据的杂质的度量 . 我猜,这相当于Fayyad和Irani二元离散化 . 最后,分类器返回一个名为“feature importances”的属性 . 功能重要性 . 功能越高,功能越重要 . 特征的重要性计算为该特征带来的标准的(标准化的)总减少量 . 它也...
  • 8 votes
     answers
     views

    使用熵的加权决策树

    我正在使用mutual information gain作为拆分函数构建二进制分类树 . 但由于训练数据偏向于几个类,因此建议通过反类频率对每个训练示例进行加权 . 如何加权训练数据?在计算估算熵的概率时,我是否采用加权平均值? 编辑:我想用权重表示熵 .
  • 3 votes
     answers
     views

    为什么我获得负面信息收益?

    [解决了] 我的错误是我没有意识到如果熵都是一种,熵就是0 . 因此,如果所有都是正数,则熵为0,如果全部为负,则它也为零 . 如果等量是正数和负数,则熵将为1 . 人们会获得负面信息,这是没有意义的 . 然而,基于这个例子,我获得了负面的信息收益 . 这是数据: 如果我计算Humidity属性的信息增益,我会得到: 显然我在这里遗漏了一些东西 . 编辑:澄清我是如何理解它的 . 整个系统的熵定...
  • 3 votes
     answers
     views

    Pandas DataFrame能否有效地计算PMI(Pointwise Mutual Information)?

    尽管像Scikit-learn这样的库提供了整体互信息度量(通过直方图),但我发现很容易使用框架或现有代码来计算Pointwise Mutual Information(Wiki PMI) . 这是在Python和熊猫的背景下! 我的问题: 我有一个DataFrame,每行有一系列[x,y]示例,并希望根据公式(或更简单的公式)计算一系列PMI值: PMI(x, y) = log( p(x,y) ...
  • 0 votes
     answers
     views

    如何在构建决策树时找到分裂点的熵?

    鉴于二进制分类问题: 有四个正面例子和五个负面例子 . 因此,P()= 4/9且P( - )= 5/9 . 训练样例的熵为-4/9 log2(4/9) - 5/9 log2(5/9)= 0.9911 . 对于a3,这是一个连续属性,我想找到每个分割的信息增益 . 所以我按升序排序a3值并找到它们的分裂点 . 但是我如何计算他们的熵? 答案是: 上图中的信息增益列仅为0.9911 - 熵 ....
  • 59 votes
     answers
     views

    什么是熵的计算机科学定义?

    我最近在我的大学开设了数据压缩课程 . 但是,我发现使用术语“熵”,因为它适用于计算机科学而不是模棱两可 . 据我所知,它大致转化为系统或结构的“随机性” . 计算机科学“熵”的正确定义是什么?

热门问题