首页 文章
  • 12 votes
     answers
     views

    单页网页应用中的Google Analytics跟踪问题

    使用Google Analytics跟踪在单页网页应用中跟踪“网页浏览量”的最佳(最实用)方法是什么? trackevent有四个参数:CATEGORY,ACTION,LABEL,VALUE . 最后两个是可选的 . 我应该将哪个字段用于视图 Headers ?单页Web应用程序中的“视图”对应于普通Web应用程序中的页面 . 我可以看到两个选项: 1) trackevent('Navigatio...
  • 1 votes
     answers
     views

    spotfire在一个自定义表达式中的多个语句

    我有一张旅行费用表供分析 . 我想创建一个计算列,其中包含每个员工在任何给定日期具有特定类别的记录的最大计数值 . 例如,如果正在审核的类别是“晚餐”,我们想知道在任何一天收取的最大晚餐交易数量是多少 . 以下自定义表达式可以计算每位员工的晚餐费用: count(If([Expense Type]="Dinner",[Expense Type],null)) over ([Em...
  • 4 votes
     answers
     views

    庞大的稀疏数据帧,用于scipy稀疏矩阵,无需密集变换

    拥有超过100万行和30列的数据,其中一列是user_id(超过1500个不同的用户) . 我希望对此列进行单热编码,并使用ML算法(xgboost,FFM,scikit)中的数据 . 但是由于巨大的行数和唯一的用户值矩阵将是〜1百万X 1500,所以需要以稀疏格式执行此操作(否则数据会杀死所有RAM) . 对我来说,通过pandas DataFrame处理数据的便捷方式,现在它也支持稀疏格式: ...
  • 2 votes
     answers
     views

    将分类数据输入分类器

    假设我有以下格式的数据集: col1 col2 col3 col4 col5 (to be predicted) 12 13 4 primary 12 1 15 2 secondary 13 5 7 8 primary ...
  • 1 votes
     answers
     views

    在Flink流中使用静态DataSet丰富DataStream

    我正在编写一个Flink流程序,我需要使用一些静态数据集(信息库,IB)来丰富用户事件的DataStream . 例如假设我们有一个静态的买家数据集,我们有一个传入的事件点击流,对于每个我们想要添加一个布尔标志的事件,表明该事件的实施者是否是买家 . 实现此目标的理想方法是按用户ID对传入流进行分区,让用户ID再次对DataSet中的买方设置可用,然后在流中查找此DataSet中的每个事件 . 由...
  • 1 votes
     answers
     views

    Matlab互相关与相关系数问题

    我'm writing a program in C++ but using data from matlab involving Cross Correlation. I understand that when I do a correlation on 2 sets of data it gives me a single correlation coefficient number ind...
  • -1 votes
     answers
     views

    如何在R中绘制芝加哥的罪行?

    我正在使用这些数据集:https://www.kaggle.com/currie32/crimes-in-chicago . 我将所有csv文件合并到一个数据集中,并希望能够轻松地绘制一个图形,显示y轴上的犯罪和x轴上的年份 . 我尝试了这段代码,但它没有用: plot(Crime_2001_2016$Year,Crime_2001_2016$ID) . 得到此错误: Warnmeldung: ...
  • 78 votes
     answers
     views

    将多项式模型拟合为R中的数据

    我已经阅读了这个question的答案,他们非常有帮助,但我需要特别是在R的帮助 . 我在R中有一个示例数据集,如下所示: x <- c(32,64,96,118,126,144,152.5,158) y <- c(99.5,104.8,108.5,100,86,64,35.3,15) 我想为这些数据拟合一个模型,以便 y = f(x) . 我希望它是一个三阶多项式模型 . 我...
  • 4 votes
     answers
     views

    t-SNE高维数据可视化

    我有一个twitter语料库,我用它来构建情绪分析应用程序 . 语料库有5k个推文,手写标记为 - 否定,中立或正面 为了表示文本 - 我正在使用gensim word2vec预训练向量 . 每个单词都映射到300个维度 . 对于推文,我添加所有单词向量以获得单个300暗淡向量 . 因此,每条推文都映射到300维的单个向量 . 我使用t-SNE(tsne python包)可视化我的数据 . 见附图...
  • 1 votes
     answers
     views

    基于成功率的移动概率

    我想实现一个微服务,计算每个参与者的成功率 . 然后,该成功率用于评估其发生概率,例如,具有较高成功率的参与者更有可能获得任务,反之亦然,成功率最低的参与者 . 在一定时间之后,将基于成功率重新评估发生概率,并且该过程以递归方式继续 . 到目前为止我发现了什么: 为了计算成功率,我正在考虑使用 Exponentially Weighted Moving Average 在我的场景中,平滑因...
  • 2 votes
     answers
     views

    Pandas New Column基于DataFrame中找到的字符串

    尝试将一个DataFrame中的ID值与另一个DataFrame中的字符串列进行匹配,以创建新的ID字段 . 我有两个数据帧,一个只有一个文本ID列: DF1 ID elf orc panda 另一个数据帧具有不同的ID但文本列将包含来自第一个DataFrame(DF1)的ID值: DF2 AltID Text 1 The orc killed the dwarf 2 The e...
  • 0 votes
     answers
     views

    Stata:将回归结果与其他结果相结合

    我试图复制一项研究的一些结果 . 因此,我经常需要将我的回归结果与我试图复制的研究结果进行比较 . 我已经手动将我的esttab结果与excel中的研究结果相结合 . 然而,这很乏味,因为我正在使用很多变量 . 我想知道是否有办法存储研究结果,然后将它们调用到我的回归结果旁边 . 我尝试将它们存储为标量并使用estout调用它们,但是这会将存储的标量放在回归结果之下 . 我宁愿把它们并排作为另一个...
  • 0 votes
     answers
     views

    PowerPivot计算当前上下文中的日期差异

    我想把我的客户分成他们的购买活动(活跃,睡觉,死亡) . 为此,我需要找到上次购买日期和当前上下文之间的天数(因为客户可以在一个时段内休眠而在另一个时段中处于活动状态) . 所以我将计算字段添加到Customers表: LastPurchaseDate:= LASTDATE(purchases[ClearDate]) 它工作正常 . 当我尝试计算两天之间的天差时,会出现问题: LastPurch...
  • 1 votes
     answers
     views

    WEKA线性回归误差率太高

    我试图对一组数据即书籍进行线性回归,并使用所有属性预测评级 . 下面是我如何在Excel上格式化我的数据然后将文件传送到csv以将其上传到WEKA Book Author Genre Publisher Year Rating 1 1 5 1 2008 5 1 1 5 1 2008 5 1 1 5 1 2008 ...
  • 2 votes
     answers
     views

    张量流梯度和粗麻布评估

    我发现在张量流r1.2梯度和粗糙函数的评估中存在问题 . 特别是我理所当然地认为梯度的评估是在定义变量的值的数值上完成的,探测占位符函数的响应 . 然而,现在我正在尝试在模型训练之前和之后评估粗麻布函数(因此渐变),并且我总是得到相同的结果(可能根据喂食占位符) . 我使用以下功能, def eval_Consts(sess): a_v_fin, a_s_fin, a_C_fin, a_a_f...
  • 16 votes
     answers
     views

    如何使用word2vec找到最接近向量的单词

    我刚开始使用Word2vec,我想知道如何才能找到最接近向量的单词 . 我有这个向量,它是一组向量的平均向量: array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32) 是否有直接的方法在我的训练数据中找到与此向量最相似的单词? 或者唯一的解决方案是计算此向量与训练数据中每个单词的向量之间的余弦相似度,然后选择最接近的一个...
  • 0 votes
     answers
     views

    哪种预测建模技术最有帮助?

    我有一个训练数据集,根据他们在过去几年(2005-2007)的表现,给出了各种板球运动员(2008年)的排名 . 我将使用这些数据开发一个模型,然后将其应用于另一个数据集,以使用已经提供给我的数据(2009-2011)预测玩家的排名(2012) . 哪种预测模型最适合这种情况?使用不同形式的回归或神经网络的利弊是什么?
  • 0 votes
     answers
     views

    PowerBI中不同可视化的不同切片器

    我是Power BI的新手 . 让's say I have a data containing student'进行英语水平测试 . 数据的名称是 EnglishScores . 此数据中的列为 Listening , Writing , Speaking 和 StudentIDs . 我从 StudentID 创建了一个名为 StudentGrade 的测量,以根据它们所处的等级(四年级,...
  • 0 votes
     answers
     views

    集成/转换来自不同/不同来源的数据而不存储它

    我有一个用例 . 我想整合/转换来自不同/不同来源的数据而不存储它 . 数据源是数据库(oracle,db2等),Webservice(Rest / Soap),Flat文件(CSV,XML,JSON),MQ转储,大型机系统 . 我想从这些来源提取数据并进行某种智能转换和集成,并为我们的客户提供 . 它看起来像典型的ETL场景,但我的情况不同 . 我不允许存储绝望源提供的数据,这意味着,例如,我从...
  • 3 votes
     answers
     views

    如何使用Python Pandas在特定切片中制作一片DataFrame和“fillna”?

    问题是:让我们从Kaggle中获取Titanic数据集 . 我的数据框有“Pclass”,“Sex”和“Age”列 . 我需要在“年龄”栏填写NaN,其中某个组的中位数 . 如果是一等女性,我想用一年级女性的中位数填写她的年龄,而不是整个年龄段的中位数 . 问题是如何在某个切片中进行此更改? 我试过了: data['Age'][(data['Sex'] == 'female')&(data...
  • 3 votes
     answers
     views

    根据规则'safe'无法将数组数据从dtype('float64')转换为dtype('int64')

    def plot_pca_scatter3D(pca_values, x, y): for name, label in [('1', 0), ('2', 1), ('3', 2), ('4', 3)]: ax.text3D(pca_values[y == label, 0].mean(), pca_values[y == label, 1].mean() + ...
  • 3 votes
     answers
     views

    根据r中另一个数据框中的列填充数据框中的列

    我有一个评论数据框,看起来像这样(df1) Comments Apple laptops are really good for work,we should buy them Apple Iphones are too costly,we can resort to some other brands Google search is the best search engine Androi...
  • 1 votes
     answers
     views

    自动平均excel中的列集

    我必须平均设置3列 . 例: Blood_Patient1_0_R1 , Blood_Patient1_0_R2 , Blood_Patient1_0_R3 平均值在新列中 Blood_Patient1_0 同样, Blood_Patient1_3_5_R1 , Blood_Patient1_3_5_R2 , Blood_Patient1_3_5_R3 平均值位于新列 Blood_Patient1...
  • 1 votes
     answers
     views

    不可用类型:停用词的'list'错误

    这是我的代码 CSV文件的URL:https://github.com/eugeneketeni/web-mining-final-project/blob/master/Test_file.csv import pandas as pd data = pd.read_csv("https://raw.githubusercontent.com/eugeneketeni/web- m...
  • 0 votes
     answers
     views

    如何从Wishart Distrubtion生成随机协方差矩阵

    我需要为项目生成一个n×n,正定的协方差矩阵 . 建议从Wishart分布中提取 . 如何在R中生成随机协方差矩阵,理想情况下也使用Wishart分布 . 我已经尝试过rwishart()获取值,但需要更多帮助 . 谢谢
  • 78 votes
     answers
     views

    将多项式模型拟合为R中的数据

    我已经阅读了这个question的答案,他们非常有帮助,但我需要特别是在R的帮助 . 我在R中有一个示例数据集,如下所示: x <- c(32,64,96,118,126,144,152.5,158) y <- c(99.5,104.8,108.5,100,86,64,35.3,15) 我想为这些数据拟合一个模型,以便 y = f(x) . 我希望它是一个三阶多项式模型 . 我...
  • 0 votes
     answers
     views

    Pyspark自动增量为交替的值组

    我正在尝试使用Pyspark在Spark DataFrame中创建一个新列,它表示基于交替布尔值组的自动增量(或ID) . 可以说我有以下DataFrame: df.show() +-----+------------+-------------+ |id |par_id |is_on | +-----+------------+-------------+ |4000...
  • 0 votes
     answers
     views

    Power BI - DAX for Rolling Sum(运行总计)不起作用,

    我正在尝试使用DAX计算MS Power BI应用程序中的滚动总和 . 我有下表,并添加另一列显示[hours]列的运行总计, 但是我只使用以下DAX为每一行(总计)获得1个不同的值, RollingTotal = calculate (sum('costtrackerdb timesheet'[hours]), FILTER(ALL('costtr...
  • 2 votes
     answers
     views

    数据分析方法[关闭]

    我正在寻找一个报告工具 . 数据驻留在~6GB的postgresql数据库中 . 该应用程序是一个在线商店/目录应用程序,具有项目和订单 . 利益相关者正在请求一项功能,允许他们搜索项目并计算过去两年中所有这些订单的计数 . 某些行包含数量和度量单位,这将需要每行的数量和UoM的乘积 . 未来还可能需要其他报告功能 . 我没有深入研究编程的数据分析方面 . 我喜欢Clojure,所以我很高兴找到一...
  • -1 votes
     answers
     views

    大数据分析模拟

    有史以来第一篇文章,所以我们走吧! (感谢您花时间阅读!) 我目前正在大学学习并正在研究一个关于不同硬件(特别是ram-disk与hard rive)如何影响大数据分析速度的研究项目 . 我知道如何设置各种硬件和所有爵士乐,但是,我以前没有大数据分析的经验,在找了几天后我找不到答案(即使在这里) . 我需要任何软件来模拟大数据分析 - 我已经阅读过Hadoop,但不知道从哪里开始 - 而且似乎即使...

热门问题