我对空间统计领域很陌生,但是我创建了三个数据集 .
Dataset - Persons: 这描述了具有一些变量的特定位置的个体 . 请注意,这些人位于所提供的城市 . 一个简短的解释:

  • POINT_X:城市的X坐标 .

  • POINT_Y:城市的Y坐标 .

  • city:他们居住的城市名称 .

  • 生病:"1"说他们生病了 . 出于学习目的,所有人都生病了 .

  • 工作:如果他们有工作 . "1"表示:他们有一个,"0"表示他们没有一个 .

  • disnw:到最近的水点的距离 .

  • wID:不相关 .

Dataset - City: 这描述了一些城市,包括一些变量 . 这些简短说明:

  • city:城市的名称 .

  • 人口:城市人口 .

  • POINT_X:城市的X坐标 .

  • POINT_Y:城市的Y坐标 .

  • 病:该市的病人数量 .

  • notill:城市 Health 人数 .

  • disnw:距离最近的水域的距离(以km为单位) .

  • wID:不相关

  • rate_ill:城市病人的比率 .

  • rate_notill:城市 Health 人口的比率 .

Dataset - Waterfeatures: . 请注意,viallages与人在同一地点 . 这是一组空间点,描述了水功能 .

  • POINT_X:水上特征的X坐标 .

  • POINT_Y:水上特征的Y坐标 .

关于设置的地理概述(红色是人,蓝色是水特征,黄色是城市)
Plot

现在我想检查这样一个假设,即靠近水域的城市(因此变量较低的城市)的病人人数较多 . 那么,病人数量/病人比例与水景的接近程度之间是否存在相关性 . 我知道,数据集可能不具有代表性或不适合我的假设,但是现在这个事实并不重要 .
我对一种合适的方法非常不确定 . 方法,可能是有用的(至少从我的角度来看):半变异函数,变异函数,Ripley的K函数,G函数,相关系数 .

为了更好地概述,我创建了示例数据集 . 你可以在这里找到这些:

persons = read.csv("http://pastebin.com/raw.php?i=3aMGi9Ax", header = TRUE, stringsAsFactors=FALSE)
city = read.csv("http://pastebin.com/raw.php?i=Lk3KXLQT", header = TRUE, stringsAsFactors=FALSE)
water = read.csv("http://pastebin.com/raw.php?i=hQRvMZwE", header = TRUE, stringsAsFactors=FALSE)

从你这边得到一些意见真是太棒了 . 也许你有一个提示,如何进行这种分析 .
提前致谢!