秋高气爽,是时候好好做一份旅游攻略了!

JMP数据分析 2018-08-06 08:50:08

秋高气爽,正是外出踏秋的好日子。在美国,Phersh一家也正在策划一场去国家公园的旅游。


按照惯例,Phersh每年都会和家人去一些国家公园游玩,带着孩子们一起领略更多的国家自然风光,开拓孩子们的眼界。


洛基山国家公园(Daniel Mayer拍摄),图片来源于原贴。

美国有59个国家公园,选择这么多,决定去哪儿玩也是件很头疼的事,因为需要考虑很多因素。于是在这次的出行攻略上,Phersh做了次大胆的尝试——通过JMP来帮助他挑选最合适的目的地!


本文来源于JMP Community,作者Phersh,原博地址:https://community.jmp.com/t5/JMP-Blog/Which-national-park-should-you-visit-next/ba-p/45843,感兴趣的小伙伴也可以复制到PC浏览器查看原贴及数据。


那么,究竟Phersh是如何利用JMP来帮助他做出合适的选择呢?我们一起来看看他的思路。



01

导入数据,生成词云


首先,Phersh从维基百科中导入了国家公园名单,然后,他从国家公园网站上获得了近几年来按月份排列的客流量信息。


维基百科页面对每个公园都有详细的描述,所以他抓取了这些描述放在JMP Text Explorer (文本分析器)中进行分析。结果所产生的词云如下图所示:


是不是很酷?基于这个词云,Phersh可以标出那些有山脉、河流或任一特色的公园,并且也可以在描述中突出显示任何包含这些特征的公园。


例如,如果对一个有山洞的公园感兴趣,你可以右键点击并选择,就可以清晰地了解有哪些公园有山洞及详细介绍。是不是很方便?



02

增加条件,筛选距离

 

除了公园的特色外,Phersh还需要了解公园距离他家的距离,因为这次出游他们打算自驾。


幸运的是,每个公园的位置在维基百科的页面里都有显示,所以把位置信息添加上去就不是一个问题啦!


Phersh使用这些信息和维基百科附带的图片制作了每个公园的地图,可以通过鼠标悬停在每个点上来进行预览。


为了计算出每个公园离他家的距离,他使用了一个公式来计算纬度和纬度。为了获得纬度和经度,Phersh选择使用了Google地图。

 

sqrt(x * x + y * y)  where x = 69.1 * (lat2 - lat1)  and y = 69.1 * (lon2 - lon1) * cos(lat1/57.3)

 

根据到房子的距离,Phersh对这些点进行了着色。最暗的点最靠近他在科罗拉多州丹佛的房子。下图显示了他们去年旅游过的公园之一(Big Bend—大弯国家公园)。





03

构建仪表板,快速筛选


Phersh对上面的尝试非常兴奋,他想或许可以尝试更多的事情来进行选择。比如,可以考虑构建个仪表板进行快速筛选?


  立刻试试! 

Phersh使用了一个层次过滤器的仪表板,这样可以先筛选一个主题,然后再进行下一个。用来作过滤的两个标准正是用来计算公园距离房子有多远的词云和分布


那么,构建好仪表板后怎么使用?


这也难不倒Phersh!在词云中可以选择包含任一特色的公园的词语。

 

假如,你想去一个有峡谷的公园,首先,右键单击词云中的“峡谷”,然后,仅筛选带有“峡谷”公园的选择行。之后,再选择你愿意开多远的车。


Phersh一家考虑是亲子出行,所以他们选择了距离房子500英里以内的所有公园。

 

结果,仪表板显示的结果是这样的:


可以看到,符合Phersh要求的总有6个公园:黄石国家公园,甘尼森黑峡谷国家公园,峡谷地国家公园,布莱斯峡谷国家公园,锡安国家公园和大峡谷国家公园。


这个筛选结果让Phersh很兴奋,也很惊讶,因为他之前并没有预料到开车就可以到这么棒的6个国家公园。


同时,因为他们策划的是

明年3月份的出行,所以还想看看

3月份哪些公园的客流量较少一些。

于是,他又开始查看这6个公园的分布情况,如下图所示,可以看到有两个公园(锡安和大峡谷)在3月份的客流量是相当大的,显然是不适合3月份去游玩的。


排除锡安和大峡谷后,这样就剩下4个公园可以考虑了。

这时候,Phersh还想再看看3月份的气温在各个公园间有没有较大的差别。

下图所示,一目了然:其他3个公园的温度都偏低一些,只有峡谷地国家公园最适合



没错,就是它了!


峡谷地国家公园(Michael Grindstaff 拍摄),图片来源于原贴。


这个结果让Phersh越发兴奋。他认为每个人都可以利用同样的方法,对自己周边的旅游景点做个类似的分析,这样效果岂不是很棒?



04

编写脚本,让选择更轻松


于是,Phersh去请教了他的好朋友Jerry Cooper,向他要了一个简易的方式编写这个脚本,Jerry Cooper建议他使用表变量。


Jerry建议可以通过点击数据表名称旁边的红色三角形轻松设置,并添加新的表变量。表变量可以在公式中使用,当它改变时,公式也会自动调整。


因此,只要把经纬度设置为表变量,那么一旦再更新经纬度数据,仪表板结果也就随之更新了。So easy!


看,以下就是基于北卡罗来纳州Cary(JMP总部所在地)构建的新的仪表板,这样就可以根据自己的需求来甄选出周围符合要求的目的地了。



是不是真的很酷?看了Phersh的攻略,小编都已经蠢蠢欲动了。在这个秋高气爽云淡风轻的日子里,如果你也正好在策划一场自助游,不妨也来效仿Phersh的方法试试看吧!


你可以免费试用JMP30天,由于安装程序较大,建议复制以下链接到PC端浏览器进行下载:

https://www.jmp.com/zh_cn/software/try-jmp.html?utm_campaign=td701a0000000tOVN&utm_source=Wechat&utm_medium=social  


JMP官方微信公众号

敏捷分析 成就无限