文本挖掘评出全球最时尚城市
2014/5/8 点击数:3654
[作者] 老树根新生涯
[摘要] 今天看到新浪网一条新闻,说的是“纽约获评为全球最时尚城市,上海排第10名”(其中有些翻译错误,司空见惯,不去说它了),这类排名媒体感兴趣,可以抓眼球,说实话其实价值不一定很高,对我来说,感兴趣的是了解一下它的方法。查了原文,这家公司号称“全球语言监测Global Language Monitor (GLM)”,成立于2003年,它现在自称自己是大数据分析的先驱。
今天看到新浪网一条新闻,说的是“纽约获评为全球最时尚城市,上海排第10名”(其中有些翻译错误,司空见惯,不去说它了),这类排名媒体感兴趣,可以抓眼球,说实话其实价值不一定很高,对我来说,感兴趣的是了解一下它的方法。查了原文,这家公司号称“全球语言监测Global Language Monitor (GLM)”,成立于2003年,它现在自称自己是大数据分析的先驱。我仔细查了网页,关于方法部分只是这样两段简单的文字:
This exclusive ranking is based upon GLM’s Narrative Tracking technology. NarrativeTracker analyzes the Internet, blogosphere, the top 250,000 print and electronic news media, as well as new social media sources (such as Twitter) as they emerge.
The words, phrases and concepts are tracked in relation to their frequency, contextual usage and appearance in global media outlets
大意是,GLM采用了一种叫做叙事跟踪的技术,分析互联网、博客、25万件位于前列的印刷和电子媒体,以及诸如推特在内的新型社交媒体。它不是简单的计量词频,而是将词语的频度、上下文和载体结合起来分析。
2月4日英国一家叫做《每日邮报(Daily Mail)》的报纸2月4日首次报道GLM的全球时尚城市排名。英国金融时报(FT)博客同日评论补充了些细节,如GLM选取的是媒体、网络上与时尚有关的词语。GLM网页显著位置转引了FT和Gartner对它产品的报道文字为自己捧场。
其实这就是文本分析,说大数据是比较勉强的,因为仅仅对文本做的分析,无论数据量多少,还是属于文本挖掘(Text Mining)范畴,当然可以说这是排名领域“数据驱动的创新”,差不多可以算Altmetrics的一个应用案例。
问题来了,如果只是依据上述简单的表述,我们凭什么相信它的结论?GLM网页上说它的时尚城市排名已经搞了10年,它每年是不是采用相同的模型?新媒体每年都会有变化(只要想想我们身边的短信、微博和微信,“风流总被雨打风吹去”)它们的权重怎么选取?该不该跟着变化?这次公布了排位相对于上一年的升降,而排名的升降必须保持一致性才有意义,做过指数测度的人应该知道其中的水有多深。
当然,它声称产品卖给了财富500强公司、高等教育市场(!)和高科技公司等客户,相信如果它想要收钱,这些疑问都必须有个交代。而真实情况往往是,当技术细节揭开后,神秘性也就大大减少了,常常会发出一声感叹:原来如此!我在工作期间曾经主持花费数以万计的价格购买过国外公司“信息社会指数”和媒体测评的产品,结果都是如此,不过这些看似简单的数据选取、权重决定应该是有理论基础、还有大量经验的支撑,但是没有看到具体细节一切都不好说。
知道这些情况后我不得不对那些耸人听闻的排名保持冷漠。