用户:Hanteng/研究:内容-来源
User:Hanteng/研究 |
---|
百度百科及中文维基比较研究: |
编辑‧环境: |
政策、发展、素质与数字 |
内容‧来源: |
中美、港台及中国性 |
接收‧使用: |
能见度、地理语言差异及用途 |
研究启示: |
关于hanteng: |
外部链接 |
研究结果: 地理分布(世界)
一言蔽之: “尽管总数上比中文维基多,百度百科的外部链接的世界地理分布,不如中文维基的多元:ccTLD和geoIP方法产生的地理分区的结果,在世界上几乎所有的地域各别比较上,中文维基的外部链接数量比百度百科的来的多(差异比例最大地区为欧洲、中东和南美 ,并非中国和美国)。”
根据本人研究所收集的所有百度及中文维基百科条目内容页所含的外部链接,hanteng利用ccTLD和geoIP两种地理区分方法,做出一系列地理分布(世界)图,由于ccTLD和geoIP方法虽然性质不同,但放在世界地图上的效果差不多,所以仅先贴上ccTLD图供参考讨论。
图上所标的数值为多除少所得的倍数值再取log10的值。
注意,根据当时收集资料,百度百科有约2M条目,中文维基有近0.4M ,百度百科为中文维基的近6倍大。在外部链接数上,百度百科有约1.3M,中文维基有0.7M ,百度百科为中文维基的近2倍大。因此,虽然就总数上百度百科拥有比中文维基更多的外部链接数,但其分布在许多世界上的区域来说,远比中文维基少。
研究结果: 语言分布
一言蔽之: “百度百科绝大部分的外部链接为中文内容(简体为主),中文维基则较多元”
根据本人研究所收集的所有百度及中文维基百科条目内容页所含的外部链接,hanteng利用character encoding的区分方法,做出语言分布饼图,在此贴上供参考讨论。
注意,此研究结果并没有使用可产生更细腻结果的语言侦测法(language detection),主要是因为以上结果可见不需要更细腻区分如英文和法文的差别,再者语言侦测法可能会产生不必要的误判,所以用character encoding的区分方法即可以语言的书写系统(writing system/langauge scripts)做出最主要并少误差的区分。
接下来还有一张图是对东亚和中文的简繁来源做进一步的区分结果,因为Unicode的内容可能是简可能是繁也有可能是混杂,所以需要进一步分析区分。
研究结果: 语言分布(东亚与中文)
一言蔽之: “百度百科绝大部分的东亚与中文的外部链接为全简体中文内容,中文维基则较平衡”
接续前述结果, hanteng进一步做出东亚与中文语言分布饼图,在此贴上供参考讨论。注意, 因为Unicode的内容可能是简可能是繁也有可能是混杂,所以需要进一步分析区分。hanteng设计了一个程式,可以计算出一中文文件偏离全简体版本的比例(等同于偏近全繁体版本的比例值), 并针对搜集的资料做出相关分布图后,选择不会出错(误差控制)的cut off比率,来区分Unicode中文文件的实质简体繁体倾向性。
上图清楚呈现,“百度百科绝大部分的东亚与中文的外部链接为全简体中文内容,中文维基则较平衡”。这也意外发现似乎采用Unicode标准的繁体中文网页较采用Unicode标准的简体中文网页来的多。
研究结果: 语言发展(东亚与中文版本)
一言蔽之: “百度百科只有简体中文内容,中文维基则在维基跨言连结中和其他中文版本及中国境内特定语言版本有来往连结关系”,显见语言政策的多元与否差异。
跨语连结:此图呈现维基百科中文版(zh)和其他语言的主要连出连入关系在所有跨语连结网的关系,注意其他百度百科只有一种中文语言版本,而维基百科则有其他中文言语版本及文言文版本。图中显示
此图另外版本另发表于
Petzold, T, Liao, H, Hartley, J & J Potts (2012). A world map of knowledge in the making: Wikipedia's inter-language linkage as a dependency explorer of global knowledge accumulation. Leonardo: Art, Science and Technology;45(3).
Petzold, T, Liao, H, Hartley, J & J Potts (2012) A World Map of Knowledge in the Making: Wikipedia’s Inter-language linking as a dependency explorer of global knowledge accumulation, In Schich, M, Malina, R, I Meirelles (Eds) Arts, Humanities and Complex Networks, MIT Press. Links to E-Book and Web Companion.
以下则分享俄文版(ru)、阿拉伯文版(ar)及土耳其文版内容。
研究结果: 地理分布(选定区域)
一言蔽之: “考量地域大小后,百度百科和中文维基外部链接差异不在中国和美国的差异,而是在香港、澳门及台湾。”
由于世界地图显示资料有其局限,如面积小的地域的可能分析重要性被隐没不见,因此为求考量各地区域的大小不同,hanteng将地理分布的世界分布结果进一步以考量区域大小的差距来进行百度百科及中文维基百科的外部链接的分布比较。
这样的比较,有利于验证百度员工之前的宣称,中文用户不需要维基百科这样的"外来"(或美国的)东西。研究外部来源的世界分布,再考量到世界各地域的大小不同,可以分除相关的"大小值"。就有意义的大小值,hanteng取国际权威组织提供的GDP(经济体大小), 网民人口(非常可能已使用网络百科的人口), 及人口(潜在使用网络百科的人口)数值来进行数据的常规化(normalization)比较。如此做就不会隐没面积小的地域的可能分析重要性。
理论上可以比世界上所有国家/地域,但在比较有效性和全面性取得平衡,hanteng选择20多个地区来做比较。选择的标准是以多样性为主,重要性为辅,所以包括许多发展不一文化不一大小不一的国家及地区,也包括中国美国日本和几个主要以中文为主要语言的国家和地区。
比较的结果以下图:第一段资料为尚未考量地域大小,第二段以下则是考量地域大小的结果。
以上结果,尚待进一步的分析和解读。不过以上资料可清清楚楚的表明一件事,当考量地域大小时,百度百科和中文维基百科外部链接的差异,主要不是“美国和中国”的差异(如百度员工所称维基百科为“外来”的东西...)。因为美国中国在客观的经济及网民人口都很大,直接和其他地域相比有其比较问题,但在除以相关大小数值后,发现百度百科和中文维基百科外部链接的差异,主要是“中国大陆地区和其他以中文为主地区”的差异。这也许对各位维基人来说是基本认识的东西,现在有了这客观的资料佐证,并且也比较容易对不了解维基和百度百科内部运作的一般大众,或许有增进对两百科内容倾向性差异的客观性了解。
研究结果: 地理分布(中美港台)
一言蔽之: 在连往中国的网站中,中文维基并没有“不够”中国 ,不过的确是比不上百度百科来的“电子商务”。
一言蔽之: 在连往美国的网站中,百度百科最爱维基百科,而中文维基百科连往的美国网站有明显地专业及资源集中偏好。
一言蔽之: 在连往香港的网站中,中文维基百科比较接近“百科全书”的多样包容性:包括香港主要新闻、政府、体育、金融及公共运输的网站;百度百科不只易受到电子商务/资讯宣传的外部链接影响,还不如中文维基百科在取得香港主要资讯的多样和权威。
一言蔽之: 在连往台湾的网站中,中文维基百科比较接近“百科全书”的多样包容性:包括台湾主要新闻、政府、金融及媒体的网站;百度百科连往台湾的网站在质和量上比香港还差/少。
为了进一步分析并说明维基百科和百度百科在这四地的前15大连结网站的差异比较,以下就分别对中国、美国、香港、台湾这四地的资料做详细分析,这些分析包含对各别主要网站中连结最多的内容做出分析,为之前未明说的分析内容。
中国
在连往中国的网站中,中文维基百科并没有“不够”中国 ,不过的确是比不上百度百科来的“电子商务”。
反差大的地方: “电子商务”而非“中国官方”
两百科连往中国最多的前15名网站中,呈现出一个极大的反差:有8个百度百科算是电子商务网站,而维基百科没有一个是。
这8个百度百科连最多的电子商务网站,有4个是卖书的({1}tushucheng.com, {4}ilucking.com, {5}tushulian.com, {13}beijingtushucheng.com),有3个是旅游或订房的 ({3}yoostrip.com, {6}51966.com, and {12}elong.com), 有1个是卖种子或农产品的({9}agri.com.cn)。这8个电子商务网站的连结总量就占所有百度百科连结的17%。 其他百度百科的前15多连结网站中,有4个是主要门户网站 ({2}sina.com.cn, {7}xinhuanet.com, {14}163.com, {15}qq.com), 其中只有新华网是中国官方所直接拥用。其他网站则是存有不同特殊性质资讯的网站,如{8}xzqh.org有行政区划、{10}worldpersondictionary.com有世界名人字典、{11}gsdkj.net为矿物。由于网络百科性质,连到门户网站(如新闻)或资讯网站(如名人字典)是可以想像的,然而这么多(一半以上)关于书籍及旅游的电子商务网站链接,是有点奇特。
反差突显中文维基百科过滤不当来源的效率?
特别值得注意的,百度百科在中国前15大的外连网站中的电子商务网站 ,几乎没有被中文维基百科给连结到。也因此,百度百科及中文维基百科的反差数据,也突显出那4大入 口网站,见N(CW)标下的数字,百度百科及中文维基百科同时连结比较多的网站,正是该4大门户网站。 中文维基百科连往中国最多的前15名网站中,不但排除了电子商务网站,且包括了9个中国主要的入口及新闻网站: {2}xinhuanet.com, {3}sina.com.cn, {4}people.com.cn, {5}163.com, {6}qq.com, {7}cntv.cn, {9}chinanews.com.cn, {12}china.com.cn and {14}sohu.com。值得注意的是其中有5个是由官方媒体所经营管理的新闻网站({2}, {4}, {7}, {9}, {12}),其连结总数也大于其他非官方媒体。
其他中文维基百科连最多的网站包括3个是体育相关网站:{8}beijing2008.cn (北京奥运), {10}dfo.cn (德国足球) and {13}tom.com (美国篮球NBA);2个学术专门数据库:(1}bioinfo.cn, {11}delta-intkey.com;还有1个政府网站{15}www.gov.cn。
以上结果两相对照,直接挑战的是中文维基“不够”中国的说法 ,不过的确是比不上百度百科来的“电子商务”。的确,若从这些“电子商务”的连结来反向找到百度百科的相关条目内容,就可以发现许多偏向宣传广告(infomercial)的内容。中文维基百科的前15大中国网站则以入口及新网资讯网站为主,而有一半以上是官方媒体。中文维基百科因此没有不够中国或不愿采用中国官方网站来源的问题。
简言之,差异在有没有排除电子商务来源,而不是有没有排除中国或中国官方来源。
美国
在连往美国的网站中,百度百科最爱维基百科,而中文维基百科连往的美国网站有明显地专业及资源集中偏好。
反差大的地方: “维基百科”本身还有对“天文及太空”偏好
连往美国网站来说,最有趣的是百度百科连最多的正是维基百科网站。
我近一步检视资料发现,连最多的是中文再来是英文维基百科,日文维基是差比较多的第三名。其他百度百科连往美国的网站对比于第一名的维基百科网站,在连结数量上大为减少,光是连往维基百科的数量就是第二名的五倍。
按照数量大小,其他百度百科连往美国的网站大致可分三类。第一类是百度百科和中文维基百科同时连很多的网站,这包括主要的篮球网站{4}nba.com和电影数据库网站{10}imdb.com。第二类网站是百度百科连很多但中文维基百科很少连(小于20)的网站,我发现有10个网站,除中文维基百科本身之外,其余9个为主要是中文内容的不同主题及功能的网站: {2}souezu.cn (搜寻?), {3}5d6d.com (免费论坛), {5}hao565.cn (年轻人入口), {6}chinaexpertsweb.net (人力资源), {7}asian-chinese-african.org (手工艺电子商务), {8}qdgqtv.cn (线上影片), {11}ey800.cn (医药), {12}world-culture-research.org(手工艺电子商务), {14}doudouditu.cn (地图)。这些网站结果相当可能也是近似资讯宣传广告的连结。剩下的网站自成第三类都有两个百科来源的连结: {9}xikao.com (中国传统戏剧), {13}eb.com (大英百科) and {15}google.cn (谷歌中国)。总结来说,百度百科的美国连结主要连往维基百科外,还有其他以中文内容为主的网站,其中不少也有可能是资讯宣传广告用的连结。
再一次,中文维基百科的连结和百度百科的连结形成反差:中文维基前15大连结美国网站排除了资讯宣传广告及可能的电子商务网站,但包括了主要的教育及学术资讯网站,而其中有几个知识领域特别突出。首先,前9个网站是意想的到的:{1}nih.gov (美国最主要的官方支助的医疗研究中心), {2}doi.org (主管数位物件注册的非营利网站), {3}sil.org (掌握世界主要语言权威数据库及资讯的非营利组织), {4}google.com (掌握大量世界网络书籍及学术搜索的网站), {5}imdb.com (电影数据库), {6}youtube.com (主要影片网站), {7}nasa.gov (美国太空总署), {8}harvard.edu and {9}caltech.edu (两个美国主要大学)。
典藏或数据库的威力: 中文维基人大量引用的美国网站特性
我进一步查看各别网站里面的资料发现,这些网站之所以享有众多连结是因为该网站有主要的数位典藏或数据库。如{1}nih.gov被连最多的是National Center for Biotechnology Information (www.ncbi.nlm.nih.gov),占所有连结数的75%;{4}google.com被连最多的是Google books,占所有连结数的34%;{8}harvard.edu被连最多的是NASA Astrophysics Data System (adsabs.harvard.edu) ,占所有连结数的74% ;{9}caltech.edu被连最多的是NASA/IPAC Extragalactic Database (ned.ipac.caltech.edu),占所有连结数的92%。
中文维基百科连往美国的大量“天文”及“太空”偏好,更进一步在第10名的{10}seds.org获到证实。
其他的中文维基百科比较多连的美国网站则含主要wiki网站 ({12}wikia.com) 主要部落格网站 ({14}blogspot.com) 一新闻网站 ({13}nytimes.com)及两个体育门户网站({11}uefa.com and {15}skysports.com)。
总结来说,中文维基百科连往美国的网站主要集中在权威资讯(如天文及太空网站)或广泛但集中的媒体来源(如电影、影片及书籍)。虽说就百科内容的性质来说,百度百科也应该连往这些位于美国的网站,但如表所述的数据见N(BB) ,除了{5}imdb.com之外,百度百科连往这些网站的连结数量相当稀少。
香港
在连往香港的网站中,中文维基百科比较接近“百科全书”的多样包容性:包括香港主要新闻、政府、体育、金融及公共运输的网站;百度百科不只易受到电子商务/资讯宣传的外部链接影响,还不如中文维基百科在取得香港主要资讯的多样和权威。
发散效应 : 数量和品质
连往香港网站的前15多网站两组相比,百度百科在连结的数量上来说,相对少很多。
仔细看这些外部链接的品质,百度百科的要比中文维基的低。百度百科连往香港的前15中有不少是电子商务网站,其中{1}ysbooking.com, {3}zzfanwen.cn, {4}zhuhere.com, and {7}kuliu.com是旅行/订房类,而{8}axdfz.gov.cn是茶。他们这些外部链接对百度百科的影响是否正向值得商确,因为反向搜查发现某些只是关于某地一家旅馆的条目内容。维基百科似乎成功地过滤掉这些网站的外部链接,就连有少量连结的{8}axdfz.gov.cn现在2012年再搜寻中文维基似乎已无连结。
尽管如此,这5个电子商务网站的连结总数就占百度连往香港的所有连结数的15%。第2类网站则为资讯宣传网站: {2}meiweizhongguo.com (食), {5}gglsw.cn (法律), {6}hxcxgl.com (顾问), {10}fushantang.com (功夫和时尚), {12}442.cn (足球), {12}52pk.com (电玩), {13}fjqhdmw.com (现为一夜情网站), and {15}whyydp.com (旅游资讯)。剩下的二个网站才是以香港为基地的主要媒体网站:{9}yahoo.com (网媒) and {14}tvb.com (电视),这两者中文维基百科则都有相当数量(5.5k以上)的连结。
两组资料相比,百度百科和中文维基百科在香港的外部链接的确有发散的效应(相同的交叉少)。
发散差别: 中文维基人引用香港网站较“百科”
发散的效应单就中文维基前15大也可以看到,除了同样连的不少的{1}yahoo.com, {2}tvb.com分占前2名,中文维基的前15大更包括了其他香港媒体,包括公共媒体香港电台{5}rthk.org.hk, 商业报纸 {6}atnext.com, {12}on.cc {13}nextmedia.com,及网络媒体 online media {3}wretch.cc {10}sina.com.hk。除此之外,还有香港政府网站{4}info.gov.hk, {14}legco.gov.hk, {15}lcsd.gov.hk及非营利的香港足球{7}hkfa.com。这15大还包括香港交易所{9}hkex.com.hk及公共通输({8}mtr.com.hk {11}681busterminal.com)的网站。
中文维基百科连往香港的前15大网站,和百度百科同样的网站相比,就比较接近“百科全书”的多样包容性:包括香港主要新闻、政府、体育、金融及公共运输的网站。在连往香港连结中,百度百科不只易受到电子商务/资讯宣传的外部链接影响,还不如中文维基百科在取得香港主要资讯的多样和权威:两者在连结的数量及品质上大不相同,有发散效应 。
台湾
在连往台湾的网站中,中文维基百科比较接近“百科全书”的多样包容性:包括台湾主要新闻、政府、金融及媒体的网站;百度百科连往台湾的网站在质和量上比香港还差/少。
发散效应 : 数量和品质
连往台湾网站的前15多网站两组相比,就像前述香港组的资料类似,百度百科在连结的数量上来说,相对少很多。注意,台湾组的数据比香港还来的糟:百度百科连往香港的前15大,大致上都有250个以上的连结,然而在台湾组数据上只有前3大有250以上的连结。由于连结数量偏低,在此我只单就百度百科连结台湾的前5大做讨论。
百度百科连结台湾的前2大分别为中研院{1}sinica.edu.tw和国立故宫博物院{2}npm.gov.tw ,里面不少为研究及学术典藏或数据库的资料。第3大为华文音乐网站的电子商务网站。第4大为门户网站{4}yahoo.com。第5大为付费百科网站,包括大英、中国、及台湾百科的付费门户网站。虽然这些网站是反映了百科内容所需的多样来源特性,但数量之低,意谓著百度百科并没有太多连往位于台湾的网站。
两组资料相比,百度百科和中文维基百科在台湾的外部链接的确有发散的效应(相同的交叉少)。
发散差别: 中文维基人引用台湾网站较“百科”
相较之下,中文维基百科在纳入连往台湾的外部链接来说,相对的在数量及多样性上,较百度百科来的“百科”。中文维基百科在连往台湾的外部链接 ,不只包括了前述的中研究{1}sinica.edu.tw 及门户网站 {3}yahoo.com,更包括了台湾的主要报纸媒体,如自由时报 {2}libertytimes.com.tw, 联合报系 {4}udn.com 及中时报系{5}chinatimes.com。
这15大也包括了其他台湾的主要媒体网站,如电视{15}tvbs.com.tw、网络媒体media {6}yam.com, {10}nownews.com and {12}pixnet.net。台湾股票的官方权威网站{7}tse.com.tw也在其中。有3个主要大学网站,1个是台北市管辖的中小学网站集合。这15大只有1个是台湾政府的网站:立法院{13}ly.gov.tw。
比较台湾组的资料,中文维基百科的外部链接又一次被证明是更多元、更反映台湾的主要权威资讯来源:特别是包括主要新闻、教育、政府网站,而这些网站在百度百科内则鲜少出现。
唯一例外是百度百科在账面上比中文维基百科有更多连往故宫博物馆的连结,然而就实质上,中文维基百科引用故宫博物馆的连结是更多的。这理由主要是因为在中文维基百科中,许多连往故宫的连结都被中继的档案命名空间”File:”所取代,因此这些连结在中文维基百科变成了内部链接,而在本研究方法上就算不到了。
(注:2012年12月写作时,谷歌搜寻中文维基百科中连往故宫网站的数量为 873: 关键字“npm.gov.tw site:zh.wikipedia.org”。此数据高于在百度百科的417: 关键字“npm.gov.tw site:baike.baidu.com” 。而在中文维基百科的相关谷歌搜寻结果中,有不少正是以 “File:” 为命名空间的结果页面。)
从台湾和香港的两组资料可见,百度百科和中文维基百科的外部链接的发散性高,重叠率很低:不只百度百科在连往两地的连结数量少很多,品质也相较之下因过多电子商务和资讯宣传网站,而低落不少 ;中文维基百科,相较之下,则包纳了香港及台湾的主要新闻及部分政府网站。
小结
以百度百科及维基百科条目内容所有外部链接, 按其geoIP位置分类后的前15名网站比较, 可以有以下观察:
(研究假设: 百科做为三级内容, 其内容走向可以由其外部引用连结做为内容倾向的分析)
- 百度百科有不少电子商务及infomercial网站(特别在中国和香港, 如香港第14名原为福建单位办的行政划区网, 先为一夜情网站);
- 维基百科并非百度相关人士指控的, 不够“中国”或“中文”;
- 百度百科大量引用维基百科;
- 百度百科并无大量引用来自香港及台湾的网站内容, 同时对相关媒体及政府网站的引用相较为少。
志谢记录
谢谢LungZeno、Shizhao、Liangent等的留言和建议,hanteng 将先前地理分布的研究结果做出更新。解决以下问题:
- 使用China Cache 及Akamai Technologies 的主要中国网站有不少连结geoIP值会判成位于境外的网站,所以把这些geoIP值再回归到各别网站的主要营运地点,像使用Akamai Technologies的QQ及使用China Cache的中国官方媒体网站。
- 将一些网站的中文名称做一点修改,以符合最新及资料中主要内容的网站名称。
研究方法: 地理分布
服务器跨界处理
部分网站, 由于其服务器可能有跨界, 或采用Content Delivery Networks (CDN)的快取服务, 各别的geoIP资料会有跨界分散的现象, 如: qq.com及 sina.com* 的跨界分布
Row Labels BB CW Grand Total CN 33961 6914 40875 HK 14 985 999 TW 20 383 403 US 38 455 493 Grand Total 34033 8737 42770
- qq.com* 的跨界分布
Row Labels BB CW Grand Total ?? 51 51 AU 15 15 CN 2009 170 2179 HK 4328 857 5185 TW 1622 19 1641 US 20 20 Grand Total 8045 1046 9091
由于一些中国官方及主要媒体, 有直接及间接证据使用如China Cache的CDN服务,以集中回归其主要组织或服务器所在地, 像www.gov.cn, xinhuanet.com, people.com.cn,china.com.cn,cntv.cn,cctv.com,npc.gov.cn,cri.cn都归为CN来处理。
由于*.sina.com*在各地有不同营运中心,因此没有再处理。
由于*.qq.com 有直接及间接证据使用如Akamai Technologies的CDN服务,以集中回归为CN来处理。
hanteng相信对中文维基百科及百度百科的比较研究,将有助维基百科全书的建设。hanteng更相信维基的善意假定亦是互联网发展的基石。hanteng 的cv及学术部落格 |