维基百科:数据库下载
此维基百科页面需要更新。 (2018年8月12日) |
维基百科提供所有完整内容的电子档案(称为“数据库转储文件”)给有兴趣的使用者。这些资料可以被重复使用,当作镜像站点,或是个人使用,或是资料备份,或是分析。所有维基百科文章都在知识共享 署名-相同方式共享 4.0协议下发布,图片以及其他档案则可能以其他的许可证发布,详情参见Wikipedia:版权信息
文章下载
数据库转储文件,也可特指名为 *-pages-articles.xml.bz2 的文件,大约每周更新一次。此文件包含了当前版本的条目、模板、图片描述及基本的元页面(不包括讨论页和用户页)。这已经可以满足绝大多数需求了,如有特殊需求,请根据压缩文件的描述下载。
- 从维基媒体基金会提供的页面下载:https://dumps.wikimedia.org/
(※)注意,不同语言的条目内容不一定相同,欢迎您协助翻译不完善的条目或提出翻译请求。
- 中文版的下载处:https://download.wikipedia.com/zhwiki/
- 文言文版的下载处:https://download.wikipedia.com/zh_classicalwiki/
- 粤语版的下载处:https://download.wikipedia.com/zh_yuewiki/
- 吴语版的下载处:https://download.wikipedia.com/wuuwiki/
- 赣语版的下载处:https://download.wikipedia.com/ganwiki/
- 客家话版的下载处:https://download.wikipedia.com/hakwiki/
- 闽南语版的下载处:https://download.wikipedia.com/zh_min_nanwiki/
- 闽东语版的下载处:https://download.wikipedia.com/cdowiki/
- 英文版的下载处:https://download.wikipedia.com/enwiki/
- 更多语言的下载处见于ftpmirror
.your .org /pub /wikimedia /dumps /,其中多数语种均以ISO 639-1代码区分。
图片及其他档案
图片(以及其他的档案)的许可证不一定是以知识共享 署名-相同方式共享 3.0协议发布,将维基百科上属于合理使用的图片或档案使用在别的用途上可能是违法的。维基百科要求使用者在上传图片时必须标明版权资讯,这些资讯也可以在下载页面取得。
总而言之,你如果要使用这些图片及档案,你必须自行判断,并负起相关责任。
自2007年5月17日之后,维基百科不再开放这些图片及档案的BitTorrent(BT)下载。
档案过大的问题
由于维基百科的资料量庞大,在下载时可能会遇到一些问题:
- 下载软体的限制
- 下载软体可能会有单一档案最大2GB或4GB的限制,如果遇到问题,可以试著用:
- Wget 1.10之后的版本
- cURL 7.11.1-1之后的版本
- axel
- 最新版的Lynx
- 最新版的Mozilla Firefox
- 档案系统对单一档案大小的限制
- 对于维基百科的档案大小而言,一般比较容易遇到问题的是FAT:
- FAT16:单一档案大小的限制是2GB。(在Windows ME及Windows NT可以支援到4GB)
- FAT32/VFAT:4GB。
除此之外,建议您使用MD5检查下载的档案是否有损毁。另外下载维基数据库时请尽量不要使用多线程下载工具以减轻维基服务器的负担。
压缩文档的解压缩
电子档案使用了bzip2或gz或7-zip压缩。解压方式如下:
- Microsoft Windows用户可以使用带有GUI的7-Zip解压缩上述两种文件格式。如果需要命令行工具,可以安装cygwin,或者使用google搜索"windows cli bzip2"找解决方案。
- Mac OS X的使用者可以透过系统内的bzip2套件解压缩。或安装p7-zip。
- GNU/Linux用户可直接在命令行下使用bzip2或gzip命令进行解压缩。或安装p7-zip。
要注意旧版的bzip2套件可能没有办法处理超过2GB的档案。
处理转储文件
数据库转储文件有xml格式的和sql格式的,sql可直接导入数据库。 xml格式需要解析后导入数据库。部分节点需要原样保留空格,请选择支持保留空格的xml解析器进行处理,以免丢失信息。
外部链接提供了一些已有的解析器实现以及wiki标记语言的格式说明,可以作为自制解析器的参考。 当然,中文帮助也是必不可少的。
关于建立维基镜像的操作,可以参考外部链接,或使用Google搜索了解详细步骤。
如果要取得运行维基百科的软件,请参见Wikipedia:MediaWiki。
您可以取得Mediawiki数据库的schema。数据库的布局请参考外部链接。
外部链接
- (英文) en:Wikipedia:Wikipedia-CD/Download,维基百科的光碟资讯。
- (英文) mw:Alternative_parsers 已有的mediawiki解析器
- (英文) mw:Markup_spec mediawiki语法描述
- (英文) mw:Manual:Database_layout 数据库布局结构
- (英文) m:Data dumps
- (英文) m:Mirroring Wikimedia project XML dumps
- (英文) mw:Manual:Importing_XML_dumps 导入数据库转储文件