Skip to main content

MediaWikiDump

MediaWiki XML Dumps 包含一个维基的内容 (维基页面及其所有修订),不包括与网站相关的数据。XML 转储并不创建维基数据库的完整备份, 转储不包含用户帐户、图像、编辑日志等。

安装和设置

我们需要安装几个 Python 包。

mediawiki-utilities 在未合并的分支中支持 XML schema 0.11。

pip install -qU git+https://github.com/mediawiki-utilities/python-mwtypes@updates_schema_0.11

mediawiki-utilities mwxml 存在一个 bug,修复的 PR 正在等待中。

pip install -qU git+https://github.com/gdedrouas/python-mwxml@xml_format_0.11
pip install -qU mwparserfromhell

文档加载器

查看 用法示例

from langchain_community.document_loaders import MWDumpLoader

此页面是否有帮助?


您还可以留下详细的反馈 在 GitHub 上