0. 省流结论(先给结果,再讲过程)

排名

数据源

规模

单 M token ¥*

商业许可

备注

1

中文在线·公测语料包

60 GB

0.00

限时免费(需注册)

书籍+期刊,质量高

2

豆瓣读书短评(自爬)

0.8 GB

0.05

需遵守 robots、CC 引用

情感丰富,适合对话

3

维基中文(官方 dump)

21 GB

0.00

CC BY-SA

经典,需清洗

4

国家图书馆·开放古籍

3.6 GB

0.00

PD(公有领域)

OCR 已校对

5

知乎「精选问答」v4

12 GB

0.19

知识共享 署名

官方出售,合规省心

49

某宝「5 元 100G」网盘

100 GB

0.01

风险极高,含大量垃圾

50

微博超话(自爬)

45 GB

0.03

需三重脱敏

反爬强、封号快

* token 按 1 token ≈ 0.6 中文字估算,含存储与清洗电费。


1. 为什么要再做一份「中文语料榜」?

2024 年起,大模型价格战从 GPU 卷到语料:

  • 官方渠道 ¥10–30 / M token,炼丹一次 10B token 要花六位数;

  • 社群流传的「100G 语料包」质量参差不齐,重复率 60 % 起步;

  • 版权诉讼已出现,「便宜≠能商用」。

因此笔者把「价格」「质量」「合规」三轴放在一起量化,帮大家把钱花在刀尖。


2. 评测方法(可复现)

2.1 采样范围

  • 时间:2025-03 至 2025-09

  • 数量:50 个数据源(20 个官方 + 30 个可爬站)

  • 体裁:图书、新闻、问答、百科、评论、古籍、字幕、代码注释

2.2 清洗流程

  1. 统一用 resiliparse 做去 HTML,保留标题、正文、作者;

  2. sentence-splitter-zh 切句,去重采用 MinHash LSH(14 特征,0.9 阈值);

  3. 敏感过滤:清华 THU-Safe + 自建 1.2 万敏感词表;

  4. 质量打分:KenLM 训练 5-gram,perplexity < 1500 视为合格;

成本计算:

单 M token 价格 = (官方标价 + 自爬电费 + 存储) ÷ 有效 token 数
电费按 0.8 ¥/kWh、30 W 小服务器 24 h 跑 3 天折算。

2.3 合规评估

  • 官方渠道直接给「商业授权」;

  • 自爬站点用「robots.txt + 用户协议 + 是否 CC」三档标注;

  • 无法确认者,即使免费也不建议商用,仅列技术参考。


3. Top10 详解(免费/低价部分)

TOP1 中文在线·公测语料包

  • 规模:60 GB(约 100 亿 token)

  • 价格:限时 0 元,需企业邮箱注册

  • 质量:书籍 + 期刊,perplexity 中位数 680

  • 许可:活动期间「商业可用」,需署名。

  • 下载入口:https://corpus.chineseall.com (活动页 2025-10 仍有效)

  • 一句话点评:官方下场送数据,还要啥自行车?

TOP2 豆瓣读书短评

  • 自爬 200 万图书、800 万条短评,约 0.8 GB

  • 情感分布丰富,适合对话生成 & 情感分析

  • 反爬:无登录 40 Q/min 会 403,建议 Cookie 池+随机 UA

  • 合规:内容版权归用户,需「CC BY」署名,商用建议二次创作或摘要

  • 代码:douban_book_review.py 已开源,使用 httpx + asyncio

TOP3 维基中文 dump

  • 2025-06-01 官方 dump,21 GB raw XML

  • 经典项目,无需多言

  • 清洗注意:繁简转换+公式剔除+info box

  • 许可:CC BY-SA 3.0

TOP4 国家图书馆·开放古籍

  • 3.6 GB 已 OCR 精校(竖版→横版)

  • 公有领域,可闭源商用

  • 适合做文言文大模型、传统文化 QA

TOP5 知乎「精选问答」v4

  • 官方出售,12 GB,¥0.19 / M token

  • 已脱敏,质量高,perplexity 720

  • 适合知识问答、Instruction Tuning

(TOP6–10 见 GitHub CSV,含人民网新闻、OpenSubtitles 中文字幕、北大法律语料、Chinese-Podcast-Transcript、CNKI 开放摘要)


4. 黑榜:这些“便宜”千万别碰

数据源

问题

备注

某宝「100G 语料 5 元」

重复率 80 %,含 HTML 标签、广告、违法内容

无版权,索赔风险高

微博超话自爬

反爬 1 小时封 3 次号;需三重脱敏

个人学习可,商用免

匿名网盘「Common Crawl 中文」2016

简体繁体乱码,perplexity > 3000

浪费算力


5. 如何 1 小时把「免费语料」变「可用语料」

下面给一条最小可运行流水线(单机 8 核 16 G 内存,≈0.6 元电费):

# 1. 下载维基中文
wget https://dumps.wikimedia.org/zhwiki/20250601/zhwiki-20250601-pages-articles.xml.bz2

# 2. 解析+繁简转换
pip install wikiextractor opencc-python-reimplemented
WikiExtractor.py zhwiki-20250601-pages-articles.xml.bz2 -o --json -b 10M
opencc -i wiki.txt -o wiki_zhs.txt -c t2s.json

# 3. 去重+分句
pip install sentence-splitter datasketch
python dedup_minhash.py wiki_zhs.txt > wiki_dedup.txt

# 4. 质量过滤
./kenlm/build/bin/query 5gram.arpa < wiki_dedup.txt \
  | awk '$2<1500' > wiki_clean.txt

# 5. 随机 2 M 条 Instruction 格式
python to_instruction.py wiki_clean.txt > wiki_instruct.jsonl

输出约 4.2 GB,100 亿 token, perplexity 中位数 710,可直接喂给 Llama-Factory 继续预训练。


6. 合规小结(律师审过稿)

  1. 官方免费 ≠ 可商用,务必勾选「商业许可」复选框;

  2. 自己爬虫必须遵守 robots、用户协议、登录协议;

  3. 用户生成内容(UGC)默认有版权,商用需「transformative」或取得授权;

  4. 古籍/政府开放数据/公有领域(PD)最安全,闭源商用也无风险;

  5. 违规语料一旦被模型记忆,后续生成内容也可能侵权,「双层风险」。


7. 一键复现包

GitHub:https://github.com/yourname/cheap-zh-corpus-2025

  • top50_corpus.csv(价格、规模、许可、下载链接)

  • scripts/ 目录含本文所有清洗脚本

  • kenlm_5gram.arpa 百度网盘分流(可选)

  • 欢迎提 PR 补充新语料,我会每月更新榜单。


8. 结论:怎么选?

  • 预算 0 元:中文在线公测包 + 维基 + 国图古籍,先跑 100 亿 token;

  • 预算 < ¥1000:再买知乎精选+北大法条,凑 200 亿 token,足够 7 B 模型继续预训练;

  • 商用闭源:优先 PD、CC0、官方商业包,远离灰色网盘。

炼丹路上,数据别贪多,先保证「干净 + 合法 + 高质量」。祝你 2025 训练成本腰斩,模型效果翻倍!