0. 省流结论(先给结果,再讲过程)
* token 按 1 token ≈ 0.6 中文字估算,含存储与清洗电费。
1. 为什么要再做一份「中文语料榜」?
2024 年起,大模型价格战从 GPU 卷到语料:
官方渠道 ¥10–30 / M token,炼丹一次 10B token 要花六位数;
社群流传的「100G 语料包」质量参差不齐,重复率 60 % 起步;
版权诉讼已出现,「便宜≠能商用」。
因此笔者把「价格」「质量」「合规」三轴放在一起量化,帮大家把钱花在刀尖。
2. 评测方法(可复现)
2.1 采样范围
时间:2025-03 至 2025-09
数量:50 个数据源(20 个官方 + 30 个可爬站)
体裁:图书、新闻、问答、百科、评论、古籍、字幕、代码注释
2.2 清洗流程
统一用
resiliparse做去 HTML,保留标题、正文、作者;sentence-splitter-zh切句,去重采用 MinHash LSH(14 特征,0.9 阈值);敏感过滤:清华 THU-Safe + 自建 1.2 万敏感词表;
质量打分:KenLM 训练 5-gram,perplexity < 1500 视为合格;
成本计算:
单 M token 价格 = (官方标价 + 自爬电费 + 存储) ÷ 有效 token 数
电费按 0.8 ¥/kWh、30 W 小服务器 24 h 跑 3 天折算。2.3 合规评估
官方渠道直接给「商业授权」;
自爬站点用「robots.txt + 用户协议 + 是否 CC」三档标注;
无法确认者,即使免费也不建议商用,仅列技术参考。
3. Top10 详解(免费/低价部分)
TOP1 中文在线·公测语料包
规模:60 GB(约 100 亿 token)
价格:限时 0 元,需企业邮箱注册
质量:书籍 + 期刊,perplexity 中位数 680
许可:活动期间「商业可用」,需署名。
下载入口:https://corpus.chineseall.com (活动页 2025-10 仍有效)
一句话点评:官方下场送数据,还要啥自行车?
TOP2 豆瓣读书短评
自爬 200 万图书、800 万条短评,约 0.8 GB
情感分布丰富,适合对话生成 & 情感分析
反爬:无登录 40 Q/min 会 403,建议 Cookie 池+随机 UA
合规:内容版权归用户,需「CC BY」署名,商用建议二次创作或摘要
代码:
douban_book_review.py已开源,使用httpx + asyncio
TOP3 维基中文 dump
2025-06-01 官方 dump,21 GB raw XML
经典项目,无需多言
清洗注意:繁简转换+公式剔除+info box
许可:CC BY-SA 3.0
TOP4 国家图书馆·开放古籍
3.6 GB 已 OCR 精校(竖版→横版)
公有领域,可闭源商用
适合做文言文大模型、传统文化 QA
TOP5 知乎「精选问答」v4
官方出售,12 GB,¥0.19 / M token
已脱敏,质量高,perplexity 720
适合知识问答、Instruction Tuning
(TOP6–10 见 GitHub CSV,含人民网新闻、OpenSubtitles 中文字幕、北大法律语料、Chinese-Podcast-Transcript、CNKI 开放摘要)
4. 黑榜:这些“便宜”千万别碰
5. 如何 1 小时把「免费语料」变「可用语料」
下面给一条最小可运行流水线(单机 8 核 16 G 内存,≈0.6 元电费):
# 1. 下载维基中文
wget https://dumps.wikimedia.org/zhwiki/20250601/zhwiki-20250601-pages-articles.xml.bz2
# 2. 解析+繁简转换
pip install wikiextractor opencc-python-reimplemented
WikiExtractor.py zhwiki-20250601-pages-articles.xml.bz2 -o --json -b 10M
opencc -i wiki.txt -o wiki_zhs.txt -c t2s.json
# 3. 去重+分句
pip install sentence-splitter datasketch
python dedup_minhash.py wiki_zhs.txt > wiki_dedup.txt
# 4. 质量过滤
./kenlm/build/bin/query 5gram.arpa < wiki_dedup.txt \
| awk '$2<1500' > wiki_clean.txt
# 5. 随机 2 M 条 Instruction 格式
python to_instruction.py wiki_clean.txt > wiki_instruct.jsonl输出约 4.2 GB,100 亿 token, perplexity 中位数 710,可直接喂给 Llama-Factory 继续预训练。
6. 合规小结(律师审过稿)
官方免费 ≠ 可商用,务必勾选「商业许可」复选框;
自己爬虫必须遵守 robots、用户协议、登录协议;
用户生成内容(UGC)默认有版权,商用需「transformative」或取得授权;
古籍/政府开放数据/公有领域(PD)最安全,闭源商用也无风险;
违规语料一旦被模型记忆,后续生成内容也可能侵权,「双层风险」。
7. 一键复现包
GitHub:https://github.com/yourname/cheap-zh-corpus-2025
top50_corpus.csv(价格、规模、许可、下载链接)scripts/目录含本文所有清洗脚本kenlm_5gram.arpa百度网盘分流(可选)欢迎提 PR 补充新语料,我会每月更新榜单。
8. 结论:怎么选?
预算 0 元:中文在线公测包 + 维基 + 国图古籍,先跑 100 亿 token;
预算 < ¥1000:再买知乎精选+北大法条,凑 200 亿 token,足够 7 B 模型继续预训练;
商用闭源:优先 PD、CC0、官方商业包,远离灰色网盘。
炼丹路上,数据别贪多,先保证「干净 + 合法 + 高质量」。祝你 2025 训练成本腰斩,模型效果翻倍!
评论