Analyzing Printing Trends in Late Imperial China Using Large Bibliometric Datasets

Posted on 2024-08-05 Edited on 2019-02-28

作者名: Paul Vierthaler
期刊名: Harvard Journal of Asiatic Studies
期数: Harvard Journal of Asiatic Studies, Volume 76, Numbers 1 & 2, 2016, pp. 87-133(Article)
其他信息: 摘要：各種網上圖書館目錄包含關於明清時期古籍善本的目錄學資料。WorldCat保存了三萬五千條從1550至1799年間所刊書籍的記錄。這些記錄包括版框面積、風格等詳細的信息。歷時性分析表明版框很小的書籍的數量在十八世紀末急劇增加，也確證何谷理關於清朝的小說印本縮小的假說。

正文:

由Harvard-Yenching Institute出版DOI：

https://doi.org/10.1353/jas.2016.0005

使用大型文献计量数据集分析中国帝国的印刷趋势

Paul Vierthaler ?莱顿大学

由于数字化的不断增加

biblio图形信息可用，现在可以比以往更大范围和精确地显示印刷文化和历史的轮廓。数字定量分析已经在其他领域得到应用，为中国晚期文学和印刷史提供了一种富有成效的新方法。这种新的认识论方法侧重于聚合门控和统计评估结构化数据。它是补充

摘要：在晚期期间写的中文文本的在线图书馆目录记录包含大量传统的书目信息。通过WorldCat提供的1550至1799年文本的近35,000条记录，以微小的细节描述这些作品：页面文本框的大小，每页的字符数，打印质量，流派等。汇总这些书目信息可以实现快速且统计上严格的定量印刷历史方法。历时分析这些记录所代表的晚期帝国文本的文本框架的大小显示在十八世纪后半期非常小的格式文本的产生迅速增加。当与类型信息相结合时，这一分析证实了罗伯特黑格尔的假设，即在清朝时期以较小的形式印刷小说，并追溯到1750年代这种趋势的起源。 ? 1550？ 1799 ? ?世界?致谢：俄亥俄州都柏林的在线计算机图书馆中心（OCLC）（www .oclc.org）慷慨地让我可以访问WorldCat搜索应用程序编程接口（API）并允许使用其中存储的数据进行分析。我还要感谢Tina Lu，Peter Leonard，Shannon Stewart，Mark Elliott，Joshua Frydman，Melissa J. Brown，Caroline Reeves以及他们对这份手稿的输入的匿名审稿人。在记忆中，Carl August Vierthaler。

由哈佛燕京学院出版

HJAS 76（2016）：87-133

88 Paul Vierthaler

传统方法，因为学者可以使用定量方法来重新评估旧的假设以及探索新的假设。例如，探索性统计分析和数据可视化可以跟踪生产量，规模和信息密度的变化。这种对大型书目数据库的数字化定量分析提供了对中国文献和印刷历史的灵活，细粒度和严谨的见解，小规模的定量或定性分析可能无法揭示。

In引入一种方法，从其他领域开发的创新，到中国晚期的中国研究，以及一般的亚洲研究，我希望为学者提供一个机会，以发现几乎可以肯定潜藏在无内容数据集中的令人惊讶的结果，例如这里使用的数据集。然而，本文的重点是方法论。像许多基于计算的方法一样，我在本文中描述的方法显着地提高了分析的速度，简易性和范围，为学者们提供了将数据聚合和初步分析委托给计算机的机会，从而为进一步分析腾出时间和探索 - 新定位现象的定性和定量。

由于图书馆已经对其馆藏数据进行了数字化处理，因此他们偶然在其作品的许多项目中产生了大量的元数据，从作者和出版社到物理描述其内容的项目和摘要。因此，现在可以通过在线图书馆目录广泛获取各种中文文本的数字化信息.1这一书目数据为未来的研究提供了很好的途径。学者们可以深入挖掘在线记录中跟踪的多个单独文本特征之间的相互关系，同时不断聚合信息以改进和扩展他们的分析。本文演示了如何与传统来源和分析相结合的上述源基础和数字分析，可用于跟踪晚期帝国中文文本中生产量，大小和信息密度的变化。

中国晚期文学的学者们都受到祝福，并且被过多的消息来源诅咒。这些作品提供了他的 -

1该项目使用的是十六至十八世纪中国文本的数据，但这些数据

方法在任何可获得此类信息的领域都很有用。

分析文献计量数据集89

允许现代学者重建晚期帝国文化的重要方面的复兴和文学材料。虽然产生了许多具有重要文化价值的作品，但大多数作品都是差的文学或物质。这些作品遭受了高水平的消耗，并且在他们幸存的情况下，经常被学者忽视。尽管如此，这些数百至数千件作品对于帝国时期晚期的知识经济至关重要，因此对于晚期帝国印刷和印刷文化的更细致的理解至关重要。薪酬固有的回报 - 对这些文本的关注是伟大的，但传统研究方法的劳动密集型性质使得这样的工作过于令人沮丧。重要的是开发便于收集的工具和分析以建立过去的一些解决方案。对这种文本过多的晚期帝国回答是对注释书目的大量汇编（尽管编写了书目参考书目的日期）远远超过晚期的帝国时期）。当时的读者可以利用它们在以前的文学作品中获得更好的汉语。本文讨论的数字方法是这一聚合和求和过程的智能继承者。与早期注释的参考书目一样，数字方法收集有关文本的信息，并允许读者退后一步，评估大趋势。因此，将在线图书馆目录中的元数据理解为这些较旧的书目作品的数字模拟是很有用的。实际上，这些元数据通常基于这样的早期作品（以及对文本工件的物理检查），因此包含大量相同信息。

我使用数字书目记录来开发的快照十七世纪和十八世纪的中国文学创造了一个基线，其他分析可以与之比较。本文是一个新的方法框架的证据，它依赖于新的和利用不足的信息来源。这种方法论所利用的信息长期以来都可以在现代和前现代的文献中找到。然而，这些数字书目记录以结构化格式提供信息，可以用计算机进行研究。这种变化是变革性的，因为学者们现在可以更容易地和有效地汇总和分析以前学者收集和标准化的信息，并使用数字定量分析来消化它。

90 Paul Vierthaler

统计分析提供了对晚期英国印刷的大规模趋势的经验描述，包括对转移印刷格式的详细分析。同样，它也允许学者们以更高的精度重新分析前期研究过的现象。这种方法强化了已知的东西，同时也揭示了以前未被注意的印刷文化表型。在这篇文章中提供的例子中，这种方法在审视通过清代印刷小说的越来越小的观察中是有用的。这里使用的数据集包括超过三万四千卷的书目元数据从在线计算机图书馆中心的WorldCat数据库中采购的1550年至17992年之间的中国晚期文学作品.3统计分析这一数字化书目数据是一种富有成效的方法，用于支持定性分析，并对中国文学进行定量描述。 ture，验证旧的假设并进行新的观察.4

在本文中，我分析了图书馆目录记录，以更准确地评估晚期帝国印刷作品中的表型。我还重新审视罗伯特黑格尔的结论，即小说从晚明至清朝的大小减小，反映了声望的下降。我通过计算该期间的总书籍生产数量来开始我的研究。我跟踪晚明和大小的变化

2其中一些卷是重复的，有时在一个集合中工作有他们自己的个人记录，因此独特的物理标题的数量可能略有不同。我在1799年结束我的数据集，而不是1800年，以避免解析不需要的文本。一个公约惯例，当已知文本来自十九世纪但出版年份不清楚时，将它们列为“18–”。当搜索包含“1800”时，它返回许多文本这是在历史的后期。

3 WorldCat的书目数据是我分析的理想平台，因为它是目前世界上最大的书目信息集合。它允许我快速访问比中国出版物的许多当前分析所基于的池大几个数量级的信息池。 WorldCat数据库中的书目信息聚集了来自全世界超过一万个不同图书馆的三亿多条记录。它在亚洲拥有非常好的图书馆馆藏，至少部分索引了北京的国家图书馆，国立台湾图书馆和东亚的许多大学图书馆的目录。附录中显示了这种记录的一个示例并进行了注释。 WorldCatAPI可在http://www.worldcat.org/webservices/catalog/search/上访问，但其使用需要许可。

4对西方文学的类似分析利用了大量的文本。例如，在2011年“科学”杂志中出现的“使用数百万数字化图书的文化的定量分析”中，作者使用了数百万册，而不是数万本书。 Jean-Baptiste Michel等，“使用数百万个数字化书籍的文化定量分析”，Science 331.6014（2011年1月）：176-82，doi：10.1126 / science.1199644。

分析文献计量数据集91

清初出版文本并说明尺寸的整体分布，以回答基本问题，如“十七世纪和十八世纪中国出版的文本的平均大小是多少？”然后我通过绘制多少个字符来描绘描述性特征被打印在页面上。最后，我将说明这种方法如何用于确认或反驳其他学者的假设，并开发出新的假设。使用一个非常大的样本，我能够可视化从1550到1799的新颖大小的波动，并将其与非虚构文本大小的变化进行比较。对重新评估旧假设的统计分析的效用的兴趣最初让我想到了黑格尔的小说假设，但在分析材料时，我很快发现这种数据集的价值和可视化作为发现的工具 - ERY。在较小的数据集中不可见的书籍平均大小的趋势在足够大的数据集中变得非常明显。

量化文学分析

在过去十年中，文献的定量分析作为一种升级方法已经稳步增长。在2005年的作品“图形，地图，树木：文学历史的抽象模型”中，Franco Moretti介绍了一种观点，即学者通过收集大量书籍的信息，更好地理解文学体裁的形状通过探索英国出版业的图书制作，他展示了1740年至1900年流行小说类型的兴衰。他发现类型表现出周期性的流行，并倾向于聚集成具体时间相对稳定期。在莫雷蒂的作品出版之前，绝大多数文学研究都依赖于仔细阅读作为主要的分析方法。图表，地图，树木特别具有创新性因为Moretti依靠其他人的奖学金，将文本作为一个集体进行分析。因此，他避免被数百个文本所淹没.6本文的研究以类似的方式依赖于他人的工作：只有图书馆员编制了大量的晚期帝国中文文本才有可能。

5 Franco Moretti，图表，地图，树木：文学史的抽象模型（纽约：

Verso，2005）。

6 Moretti，Graphs，Maps，Trees，pp.18-19。

92 Paul Vierthaler

近年来，书目元数据和全长数字文本越来越多，学者们可以扩展Moretti的方法。不再需要依靠手动输入将现代计算能力应用于文学研究。 Liter-ary学者现在可以依靠更自动化的计算机算法。这些能力促成了全世界文学系数字人文学科的蓬勃发展，学者现在正在采用传统上与科学相关的分析方法.7学者现在可以使用数字分析来回答以前无法接受的问题问题。数字人文主义者已形成一个活跃的在线社区，其中许多学者通过博客展示他们的研究。 Ted Underwood说明了人类 - 主题数据的计算分析的一些可能性：他的研究在很大程度上依赖于机器学习和主题建模来跟踪英国文学的变化。使用这些工具，他能够精确地描述十八，十九世纪英国文学中第一人称镜头的使用减少8。机器学习是指使用的一般算法类生成一组规则以对数据进行分类而无需人工干预.9算法使用数据中的模式生成分类规则。这些规则对人类来说并不总是直观的，但在许多情况下已经证明是准确的。提供一个超级分类算法的具体例子：如果有人想编写一个程序试图猜测引擎有多少个气缸，而不是为计算机提供设置规则（例如，如果排量为1.4至2.2升，它可能是一个四缸发动机），可以使用机器学习算法。程序员提供训练数据集，描述发动机的各种特性（排量，阀门数量，马力，每加仑英里数，重量等）和

7 Matthew Lee Jockers的专着“宏观分析：数字方法与文学作品”（Urbana：伊利诺伊大学出版社，2013年）提供了这种新方法的历史和可能性的一瞥。斯蒂芬拉姆齐在阅读机器中提供了一个有趣的理论观点：走向算法批判（Urbana：University of the Illinois Illinois Press，2011）。

8 Ted Underwood，“流派，性别和观点”，The Stone and The Shell（博客），2013年9月22日，http：//tedunderwood.com/2013/09/22/genre-gender-and -point-of-view /。

9有关机器学习的简要介绍，请参阅机器学习的Stephen Marshland

ing：算法视角，第2版。（Boca Raton，FL：CRC Press，2014），第1-6页。

分析文献计量数据集93

按发动机的气缸数标记发动机。然后程序员向程序提供未标记的数据，程序猜测引擎最可能有多少个气缸。这是一种“监督”学习，其中算法训练在由人标记的数据上。

主题建模是一种“无监督”的学习算法。最初是由对信息检索感兴趣的科学家开发的，它开始，假设文档基本上是顶级的集合。学者可以将一组文档提供给程序，它将返回这些主题。从技术上讲，一个主题是“在一个固定的词汇上的分布。”10在实践中，它们是算法的集合，这些词语被认为是相关的词汇，这些词汇很可能在类似的语境中找到。主题建模允许单词存在于多个主题中。例如，“一个主题可能包含很多’组织’，’’委员会，’’直接’和’领导’。另一个可能包含很多’mer-cury’和’arsenic’，只有少数“铅”的出现。“11文学研究和印刷历史的定量方法对中国研究来说并不陌生。例如，罗伯特·黑格尔（Robert Hegel）辩称，我们可以通过将“文本视为文物”来学习大量类型 - 他采用的方法来分析晚期帝国小说的体积大小的变化.12我对黑格尔的扩展通过使用数字方法来增加可分析数据的数量，从而评估 - 吃黑格尔的假设，即在新的时期新小说的大小减少。

尽管在统计中有令人兴奋的可能性中文分析文献，尤其是数据量增加的数据，采用数字分析也存在困难。首先，最重要的是缺乏高质量的数字化文本。有许多低质量的在线晚期帝国文献的PDF扫描，但目前可用的光学字符识别（OCR）软件很难将这些扫描的文件转换成搜索 -

10 David Blei，“概率主题模型”，ACM 55.4（2012）的通讯：

78，doi：10.1145 / 2133806.2133826。

11 Ted Underwood，“主题建模变得非常简单”，The Stone and The Shell（博客），2012年4月7日，http：//tedunderwood.com/2012/04/07/topic-modeling-made-just - 简单，足以/。

12 Robert E. Hegel，阅读中国帝国晚期的插图小说（斯坦福，加利福尼亚州：

斯坦福大学出版社，1998年），第72-163页。

94 Paul Vierthaler

许多先进的数字人文工具，如主题建模仍然难以访问，因为它们依赖于处理全长数字文本.14幸运的是，这个问题只是暂时的，因为每天都有更多的文本数字化。实际上，唐诗等一些子领域的文本的完整语料库已经数字化了.15

但是尽管存在这些障碍，汉学家仍然可以将统计数据分析技术应用于当前可用的资源。在线目录库记录（以下称为OCLR）包含大量数字化信息 - 包括标题，作者，出版商，主题标题和其他基本元数据 - 通常以标准格式呈现（参见附录）。 OCLR代表发送了一种新资源，提供了诱人的灵活性和统计严谨性，以补充过去经过时间考验的研究方法，这些研究方法对过去的印刷历史进行了研究。

中国印刷文化的学者有时会受到阻碍他们的研究缺乏证据，超出了物理文本，书目，以及他们正在研究的文本的分散提及 - 文学作品。正如Cynthia Brokaw所解释的那样，“图书清单，价目表，书商和出版商之间的详细对应，行业账簿，书展目录，图书馆订阅以及图书产品本身的收集”广泛适用于西方作品。 “不幸的是，大多数这些来源，除了最后一个，在中国都没有广泛使用。”16对后期发布趋势的研究因此需要大量细致的研究。在Lucille Chia的“打印利润”中，她的大部分数据是直接从幸存的印记中提取的.17她编写了一个围兜 -

13继续取得令人兴奋的进展，大大提高了准确性

在相对低质量的图像上使用OCR软件。

14汉学家的另一个重要障碍是确定如何将字符块解析为单词（称为“标记化”的过程），这对于大多数完整的文本分析是必要的。在这方面有积极的研究，并且算法不断改进。例如，K。Deng等人，“挖掘中国文本的统计模型”，在Frontiersof Mathematical Sciences，ed。 B.顾和S.T. Yau（Somerville，MA：International Press，2011），第263-76页。

15例如，完整的唐诗可在线获取：全唐诗?，中国文本项目，编辑。 Donald Sturgeon（剑桥，马萨诸塞州：哈佛大学，2006-2016），ctext.org / quantangshi。

16 Cynthia J. Brokaw，“论中国图书的历史”，载于“中国晚期的印刷与书籍”，编辑。 Cynthia J. Brokaw和Kai-wing Chow（Berkeley：Univer-sity of California Press，2005），第20-21页。

17她的其他来源包括参考书目，家谱，地名录和

分析文献计量数据集95

从宋代到清朝的简阳出版的两千多种题材的图像.18在“中国书”的社会史中，约瑟夫·麦克德莫特利用了晚期帝国藏书家以及几本书中产生的重要信息。日本书目。他将这些信息与私人图书馆目录中的信息以及文人组成的文本相结合，对出版业进行评论.19 Brokaw对文化商业进行了个人访谈：清朝和共和时期的四堡书贸易，在早期工作的人无法获得的独特资源.20在中国以类似耗时的方式制作了许多关于印刷历史的中文作品。它们依赖于痛苦 - 使用个人书籍，较旧的参考书目和他的故事进行研究。它们通常代表着东亚图书馆数十年的工作。张秀敏的中国音华诗?？（中国印刷史），21是印刷历史和技术细节的重要信息来源，说明了综合研究印刷历史的难点。在他的序言中，张先生介绍了在北京，上海，杭州和其他地方的图书馆在十年内研究的罕见文本。他的作品取决于大量的参考书目，例如全球国家大学，他们，他是如何？（本地地名录的统一目录）和私人图书馆的描述，以及其他来源.22这项研究的耗时性质涉及权衡，通常在范围内。虽然令人难以置信的令人印象深刻，但Chia的作品主要是关注于简阳商业印刷商制作的印记。

各种着作。 Lucille Chia，利润印刷：建阳商业出版社，福建（11-17世纪）（剑桥，马萨诸塞州：哈佛大学亚洲中心，2002年），第15-17页。

18 Chia，Printing for Profit，p。 308.19麦克德莫特友好地提供了解释他的方法的书目笔记，为希望了解晚期帝国印刷的人提供了一个很好的指南。 Joseph P.McDermott，“中国社会史书：中国晚期书籍与文人文化”（香港：香港大学出版社，2006年），第263-68页。

20辛西娅J. Brokaw，文化商业：清代和Repub的四宝书贸易

lican Periods（剑桥，马萨诸塞州：哈佛大学亚洲中心，2007年），p。 26。

21张秀敏?，中国银华士（上海：上海人民出版社 -

她，1989）。

22张秀敏，中国尹世华，第11-12页。

96 Paul Vierthaler

罗伯特黑格尔专注于他对小说的讨论。即使是比较普遍的作品，如麦克德莫特，也只限于地理范围（在这种情况下，对于较低的长江三角洲）.23传统方法也不是累积的，这使得其他学者很难直接建立这项研究。后来的学者不能简单地添加更多的数据或转移分析的重点。然而，学者可以轻松地重新利用或扩展用于数字分析的数据，使其成为一种非常灵活的方法。

在更复杂的情况下，中国印刷历史和文化的工作大体上集中在文本上文人认为重要。传统的研究方法，例如张秀敏所青睐的研究方法，会错过那些被认为不够重要的文本，无法在大型学术图书馆中收集。由于Brokaw和Chia的显着贡献，这种偏见不如使用那么普遍，但仍有继续改进的余地。

面临并行问题，他们的经验很有启发性。

西方着作的学者，如Andrew Pettegree，有

这本书的大多数学者都参与了最大的收藏，其中自然地收集了最好的书籍。肮脏的，小型的书籍和小册子构成了大量的生产，正如本书所说，支撑着该行业的经济学，分散在数千个不同的图书馆中.24

对于Pettegree，这个问题的解决方案出现在在线图书馆cat-alogs中，因为它们将世界各地的图书馆内容暴露给学术探究。 Pettegree和其他学者从那以后收集了关于西方印刷的书目信息，并通过通用短标题目录提供。在这里，我开始在中国使用类似资源的初步步骤。尽管Pettegree的目录和我用于本研究的目录都不能完全兼容，但它们代表的是尝试将更多信息汇集在更多不同的文本上，而不是过去学者们可以访问的内容。

我不是当然，提倡这种方法作为定性研究的批发替代品。 Brokaw，Chia，McDermott的作品，

23麦克德莫特，中国书的社会史，p。 5.24 Andrew Pettegree，文艺复兴时期的书（纽黑文，CT：耶鲁大学

Press，2010），p。 353。

25 Pettegree，文艺复兴时期的书，p。 356。

分析文献计量数据集97

黑格尔和张都严重依赖于定性研究，这些研究通过进行研究的过程得出了重要的结论。这里使用的那种定量方法是补充，而不是取代，定性研究，显着减少研究的费力和预防传统方法中固有的一些小错误。

WorldCat记录：新数据，新方法

统计分析WorldCat记录消除了一些陷阱通过大量增加文本的审查数量来研究中文印刷.26定量分析允许学者扩大他们的研究范围，包括被忽视的作品过去因为大量的，无法访问他们的文本 - 自我，或没有灵感的散文。在这样做时，研究受到写作所需的时间和空间的限制，而不是累积数据的难度。当使用数据来查看出版趋势，例如绝对数量时，这种方法的效用变得清晰。文本pub-每年投入或按类型预订。使用这个大型的文献数据集还可以通过新的方式可视化中国文学的地形，并可以查询关于印刷历史的印象派陈述。例如，大幅面文本的通常被认为是豪华版，印有较大的字符，而不是密集地分组在页面上。 OCLR提供足够的数据，以允许学者在统计上仔细审查这一主张。结果与该领域目前的理解相比，有一点有利，有一些有趣的变化。尽管这种方法令人兴奋，但并非没有缺陷。书目数据的任何分析都归于书目记录的原始作者。无法检查数据集中所有工作的原始文本，研究人员必须依赖数百人的眼睛，

26当然，有关大量中文文本的信息已经广泛地通过在线图书馆目录以数字化格式提供。不是每个文本都是cata-loged，也没有每个文本都可以在线（或通过WorldCat）进行编目。尽管有足够的记录可供我们自信地对各种文本特征进行统计测试。

98 Paul Vierthaler

可能有数以千计的图书管理员和参考书目。数字记录的标准不断发展，并且接受的格式会定期更新，导致材料中的不一致在某些数据记录中.27即使标准本身是一致的，它们也不总是均匀应用。不可避免地，主题标题不是普遍一致的，文本测量可能偶尔会出现不准确的情况。记录的任何给定部分可能包含错误。然而，大量的数据使得这个问题不那么严重，因为记录中的错误很少且随机性足以使它们逐渐消失在统计背景中。此外，足够的数据卫生28克服了处理某些记录的非标准性质的许多困难。可以从分析前的数据集中删除在原始查询中错误捕获到WorldCat数据库中的记录。有时记录被错误地分类，但更常见的是它们根本不适合研究项目的参数。例如，基于明代小说的电影记录（由于它们被错误地记录为小说的构图而不是电影的制作而被捕获的）必须从我的数据集中剔除。

In最后一点需要注意的是，对于晚期中国帝国印刷研究的任何类型的源基础，数据集的不完整性都会引起一些局限性。这一时期的大量文本根本不再存在。在评估实际文学作品与任何分析结果之间的关系时，要记住这一缺陷是很重要的。我相信这样的努力是值得的，因为学者们已经产生了很好的研究，主要来自对现存文本的研究.29尽管如此，数字化的OCLR代表了现存作品的重要子集，这意味着我能够看到更多现存的工作时间比其他方式可行。对OCLR和晚期英国圣经的比较分析进行评估

27有关MARC标准的不断更新列表，请参阅“一般信息”，MARC

标准（华盛顿特区：国会图书馆），www.loc.gov /marc /marcginf.html。

28数据清理涉及确保数据在整个数据集中始终如一。电脑不能说“王世贞”，“王世珍”，“王世贞”是同一个人。通过对数据进行消毒，我将所有三个都折叠成单个“王世贞”。29例如，见Chia，Printing for Profit，p。 15.有一些方法可以补偿我们在非现存文本中丢失的一些信息，包括在当代书目中找到的信息，正如Chia所做的那样，但是没有必要包含这个信息来为一般文本制作一个引人注目的案例。书籍制作的形状。我不会在本文中包含有关不再存在的文本的其他信息。

分析文献计量数据集99

由官员和私人收藏家编制的图形纲要将提供关于实际印刷品制作与现有文本之间关系的重要见解（未来研究的有趣途径，尽管超出了本文的范围）。

此外，关系现存的文本与文本之间的关系在图书馆中有这种分析。现存的十七世纪和十八世纪文本的语料库可能不直接等同于这些文本的现代图书馆馆藏，而且来自OCLR的整理数据更多地反映了图书馆馆藏实践而非真实趋势。一些偏见很难或不可能消除：研究印刷历史的学者感兴趣的许多文本都没有被认为是足够重要的，可以在任何人的图书馆收集。我们必须接受许多可以告诉我们很多关于印刷生产的作品。最后一个问题是，主要来自图书馆书目信息的分析可能受到偏见的影响书目元数据被数字化。然而，随着图书馆为OCLC提供更多信息，他们的编目信息变得越来越全面，这使得这种偏见不再是一个问题。无论这些警告如何，由学者分析的绝大多数文本现在由图书馆持有。甚至许多私人收藏品的内容现在都在主要研究机构的货架上.30数字化OCLR因此代表现存作品的重要子集，使用它们作为数据集的学者能够看到更现存的作品尽管上面讨论了保留，但由于包含了来自Soren Edgren的中文珍本书的书目信息编目项目 - 该项目被整合到WorldCat的数据库2007年 - WorldCat记录包含一个宝藏大量的书目信息很好地与中国传统书目奖学金相吻合.31传统的书目分类通常包括在内，

30实际情况比较复杂。许多私人收藏品在其主要所有者去世后仅仅分散了。麦克德莫特探讨了私人收藏家为后来的帝国学者提出的问题。由于担心书籍会被损坏，许多人无法轻松访问作品。然而，到了清朝，“王位及其官员组织的书籍收集项目剥夺了所有者对许多罕见的版本的控制权。”官员们随后将这些作品提供给学者们。麦克德莫特，A中国书的社会史，第165-66页。

31 Robert Hegel，个人通讯，2013年11月5日。有关该项目的存档描述，请参阅“联盟目录中的中国珍本书籍”，OCLC，2014年4月21日访问，http：//oclc.org /research/activities/chineserarebooks.html。

100 Paul Vierthaler

有关大小，每行字符和每页行数的信息。中的许多记录中都有详细的注释，概述了其他文本特征。大多数记录至少有一个或多个子标题，用于描述作品的内容。这些记录中的大量信息足以弥补其他缺陷。WorldCat数据库中的书目信息采用由国会图书馆（LOC）设计的机器可读编目（MARC）格式。 MARC是一种标准化格式，针对计算机程序的可读性进行了优化，可以快速访问记录中包含的多层信息。这些记录包含基本信息：作者，出版社，出版年份，主题标题，地理信息，以及在某些情况下，文本的详细物理描述。并非每条记录都包含所有这些信息，有些还包含此处未提及的其他类型的信息，但这些描述符是最常见的类型。在聚合中，它们形成了大量有价值的信息（参见附录中有关MARC记录的注释示例）。

我构建了本文中使用的数据集，其中包含一系列设计到WorldCat服务器的数据集我开始查询“1550年至1799年在中国出版的文本”。这些查询返回了超过15,000个结果。但是，由于搜索机制，查询仅返回由“中国”生成的编目员最初索引的文本。此搜索的范围太有限。例如，它不会返回在“杭州”中编制的文本，而不会在地名中添加“中国”。我的第二个问题是“1550和1799之间用中文发表的文本”，提供了更好的结果，消除了之前搜索的明显缺陷。我将结果合并，丢弃任何重复。我还使用中国传记数据库生成一份1550年至1799年活跃的作者名单，在WorldCat上搜索这些作者，并将他们的作品添加到数据集中.33结果数据 -

32我用R进行统计分析和数字生成; R核心团队，R：语言和统计计算环境，版本3.0.1。（维也纳：R统计基金会，2014年），https：//www.R-project.org/。

33见中国传记数据库项目（CBDB），上午版本，Peter K. Bol等人。（剑桥，马萨诸塞州：哈佛大学，2013年3月14日），http://isites.harvard.edu/icb/juicb.do?keyword=k16229。

分析文献计量数据集

101

set，我称之为WorldCat数据集，包含34,923条记录，适用于所有类型的文本，可以在1550和1799之间可靠地记录，29,378条记录表示可在10 - 年范围内发送的文本.34这些记录构成了用于历时分析的数据子集。工作时必须处理一些特殊情况 - 使用OCLR。 OCLC使用流程来识别重复项，但在极少数情况下，似乎单个物理文本有时会被分配两个或三个OCLC编号.35这种重复意味着文本不止一次出现在我的数据集中。我使用一个简单的算法丢弃这些重复。如果文本具有相同的标题，在同一年出版，并且具有相似的物理尺寸，我认为它们是重复，我丢弃除了一个以外的所有。collectanea的存在也对dia-慢性分析有一定影响。 Shuofu等大作品？收集，在1640年代重印，人为地夸大书籍生产数字，因为工作中的每个标题都被分配了自己的OCLC编号。由于数据集中的6,945条记录描述了集合中包含的作品，因此我决定将每个大型集合评估为单个打印产品。因此，例如，在Shuofu中重印的所有文本记录在打印生成数字中仅计数一次。整个WorldCat数据集由近35,000个记录组成，我的分析取决于该数据集的各种子集。对于示例，并非所有记录都包含大小信息。如果我的分析需要大小信息，我会从我的分析中删除缺少此信息的记录。

34我的数据集中大约32％的文本只知道来自年的范围。为了调整这个限制，我使用中间（平均）日期为10或年的范围。如果范围大于十年，我不会在我的历时数字中包含该文本。虽然十年是一个任意的截止，但如果我们将来自更广范围的文本纳入年，那么从数据推断趋势变得更加成问题。不幸的一面效果是某些年份过多，最明显的是短暂的年间的中间年份，因为通常唯一的约会信息是产生文本的统治时期。例如，我在1623年将文字列为天启王朝，1620-1627，。当与具有确切约会的许多文本记录相结合时，这种过度表达不会产生明显不同的结果。

35 WorldCat使用用户反馈和重复检测软件来消除重复。参见“合作质量”，OCLC，2016年8月9日访问，http：//www.oclc.org / worldcat / cooperative-quality.en.html。

102 Paul Vierthaler

图书馆记录显示历史趋势

中国晚期印刷业的许多方面都具有高度的动态性，历史趋势对于我们对明代至中期印刷文化的理解非常重要。大型文献计量数据集作为研究工具的实用性很明显当我们使用统计数据和数据可视化来比较WorldCat数据生成的代表和收到的学术代表的印刷实践表达时。具体而言，这种新的方法可以很容易地看出WorldCat的馆藏中有多少文本在任何一年中发布，从而评估生产量的变化量。如果数据集反映真实趋势，它应该反映历史事件的影响，并且这种反映应该符合我们对打印历史的理解。

预测表明该数据集应该显示两件事：a绝对数量的一般增加随着时间的推移产生的文本，在重大动荡期间的逢低。众所周知，晚明出版活动有所增加。图1显示了WorldCat数据集中文本产量的表示五年内的1550到1699，包括明清转移。图1揭示了几个突出的特征。首先，验证了随着时间的推移，发布活动的假设增加。其次，1645-1649和1650-1654垃圾箱明显低于周边垃圾箱。文本数量的下降反映了明清过渡，这种转变始于1644年中期北京落入满族时的认真。

这种方法的核心组成部分是统计严谨。很明显，1645-1649和1650-1654箱是不同的，但统计评估这种差异是非常重要的。对这种格式的数据进行适当的测试是单向ANOVA，“方差分析”测试用于确定多个组是否是

36数据通过对一系列年份的生产求和进行“分箱”，然后取平均值。此过程有助于平滑年度噪音并更好地可视化趋势。以减少数据集中标准误差的间隔选择箱。在这种情况下，箱子从0年和5年开始，因为这个选择使箱内的逐年变化保持在最小。如果垃圾箱在第2年和第7年开始，那么明清转型就不会很明显，因为1642年，1643年和1644年初的高产量将淘汰1644年末开始的低产量。继续为下一个十年。 Binning还将数据转换为允许统计测试的格式。

分析文献计量数据集

103

小号

吨×

ëŤ

rebmuNegarevA

（CID：26）（CID：30）（CID：31）

（CID：26）（CID：31）（CID：31）

（CID：27）（CID：31）

（CID：28）（CID：31）

（CID：29）（CID：31）

（CID：30）（CID：31）

（CID：31）

（CID：26）（CID：25）（CID：25）（CID：31） - （CID：26）（CID：25）（CID：25）（CID：29）

（CID：26）（CID：25）（CID：23）（CID：31） - （CID：26）（CID：25）（CID：23）（CID：29）

（CID：26）（CID：25）（CID：22）（CID：31） - （CID：26）（CID：25）（CID：22）（CID：29）

（CID：26）（CID：28）（CID：26）（CID：31） - （CID：26）（CID：28）（CID：29）（CID：29）

（CID：26）（CID：28）（CID：21）（CID：31） - （CID：26）（CID：28）（CID：21）（CID：29）

（CID：26）（CID：28）（CID：25）（CID：31） - （CID：26）（CID：28）（CID：25）（CID：29）

（CID：26）（CID：28）（CID：23）（CID：31） - （CID：26）（CID：28）（CID：23）（CID：29）

（CID：26）（CID：28）（CID：22）（CID：31） - （CID：26）（CID：28）（CID：22）（CID：29）

（CID：26）（CID：25）（CID：28）（CID：31） - （CID：26）（CID：25）（CID：28）（CID：29）

（CID：26）（CID：25）（CID：27）（CID：31） - （CID：26）（CID：25）（CID：27）（CID：29）

（CID：26）（CID：28）（CID：31）（CID：31） - （CID：26）（CID：28）（CID：31）（CID：29）

（CID：26）（CID：28）（CID：30）（CID：31） - （CID：26）（CID：28）（CID：30）（CID：29）

（CID：26）（CID：28）（CID：29）（CID：31） - （CID：26）（CID：28）（CID：29）（CID：29）

（CID：26）（CID：28）（CID：28）（CID：31） - （CID：26）（CID：28）（CID：28）（CID：29）

（CID：26）（CID：28）（CID：27）（CID：31） - （CID：26）（CID：28）（CID：27）（CID：29）

五年箱

图1中文文本，1550-1699五年级文本。该数字包括数据集中的所有10,486文本，其日期可在十年内解决。删除了重复和过多的集合。从1550年到1699年，有一个显着的正线性趋势。从1645年和1650年开始的两个箱子明显低于周围年份，这是明清开始于1644年中期开始的明清过渡的结果。误差线是平均值的标准误差。

统计上有所不同 - 具体而言，它们的均值之间是否存在显着差异，这在图1中由条形的高度表示。一项事后测试表明，1645和1650箱子确实与周围箱子不同.37早先的理解 - 生产有所下降不仅得到确认，而且显示不仅仅是统计噪音。这个结果并不令人惊讶; 印刷历史学家知道这个时期存在的文本较少。令人信服的是，清晰的历史事件从对历史事件的统计反映的简要分析中有机地出现。这些数据清楚地告诉我们1644年发生的一些有趣的事情，其中有几十年的文本生产后果，但这些数据

37单独的测试可以显示哪些箱子不同。 William Mendenhall，Robert J.Beaver和Barbara Beaver，概率与统计概论，第10版。（Pacific Grove，CA：Duxbury Press，1999），第453页，第468页。一个ANOVA显示几个箱子显着不同（ap值小于.0001），这意味着我们非常有信心这个差异不是偶然的结果。 Šídák-Bonferonni事后检验证实1645和1650箱是明显不同的箱子。有关Šídák和Bonferonni测试的解释，请参阅HervéAbdi，“多重比较中的Bonferonni和Šídák校正”，在“测量和统计百科全书”中编辑。 Neil Salkind（ThousandOaks，CA：Sage，2007），https：//www.utd.edu/~herve/Abdi-Bonferroni2007-pretty.pdf。使用GraphPad Prism，版本6.0b（适用于Mac）（La Jolla，CA：GraphPad Software，2012年10月），www.graphpad.com进行ANOVA和事后测试。

104 Paul Vierthaler

不要告诉我们中断的原因。目前还不清楚书籍的制作是否被中断，文书是否在书店和图书馆大火中随意销毁，或审查是否导致故意破坏1644年至1655年间制作的作品。可以从统计数据中推断一个假设不太可能是真的：在过渡的混乱中，文本被随意破坏了。如果这个假设是正确的，那么文本的减少几乎肯定不会在1644年突然开始。相反，在1644年之前产生的文本可能会在数量上统一减少。在图2中，浅灰色条代表从1644年到1655年的年份。由于清朝入侵在1644年中期达到高峰，因此当年和次年的产量大幅下降并不令人惊讶。如果日期可以进一步解决为几个月，那么下降可能会在1644年中期开始。其他学者的研究表明，文本生产的下降可以追溯到1644年，因为冲突中断了生产 - 这是对统计分析结果的一种可靠补充。

通过类型细分评估数据集

定量分析在线书目记录是研究晚期英国印刷趋势的一个有价值的代理 - 作为评估和统计分析这35,000个记录数据的通用构成 - 集显示。也就是说，我根据传统的书目指标显示数据集中的文本如何分解。 MARC记录为大约40％的文本提供了独特的类型分类（34,923中的13,708个）。39近12,000条记录还包括四个一般类别的经典（jing？），历史（shi？），philoso- phies（zi？）和belle-lettres（ji？）构成了四个分支系统（sibufenlei fa ?）中文学的四个主要“分支”（见表1）分支组成的WorldCat数据集）.40

38 Brokaw，“关于中国图书的历史”，p。 27.39我不是在这里看“主题标题”（通常在MARC记录的650字段中找到并包含类型和内容的简要描述），尽管它们也非常有用并且代表了未来的一个有趣的领域研究。这些通用标签是由图书馆员提供的独特分类，并不像主题标题那样全面。

40这种传统的书目分类系统被用于许多官方作品中。

分析文献计量数据集

105

小号

吨×

ëŤ

rebmuNegarevA

（CID：27）（CID：31）

（CID：28）（CID：31）

（CID：29）（CID：31）

（CID：30）（CID：31）

（CID：31）

（CID：26）（CID：28）（CID：30）（CID：25）

（CID：26）（CID：28）（CID：30）（CID：24）

（CID：26）（CID：28）（CID：23）（CID：23）

（CID：26）（CID：28）（CID：23）（CID：22）

（CID：26）（CID：28）（CID：29）（CID：30）

（CID：26）（CID：28）（CID：29）（CID：28）

（CID：26）（CID：28）（CID：25）（CID：31）

（CID：26）（CID：28）（CID：25）（CID：29）

年

图2中文文本，1625-1655。此图包括此时间段内数据集中的所有1,799个文本，其日期可在十年期内解决。已删除重复和过多代表的集合。年1644及以后的颜色为浅灰色。从1644年开始，书籍生产或生存率显着下降，并且至少在未来十年内持续下去。这个四个分支系统最终形成了许多官方文学概要的组织结构，包括Siku quanshu? （四个国库的完整图书馆），由干隆皇帝的学者编写的中国文学集。此外，记录中包含了类别的子类别.42这些子类别包括，例如，收集的作品由个别作者（bieji ?）43和儒家学者的作品

存在更多分裂的较旧系统，但是在晋中京部出现了四部分分割系统？（晋图书馆经典登记）。文字分为jia？，yi ?, bing丙和丁丁，前四个天干，常用于枚举项目。早期的唐遂书？（隋书）将这些分裂改为“经典”，“历史”，“哲学”和“美女故事”。吴峰?，中国古店文仙雪? （济南：Qi-Lu shushe，1982），p。 55。

41 Wenyuan ge Siku quanshu ?，167张CD-ROM（香港：Dizhi wen-

hua chuban youxiang gongsi，Zhongwen daxue chubanshe，1999）。

42我通常为这些子类别保留术语“类型”，并为此保留“类别”

四个分支。

43为简洁起见，我还将这些收集的作品称为“个人收藏品”。

106 Paul Vierthaler

表1.具有四分支分类的文本

WorldCat Records，1550-1799Number1,8352,8602,2264,86011,781

分类经典?历史?哲学?Belles-lettres ?总计

百分

15.16 23.63

18.39 40.1597.33a

a在超过2％的记录中，还有其他一些记录

类别代替四个分支的分类。

（rujia lei ?）。创建这些数字记录的图书馆员并不总是在这些子类别的分类模式中保持一致，这个问题在使用多个模糊命名的小说类别时最为明显。

小说是该数据集的一小部分因为它通常不被认为是文学作品的重要组成部分，所以并不是一个意想不到的启示.44值得注意的是，小说几乎没有在数据集中排名前二十个子类别（见表2）。它们由三个不同的子类别代表：“小说”（小说列伊?）在20位具有131个文本，“小说家作品”（小说家乐雷？）在第28位地方有80个文本，并且“小说“（没有人物列伊）类别（小说?）在第102位有一个文字。总的来说，它们占所有标记文本的1.77％.45将Siku quanshu中的数据内容与

作品的一般构成进行比较是很诱人的 - 因为Siku quanshu与大概是同时期的在这个分析中的文本 - 但是这样的比较有些缺陷。 Siku quanshu不是（也不是故意）代表所有中国出版物。它被设计成中国佳能中最重要的作品集合。它缺乏编制者不重要的作品以及那些冒犯清政府的作品。而且，从各期间写的作品收集了

44例如，小说只占建阳制作的作品的6.6％。嘉

打印利润，p。 313。

45在我的分析中，我将这三个子类别视为单个聚合类别，我简称为“小说”，因为这些术语在OCLR中可互换使用。我翻译术语xiaoshuo jia ?作为“小说家”，尽管“讲故事者”可能会更准确地反映这一术语的早期用法。

分析文献计量数据集

107

表2. WorldCat Records中的20个子类别，1550-1799

排名子类别（类型）

文本数量百分比

家长类别

五

19 20

个人收藏

地理位置?选集?传记

杂项工程

佛教作品?次要研究

医学?

儒家学者

周易

四本书的作品

百科全书?礼仪书籍

春秋两季

诗经

政治?年鉴和传记

?艺术?年鉴?小说?

3366

1369956

28.05

11.417.97

375

371

347336

274

262

259

255

241

232

212

209

201

147144131

3.12

3.09

2.89 2.80

2.28

2.18

2.16

2.12

2.01

1.93

1.77

1.74

1.67

1.22

1.20 1.09

纯文学

史纯文学

历史记录

哲学

哲学经典

哲学

经

哲学

经

历史记录

哲学史

纯文学

中国历史，与我的数据集不同，它不仅限于明末清初出版的作品。 Siku quanshu也只包含同一作品的单一版本;我的数据集包含多个版本。其他复杂功能使得Siku quanshu与我的数据集的比较更加突出。许多重要小说不包括在“四库全书”中，如三国演义（三国演义）

108 Paul Vierthaler

表3.四分支分类中的四库全书文本和

每个分支中最常见的子类别

四个分支分类经典历史哲学Belles-lettres总计由于四舍五入，略超过100。

598 986

1352 3724

百分比

最常见的子类别

21.16 16.06

26.48 36.31100.01a

春秋季（123）地理（161）杂项（201）个人收藏（1017）

zhi yanyi三?）和水浒传（水浒传?）。此外，在Siku quanshu中不存在子类别“小说”（xiaoshuo lei）。相反，它使用子类别“小说家作品”（xiaoshuojia lei），其中包括很早期的作品，如山海经？（经典的山与海），但没有四大大明小说。事实上，这些伟大的小说都不包含在任何地方 - 在四库全书中。编辑们显然坚持将小说作为“小谈”而不是“小说”的传统观念。禁止在汉书中使用顾？（汉书）将小说家林雷描述为“小工作人员”（百官?）的一个子类别，他们传播他们在街头听到的故事.46最后，四库全书是由一群学者编写的。为皇帝工作;他们是没有从事商业活动。我的数据集包含不受专家管理的文本，因此更有机地反映出版商的实际输出。尽管存在这些问题，但比较仍然很有趣。 Siku quanshu和书目数据集展示了中国传统中的照片制作的快照，这些照片来自不同的人物。我的数据集确实显示了与Siku quanshu的一些相似之处（见表3）。 Belles-lettres是四个分支中最常见的类别，个别作者收集的作品是最常见的子类别。 Belles-lettres占Siku quanshu的36％和我的数据的40％。个人收藏品占Siku quanshu的27％，占我数据的28％。在编译器（belles-lettres）眼中最不具有重要意义的类别

46谢国珍?，Mingmo Qingchu de xuefeng ? （上海：上 -

hai shudian chubanshe，2004），p。 82。

分析文献计量数据集

109

显示最同源性。也许不出所料，Siku quanshu比WorldCat数据集更重视经典。数据集的通用组成之间的差异很可能不是来自WorldCat的不良信息，而是因为Sikuquanshu是明清出版趋势的不良类比。

晚期帝国图书的物理特征趋势

正如我们所看到的，通过WorldCat可获得的大型数据集允许我们将十七世纪和十八世纪印刷的现代数字化书目表示与该领域的低于的立场进行比较。对这些记录中描述的十七和十八世纪文本的物理特征的宏观分析也有助于可视化印刷趋势。这里汇编的数据涵盖了相当长的一段时间，因此允许进一步的历时分析，确定波动明末至清中期间文本的结构表型（如大小或字符数）。在时间上几乎没有变化的情况下，数据为有价值的慢慢分析提供了机会。有关单个文本框架大小的信息（bankuang

?）包含在7,502个书目记录中（见图2）。 3）。在明朝后半部分，文本框架的平均尺寸波动很小，虽然平均尺寸略有下降在1650年到1700.47之间。否则，框架尺寸保持相对稳定.48注意，然而，在本世纪上半叶，小型文本的数量 - 通过十八世纪产生的具有小文本框架的作品的数量增长缓慢，直到

47“文本框”是指在页面上定义主要打印文本边缘的边框。文本框架与页面的物理尺寸之间的关系非常紧密相关，但框架测量不包括上边距，下边边距和一边边距。帧大小（通常标记为kuang？），而不是页面的物理大小，是这些WorldCat记录中最常见的大小测量。尺寸信息通常包含在“注释”字段中，因此必须以特定方式提取（在附录中详细说明）。

48明清过渡在图3中也很明显。与图1中所示的直方图类似，在王朝过渡期间文本生产或生存的下降是由大约1644年至今的文本中的明显差距所引起的。 1650年代中期。

110 Paul Vierthaler

（CID：28）（CID：29）（CID：29）

（CID：30）（CID：29）（CID：29）

（CID：23）（CID：29）（CID：29）

（CID：24）（CID：29）（CID：29）

（CID：25）（CID：29）（CID：29）

（CID：31）（CID：29）（CID：29）

（CID：29）

小号R

ë吨È米

我

吨ÑËC

ëR

一个×

q小号Ñ

eziSemarF.

（CID：31）（CID：30）（CID：30）（CID：29）

（CID：31）（CID：28）（CID：29）（CID：29）

（CID：31）（CID：28）（CID：30）（CID：29）

（CID：31）（CID：27）（CID：29）（CID：29）

（CID：31）（CID：27）（CID：30）（CID：29）

（CID：31）（CID：26）（CID：29）（CID：29）

出版年份

图3中国书籍的框架大小，1550-1799。每个圆圈代表一个文本。该图包括可以计算帧大小的所有7,502个文本。大多数框架尺寸在200到350平方厘米之间。 1650年附近的差距显示了1644年朝代过渡后文本生产（或生存）的急剧下降。右下方的小集群表明了十八世纪出现的非常小格式文本的新类型。这些文本的生产率在1750年代后显着增加。

十八世纪后期，生产迅速增加。在十八世纪中期之前，相对于生产的作品数量以及更大的格式，小于180平方厘米的帧尺寸并不常见。如果没有大型的数据集，很难看到这种变化，而在图3右下方显示的十八世纪晚期的小格式文本集合出人意料。这种趋势明显早于技术的引入，例如平版印刷，这使得在晚清时期印刷小作品变得更加容易。※确定在晚明和早期的框架尺寸相对稳定清，下面分析这个维数据作为一个非等时整体。可视化框架大小的分布可以一瞥晚期帝国文学的大局。大

49光刻最初是在十八世纪晚期发明的，但直到十九世纪末才在中国广泛使用。辛西娅·布罗考（Cynthia Brokaw），“清代商业木版出版（1644-1911）和向现代印刷技术转型”，从“木版画到互联网：中国出版与印刷文化”，大约1800年至2008年，编辑。 Cynthia Brokaw和Christopher A. Reed（Leiden：Brill，2010），p。 48.第一个使用光刻印刷的中文文本的例子可以追溯到1832年。Christopher A. Reed，Gutenberg in Shanghai：Chinese Print Capitalism，1876-1937（Hono-lulu：University of Hawai’i Press，2004），页。 28。

分析文献计量数据集

111

（CID：31）（CID：31）。（CID：30）（CID：31）

（CID：31）（CID：31）。（CID：31）（CID：24）

ÿC

ÑË×

qËR˚F

（CID：31）（CID：31）。（CID：31）（CID：25）

（CID：31）（CID：31）。（CID：31）（CID：27）

（CID：31）（CID：31）。（CID：31）（CID：29）

（CID：31）（CID：31）。（CID：31）（CID：31）

（CID：31）

（CID：30）（CID：31）（CID：31）

（CID：29）（CID：31）（CID：31）

（CID：28）（CID：31）（CID：31）

（CID：27）（CID：31）（CID：31）

（CID：26）（CID：31）（CID：31）

（CID：25）（CID：31）（CID：31）

框架尺寸以平方厘米为单位

图4中国框架尺寸分布，1550-1799。该图包括可以计算帧大小的所有7,502个文本。它是使用核密度估计生成的。中心线标志着中位数，为273平方厘米。非常小的格式文本显着为140平方厘米左右的小凹凸。虽然有一些非常大的文本，但它们不会成为一个独特的群体。

小的是相对主观的区别;一个人可能想象的大可能与其他学者认为的大，或晚期帝国读者认为大的东西不匹配。从OLCR中提取的大小数据允许我们基于数据集中所有文本之间的标准偏差在数学上定义“大”和“小”。在平均值的一个标准差内的那些项目可以有效地被认为是正常的，并且那些在任何一端的那个范围之外的那些可以被认为是大或小，从而标准化这些先前的主观属性.50

图4可视化密度曲线中的这种尺寸分布表示 - 在1550和1799之间产生的工件的框架尺寸。这种ker-密度估计显示了随机选择的概率

50这种解释强调即使是定量分析也存在主观时刻。

虽然定量分析是描述文本的好方法，但它并不是唯一的方法。

112 Paul Vierthaler

文本将具有给定的帧大小。尺寸分布包括两个突出的峰，一个在140平方厘米左右的小峰和一个在290平方厘米附近的。平均值在大约273平方厘米的大峰顶附近，标准偏差为52平方厘米。因此，人们可以考虑框架尺寸小于221平方厘米（或低于平均值一个以上的标准偏差）的文本属于“小格式”文本，框架大小在221和325平方厘米之间的文本作为“nor-mal-format”文本，以及框架大小超过325平方厘米的文本作为“大格式”文本。这不是严格的分类; 相反，它使读者更好地了解晚期帝国出版物的帧尺寸的正常范围。

较大幅面的作品似乎没有提供有趣的趋势。很明显，它们的生成速度远远超出了假设的正态分布.51另一方面，有一个非常小的格式文本的集合，显着影响分布的形状。因为这些文本中有许多超过平均值（小于171平方厘米）的标准偏差超过两个并且产生明显的二次凸起，它们与其他文本非常不同，并且保证了“非常小”的独特类别格式文本。“由于框架尺寸介于200到180平方厘米之间的作品相对较少，我使用180平方厘米作为考虑工作的”小“与”非常小“格式之间的门槛。这些非常小的格式的分布代表中的凹凸是数据中明显的帧大小的显着持续变化。如果我从图4中删除在非中小幅面打印的中期增加之后产生的文本，实际分布将接近正常的分布。

从对文本的物理尺寸的讨论得出它测试帧大小和文本密度（页面上的字符数）之间的关系是有价值的，因为包含大小信息的记录的大部分也是

51正态分布或钟形曲线是一种常见的分布，其中68％的数据点在平均值的一个标准差内，95％在两个标准差内。这样的分布允许人们假设大多数文本的大小可能接近平均值，并且在任一方向上的大小越极端，发生的可能性越小。

分析文献计量数据集

113

egaP

rep

sretcarahC

rebmuN.

（CID：30）（CID：29）（CID：29）

（CID：23）（CID：29）（CID：29）

（CID：24）（CID：29）（CID：29）

（CID：25）（CID：29）（CID：29）

（CID：31）（CID：29）（CID：29）

（CID：29）

（CID：31）（CID：30）（CID：30）（CID：29）

（CID：31）（CID：28）（CID：29）（CID：29）

（cid：31）（cid：28）（cid：30）（cid：29）（cid：31）（cid：27）（cid：29）（cid：29）出版年份

（CID：31）（CID：27）（CID：30）（CID：29）

（CID：31）（CID：26）（CID：29）（CID：29）

图5中文文本中每页的字符数，1550-1799。每个圆圈代表一个文本。该图包括所有6,641个文本，其中每页的字符数可以计算。大多数文本的范围从每页140个字符到每页大约280个字符。没有强烈的线性趋势，但分布在250年期间略有扩大。

显示每行的字符数和每页的行数（7,502中的6,641）。虽然大多数十七和十八世纪的文本在框架大小上没有显着变化，但似乎合理的假设是出版商逐渐在每页上印刷更多字符以增加每卷所包含的信息量。数据集中适用数据的数量允许以相当精确的程度测试该假设。图5显示在七和十八世纪的过程中，每页的字符数没有显着增加或减少。因为随着时间的推移，平均字符数几乎没有变化，我对diachronic趋势进行折扣，而是直接解决框架大小与每页字符数之间的关系。一般可以理解大型版本没有生成

如图6所示，在页面上放置更多字符。相反，他们被制作为更昂贵的豪华版。数据集中每平方厘米的平均字符数小于0.75。如果我们假设这个数字在文本中是相对静态的，那么大多数工作将接近于具有0.75斜率的线。换句话说，对于页面上每1.34平方厘米的额外空间，一个人会期望另外一个字符。相反，灰线是这些数据的最佳拟合线，斜率为0.1533，这意味着每6.52平方厘米只有一个额外的字符。如果内容增加的内容是出版商的主要关注点，那么人们就会期待

114 Paul Vierthaler

egaP

rep

sretcarahC

rebmuN.

（CID：25）（CID：31）（CID：31）

（CID：26）（CID：31）（CID：31）

（CID：27）（CID：31）（CID：31）

（CID：28）（CID：31）（CID：31）

（CID：29）（CID：31）（CID：31）

（CID：30）（CID：31）（CID：31）

（CID：31）

（CID：30）（CID：31）（CID：31）

（CID：29）（CID：31）（CID：31）

（CID：28）（CID：31）（CID：31）

（CID：27）（CID：31）（CID：31）

（CID：26）（CID：31）（CID：31）

（CID：25）（CID：31）（CID：31）

框架尺寸以平方厘米为单位

图6每页和帧大小的字符数比较，1550-1799。每个圆圈代表一个文本。该数字包括所有6,641个文本，可以计算其大小。大多数文本每页有100到300个字符，帧大小在200到350平方厘米之间。当帧大小增加时，页面上的字符数会增加，但比预期的要低很多。灰线是最合适的线，斜率为0.1533。

字符数以更高的速度增加。如果出于功利目的而发布较大的文本，那么随着文本大小的增加，每页的字符数量将成比例增加。这里显示的分析为观察提供了统计确认，即没有产生更大的文本，以便将更多的信息整合到单个体积中，并强化了它们作为奢侈品生成的定性结论。令人惊讶的是，它们之间的相关性很弱字符计数和帧大小。虽然字符数似乎随帧大小增加，但实际关系并不清楚。相关系数为0.15153，一般认为是弱相关.52这个

相关系数可以介于-1和1之间，是衡量两个变量之间强相关的关系。系数-1表示两个变量完全负相关。系数1表示直接相关。一个系数

（CID：28）（CID：26）。

（CID：28）（CID：31）。

（CID：29）（CID：26）。

（CID：29）（CID：31）。

（CID：30）（CID：26）。

（CID：30）（CID：31）。

（CID：31）（CID：26）。

（CID：31）（CID：31）。

Ë吨È米

itneCerauqS

rep

sretcarahC

rebmuN.

分析文献计量数据集

115

（CID：31）

（CID：30）（CID：31）（CID：31）

（CID：29）（CID：31）（CID：31）

（CID：28）（CID：31）（CID：31）

（CID：27）（CID：31）（CID：31）

（CID：26）（CID：31）（CID：31）

（CID：25）（CID：31）（CID：31）

框架尺寸以平方厘米为单位

图7中文文本中的信息密度，1550-1799。每个圆圈代表一个文本。该图包括所有6,641个文本，其中提供了大小和字符信息。请注意，每平方厘米的字符数不是字符本身大小的直接表示，因为前者是整个文本框的大小的平均值，其中包括空格（即使它不是包括边距）。但是，这个数字可以很好地理解页面上的字符密度。随着帧大小的增加，信息密度呈指数下降。较大的文本通常不会生成以适应页面上的更多信息。

相关系数意味着帧大小是每页字符数的差预测器。图6中所示的线条表明文本每6.52平方厘米增加约每个字符一个字符，这对于数据来说并不是很合适。换句话说，尽管大型文本平均每页包含更多个字符，但这种关系非常弱，以至于文本框架的大小无法可靠地预测页面上的字符数。信息可以用另一种方式可视化，允许我们进一步探索其后果。计算char-acters相对于文本框大小的数量，从而假设每页字符数是给定文本信息的合法代理密度，显示框架大小和信息之间的反比关系密度。它也近似于页面上字符的物理大小，但它们不能直接互换，因为每页的字符数在整个文本框架中是平均的，因此它包含一些最小的空白区域。

零的意思是变量不相关。 David Freedman，Robert Pisani和Roger Purves，Statistics，3rd ed。（纽约：W.W。Norton，1998年），第125-28页。

116 Paul Vierthaler

图7显示了指数衰减，说明随着文本的增长，较大的字符密度以相当可预测的指数方式减少。也就是说，如果一个文字是600平方厘米，人们可以期望相对相信每平方厘米少于一个字符。尽管页面上的信息绝对量可能大于200平方厘米的文本，但是在平均值上，要求600平方厘米文本的信息密度要低得多。从本质上讲，大文本偏向于更大的字体而不是每页更多的字符。图3-7显示大规模统计方法打印

历史使我们能够更准确地评估印象主义陈述关于中文印刷的物理特征作品。这种方法为以前的结论增加了一层精确度，有助于更加细致地了解印刷趋势。

评估旧的假设，发展新的假设

如果使用统计数据来分析大型数字化数据集对于超出探索描述性特征的领域是有用的，那么它必须能够测试旧的假设以及产生新的结论。例如，在文学和印刷研究领域，一个历史悠久的假设表明自己的评价。罗伯特·黑格尔在他的着作“中国晚期的小说”中写道，在清朝期间，虚构作品的社会声望从晚上的明高点开始下降。这种声望的下降恰好与物理尺寸的减少相吻合。文本。他进一步认为，这种物理的减少与所有社会阶层中小说的受欢迎程度的增加相关。黑格尔坚持认为，大型小说继续在整个清朝出版，但它们往往是对旧的“经典”小说的重印。较新的小说很大程度上被归为较小的格式。他的数据肯定表明这个结论是正确的，但与通过WorldCat获得的数据相比，黑格尔的数据集相对较小。使用我用WorldCat数据开发的更大的数据集，我可以用更严格的统计数据来评估他的假设 - 也就是说，我可以更加确定地表明他现象

53黑格尔，“中国帝国晚期阅读插图小说”，第155-57页。

分析文献计量数据集

117

小号R

ë吨È米

我

吨ÑËC

ëR

一个×

q小号Ñ

eziSemarF.

（CID：30）（CID：29）（CID：29）

（CID：23）（CID：29）（CID：29）

（CID：24）（CID：29）（CID：29）

（CID：25）（CID：29）（CID：29）

（CID：31）（CID：29）（CID：29）

（CID：29）

（CID：31）（CID：30）（CID：30）（CID：29）

（CID：31）（CID：28）（CID：29）（CID：29）

（CID：31）（CID：28）（CID：30）（CID：29）

（cid：31）（cid：27）（cid：29）（cid：29）出版年份

（CID：31）（CID：27）（CID：30）（CID：29）

（CID：31）（CID：26）（CID：29）（CID：29）

图8中国小说的框架大小，1550-1799。每个圆圈代表一个文本。该图包括标记为小说的所有86个文本，其帧大小可以计算。大多数小说都在200到350平方厘米的预期范围内。在右下方群集中也可以看到非常小的格式文本。虚线趋势线表明，小说的总体规模每年缩小0.65平方厘米。实线趋势线表示当删除非常小格式的文本群时，文本每年仅缩小0.17平方厘米。小说显然是非常小格式文本制作的一个非常大的组成部分。

观察是真实趋势的结果，而不是小样本引入的偏见。黑格尔指出，1800年的小说在平均年龄明显小于明末，这一趋势横跨整个清时期。如上面图3所示，在1550和1799之间通过类型产生的一般不分类的帧尺寸显示出随时间的小波动。数据集中所有作品的帧大小建立了一个很好的基线，可以用来比较小说的帧大小的波动。如果所有作品都在缩小，那就表明趋势不是小说独有的。但是，由于一般情况下的文本在这段时间内几乎没有变化，因此表明小说正在发生一些事情。

图8仅显示了在OLCR中被归类为小说的数据点子集。 54 200平方厘米到350平方厘米之间的虚构作品的制作工作仍在稳步进行

54这八十六个数据点不包括数据集中的所有小说，因为很多都没有标记为小说。这种差异是不幸的。将来，可能有可能实现机器学习算法来预测数据集中的哪些文本是小说，即使它们没有这样标记。

118 Paul Vierthaler

跨越250年的速度。大于200平方厘米的工程的趋势线几乎与数据的趋势线整体相同，显示平均尺寸略有下降（最可能是由于统计噪音引起的）.55这个数字显示两者都稳定在十八世纪后期制作正常大小的文本和引入非常小的格式文本。最重要的是，图8显示小说必须是非常小格式群集的一个重要部分。如果群集与其余数据有相似的构成，那么只有大约一到两个小说将低于180平方厘米，因为小说由仅占数据集的1％以上。换句话说，许多文本包括在十八世纪晚期发展起来的非常小格式的文本集群是小说。因此，黑格尔是正确的，即十八世纪末产生的小说的平均大小小于明末期产生的平均文本的大小。然而，现实比最初看起来更复杂。在十八世纪之前，几乎没有小于180平方厘米的小说。在1750年代的某个时刻，出版了越来越多的非常小的格式文本 - 但是没有减少大型小说的数量。因此，证据指出了小格式文本的平行介绍，黑格尔指出的现象，而不仅仅是小型小说的趋势。黑格尔还认为，随着小说的缩小，字符的绝对数量一页保持大致相同，导致印刷品变得越来越密集。我在图9中调查了这一说法。与学者们已经知道的一致，整体中的字符密度几乎没有差别。数据集（如图5所示）和数据集小说中的数据集（如图9所示）。另外，从1550到1799，每页的字符数没有显着的变化。然而，因为有更多的小格式小说被生成，所以每平方厘米的平均字符数增加了。尽管每页的绝对字符数几乎没有变化，

55统计噪声是数据中的随机性，没有很好的解释。在像这样的数据集中，图书馆员可以通过测量书籍的大小来引入噪音。鉴于他们的统治者和视力的差异，即使他们测量相同的东西，也会有变化。

56黑格尔，读“中国帝国晚期的插图小说”，第4页。 122。

分析文献计量数据集

119

egaP

rep

sretcarahC

rebmuN.

（CID：28）（CID：29）（CID：29）

（CID：30）（CID：29）（CID：29）

（CID：23）（CID：29）（CID：29）

（CID：24）（CID：29）（CID：29）

（CID：25）（CID：29）（CID：29）

（CID：31）（CID：29）（CID：29）

（CID：29）

（CID：31）（CID：30）（CID：30）（CID：29）

（CID：31）（CID：28）（CID：29）（CID：29）

（cid：31）（cid：28）（cid：30）（cid：29）（cid：31）（cid：27）（cid：29）（cid：29）出版年份

（CID：31）（CID：27）（CID：30）（CID：29）

（CID：31）（CID：26）（CID：29）（CID：29）

图9中国小说中的每页字符数，1550-1799。这个图包括所有86个文本，元数据将它们指定为小说。在此期间，每页的绝对字符数几乎没有变化。然而，每单位面积的字符数增加了，因为在十八世纪晚期生成的非常小的格式文本。

随着页面变小，这些小说中的信息密度显着提高。

分析黑格尔的假设通过对原始论点进行进一步细化，说明了统计方法对中国印刷历史的效用。与之前的学术协议的广泛协议也增强了使用数字化文献计量数据的信心，以改进和扩展我们目前对印刷历史的理解。然而，最令人兴奋的发展是在评估旧假设时出现的意外发现。来自WorldCat的数据，如果局限于十六和十七世纪，则显示出预测 - 范围的框架尺寸，两端只有少数异常值。然而，当数据扩展到十八世纪时，如图中所示，那么非常小的格式文本就会明显地呈现出来。黑格尔的“文本作为神器”一章中明确提出的数据显示了新颖大小的减少从十八世纪末到十九世纪最清楚地发生，但很难确切地确定这一趋势何时开始.57通过增加显着性

57黑格尔提出了30个数据点，范围从1522到1799年，三十六个数据点从1800年到1908年。只有1522年的文本超出了我在本文中分析的日期范围。我通过仅包括短于十年的范围的文本，对我的数据应用了与我自己的数据相同的标准。他的大部分尺寸信息来自纸张的总尺寸，而不是文本框架。在少数情况下，他的大小信息是文本

120 Paul Vierthaler

小号

吨×

ëŤ

吨

一米R

Ò˚F

升升

一米小号ýR

ëV

rebmuN.

（CID：28）

（CID：29）

（CID：30）

（CID：31）

（CID：27）（CID：28）（CID：26）（CID：31）

（CID：27）（CID：25）（CID：31）（CID：31）

年

（CID：27）（CID：25）（CID：26）（CID：31）

（CID：27）（CID：24）（CID：31）（CID：31）

图10非常小格式文本的滚动十年平均值，1650-1800。非常小的格式文本的框架尺寸小于180平方厘米;数据集中很少有这样的文本可以追溯到1700年之前。在1750年之后，每年非常小的格式文本的数量显着增加。每个年由10年期间数据集中的平均书籍数量表示，这平滑了各年之间的差异。阴影显示标准错误。

来自WorldCat数据集的数据量，我可以追踪到趋势的开始到十八世纪中期。使用这种定量方法，研究人员可以更精确地制作病例。图10中的证据显示了每年发布的数据集中非常小的

格式文本的数量，使用滚动十年窗口。这一行的第一点是1650-1659期间的平均产量，第二点是1651-1660，等等。这种滑动平均值使数据平滑，以更好地揭示趋势。图10中的分析表明，出版商在十七世纪末和十八世纪末期间以非常小的速度制作了非常小的格式文本。有人可能认为，这种明显的生产增长可能实际上反映了存活率的提高较小格式的

帧大小，我排除了那些数据点，因为它们人为地向下倾斜数据。因此他的数据集中的文本大小平均大于我的文本大小，但这种现象并不影响趋势的呈现。

分析文献计量数据集

121

文本由于年龄的减少（也就是说，随着我们接近现在，存活率增加）。然而，在相对较短的时间内，数量的迅速增加太突然而无法完全解释只能通过提高文本的生存率来实现。从1750年到1800年，数据集中非常小的格式文本在每十年（从1750-1759的十二个文本到1790-1799的五十六个文本）中以两位数的百分比增加。正常和大幅面文本的制作从1750减少到1770（分别在每十年分别有437,366和342篇文章），但在此之后缓慢增加。没有理由将较小格式作品中的增加归因于更好的生存。事实上，鉴于较小的文本可能比较大的文本便宜，较小的文本更有可能被处理得很差，最终会被剥夺，这会抑制生存率 - 与趋势相反的看到。因此，我们可以确信实际上有实际增加产量。到目前为止，数字中显而易见的小格式作品的质量难以察觉的生产趋势说明了可视化大型数据集的实用性。这些可视化也提供了一个机会来询问小幅面作品的本质。例如，非常小格式的类型或主题是否与整个文本的不同？如果是这种情况，黑格尔的假设是，具有较低社会地位的文本（被视为“低俗”的文本）更有可能以比其他类型的文本更小的格式获得。 Sev-更多问题如下：低俗工作是否形成了以小于180平方厘米的格式印刷的较大的作品？经典等高级作品不太可能以格式打印？表4比较了大于或等于的文本的四个分支的每个

类别中的十八世纪文本的数量180平方厘米，小于180平方厘米的文本。与文化重要性 - 经典和历史最密切相关的两个类别在较小格式作品中的表现明显较少。历史显示最大跌幅，经典显示较小但仍然明显下降。哲学表现出代表性的惊人增长，可能是由于该类日常使用类型的作品，如医学文本（yijia lei ?）。很明显，四个分支的分类

122 Paul Vierthaler

表4. WorldCat中较大和较小格式文本的比较

记录，1550-1799，按其四个分支分类文本数量

文本数量

180岁以下

百分-

平方厘米

年龄

180平方厘米或更大

经

历史记录

哲学

纯文学

其他总

532

1030

436

1230

三十

16.33

31.61

13.38

37.76

0.92

3258

100

经

历史记录

哲学

纯文学

其他总

百分-

年龄

10.00

15.00

29.00

39.50

6.50

三十

200

100

大文本的组成与小文本的组成有显着差异.58在将非常小格式的作品与大格式作品进行比较时，某些类型的文本的相对频率发生了明显的变化。大多数类型都是非常小的格式文本。然而，一些单独的标题作为非常小的格式文本比其他标题更不常见。关于儒家经典的着作以非常小的形式存在，但它们作为非常小的格式作品不太常见，而不是小说和其他不那么有名的流派。图11显示了特定类型的文本在常规或大尺寸格式中找到的常见情况与它们的常见程度（以非常小的格式找到）之间的差异。四本书，个人作品（bieji），传记（zhuanji ?）和地理位置的作品都是以非常小的形式发现的。个人收藏率特别低，因为尽管它们在数字上是非常小和较大的文本中最常见的类型，但它们在大于180平方厘米的文本中数量要多得多。我用灰色突出显示这些类型至少五倍在非常小的格式中比在大格式中更常见

58这种差异通过卡方检验得到进一步证实。 chisquare测试可以确定观察到的频率与预期频率之间的差异是否具有统计学意义。通过这种方式，我们可以测试以较小的格式（观察到的频率）打印的文本是否与正常的 - 格式文本（预期的频率）的类别（或类型）不同。有关卡方检验的更多信息，请参见Freedman等人，统计学，第二章。 28。

小号

吨×

ëŤ

吨

一米R

Ò˚F

llamSyreVgnomA

升

分析文献计量数据集

123

（CID：28）（CID：30）X

（CID：28）（CID：31）

（CID：29）（CID：30）

（CID：29）（CID：31）

（CID：30）

（CID：31）

stsilevoNyb

skroW

小号

ë我

ħp一个R

克ø

我升

一世

小号

Ñø

我吨一升我

米øC

小号

一个R

ëpø

Ñ我C

我dÈ中号

小号升

ëvøÑ

吨RA

小号ķR

ÒW¯¯

吨

小号我

ħdd×乙

米

小号我C

我吨我R

ÇÿR

一个R

ë吨我大号

小号

一个我

dË

pø升CýC

ÑË

seidutS

ronM

一世

升

小号

ë我

克ö

øħ

吨ÑA

ÿR

吨Ë

ÒP

小号C

我吨我升

ØP

skoo

小号

Ñø

我吨C

ë升升

ÒC

升

一个×

d我

v我

dÑ我

小号

ë我

ħp一个R

克ÒB

一世

小号

ë我

ħp一个R

克ø

ëģ

类型

图11中文文本格式大小的流派组成比较，1550-1799。这个数字包括非常小的格式文本中的十八种最常见的类型。用于比较的预期基线是大于180平方厘米的文本的类型组成。由阴影条表示的类型在非常小的格式文本中比在大格式文本中至少高五倍。

为了想象哪些作品与非常小的格式有关 - 三个小说子类别中的两个（“nov-elists”xiaoshuojia lei和“novels”xiaoshuo lei），汇编（hui bianlei ? ），书目（mulu lei ?），艺术（yishu lei ?），歌剧（qu lei ?），诗歌（shi lei ?），文学批评（shiwenping lei ?），与以十八世纪出现的非常小的格式产生的类型相比，大文本和普通格式的文本类型发生了显着的变化（或者表现出色）。在观看小说时，这种转变尤为明显。小说（小说雷和小说家雷子类别）仅奖励1.1％的文本等于或大于180平方厘米（有35个例子），分别排名第23和第3至第8。然而，当处理小于180平方厘米的文本时，小说占整体的15％（或30个作品）。这种差异构成了一个非常大的排名，其中nov-els（小学雷）排名第二，小说组（小说家雷）排名第五。这些排名进一步证实了小说是非常小作品的主要部分。

124 Paul Vierthaler

启示

大型文献计量数据集是一种有价值的分析资源，可用于以新的方式探索中国文学和印刷历史。与此同时，依靠这些资源会带来重要问题 - 最值得注意的是，幸存文本在何种程度上代表了在晚期期间实际产生的文本，甚至在多大程度上代表了编目文本。现存文本。然而，在中国印刷史上工作的每个人都面临着这些问题。使用大型biblio-度量数据集（如本文中的那些）的优势在于它们包括绝大多数编目作品，这代表了全面性的一步。

很明显，WorldCat数据的分析表明以及前期的学术研究和书目着作。将来，通过包含从参考书目和王朝历史（在数据集中）中提取的关于不再存在的作品的信息，可以使得从该数据源得到的联系更加准确。这样的提取可以评估现存的和非现存的作品之间的关系。我们可以通过阐明印刷历史趋势的能力来评估统计分析的效用。有关纺织品生产中断的证据可以从在线目录记录中得出，建议 - 至少根据这一指标，大型数据集的统计分析是成功的。在十八世纪晚期确认关于非常小的格式文本的较旧假设提供了一些证据，证明学者可以确信这种方法论工具提供了一种简化和严谨的方法来进行和验证研究。

超越探索历史趋势，可以结合文化批评来分析适合统计分析的数据，以评估文本产生的文化背景。这里提出的证据表明，文本的某些物理特征，特别是它们的大小，可以成为文化重要性的合理代表。罗伯特黑格尔对小说印刷趋势的分析取决于这个想法：小说以更小的格式印刷因为它们变得不那么具有社会声望。这些类型以非常小的格式文本集群表示 - 通过数字统计显示

分析文献计量数据集

125

分析 - 表明黑格尔的假设是准确的：小说在这个群体中显得过于强烈，而在很大程度上反映了日常生活中有用的文本，例如医学书籍。正式的，“高调”的文本属于经典类型和他的 - 托利党分支出现的次数要少得多。这项研究并没有直接说明小说是否以非常小的格式打印，因为它们不太重要或者如果规模缩小导致声望下降，但数据具有启发性。黑格尔认为，尺寸的减小表明了这一点

白话小说吸引了越来越多的社会更多样化的读者;随着它变得越来越流行，小说的文化地位下降了直到它被中国社会精英的更保守的成员广泛嘲笑。

我推测，随着小说享受更多的印刷，他们失去了他们以前在他们流传时所占据的独特文化空间作为重要文人之间的手稿 - 像许多作品如金平梅？（金色花瓶里的梅花）早在他们的时代就做过了。 Pierre Bourdieu提出了一个类似的案例，在一个括号注释中说，至少在法国，普及使贬值艺术在精英眼中贬值“因为区别和自我辩证的辩证法指出作为贬值’中间’艺术的那些合法的成为’普及的作品’。“60关于因果关系的更清晰答案可能会发现其中存在的标题

以较小的格式.61鉴于原始小说构成了非常小格式作品的大多数，似乎是声望主要是受影响的新作品，而较旧的，更成熟的标题更多可能以正常和更大的格式打印。以较小格式打印的较旧标题可能与扩展的考试系统的访问以及对廉价学习材料的需求增加有关。在她的Sibao书籍贸易工作中，Cynthia Brokaw注意到廉价考试材料的增加，如果不是特别小的格式

59黑格尔，“阅读中国帝国晚期的插图小说”，第156-57页。60皮埃尔·布尔迪厄，“区别：品味判断的社会批判”，译。理查德

Nice（Cambridge，MA：Harvard University Press，1984），p。 14。

61在这里，定性和定量研究必须齐头并进。定量研究引导研究人员收集这些小格式文本。仔细阅读和检查这些工作的一部分，使研究人员能够得出更好的结论。

126 Paul Vierthaler

材料。她指出，经典和学习指南是四宝生产力的一大部分：

清代考试制度的开放性，通过提供希望 - 无论多么苗条和奸诈 - 。。。促进了这些文本在穷人负担得起的版本中的广泛销售.62

最有可能的是，随着小说越来越受欢迎，出版商以较小的格式打印它们以努力降低成本，从而增加销售。遗憾的是，在此期间，几乎没有关于书籍成本或印刷量大小的信息。鉴于这些小说中的许多都是正在制作中，似乎有一个重要的市场可以用来讨论那些沉默寡言的小说。老字号，写得好的作品与声名鹊起的作品较少受制于缩小尺寸，表明出版商没有感觉需要缩小尺寸或价格才能销售。十八世纪的标题数量迅速增加也意味着公众可能会印刷质量较差的材料。这些作品的可用性增加对这种类型的社会元素产生了相应的影响。

我认为所有这些因素都有助于创造反馈循环：小说受欢迎程度的提高导致出版商减少小写的印刷尺寸试图利用需求，在转向进一步提高可用性，从而普及。总的来说，它似乎可能是小说的减少和产量的增加，如果不一定造成的话，影响了小说作为高雅艺术形式的感知衰落。尽管如此，像“水浒传”这样的老年人的文化重要性可能并没有因为“流行”头衔的蓬勃发展而下降，即使有些人认为这种类型被廉价，糟糕的小说稀释了。尺度缩小的儒家经典和考试学习指南肯定存在，可能会对影响小说的市场和文化动态产生影响，因为考试制度的影响会提供稳定的需求和文化声望。 63十七世纪和十八世纪印刷的图片

62 Cynthia J. Brokaw，“阅读十九世纪的畅销书：Commer-

“四宝”中的“出版社”，“中国晚期印刷与书籍文化”，第4页。 187。

63这一观点源于Brokaw对这类工作的高要求的观察。 Brokaw，“阅读畅销书”，第186-87页。我假设打印运行

分析文献计量数据集

127

在这里开发只是划伤数字中国印刷方法的可能性。对在线书目数据的分析 - 集为未来的研究提供了令人兴奋的可能性。它的灵活性远远超出我在此展示的范围。 WorldCat数据集和其他类似的数据集可以根据每个研究人员的相互关系进行分析。例如，通过对文本类型的元数据进行密切的分析，出现了智力趋势的变化。按类型或其他变量进行的文本生产的地理分布很容易解析出大量书目数据的宝库。将biblio-图形数据与其他数字分析工具集成在一起可以提供更多可能性。例如，通过从书目记录中提取作者信息，将其与其他数据库中的传记数据相结合，然后统计分析数据，可以访问女性参与出版业。学者还可以使用组合书目和传记数据来研究撰写文本的作者之间的大规模关联网络具有某些特征，例如内容，流派或格式.64

很快研究人员将能够更容易地接近以前拒绝分析的中国文学研究的方面 - 广泛制作的类型写得不好的文本和文本但是文本消耗水平很高。过去，由于时间和数量的限制，这些来源对于学者来说过于笨拙而无法有效处理。使用书目元数据，以及在某些情况下从完全数字化的文本中提取的数据，学者现在可以将它们放入中国文学生产的更广泛的背景中。这种方法代表了一种强有力的尝试，以解决汉学家可以获得的过多资源。其他数字方法依赖于策划的数据库和分析整个作品的数字化成绩单，也为研究开辟了新的路径。数字人文科学研究标志着一种激动人心的方式来提高中国研究的严谨性，同时引入新的途径进行分析。

小经典和考试学习指南比非常小的 - 垫小说的印刷大，但这种解释是我的推测。

64此类信息的最佳资源是哈佛大学的中国传记数据基础。 2014年，它包括了有关中国128,923个历史人物的传记信息（2013年7月8日这个数字为12,000，本文的早期研究得到了报道，截至2015年4月，该数字超过了360,000）。使用数据库的搜索功能，人们可以在1550年到1799年之间找到63,000人活着的传记。

128 Paul Vierthaler

附录：MARC记录

MARC或“机器可读编目”是由国会图书馆（LOC）设计的系统，用于计算机化图书馆cata-登录系统。它最初是在20世纪60年代早期开发的，用于对LOC进行数字化追踪.65在这里，我注释了一个代表性的MARC记录，以提供它的结构感。 MARC记录在标有数字的唯一字段中组织信息，指示该字段包含的信息类型。该组织可以轻松提取您要查找的信息。对于示例，字段260包含发布信息。其他字段，例如字段500（一般注释），可能包含长描述性注释。在相关的地方，我详细说明了如何提取自然语言中的信息。图12所示的MARC记录是针对世纪的1557印记？（伟大的历史学家的记录）。这项工作在哈佛燕京图书馆的稀有书籍集中进行.66大部分记录符合MARC标准，但它确实包含了该图书馆独有的一些信息.67每一行（或字段）都以数字，例如100或245，表示在现场内找到的信息类型在某些情况下，该字段将进一步用一个或两个提供更多信息的附加数字来描述。有些 - 有一个斜线将前三个数字与下一个数字分开一个或一个或两个数字，有时则没有。例如，此记录中的24500有时写为245/00。每个字段中都有子字段，可以进一步细分信息。这些子字段由美元符号（$）或管道（|）后跟字母或数字标识。

65“什么是MARC记录？为什么它很重要？”国会图书馆，最后修改于2009年10月27日，http：//www.loc.gov/marc/umb/um01to06.html。有关MARC格式的完整描述以及每个字段的含义，请参见LOC网站http：//www.loc.gov/marc/。 MARC记录格式的规范在“书目数据”（2012年9月最后修改，http：// www.loc.gov / marc / MARC_2012_Concise_PDF / Part3_Bibliographic.pdf）中详细列出。表5中的页码参考2012年报告中的页面。我在这个注释中提供了每个字段的正式名称。

66要查看此记录，请参阅http://id.lib.harvard.edu/aleph/007759869/catalog,单击“链接”框中的“HOLLIS经典记录”。从那里，点击“选择格式”下的“MARC”。

67 H48，H018和H03字段不是标准的MARC字段。68 LOC提供了大多数可以想象的信息类型的字段。

LDR001005008035003500402450024500260260300500500500510351036001060010651 0651 0700170017001 700170017001830 0

分析文献计量数据集

129

01770cam 2200385ui 4500007759869-520110328113822.0980408s1557 cc 000 0 chi d| a ocn786418618| a ocm38921178| a * YNH * | c * YNH * | d CStRLIN| 6 01 | a史记超：| b 20 juan / | c Shen Ke bian xuan;黄阳武娇。| 6 01 | a ? ：| b 20？ / | c ? ; ?。| 6 02 | a [中国]：| b沉世子阚本，| c明嘉靖丁思[36年，1557]| 6 02 | a [中国]：| b ? ?，| c ?丁？ [36？，1557]| a 16 v。| a双叶，东方风格，以防万一。| 6 03 | a <>| 6 03 | a ?，? ,? ？，?，?上?，? 20 x 13.3。| 6 04 | a朱璐：中国古井山本书亩。| 6 04 | a ?：?。| 6 05 | a Sima，Qian，| d大约公元前145年 - 大约公元前86年| t Shi ji | x摘要。| 6 05 | a ?，| d大约公元前145年 - 大约公元前86年。 | t ? | x摘要。| a中国| x历史| y至公元前1766年| a中国| x历史| y 1766 BC-220 AD| 6 06 | a Shen，Ke，| d jin shi 1544.| 6 06 | a ?，| d jin shi 1544.| 6 07 | a Sima，Qian，| d大约公元前145年 - 大约公元前86年| 6 07 | a ?，| d大约公元前145年 - 大约公元前86年 | 6 08 | a黄，阳武。| 6 08 | a ?。|中国国家图书馆 - 哈佛燕京图书馆中国珍本书数字化

项目。 | 5净

图12世纪1557印记的MARC记录?这个特别的记录来自哈佛大学的HOLLIS Classic目录（hollisclassic.harvard.edu）。已删除非MARC信息，如FMT和987字段。 MARC记录的确切格式取决于其来源。

在大多数MARC记录中，但不是这个记录，在字段886中可以找到外国语言的信息。字段886中的内容通常是外语的整个记录。在哈佛的HOLLIS Classic目录中，此信息与英语信息并行显示。此记录中省略了几个常见字段。最值得注意的是字段100，称为主要条目个人名称，其中通常包含作者的姓名。缺少特定的共同字段在MARC记录中并不罕见。如果信息是必要的，它通常可以在不同的领域中找到。例如，在这个记录中，SimaQian在MARC字段中表示与工作相关的人（600/10），而不是表示作者身份的字段。在这里，我注释了Shiji MARC记录中的选定字段。图12显示我的分析中使用的信息的提取位置。

130 Paul Vierthaler

980408s1557 cc 000 0 chi d

原始记录中包含的信息采用sanserif类型。表5提供了此MARC记录中字段的名称和内容。008该记录创建于1998年4月8日（980408）。该文本于1557年在中国（cc）的“单一已知日期”上发布。它不是一个出版物（0）或一个festschrift（0），也没有索引（0）。是用中文（chi）写的非小说作品（0）。记录中的信息来源是“其他”（d），可能在040字段中定义。该字段中的空白区域描述了各种各样的事物（例如，插图的大小，目标受众））。其他人未定义。24500 | 6 01 | a ? ：| b 20？ / | c ? ; ?。这是20卷？世纪手稿版。它由沉科编辑？并由黄阳武校对?。260 | 6 02 | a [中国]：| b ?，| c ?丁？ [36？，1557]沉先生出版？在嘉靖36年？ em peror’sreign（1557）。300 | a 16 v。这项工作包含在16个物理卷中。 500 | a双叶，东方风格，以防万一。：作品有东方风格的双叶文字，存放在一个箱子里。500 | 6 03 | a ?，? ，?，?，?上?，?

20 x 13.3。

此条目是文本的物理描述：“十列char-acters，每列20个字符，双行环绕页面，白色中心列，单个鱼尾，上部寄存器中的注释，以及文本框架是20 x 13.3 [厘米]。“我使用了一个正则表达式，这是一种识别模式的算法，用于提取大小和字符数。例如，一旦从记录中删除了空格，正则表达式[?] {1,2}（\ d +（\。\ d +）？）x（\ d +（\。\ + d +）？）将返回二维20和13.3。5103 | 6 04 | a ?：?。本记录中的信息最初发现于中国古吉山本书姆书中。

分析文献计量数据集

131

60010 | 6 05 | a ?，| d约为145 B.C.-约86

公元前| t ? | X

中国| x历史|年至公元前1766年

| a中国| x历史| y 1766 B.C.-220 A.D.

这部作品是史基，是生活在公元前145年左右至公元前86年左右的司马迁。651 0这本书是关于中国历史可以追溯到公元前1766年。651 0大部分重复的信息：这本书是关于中国历史从公元前1766年到公元220年。7001沉克在1544年获得金石学位，与本文有关。7001

| 6 07 | a ?，| d约为145 B.C.-约86B.C.

| 6 06 | a ?，| d jin shi 1544。

| 6 08 | a ?

司马迁，公元前145年 - 公元前86年，与本案有关。7001黄阳武与本案有关。830 0

| a中国国家图书馆 - 哈佛燕京图书馆中文珍本图书数字化项目。 | 5净

本书作为中国国家图书馆和哈佛燕京图书馆的中国珍本书数字化项目的一部分进行了数字化处理。记录的其余部分包含特定于哈佛 - 燕京图书馆的字段，这些字段并未由MARC标准。

132 Paul Vierthaler

表5.图12中Shiji记录中MARC字段的说明字段或子字段LDR

字段或子字段名称

字段内容

领导

描述技术细节的代码

记录（第3页）

001

005

008

035/0

040

|一个

| C| d245/00

| 6|一| b

| C

260

| 6|一| b| C ^300

|一个

500

控制序列号

上次交易的日期和时间

固定长度的数据元素 -

一般信息

系统控制号（尾随0

未定义）

编目来源

子字段：原始编目

机构

子字段：转录代理子字段：修改代理245：标题声明; 0：没有添加标题; 0：无非归档字符子字段：链接子字段：标题子字段：标题的剩余部分

[字幕]

subfield：声明

责任

出版，发行等

on（印记）子字段：链接子字段：发布地点子字段：发布者名称子字段：发布日期物理描述

子字段：范围

一般说明

由…发布的唯一标识符

谁创造了记录（第7页）

上次编辑记录时

（第7页）

描述各种特征

记录创建日期，文本发布日期，语言等记录。（第35-39页）与字段001相似，但是由

不同的组织（第63页）

描述谁进行记录

（第65-66页）

作品名称（第94页）

指向相关领域b

这里是编辑和校对员

出版的时间和地点

（第102页）

通常包含vol-的数量

梅姆斯（第107页）

在这里，工作的长度

卷

非常灵活的领域，往往有物理

文字说明（第131页）

分析文献计量数据集

133

| 6|一3分之510

| 6|一10分之600

| 6|一| d

| t| x651/0

|一| X|ÿ

1分之700

| 6|一| d

830/0

|一| 5

子字段：链接子字段：一般注释510：引用/引用注释; 3：未给出来源的位置。

子字段：链接子字段：源名称600：主题添加条目个人名称;1：姓氏; 0：LOC主题标题子字段：链接子字段：个人名称子字段：与a关联的日期

名称

子字段：作品标题子字段：常规细分651：主题添加条目地理名称; 0：LOC主题标题子字段：地理名称子字段：一般细分子字段：按时间顺序排列

细分

700：添加了条目个人姓名; 1：姓氏子字段：链接子字段：个人姓名子字段：与a关联的日期

名称

830：系列增加了条目统一标题; 0：无填充字符子字段：统一标题子字段：字段所在的机构

适用

点到记录中的信息来源，通常是旧目录（第137页）

主题标题以个人名字命名

（第169页）

地理主题标题

（第176页）

经常在单个记录中出现多次，描述与文本相关的所有人（第183页）

如果文本是更广泛的项目的一部分，

它经常在这个字段中命名（第214页）

a页码是指LOC的2012年“书目数据”报告。我用verba-

蒂姆在报告中找到的官方说明。

b“控股数据”，2012年9月修订，http：//www.loc.gov/marc/MARC

_2012_Concise_PDF / Part5_Holdings.pdf，p。 59。