内容简介
现代计量语言学是一个严格按照科学哲学对于科学的定义构拟的语言学分支学科。本书尽量用通俗易懂的语言,介绍计量语言学的起源和发展历史,讲述该领域常见的概念、理论、模型和方法,对于常用的算法和软件等工具亦有介绍,并为初学者指明可以立即展开研究的问题及方向,既适用于课程教学,也可供相关领域的研究者参阅。本书是国家社科基金重大项目“现代汉语计量语言学研究”的成果,同时也是世界上第一部关于计量语言学的综合性导论。
作者简介
刘海涛(1962— ),博士,浙江大学求是特聘教授,博士生导师;国际世界语学院院士(Akademio de Esperanto)。Journal of Quantitative Linguistics 副主编,Glottometrics(共同)主编,Language Problems & Language Planning、Glottotheory、 Esperanto Studies 等多种国际语言学相关学术刊物的编委会成员;商务印书馆《应用语言学译丛》主编。在60余种国内外文、理、工刊物发表语言学相关文章160余篇,其中50多篇被SSCI、A&HCI;、SCI收录,是近十年来被WOS核心库(SSCI、A&HCI;、SCI)收录语言学论文*多的大中华区学者。
目录
前言
第一章 计量语言学的历史
1.1 语言量化研究思想的萌芽
1.2 语言量化研究的进一步发展
1.3 齐普夫、赫尔丹、福克斯及其研究成果
1.3.1 齐普夫
1.3.2 赫尔丹
1.3.3 福克斯
1.4 阿尔特曼学派及其研究成果
第二章 计量语言学的定律和理论
2.1 计量语言学的科学哲学基础
2.1.1 科学的核心要素及其与语言学的关系
2.1.2 从科学哲学看语言学理论
2.1.2.1 语言学理论的现状
2.1.2.2 计量语言学理论研究的对象——文本
2.1.2.3 语言理论的构建
2.2 计量语言学的定律
2.2.1 计量语言学中的三类定律
2.2.1.1 分布定律:齐普夫定律
2.2.1.2 函数定律:门策拉一阿尔特曼定律
2.2.1.3 演化定律:皮奥特洛夫斯基一阿尔特曼定律
2.2.2 计量语言学中的其他定律
2.2.2.1 词长分布定律
2.2.2.2 词长和词频相关定律
2.2.2.3 词长和多义度相关定律
2.2.2.4 多义度和同义度相关定律
2.2.2.5 同义度和词长相关定律
2.2.2.6 频次和多文度相关定律
2.2.2.7 文本块定律
2.2.2.8 成分顺序与长度和复杂度的关系
2.3 从定律到理论
2.3.1 词汇协同模型的公理
2.3.1.1 协同模型中的语言学概念
2.3.1 2协同模型中的系统需求
2.3.2 词汇协同模型的推导及检验
2.3.2.1 词汇协同模型的推导
2.3.2.2 词汇协同模型的检验
2.3.3 词汇协同模型的发展与语言学理论
第三章 计量语言学的研究方法
3.1 计量语言学研究的一般方法
3.1.1 计量语言学研究方法的特点
3.1.2 计量语言学研究的流程
3.1.3 建立协同语言学模型的具体流程
3.2 计量语言学研究的复杂网络方法
3.2.1 语言是一种复杂网络
3.2.2 语言的复杂网络模型
3.2.3 语言复杂网络的分析指标
3.2.3.1 与节点度有关的网络指标
3.2.3.2 小世界属性
3.2.3.3 相关性
3.2.3.4 中心性/势指标
3.2.4 语言复杂网络的研究现状
3.3 计量语言学的常用软件介绍
3.3.1 文本计量分析软件QUITA
3.3.1.1 文本计量指标简介
3.3.1.2 指标的计算
3.3.2 分布拟合软件Altmann-Fitter
3.3.2.1 数据文件的创建
3.3.2.2 数据文件的读取
3.3.2.3 数据拟合的具体操作
3.3.3 非线性回归与曲线拟合软件NLREG
3.3.3.1 NLREG的四个必有语句
3.3.3.2 结果的解读与可视化
3.3.4 曲线拟合软件Tablecuwe2D
3.3.4.1 数据文件的读取
3.3.4.2 利用内置函数的曲线拟合
3.3.4.3 使用自定义函数的假设检验
3.3.5 复杂网络分析软件Cytoscape
3.3.5.1 网络文件的创建
3.3.5.2 网络文件的读取
3.3.5.3 网络指标的计算
3.3.6 社会网络分析软件Pajek
3.3.6.1 Pajek的基本数据结构
3.3.6.2 网络文件的创建方法
3.3.6.3 网络文件的读取与网络图的绘制
3.3.6.4 网络分析与结果的可视化
第四章 计量语言学的研究问题
4.1 语音
4.1.1 重音和频率
4.1.2 音位的总藏和词长
4.2 语法
4.2.1 频率和不规则性
4.2.2 词序和话题
4.2.3 信息结构
4.3 语义
4.3.1 意义和频率
4.3.2 动词和名词的多义词
4.3.3 语义分割空间
4.4 词汇
4.4.1 同义词及其形态
4.4.2 词的熟悉度和频率
4.4.3 字的习得及其复杂度
4.5 文本分析
4.5.1 “弧长”
4.5.2 “作者视野”
4.5.3 主题集中度
4.6 类型学
4.6.1 “熵”和语言的粘着性
4.6.2 词素长度
4.6.3 语言的粘着性
4.7 协同语言学
4.7.1 多义度和多文度
4.7.2 汉语的词长和多义度
4.7.3 句法网络分析
4.8 语用学
4.8.1 言语行为的秩频分布
4.8.2 戏剧中人物的同质性、相似性和等级性
……
第五章 《计量语言学学报》的计量特征分析
计量语言学相关资源
计量语言学基本文献
人名索引
术语名词索引
精彩书摘
《计量语言学导论》:
目前已有一些研究者开始采用复杂网络的方法开展语言学研究,并取得了初步的研究发现。这些研究大致可分为三类:人类语言作为分层系统的复杂网络研究,基于复杂网络的语言分类,以及语言的宏观结构与微观结构之间关系的研究。
现代语言学认为,语言不仅是一种系统,而且是一种分层的系统。从语言的实际使用来看,语言的表达就可以在从意义到形式上的多个层面去考察。从系统的观点来看,语言在意义一形式维度上的不同层面可以视为不同的语言子系统。基于相同的真实语料,可以构建某种语言在意义一形式维度上的不同语言层面的复杂网络模型。通过对这些网络模型的分析与比较,可以揭示人类语言作为分层系统的整体特征,并在系统层面上揭示人类语言从形式到意义的不同层面之间的关系。研究的结果能够反映人类语言与认知之间的和谐,这种和谐为各个语言层面(子系统)的网络分析与比较的结果提供了解读。
语言分类是现代语言学中的一个重要课题。基于复杂网络的语言分类研究表明,采用动态语言网络(例如句法依存网络和词同现网络)的基本指标,可以大致反映出不同语言在语言谱系中的异同关系。复杂网络的方法注重语言的整体特征,因此是整体类型学的一种潜在方法,也是对目前广为采用的局部类型学研究方法的重要补充。同时,动态语言网络基于真实语料,有助于弥补目前类型学研究不重视真实语料的不足。另外,复杂网络的方法是一种定量的方法,基于复杂网络的类型学研究因而能够反映语言之间的异同程度。
……
洞察文字背后的结构与规律:一本关于语言量化分析的探索之旅 语言,作为人类思维和社会交流的基石,其复杂性与精妙之处令人着迷。我们每日都在使用它,却鲜少停下来思考,在这看似随意的表达背后,是否隐藏着某种可被量化的结构和规律?是否可以通过科学的方法,揭示出语言使用的深层奥秘?《计量语言学导论》正是这样一部旨在引导读者踏入这一迷人领域的著作,它不拘泥于传统的语言学研究范式,而是以一种全新的视角,运用数学、统计学以及计算机科学的工具,深入探索语言的量化特征,揭示隐藏在文本和语篇中的普遍规律。 本书的出发点,是承认语言并非是一种纯粹的、不可测度的艺术,而是可以被量化和分析的对象。从词语的频率分布到句子的复杂度,从文本的主题演变到篇章的结构模式,每一个语言现象背后,都可能存在着可以被捕捉和衡量的指标。计量语言学,作为一门新兴的交叉学科,正是致力于发展和应用这些量化方法,以期更客观、更严谨地理解语言的本质。 《计量语言学导论》首先将带领读者回顾计量语言学的发展脉络。我们将从早期对词频统计的朴素探索出发,了解 Zipf 定律等奠基性成果如何预示了语言的内在秩序。随后,我们会深入探讨统计学方法在语言研究中的广泛应用,例如,如何利用概率模型来描述词语的共现关系,如何通过假设检验来验证语言学理论的有效性。同时,我们也会关注计算方法在计量语言学中的重要性,特别是自然语言处理(NLP)技术的发展,如何为大规模文本数据的分析提供了前所未有的可能性。 本书的核心内容之一,将集中在对词汇层面的量化分析。我们将详细介绍各种词汇指标的计算方法及其在语言学研究中的意义。例如,词汇丰富度(lexical richness)的度量,不仅可以用于比较不同文本的风格差异,更能反映作者的表达能力或特定语域的特点。我们将探讨多种词汇丰富度指标,如 Type-Token Ratio (TTR) 及其变体,并分析它们在不同文本类型下的适用性和局限性。此外,词频统计(word frequency statistics)是计量语言学的基石。我们将深入剖析词频分布的规律,解释 Zipf 定律的内涵及其在文本分析中的应用,例如,如何利用高频词来识别文本主题,如何通过低频词来分析文本的新颖性。除了单纯的词频,词语的平均长度、首字母和末字母的频率等看似微小的指标,在宏观的语言分析中也能提供意想不到的线索。 更进一步,本书将触及句子和篇章层面的量化分析。句子的复杂度,不仅仅是长度的衡量,更包含结构上的深度。我们将介绍如何通过句法分析(parsing)来量化句子的深度、分支度等指标,从而理解不同语言现象或不同作者的句式偏好。篇章结构分析是计量语言学的另一个重要前沿。我们将探讨如何使用统计方法来识别文本中的段落划分、主题转换点,甚至篇章的整体组织模式。例如,篇章中的“连贯性”(cohesion)和“衔接性”(coherence)可以通过分析词语和句子之间的关联度来量化,从而理解文本是如何构建意义的。 本书还将引导读者认识语言的动态变化,并通过量化方法来捕捉这种变化。语言并非一成不变,词汇的增减、语法的演变、风格的变迁,都在悄然发生。计量语言学提供了工具来追踪这些变化。通过比较不同时期、不同语料库的文本,我们可以量化词汇的使用频率变化,分析新词的出现和传播规律,甚至捕捉语法结构的悄然演变。例如,我们可以利用时间序列分析(time series analysis)来描绘特定词汇或语法结构的流行度曲线,从而洞察语言的演进轨迹。 文本分析的实际应用是本书强调的另一个重要方面。计量语言学的方法并非仅仅停留在理论层面,它们在实际应用中展现出巨大的价值。我们将探讨如何将计量语言学技术应用于 authorship attribution(作者识别),通过分析文本的语言特征来判定作者身份。在 plagiarism detection(抄袭检测)领域,量化分析可以帮助我们识别文本之间的相似度,从而发现潜在的抄袭行为。此外,在 sentiment analysis(情感分析)和 topic modeling(主题建模)等领域,计量语言学的方法为我们提供了量化和理解文本情感倾向和主题内容的技术支撑。例如,我们可以通过分析文本中情感词的出现频率和分布,来量化文本所表达的情感色彩;通过对词语共现网络的分析,可以自动识别出文本所讨论的主要议题。 本书还将关注跨语言和跨文化的比较研究。当我们将计量语言学的方法应用于不同语言时,我们能够发现语言共有的底层规律,也能揭示不同语言在表达方式和结构上的独特之处。例如,我们可以通过量化比较不同语言中动词和名词的相对频率,来研究语言的类型学特征;通过分析不同语言的词汇丰富度,可以探讨文化对语言表达的影响。 为了让读者更好地掌握计量语言学的工具,本书还将介绍常用的计量语言学软件和工具。我们将简要介绍一些主流的自然语言处理库(如 NLTK, spaCy)以及统计分析软件(如 R, Python 的相关库),并提供一些简单的实践案例,帮助读者将理论知识转化为实际操作能力。 《计量语言学导论》并非一本纯粹的数学或计算机科学书籍,它始终将量化方法与语言学理论紧密结合。我们相信,通过量化的视角,我们可以更深入地理解语言的本质,更客观地描述语言的现象,更严谨地检验语言的理论。本书旨在为语言学研究者、计算机科学家、数据分析师,以及所有对语言的内在规律充满好奇的读者,提供一个清晰的入门指引,开启一段充满发现与启发的探索之旅。它邀请您一同走进这个由数字和规律构成的语言世界,去洞察文字背后隐藏的深刻智慧。