内容简介
Terence Parr: The Definitive ANTLR 4 Reference (ISBN 9781934356999).Copyright ?2012 The Pragmatic Programmers, LLC.Simplified Chinese translation copyright ?2017 by China Machine Press.No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or any information storage and retrieval system, without permission, in writing, from the publisher.All rights reserved.本书中文简体字版由The Pragmatic Programmers, LLC授权机械工业出版社在全球出版发行。未经出版者书面许可,不得以任何方式抄袭、复制或节录本书中的任何部分。
目录
译者序
前言
致谢
第一部分 ANTLR和计算机语言简介
第1章初识ANTLR 3
1.1安装ANTLR 3
1.2运行ANTLR并测试识别程序 5
第2章纵观全局 9
2.1从ANTLR元语言开始 9
2.2实现一个语法分析器 11
2.3你再也不能往核反应堆多加水了 13
2.4使用语法分析树来构建语言类应用程序 15
2.5语法分析树监听器和访问器 17
第3章入门的ANTLR项目 20
3.1ANTLR工具、运行库以及自动生成的代码 21
3.2测试生成的语法分析器 23
3.3将生成的语法分析器与Java程序集成 25
3.4构建一个语言类应用程序 26
第4章快速指南 29
4.1匹配算术表达式的语言 30
4.2利用访问器构建一个计算器 35
4.3利用监听器构建一个翻译程序 38
4.4定制语法分析过程 41
4.5神奇的词法分析特性 45
第二部分 使用ANTLR语法开发语言类应用程序
第5章设计语法 53
5.1从编程语言的范例代码中提取语法 54
5.2以现有的语法规范为指南 56
5.3使用ANTLR语法识别常见的语言模式 56
5.4处理优先级、左递归和结合性 62
5.5识别常见的词法结构 66
5.6划定词法分析器和语法分析器的界线 71
第6章探索真实的语法世界 74
6.1解析CSV文件 75
6.2解析JSON 77
6.3解析DOT语言 83
6.4解析Cymbol语言 88
6.5解析R语言 91
第7章将语法和程序的逻辑代码解耦 98
7.1从内嵌动作到监听器的演进 99
7.2使用语法分析树监听器编写程序 100
7.3使用访问器编写程序 103
7.4标记备选分支以获取精确的事件方法 105
7.5在事件方法中共享信息 107
第8章构建真实的语言类应用程序 114
8.1加载CSV数据 114
8.2将JSON翻译成XML 117
8.3生成调用图 121
8.4验证程序中符号的使用 124
第三部分 高级特性
第9章错误报告与恢复 133
9.1错误处理入门 133
9.2修改和转发ANTLR的错误消息 137
9.3自动错误恢复机制 141
9.4勘误备选分支 152
9.5修改ANTLR的错误处理策略 152
第10章属性和动作 156
10.1使用带动作的语法编写一个计算器 157
10.2访问词法符号和规则的属性 162
10.3识别关键字不固定的语言 165
第11章使用语义判定修改语法分析过程 168
11.1识别编程语言的多种方言 169
11.2关闭词法符号 172
11.3识别歧义性文本 174
第12章掌握词法分析的“黑魔法” 180
12.1将词法符号送入不同通道 181
12.2上下文相关的词法问题 184
12.3字符流中的孤岛 194
12.4对XML进行语法分析和词法分析 198
第四部分 ANTLR参考文档
第13章探究运行时API 209
13.1包结构概览 209
13.2识别器 210
13.3输入字符流和词法符号流 212
13.4词法符号和词法符号工厂 213
13.5语法分析树 215
13.6错误监听器和监听策略 216
13.7提高语法分析器的速度 217
13.8无缓冲的字符流和词法符号流 217
13.9修改ANTLR的代码生成机制 219
第14章移除直接左递归 221
14.1直接左递归备选分支模式 222
14.2左递归规则转换 223
第15章语法参考 226
15.1语法词汇表 226
15.2语法结构 229
15.3文法规则 232
15.4动作和属性 241
15.5词法规则 246
15.6通配符与非贪婪子规则 250
15.7语义判定 253
15.8选项 257
15.9ANTLR命令行参数 259
参考文献 263
前言/序言
Preface前 言ANTLR是一款强大的语法分析器生成工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件。它被广泛应用于学术领域和工业生产实践,是众多语言、工具和框架的基石。Twitter搜索使用ANTLR进行语法分析,每天处理超过20亿次查询;Hadoop生态系统中的Hive、Pig、数据仓库和分析系统所使用的语言都用到了ANTLR;Lex Machina将ANTLR用于分析法律文本;Oracle公司在SQL开发者IDE和迁移工具中使用了ANTLR;NetBeans公司的IDE使用ANTLR来解析C++;Hibernate对象-关系映射框架(ORM)使用ANTLR来处理HQL语言。
除了这些鼎鼎大名的项目之外,还可以利用ANTLR构建各种各样的实用工具,如配置文件读取器、遗留代码转换器、维基文本渲染器,以及JSON解析器。我编写了一些工具,用于创建数据库的对象-关系映射、描述三维可视化以及在Java源代码中插入性能监控代码。我甚至为一次演讲编写了一个简单的DNA模式匹配程序。
一门语言的正式描述称为语法(grammar),ANTLR能够为该语言生成一个语法分析器,并自动建立语法分析树——一种描述语法与输入文本匹配关系的数据结构。ANTLR也能够自动生成树的遍历器,这样你就可以访问树中的节点,执行自定义的业务逻辑代码。
本书既是ANTLR 4的参考手册,也是解决语言识别问题的指南。你会学到如下知识:
识别语言样例和参考手册中的语法模式,从而编写自定义的语法。
循序渐进地为从简单的JSON到复杂的R语言编写语法。同时还能学会解决XML和Python中棘手的识别问题。
基于语法,通过遍历自动生成的语法分析树,实现自己的语言类应用程序。
在特定的应用领域中,自定义识别过程的错误处理机制和错误报告机制。
通过在语法中嵌入Java动作(action),对语法分析过程进行完全的掌控。
本书并非教科书,所有的讨论都是基于实例的,旨在令你巩固所学的知识,并提供语言类应用程序的基本范例。
本书的读者对象本书尤其适用于对数据读取器、语言解释器和翻译器感兴趣的开发者。虽然本书主要利用ANTLR来完成这些工作,你仍然可以学到很多有关词法分析器和语法分析器的知识。初学者和专家都需要本书来高效地使用ANTLR 4。如果希望学习第三部分中的高级特性,你需要先了解之前章节中的ANTLR基础知识。此外,读者还需要具备一定的Java功底。
Honey Badger版本ANTLR 4的版本代号是“Honey Badger”,这个名字来源于一段著名的YouTube短片The Crazy Nastyass Honey Badger(网址为:http://www.youtube.com/watch?v=4r7wHMg5Yjg)中的勇敢无畏的主角——一只蜜獾。它敢吃你给它的任何东西,根本不在乎那是什么!
ANTLR 4有哪些神奇之处ANTLR 4引入了一些新功能,降低了入门门槛,使得语法和语言类应用程序的开发更加容易。最重要的新特性在于,ANTLR 4几乎能够处理任何语法(除了间接左递归,稍后会提到)。在ANTLR将你的语法转换成可执行的、人类可读的语法分析代码的过程中,语法冲突或者歧义性警告不会再出现。
无论多复杂的语法,只要你提供给ANTLR自动生成的语法分析器的输入是合法的,该语法分析器就能够自动识别之。当然,你需要自行保证该语法能够准确地描述目标语言。
ANTLR语法分析器使用了一种名为自适应LL(*)或者ALL(*)(读作“all star”)的新技术,它是由我和Sam Harwell一起开发的。ALL(*)是ANTLR 3中的LL(*)的扩展,在实际生成的语法分析器执行前,它能够在运行时以动态方式对语法执行分析,而非先前的静态方式。由于ALL(*)语法分析器能够访问实际的输入文本,通过反复分析语法的方式,它最终能够决定如何识别输入文本。相比之下,静态分析必须考虑所有可行的(无限长的)输入序列。
在实践中,拥有ALL(*)意味着你无须像在其他语法分析器生成工具(包括ANTLR 3)中那样,扭曲语法以适应底层的语法分析策略。如果你曾经为ANTLR 3的歧义性警告和yacc的归约/归约冲突(reduce/reduce conflict)而抓狂,ANTLR 4就是你的不二之选!
另外一个强大的新功能是ANTLR 4极大地简化了匹配某些句法结构(如编程语言中的算术表达式)所需的语法规则。长久以来,处理表达式都是ANTLR语法(以及手工编写的递归下降语法分析器)的难题。识别表达式最自然的语法对于传统的自顶向下的语法分析器生成器(如ANTLR 3)是无效的。现在,利用ANTLR 4,你可以通过如下规则匹配表达式:
类似expr的自引用规则是递归的,更准确地说,是左递归(left recursive)的,因为它的至少一个备选分支直接引用了它自己。
ANTLR 4自动将类似expr的左递归规则重写成了等价的非左递归形式。唯一的约束是左递归必须是直接的,也就是说规则直接引用自身。一条规则不能引用另外一条规则,如果后者的备选分支之一在左侧直接引用了前者(而没有匹配一个词法符号)。详见5.4节。
除了上述两项与语法相关的改进,ANTLR 4还使得编写语言类应用程序更加容易。ANTLR生成的语法分析器能够自动建立名为语法分析树(parse tree)的视图,其他程序可以遍历此树,并在所需处理的结构处触发回调函数。在先前的ANTLR 3中,用户需要补充语法来创建树。除了自动建立树结构之外,ANTLR 4还能自动生成语法分析树遍历器的实现:监听器(listener)或者访问器(visitor)。监听器与在XML文档的解析过程中响应SAX事件的处理器相似。
由于拥有以下几点ANTLR 3所不具备的新特性,ANTLR 4显得非常容易上手:
最大的改变是ANTLR 4降低了语法中内嵌动作(代码)的重要性,取而代之的是监听器和访问器。新机制将语法和应用的逻辑代码解耦,使得应用程序本身被封装起来,而非散落在语法的各处。在没有内嵌动作的情况下,你可以在多个程序中复用同一份语法,甚至都无须重新编译生成的语法分析器。虽然ANTLR仍然允许内嵌动作的存在,但是在ANTLR 4中,它们更像是一种进阶用法。这样的行为能够最大程度地掌控语法分析过程,但其代价是语法复用性的丧失。
由于ANTLR能够自动生成语法分析树和树的遍历器,在ANTLR 4中,你无须再编写树语法。取而代之的是一些广为人知的设计模式,如访问者模式。这意味着,在学会了ANTLR语法之后,你就可以重回自己熟悉的Java领域来实现真正的语言类应用程序。
ANTLR 3的LL(*)语法分析策略不如ANTLR 4的ALL(*)强大,所以ANTLR 3为了能够正确识别输入的文本,有时候不得不进行回溯。回溯的存在使得语法的调试格外困难,因为生成的语法分析器会对同样的输入进行(递归的)多趟语法分析。回溯也为语法分析器在面对非法输入时给出错误消息设置了重重障碍。
ANTLR 4是25年前我读研究生时所走的一小段弯路的成果。我想,我也许会稍微改变我曾经的座右铭。
为什么不花5天时间编程,来使你25年的生活自动化呢?ANTLR 4正是我所期望的语法分析器生成器,现在,我终于能够回头去研究我原先在20世纪80年代试图解决的问题——假如我还记得它的话。
本书的主要内容本书是你所能找到的有关ANTLR 4的信息源中最好、最完整的。免费的在线文档提供了足够多有关基础语法的句法和语义的资料,不过没有详细解释ANTLR的相关概念。在本书中,识别语言的语法模式和将其表述为ANTLR语法的内容是独一无二的。贯穿全书的示例能够在构建语言类应用程序方面助你一臂之力。本书可帮助你融会贯通,成为ANTLR专家。
本书由四部分组成。
第一部分介绍了ANTLR,提供了一些与语言相关的背景知识,并展示了ANTLR的一些简单应用。在这一部分中,你会了解ANTLR的句法以及主要用途。
第二部分是一部有关设计语法和使用语法来构建语言类应用程序的“百科全书”。
第三部分展示了自定义ANTLR生成的语法分析器的错误处理机制的方法。随后,你会学到在语法中嵌入动作的方法——在某些场景下,这样做比建立树并遍历之更简单,也更有效率。此外,你还将学会使用语义判定(semantic predicate)来修改语法分析器的行为,以便解决一些充满挑战的识别难题。
本部分的最后一章解决了一些充满挑战的识别难题,例如识别XML和Python中的上下文相关的换行符。
第四部分是参考章节,详细列出了ANTLR语法元语言的所有规则和ANTLR运行库的用法。
完全不了解语法和语言识别工具的读者请务必从头开始阅读。具备ANTLR 3使用经验的用户可从第4章开始阅读以学习ANTLR 4的新功能。
有关ANTLR的更多在线学习资料在http://www.antlr.org上,你可以找到ANTLR、ANTLRWorks2图形界面开发环境、文档、预制的语法、示例、文章,以及文件共享区。技术支持邮件组是一个对初学者十分友好的公开讨论组。
Terence Parr2012年11月于旧金山大学致 谢Acknowledgements大约25年前,我开始致力于ANTLR的相关工作。那时,在许多人的帮助下,ANTLR工具的句法和功能逐渐成形,在此,我向他们致以由衷的感谢。要特别感谢的是Sam Harwell,他是ANTLR 4的另一位开发者。他不仅帮助我完成了此软件,而且在ALL(*)语法分析算法上做出了突出的贡献。Sam也是ANTLRWorks2语法IDE的开发者。
感谢以下人员对本书进行了技术审阅:Oliver Ziegermann、Sam Rose、Kyle Ferrio、Maik Schmidt、Colin Yates、Ian Dees、Tim Ottinger、Kevin Gisi、Charley Stran、Jerry Kuch、Aaron Kalair、Michael Bevilacqua-Linn、Javier Collado、Stephen Wolff以及Bernard Kaiflin。同时,我还要感谢那些在本书和ANTLR 4软件处于beta版本时报告问题的热心读者。尤其要感谢的是Kim Shrier和Graham Wideman,他们二位的审阅格外认真。Graham的审阅报告之仔细、翔实和广博,令我不知是该紧握他的手予以感谢,还是该为自己的疏漏羞愧难当。
最后,我还要感谢编辑Susannah Davidson Pfalzer,她一如既往地支持我完成了三本书的创作。她提出的宝贵建议和对本书内容的精雕细琢使本书更加完美。
The Translator's Words译 者 序四年前,我在读研究生时曾经参考龙书编写过一个简单的编译器前端。经过一个星期的实践后,我意识到,从头实现一个编译器前端的难度远远超出了一般开发者的能力。编写编译器前端所需要的理论基础、技术功底和精力都远非普通软件可比。
幸运的是,ANTLR的出现使这个过程变得易如反掌。ANTLR能够根据用户定义的语法文件自动生成词法分析器和语法分析器,并将输入文本处理为(可视化的)语法分析树。这一切都是自动进行的,所需的仅仅是一份描述该语言的语法文件。
一年前,我在为淘宝的一个内部数据分析系统设计DSL时,第一次接触到了ANTLR。使用ANTLR之后,我在一天之内就完成了整个编译器前端的开发工作,从而能够迅速开始处理真正的业务逻辑。从那时起,我就被它强大的功能所深深吸引。简而言之,ANTLR能够解决别的工具无法解决的问题。
软件改变了世界。数十年来,信息化的浪潮在全球颠覆着一个又一个的行业。然而,整个世界的信息化程度还远未达到合理的高度,还有大量传统行业的生产力可以被信息化所解放。在这种看似矛盾的情形背后存在着一条鸿沟:大量从事传统行业的人员拥有在本行业中无与伦比的业务知识和经验,却苦于跟不上现代软件发展的脚步。解决这个问题的根本方法就是DSL(Domain Specific Language),让传统行业的人员能够用严谨的方式与计算机对话。其实,本质上任何编程语言都是一种DSL,殊途同归。
而实现DSL的主要困难就在编译器前端。编译器被称为软件工程皇冠上的明珠。一直以来,对于普通的开发者而言,编译器的设计与实现都如同诗中描述的那样:“白云在青天,可望不可即。”
ANTLR改变了这一切。ANTLR自动生成的编译器前端高效、准确,能够将开发者从繁杂的编译理论中解放出来,集中精力处理自己的业务逻辑。ANTLR 4引入的自动语法分析树创建与遍历机制,极大地提高了语言识别程序的开发效率。
时至今日,ANTLR仍然是Java世界中实现编译器的不二之选,同时,它对其他编程语言也提供了不同程度的支持。在开始学习ANTLR时,我发现国内有关ANTLR的资料较为贫乏,这催生了我翻译本书的念头。我期望通过本书的翻译,让更多的开发者能够更加自如地解决职业生涯中碰到的难题。
本书没有冗长的理论,而是从一些具体的需求出发,由浅入深地介绍了语言的背景知识、ANTLR语法的设计方法以及基于ANTLR 4实现语言识别程序的详细步骤。它尤其适用于对语言识别程序的开发感兴趣的开发者。不过,假如你现在没有这样的需求,我仍然建议你阅读本书,因为它能够开拓你的眼界,让你深入实现层面加深对编程语言的理解。
感谢原作者Terence Parr教授向这个世界贡献了如此优秀的软件。您编写的ANTLR极大地提高了开发效率,这实际上等于延长了广大开发者的生命。
感谢孙岚和石寒舟两位前辈对本书审校付出的心血,您二位的宝贵建议令我受益匪浅。
感谢华章公司的和静编辑对本书的翻译提供的支持与帮助。
感谢我的妻子张洁珊女士,你的理解和陪伴保障了翻译过程如期完成。
感谢每一位读者,你的潜心研习与融会贯通将会令本书更有价值。
截止本书译完的2016年12月,ANTLR已经演进到了4.6。在这个过程中,一些Breaking Change出现了,本书中的部分示例代码已经不再有效。因此,我尽自己所能,结合勘误表,使用最新版的ANTLR对它们进行了逐个验证。对于失效的代码,我通过译注的方式予以修正。由于译者水平有限,书中出现错误与不妥之处在所难免,恳请读者批评指正。
张 博2017年1月
ANTLR 4权威指南 epub pdf mobi txt 电子书 下载 2024
ANTLR 4权威指南 下载 epub mobi pdf txt 电子书 2024