Chapter 3
第3章
扫描源代码

所有程序设计语言的第一步都是阅读输入源代码的单个字符,并找出哪些字符是分组的。在自然语言中,这一操作包括查看相邻的字母序列,以对单词进行识别。在编程语言中,字符簇构成了变量名、保留字,或者有时是运算符或标点符号,长达好几个字符。本章介绍如何使用模式匹配(pattern matching)来读入源代码,并从原始字符中识别单词和标点符号。

我们首先看看会在程序源代码中出现的几种单词。正如自然语言读者必须区分名词、动词和形容词才能理解句子的意思一样,编程语言也必须对源代码中的每个实体进行分类,以确定对其如何进行解释。