受访人:詹卫东
采访人:王佳骏
采访时间:年8月10日
图一:詹卫东旧照
受访人介绍:
詹卫东,年生,年从北京大学获得博士学位后留校任教。现为北京大学中文系教授、现代汉语教研室主任、中国语言学研究中心副主任、计算语言学教育部重点实验室副主任、计算语言学研究所副所长。年入选教育部“新世纪优秀人才”,年入选教育部“青年长江学者”。主要研究领域为现代汉语形式语法、语言知识工程与中文信息处理。著有《面向中文信息处理的现代汉语短语结构规则研究》,参编教材《现代汉语》《计算语言学概论》。
采访人介绍:
王佳骏,北京大学中文系博士在读,研究方向为中文信息处理,包括形式语法理论、语言知识工程与统计学习方法。
王佳骏:詹老师您好!非常荣幸能借北大中文系周年系庆之际,得到这样一个对您进行专访的机会,期待您在今天的采访中与大家分享您的思索和心得。您的求学经历非常独特,从您的简历上可以看到,从硕士入学到博士毕业,您同时接受来自中文系现代汉语教研室的陆俭明教授和来自信息科学与技术学院俞士汶教授的指导。陆俭明教授和俞士汶教授都是国内泰斗级的学者,他们培养的学生已经成为相关领域的中流砥柱。可否结合具体的事例,谈谈在您的求学历程中两位导师给您带来的影响?
詹卫东:我很有幸从硕士到博士的六年时间都是跟随两位导师学习。两位导师对我的影响是润物细无声的潜移默化,我印象中并没有经历过特别的经由耳提面命而至醍醐灌顶的“高光时刻”。陆老师和俞老师都是典型的老一辈知识分子,他们当然有各自的个性,但让我感受更多的好像还是他们身上的共性。我对他们最主要的印象就是严谨低调、一丝不苟、实事求是,这种气质既体现在课堂教学,也蕴藏在科研中各种形式的交流讨论和为人处世的一言一行,固化为一个学者做学问的品格,有一种浓郁的“北大味”——就是要力求表达经过自己思考的见解,绝不甘于人云亦云。陆老师给研究生上“语法分析”课,第一堂课就提出了三个要求:第一是基本概念要理解准确;第二是研究方法要合理;第三是要面对语言事实。年(也就是我研究生入学那一年)陆老师的《八十年代中国语法研究》刚在商务印书馆出版,是一本比较薄的小册子。“语法分析”课的基本框架跟这本书基本一样,但陆老师上课时用了大量的实例分析,来讲解不同的语法分析方法,骨架简明扼要,展开又是内容丰富,别有洞天,非常立体地展示了现代汉语语法研究所面对的问题以及不同分析方法的魅力。陆老师对研究方法持很开放的态度,他用不同的交通工具打比方:汽车、轮船、飞机等交通工具,从正面说各有自己的特点和优势,从反面说也各有一定的局限性,而在小弄堂里老式的交通工具自行车才是最合适的。所以说,研究学术问题,要思考研究的目的是什么,根据研究的需要,选择适合的方法,已有的分析方法不能解决问题的时候,要创新,探索新的方法来解决问题。这些观念在我初窥学术殿堂之门时就深深影响了我并持续至今。
图二:年6月,詹卫东博士论文答辩结束后与两位导师合影
(左起依次为:俞士汶、詹卫东、陆俭明)
图四:年5月,詹卫东在台北中研院参加汉语词汇语义学会议期间合影留念
(前排左起依次为:曹右琦、朱学锋、俞士汶;
后排左起依次为:周强、刘群、张化瑞、詹卫东)
图六:年6月,中文系应用语言学本科专业级学生毕业典礼后,詹卫东与部分学生合影留念
(左起依次为:陈刚、王靖楠、詹卫东、周天逸、朱成、马腾)
王佳骏:计算语言学与人工智能经历了相似的发展阶段,走过了知识推理期、经典机器学习期和深度学习期。作为具有丰富的语言学知识的业内专家,可否请您介绍一下中文系过去几十年为计算语言学领域做出的贡献,以及中文系未来几年在计算语言学领域的研究规划与布局?
詹卫东:北大中文系的计算语言学研究,可以说一直以来就是在追问一个问题的答案:形式跟意义之间的映射关系,到底是如何建立起来的?从语言学者的角度看,过去给出的答案是设计语法知识范畴(比如词类、短语结构类等等)和语义知识范畴(比如动词的论元语义角色,词语之间的各种语义关系等等)来构建语言知识体系,并进一步落实到对成千上万的词语的语法语义特征的描写上。以词汇知识库存储的静态知识作为基础,以组合的方式来驱动句子语义的动态分析,这可以概括为是“向内求义”的路线。建立形式和意义关联的另一条路线是“向外求义”,即从语境特征的角度去探求语言单位的意义解析。这方面的工作以前做的相对少一些,今后可能需要在这方面做更多的探索。近年来我们在词语语法信息库、配价语义信息库、句法结构树库等语言知识资源基础上,进一步开展了汉语谓词论元角色标注语料库、汉语构式知识库、构式语义标注语料库等新的语言数据建设项目,也是希望从更多角度去探求语言形式和意义之间的对应关系的表示方法。我个人的认识是,在现在这个时代,语言知识要大规模数据化,成为计算机可用资源,才能发挥更大作用。这是在已往的语言学研究结构化和形式化的基础上,对语言学研究提出的更高要求。
图片来源:图一、二、三、四、五、六由受访者提供。
识别