国际互联网上的语言学信息

                                李建华
1.引言
    国际互联网(Internet)近年来飞速发展,上面的网点和资源巨大,不少人上了
网后不知从何开始,无边无际地漫游而找不到所需的信息。实际上在国际互联网上
有许多查询工具(search engines),向广大用户提供无偿或有偿的服务。 用户可以
按照主题分类或输入关键字词进行查询,在查询工具返回的结果中加以选择。目前
比较有名的查询工具有Infoseek、Yahoo、 Lycos 、 Webcrawler 、 Magellan 和
Excite等①。这些查询工具各具特色,互补长短。Infoseek曾被评为商业性查询工
具第一名,Yahoo则以数据库资源丰富著称,Lycos则常备5%的优秀网址(site) 以
推荐给用户。限于篇幅,本文只介绍Infoseek的查询方法,内容集中于语言学资源,
希望有助于语言工作者利用这些资源,加强与世界范围内的同行们联系和交流,促
进我国的语言教学和研究。
    Infoseek已经发现的URL(Uniform Resource Locator)多达8000多万,并对
其中的5000多万进行了索引。国际互联网上的每一网页(page)都有其唯一的URL。
Infoseek 每天处理数百万次的访问请求,命中率颇高。Infoseek 采用的是WWW
(World Wide Web,环球网或万维网)界面查询,可谓集大成于一身。 WWW是一种
非常有效的浏览、检索和查询信息的方式,它上面的信息以文字、图表、声像等多
媒体的形式分布于全球成千上万的WWW服务器上,供用户使用WWW浏览器来访
问这些信息。这些信息以主页(homepage)的方式组织成一个庞大的蜘蛛网状结构,
每个主页及其相关网页都是超文本的(hypertext), 即在任一主页或网页上都可以
通过页面上的链接点(link)来访问位于任何其他地方的主/网页,还能沿着访问的
轨迹或航道进退自如,各取所需②。
2.Infoseek与语言学资源
2.1 Ultrasmart查询方式
     Infoseek 基本上有两种查询方式, 分别称为Ultrasmart  和Ultraseek 。 
Infoseek启动的默认方式是Ultrasmart,上面有Ultraseek的切换按钮, 所以两种
查询方式可以随时切换,十分方便。Ultrasmart将其网址数据库信息按主题分成十
二大类,每一大类下面又分成若干小类,层层深入,这样特别适合那些想泛泛地查
询某一类信息的用户。除了按类查询以外,在页面的上方还有一个关键词查询输入
框,用户可在此输入词、词组甚至问题进行查询。Ultrasmart属智能化查询工具,
在查询词组时,它不会像有些查询工具那样将词组分成单个的字词进行处理,而是
把整个词组看作一个整体,这样就大大提高了返回的结果的相关性和准确度。输入
框的下方有一选择框,用户可以选择在整个Internet网(the Web)中查询, 或者仅
在Usenet Newsgroups或Email Addresses等其他信息资源内查询。输入框的右边和
页面的左下方分别有Tips和About Infoseek帮助用户使用Infoseek。页面上还有其
他一些栏目和象标,各有不同用途,因为与本文相关性不大,故不一一赘述。在按
关键词查询返回的结果页面的上方又列出与查询结果相关的一类或几类主题,用户
可以随意在所经过的若干主题中穿梭往返。返回的结果页面还包括结果数目,用户
根据数目的大小决定下一步的查询范围,此时可借助页面下方的关键词查询输入框,
此框附有两项选择,用户可以将下一步查询限制在已经返回的结果中,或者在整个
网(the Web)中继续查询。
━━━━━━━━━━
  *  本文从选题到完成都得益于胡壮麟教授的热心指导,在此表示衷心感谢。
  ①  张晓辉等,“WWW查询工具及其使用”,《计算机世界》,1996,10.7。
  ②  张利,“WWW和浏览器”,《电脑报》,1996,11.29。

2.1.1主题分类查询
    首先启动Infoseek程序, 一般在浏览器的输入框内输入Infoseek 公司的URL:
http://www.infoseek.com/或者简单地输入infoseek也行,Nwtscape (一种很流
行的WWW浏览器)上面有一个Net Search键,用鼠标点击该键,即可激活一批著
名的查询工具,然后再启动Infoseek,进入Ultrasmart。 比如查询语言学方面的信
息,首先点击Education(划线表示为一个链接点)主题目录,待结果返回以后, 
接着逐层进入Social Sciences 〉 Linguistics 〉 Publications,这里显示有13
个网址,大多数都有打勾标记,标明这些网址是Infoseek的精选网址。Infoseek网
页上的分类主题和网址的标题均呈蓝色,光标至此则变成手状光标。标题下面有三
行左右的网址简介,并附有网址的URL及主题的大小和可信赖度。笔者选择了一
个标题为 Language③ 的网址(这是美国语言学学会会刊的WWW网址),上面有
Language杂志的封面和其他一些和语言相关的链接点。其中一个叫做Linguistics,
链接环球网虚拟图书馆的语言学页面,它的URL是:http://www. emich. edu/
linguist/www-vl.html,下面是这个页面的部分拷贝,链接点用下划线表示:
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓
┃[Virtual Library] The World-Wide Web Virtual Library: Linguistics     ┃
┃A Component of the The WWW Virtual Library                         ┃
┃This site is maintained by the LINGUIST List.                         ┃
┃…………………………………………………………                          ┃
┃If you know of any resources which are not  listed  here, please  take┃
┃the time to add them now.                                             ┃
┃…………………………………………………………                          ┃
┃* Addresses of Linguists                                              ┃
┃* Associations                                                        ┃
┃* Bibliographical                                                     ┃
┃* Calls for Papers                                                    ┃
┃                                                                      ┃
┃* Other Lists of Linguistics Resources                                ┃
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛
从这个网页上可以链接到不少其他的网址/页上,获得诸如语言学会议征文的通知、
语言学论文集等信息。
2.1.2  关键字词查询
    在这个例子里,笔者在关键词输入框内键入phonetics,在返回的结果页面的上
方列出了两个相关的主题:Language和Language departments,返回的网址数目将近
8000,笔者用鼠标点击第一个网址标题Home pages  related  to  phonetics  and
speech sciences④,发现页面上内容十分丰富,除了Phonetics and Speech以外,
还有不少其他语言学方面的信息:
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓
┃Congresses, Meetings, and Workshops                                   ┃
┃Links and Lists                                                       ┃
┃Natural(i.e.,written) Language Processing, Cognitive Science, and AI  ┃
┃Computational Linguistics                                             ┃
┃Dictionaries                                                          ┃
┃Other Electronic Newsletters, Journals and Publishers                 ┃
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛
下面是其中的两个部分的一小部分链接点:
━━━━━━━━━━
  ③  LANGUAGE,http://semlab2.sbs.sunysb.edu/Language/Language.html,1995.6
  ④ “Speech on the Web”,http: //fonsg3.let.uva.nl/Other-pages.html=
      Topofpage,1997.1.

┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓
┃Phonetics and Speech                                                  ┃
┃Netherlands                                                           ┃
┃    Nijmegen:Language and Speech                                      ┃
┃    Groningen:Behavioral and Cognitive Neurosciences                  ┃
┃    Utrecht: Languge and Speech (OTS)                                 ┃
┃    Amsterdam:Institute for Phonetic Sciences                         ┃
┃    Eindhoven:Institute for Perception Research(IPO)                  ┃
┃    Leiden: Phonetics Laboratory                                      ┃
┃Electronic Newsletters, Journals and Publishers.                      ┃
┃    Nature                                                            ┃
┃    Cascadilla Press,                                                 ┃
┃    including the Boston University Conference on Language Development┃
┃    Proceedings.                                                      ┃
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛
2.1.3在结果页面中缩小范围查询
      下面这个Ultrasmart的查询例子稍微复杂一些,首先在关键词输入框内键入
linguistics, 结果返回数目多达近58000,相关的主题有六个Linguistics,Cognit-
ive science, Languages, Linguistic departments,Linguistic publications, 
按每个页面显示10~20个网址计,必须前后翻两、三千页才能看到所有的结果。遇
到这种情况可以在结果页面下方的查询输入框内键入更专一些或区别度更大一些的
词,以便缩小范围,提高命中率。笔者在这个输入框内键入了M.A.K. Halliday, 并
选择了在返回的结果中继续查询,这次返回结果33个, 相关主题集中为两个:Lang-
uages 和Linguistic publications。 然后鼠标点击其中的标题Systemic Functional
 Linguistics Definition, 该网页从几个方面介绍了系统功能语言学,上面的链接点
不多,但在页面的下方有一个重要的链接点: Back  To Systemics Home Page。这说
明该网页只是Systemics⑤主页的一部分, 故切换到主页看个究竟:
Information for systemics
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓
┃This page contains infornation  useful  for  Systemicists,   including    ┃
┃email address  lists,   bibliographies,   how  to  join   mail-lists,     ┃
┃conferences and recently released books.                                  ┃
┃    What is Systemic Functional Linguistics?                              ┃
┃    Systemic Email Addresses.                                             ┃
┃                                                                          ┃
┃These pages maintained by Mick O'Donnell. To email click here.            ┃
┃Other Important Systemic Web-Sites:                                       ┃
┃    The Systemic On-Line Paper Archive (and other systemic information)   ┃
┃    run by Tony Berber Sardinha.                                          ┃
┃    Japan Association of Systemic Functional Linguistics Home Page        ┃
┃    (Wendy bowcher)                                                       ┃
┃    Language Typology And Systemic Functional Linguistics (Alice          ┃
┃    Cafferal).                                                            ┃
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛
该页面上的第二个链接点所至的网页上有着世界各地数百个这个领域的专家学者,
第三个链接点连着的网页上有两个系统语言学方面的邮递讨论小组,参与讨论的世
界各地的学者多达200多人,另外还列出了9个语言学其他方面的邮递讨论小组。如
果点击页面下方的The Systemic On-Line Paper Archive链接点,就到了英国利物
浦大学的系统语言学主页,上面有不少以各种格式储存的已发表和待发表的论文、
著作和杂志等。Internet 网上的文件经常以各种压缩的形式存放在各个服务器上,
以便加快文件传输。网址上一般都有相应的解压工具,也有不少论文以文本文件或
超文本标示语言(hypertext mark-up language, html)储存,阅读起来十分方便。
━━━━━━━━━
  ⑤ Mick o'Donnell,"Information for Systemics",http://www.dai.ed.ac.uk/
     staff/personal-pages/micko/systemics.html,1997.1.

    2.2Ultraseek查询方式
      Ultraseek作为Infoseek两种主要的查询界面之一独具特色。 它根据用户输
入的关键查询词从Infoseek的完整的(unabridged)索引数据库返回网址结果,但结
果页面不提供相关主题类别信息。另外Ultraseek还提供5种特殊方式的查询:
    Imageseek: 查询与关键词相关的图画和公司徽标等
    Site search: 查询某一个网址内含某一关键词的所有网页
    Link search: 查询WWW网上能链接至某一网址的所有网址
    URL search: 查询网上含有某一关键词的所有URL
    Title search: 查询网上含有某一关键词的所有网址标题⑥
2.2.1 Ultraseek常规查询
   在这个常规查询的例子里,笔者首先在关键词查询框内输入sociolinguistics,
返回结果3000多,笔者用鼠标点击了一个看上去比较诱人的宾州大学的社会语言学
网址⑦,网页上有该系语言学教授及其研究生的网页的链接点,还有该校语言学主
页和语言学研究活动的链接点。如果点击某个教授或研究生的链接点,一般都能找
到一些他们撰写的论文或著作,如果点击一个较大范围如 Research Activities的
链接点,则收获更丰:Sociolinguistics at Penn〉Research in Linguistics at
 Penn〉Penn Linguistics Papers Online: 
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓ 
┃Penn Linguistics Papers Online                                          ┃ 
┃This page  provides  links  to  some  sources  of  linguistics  papers  ┃ 
┃available online at penn.All papers are in PostScript format.           ┃ 
┃Manuscripts                                                             ┃ 
┃There are papers made available by Linguistics faculty, students,  and  ┃ 
┃post-docs.                                                              ┃ 
┃Publications                                                            ┃ 
┃    The Penn Working Papers in Linguistics is published  by  the  Penn  ┃ 
┃Linguistics Club, the linguistics graduate student organization.        ┃ 
┃    The  IRCS  Technical  Report  Series  covers  various  areas  in    ┃ 
┃cognitive,  including  linguistics. [up: Online   Resources | Research  ┃ 
┃Activities | Linguistics Home Page | Linguistics FTP Server alexis@ling.┃ 
┃upenn.edu                                                               ┃ 
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛ 
这个网页上的论文分成手稿和已发表的,并且分类标明教师、学生和博士后的文档。
页面底部的链接点中有一个是语言学文件传输服务器(FTP Server)⑧,这种服务
器上也常蕴藏着非常丰富的信息资源。WWW浏览器也支持对FTP服务器的访问,只
是没有WWW界面所具有的图文并茂的丰采。WWW是超文本链接,而FTP是层层目
录递进。
2.2.2 FTP网址查询
    用WWW浏览器查询ftp、gopher和telnet等服务器的信息, 只需在URL输
入框内按统一的“传输协议://网址/路径/文件名”格式输入服务器地址即可。如
果这些服务器地址已做成了WWW网页上的链接点,那么用鼠标点击链接点就能达
到目的。
    2.2.3特殊查询方式Ultraseek 的特殊查询方式为用户提供了灵活多样的
查询途径。如果已知某一网址,因其页面丰富,想在里面寻找某种信息,逐页浏览
必然十分耗时,所以可以用Site search 来查询该网址内所有含有某一关键词的所
有网页。在网上兴趣相近的网址经常互相链接,如果已知某一网址,尤其是知名度
高的网址,可以通过Link search 查询到所有在各自的网页上设有此网址的链接点
的网址。如果想要知道整个网上含有某一关键词的URL,可以用URL search。
下面是一个URL search 的例子:
━━━━━━━━━
 ⑥  Infoseek,1997.1.
 ⑦ “Sociolinguistics at Penn”,http://www.ling.upenn.edu/area/socio.
     html,1997.1.
 ⑧  University of Pennsylvania Linguistics Deparment, ftp://ling.upen.
     edu/,1997.1.

    在URL search的输入框内输入linguistics,返回的结果有2100多, 点击首
页上的 Linguistics Resources⑨"标题,进入了美国德州Dallas城的Summer In-
stitute of Linguistics (SIL)的一个网页,下面是这个网页一小部分内容:
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓ 
┃Linguistics Resources on the Internet                                 ┃ 
┃including Computational Linguistics and Natural Language Processing   ┃ 
┃This is a searchable index. Enter search keywords:                    ┃ 
┃  SIL Linguistics Resources                                           ┃ 
┃    Ethnologue,Living Languages of the Americas,Bibliography,publica- ┃ 
┃    tions Catalog, SIL                                                ┃ 
┃    Electronic Working Papers,School and Training,Linguistic Glossary,┃ 
┃    LinguaLinks,                                                      ┃ 
┃    CELLAR                                                            ┃ 
┃  Conferences, Workshops, Meetings, Symposia                          ┃ 
┃  Universities and Other Academic Sites                               ┃ 
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛ 
这是一个内容十分丰富的网页,网页的上下方各有一个关键词查询框,借以查询该
网址上的语言学资料,网页底部有连接至该网址主页的链接点,主页上的内容又是
另一番景象。网址的标题往往标明了该网址的主题,所以Title search也是很常用
的查询手段。
2.3  使用参数符号查询
    用Infoseek进行词组查询时不用and/or等词,而是运用一些参数符号来缩小查
询范围,提高命中率。比较常用的符号有:
    “”:双引号表示括号中的词在返回的结果页面中必须紧挨在一起。
    [  ]:中括号表示这些词在返回的结果页面中相距不超过100个词。
    +/-:加减号表示其后面的词必须出现(+)或不得出现(-) 在返回的结果页
面中。
    另外,人名地名大写和以相近词替换进行查询都有助于提高查询命中率⑩。下
面是一个使用+号和不使用+号的查询结果对照(+与后面的词之间不能有空格):
2.3.1查询关键词:Noam Chomsky + linguistics 
     返回结果的相关主题为Languages, Linguists, Linguistics, Linguistic   
     departments。
     返回的前面两个结果是:                                              
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓ 
┃Noam Chomsky                                                          ┃ 
┃   List of recent publications by this MIT professor of linguistics   ┃ 
┃   and political / social commentator.                                ┃ 
┃   81%  http://web.mit.edu/afs/athena.mit/edu/org/I/linguistics/www/ ┃ 
┃   chomsky.home.html (Size 3.5K)                                      ┃ 
┃Manufacturing Consent: Noam Chomsky and the Media Biography: Noam Cho-┃ 
┃msky                                                                  ┃ 
┃  Born in Philadelphia, Pennsylvania, on December 7,1928, Noam Chomsky┃ 
┃is an internationally acclaimed linguistics scholar,author and radical┃ 
┃political philosopher. He is Institute…                              ┃ 
┃   81% http://www.virtualfilm.com/html/Screening/Television/Man-Con- ┃ 
┃Modular/MC-Series-ChomksyBio.html (Size 4.1K)                         ┃ 
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛ 
2.3.2查询关键词:Noam Chomsky
      返回结果的相关主题为Anarchist opinions, Liberal opinions,Linguists,
    Political parties & grougs。返回的前
━━━━━━━━
 ⑨  Linguistics Resources on th Institute of Lingguistics,Inc.,1997.1. 
 ⑩  Infoseek,1997.1.
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓
┃The Noam Chomsky Archive                                                ┃
┃    Noam Chomsky is one of America's most renowned political dissidents.┃
┃The archive is the most complete collection of his work on the web, with┃
┃several complete books, dozens of …                                    ┃
┃    48% http://www.worldmedia.com/archive/ (Size 15.7K)                ┃
┃Noam Chomsky Political Texts Online                                     ┃
┃    Noam Chomsky “I think that there are good things about these Inter-┃
┃net communications.There are also aspects of them that concern and worry┃
┃me. There are intuitive responses. I can”                              ┃
┃    48% http://www.geocities.com/WallStreet/1928/ (Size 3.8K)          ┃
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛
从上面的两个查询例子可以看出参数符号的使用的确能提高查询结果的准确率。
    另一方面,Infoseek确是一个智能化较高的查询工具,笔者分别对discourse an-
alysis 和 contrastive analysis 做过加双引号和不加双引号的查询,结果都比较满
意。但是在查询固定搭配不强的词组时还是充分运用上述的参数符号往往更能获得您
所期望得到的结果。
3.网上部分语言学资源列表
    为了使初上网的读者较快地在Internet上找到语言学方面的资料,除了在前面介
绍了主要的查询方法以外,下面再给大家提供一些语言学方面的网址和电子杂志,笔
者对这些网址逐一进行了成功访问。读者不妨以这里为起点,直至找到自己所需要的
信息。
Web Sites:
1.Center for Applied Linguistics 
    http://www.cal.org
2.Linguistics Resources on the Internet,
    including Conputational Linguistics and Natural Language Processing
    http://www.sil.org/linguistics/linguistics.html
3.The Eclectic Company, Language & Linguistics 
    http://www.ling.lsa.umich.edu/jlawler/lingmarks.html
4.Languages and Linguisics
    http://english-www.hss.cmu.edu/langs/
5.Papers,Bibliographies Etc.
    http://www.emich.edu/linguist/papers.html
6.The Computation and Language Electronic-Print Archive
    http:xxx.lanl.gov/cmp-lg/
7.Speech on the Web
    http://fonsg3.let.uva.nl/Other-pages.html
8.Sources for Information on Citing On-Line Research
    http://www.emich.edu/linguist/citing.html
9.Language Testing Update homepage
    http://www.ling.lancs.ac.uk/pubs/ltu/ltumain.htm
10.The LINGUIST List: Languages & Language Families
    http://www.sfs.nphil.uni-tuebingen.de/linguist/languages.html
11.Center for the Cognitive Science of Metaphor Online
    http://metaphor.uoregon.edu/metaphor.html
12.Educational Resouces Information Center
    ERIC Clearinghouse on Languages and Linguistics Home Page
    http:www.cal.org/ericcll/
13.THE MODERN HUMANITIES RESEARCH ASSOCIATION
    YWMLS:The Year's Work in Modern Language Studies
    http://www.cam.ac.uk/libraries/MHRA/YWMLS/
14.Old English Pages 
    http://www.georgetown.edu/cball/oe/old-english.html
15.Frequently Asked Questions About Linguistics
    http://www.ling.lsa.umich.edu/lingfaq.html
16.LINGUIST
    http://www.emich.edu/linguist/
17.Stanford University, Center for the Study of Language and Information
    http://csli-www.stanford.deu/
18.European Chapter of the Association for Computational Linguistics
    http://issco-www.unige.ch/eacl/eacl.html
19.The Association for Computational Linguistics
    http://www.cs.columbia.edu/acl/home.html
20.International Quantitative Linguistics Association
    http://www.cs.columbia.edu/acl/home.html
21.Speech and Language Technology Club
    http://salt.essex.ac.uk/salt/
22.ETHNOLOGUE,languages of the World
    http://www.sil.org/ethnologue/ethnologue.html
23.Yamada Language Guides
    http://babel.uoregon.edu/yamada/guides.html
24.South Asian Syntax and Semantics Newsletter
    http://www.ling.upenn.edu/sassn.html
25.Functions of Language
    http://www.ling.upenn.deu/sassn.html
26.EUROPEAN NETWORK IN LANGUAGE AND SPEECH
    http://www.cogsci.ed.ac.uk/elsnet/home.html
27.Corpus Linguistics
    http://www.ruf.rice.edu/barlow/corpus.html
28.CTI Centre for Modern Languages at the University of Hull
    http://www.hull.ac.uk/cti/
29.Department of East Asian Languages, University of California, Berkeley
    http://central.itp.berkeley.edu/eal/homepage.html
30.University of Pennsylvania, Department of Linguistics
    http://babel.ling.upenn.edu/
Electronic Journals:
1.The Web Journal of Modern Language Linguistics
    http://www.ncl.ac.uk/njw5/
2.Journal of Artificial Intelligence Research
    http://www.cs.washington.edu/research/jair/home.html
3.The Internet TESL Journal 
   http://www.aitech.ac.jp/iteslj/
4.ELSNews, the ELSNET Newsletter
    http://www.cogsci.ed.ac.uk/elsnet/elsnews.html
5.The Nordic Linguistic Bulletin
    gopher://nora.hd.uib.no/11/Nordic% 20Linguistic% 20Bulletin 
6.SELECTA,Journal of the PNCFL
    http://www.usd.edu/selecta/
7.SCHOLIA,Natal Studies in Classical Antiquity 
    http://ccat.sas.upenn.edu/scholia/scholia.html
8.ELECTRONIC JOURNAL OF COMMUNICATION 
    http://trill.berkeley.edu/users/sutton/EJC.html
9.DE PROVERBIO,An Electronic Journal of International Proverb Studies
    http:info.utas.edu.au/docs/flonta/
10.Journals
    http://www.emich.edu/linguist/journal.html

 通讯地址: 100094    中国农业大学(西区)外语系
 Email: lijmhw@ns.east.cn.net
 Homepage: http://www.geocities.com/CapitolHill/5168