什么是语料库?
Thread poster: jyuan_us
jyuan_us
jyuan_us  Identity Verified
United States
Local time: 09:42
Member (2005)
English to Chinese
+ ...
May 17, 2014

长什么样子的? 干什么用的?

我查了WIKI的解释,中英文网页的解释都看不懂。我还没有过看文章看不懂其内容的时候,可是这次真的被它击败了。是我痴呆了还是这门学科根本就是云山雾罩,故意让门外汉看不明白?

[Edited at 2014-05-17 11:39 GMT]


 
Loise
Loise
France
Local time: 15:42
French to Chinese
+ ...
语料库是一个用来做语言学统计的文本数据库 May 17, 2014

简单的说,语料库是一个数据库,这个数据库里面保存了用XML做标记的长短不一的文本。
语料库可以被当成语言统计或语言应用程序的分析材料。例如,我使用过一种称为“R”的语言,来设计各种不同的语言统计。例如,你可以统计来自于法国的文本,“奶酪”一词出现了多少次,然后跟其他地区做比较。

[Edited at 2014-05-17 12:12 GMT]


 
Shirley Lao
Shirley Lao  Identity Verified
Taiwan
Local time: 21:42
Member (2007)
English to Chinese
+ ...
Reference May 17, 2014

You may try this corpus for a rough idea of a corpus:
台灣兒童語言語料庫 (TCCM)
http://taiccm.org/


 
Cheng Peng
Cheng Peng  Identity Verified
China
Local time: 21:42
English to Chinese
+ ...
TM May 17, 2014

Practically, it may just refer to translation memories.

 
Loise
Loise
France
Local time: 15:42
French to Chinese
+ ...
论坛 May 17, 2014

如果Proz有心,我们现在讨论的内容,保存在他们的数据库里后,也可以变成语料库。
TM是双语或多语对应的语料库,但最单纯的语料库是只有一种语言而已。
Linguee就是一个超大型多语对应的语料库。它的文本材料来自于欧盟国家。


 
Jinhang Wang
Jinhang Wang  Identity Verified
China
Local time: 21:42
English to Chinese
+ ...
简单地说 May 17, 2014

就是把大量的语言文本资料汇集在一起做成一个用于语言学研究的数据库。

比如说,可以把《人民日报》的全部文章汇集起来,做成一个用于语言学研究的数据库,就是语料库。可以把当代中文小说汇集起来,做成一个用于语言学研究的数据库,就是语料库。

我觉得,可以根据研究的需要,创建各种语料库。当然,现在的语料库基本都是电子形式,检索方便。


 
Phil Hand
Phil Hand  Identity Verified
China
Local time: 21:42
Chinese to English
语言学的重要工具 May 17, 2014

看看这个线上语料库: http://ccl.pku.edu.cn:8080/ccl_corpus/
在搜索框中随便填一个单词,搜一搜,就看到一大列搜索结果。从这些结果中,语言学这可以了解到该单词在实际写作中怎么使用。为什么使用语料库呢,因为很多字典、语法书等都以规范语言为目的,即不仅告诉我们中国人是怎么说话的,而是�
... See more
看看这个线上语料库: http://ccl.pku.edu.cn:8080/ccl_corpus/
在搜索框中随便填一个单词,搜一搜,就看到一大列搜索结果。从这些结果中,语言学这可以了解到该单词在实际写作中怎么使用。为什么使用语料库呢,因为很多字典、语法书等都以规范语言为目的,即不仅告诉我们中国人是怎么说话的,而是告诉我们中国人应该怎么说话。但是作为科学家,语言学家往往需要以实证精神去探索语言实际上的情况,而不是某某许慎后代觉得语言应该怎样,为此就收集大量材料(报纸文章、被抄写的口语对话等),供大家研究。现在呢,因为有互联网,有谷歌,语料库就显得没那么重要,但在九十年代之前是很宝贵的研究资源。
现在也还是有一定的用途:网上很乱,很多网页的内容并不是真正的中文,而是瞎编的,骗搜索殷勤的,因此不适合语言学家研究,还是看经过筛选的语料库来比较有保证。

jyuan_us wrote:

我查了WIKI的解释,中英文网页的解释都看不懂。我还没有过看文章看不懂其内容的时候,可是这次真的被它击败了。是我痴呆了还是这门学科根本就是云山雾罩,故意让门外汉看不明白?

还是佩服你的,happens to me all the time.

[Edited at 2014-05-17 15:13 GMT]

[Edited at 2014-05-20 00:02 GMT]
Collapse


 


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

什么是语料库?






TM-Town
Manage your TMs and Terms ... and boost your translation business

Are you ready for something fresh in the industry? TM-Town is a unique new site for you -- the freelance translator -- to store, manage and share translation memories (TMs) and glossaries...and potentially meet new clients on the basis of your prior work.

More info »
Protemos translation business management system
Create your account in minutes, and start working! 3-month trial for agencies, and free for freelancers!

The system lets you keep client/vendor database, with contacts and rates, manage projects and assign jobs to vendors, issue invoices, track payments, store and manage project files, generate business reports on turnover profit per client/manager etc.

More info »