Skip to content

Corpus symbol 語料符號

Davidzdh edited this page Dec 4, 2023 · 21 revisions

本庫使用以下name(暫譯“標籤”)標註語料。

常用標籤

m

用於標記詞對詞的普通話翻譯

後門 落車

m=後門 m=下車

其中,後門後門下車落車的普通話解釋。

如果語料的初出材料已有普通話翻譯,則本庫沿用之。無有,則由維護者添加翻譯。

y

用於標記實際讀音。使用榕拼(0.4.0-preview2)表記。字母一律小寫。音值使用五度標記法表記。如標記對象爲多字詞,則各音節之間以-(半形連字符)分隔(在.xml文檔中,可以用- )。

直頭 呻.

y=ti55-lau55 y=ceing55

其中,ti55-lau55提頭的榕拼,ceing55的榕拼。

榕拼原則上不使用五度標記法,唯爲描寫具體音值可使用之。本庫爲記錄實際讀音,所以使用此法。其中阿拉伯數字與《榕拼規範文檔》一致:福州市區、閩侯、長樂、連江城關的,使用陳澤平《福州方言的結構與演變》方案。唯榕拼以數字上標記音,本庫不需特意改爲上標。

榕拼只以連讀音變爲分詞單位。唯連讀音變會發生於一個詞組內多個詞之間。如「生肉柱」(sang²¹ nyk⁵³ tiu²⁴²,長痤瘡)於本庫可能拆爲生 肉柱,其榕拼記爲y=sang21 y=nyk53-tiu242。本庫暫無分詞標準。

其他標籤

g

用於標記福州話教會羅馬字。字母一律小寫。

紅旗 飄飄.

g=è̤ng-gì g=piĕu-piĕu

其中,è̤ng-gì紅旗的教會羅馬字,piĕu-piĕu飄飄的教會羅馬字。

教會羅馬字參照榕典書寫。

g來自「教」(gau²¹³)的榕拼聲母。

lan

用於語詞的所屬語言。使用《ISO 639-3》規定的代號表記。

絲瓜 吓.

lan=cmn

其中,cmn絲瓜一詞所屬語言的ISO 639-3代號。

cmn爲漢語官話。該段語料中,說話人嘗試用閩侯話與福州話翻譯官話的「絲瓜」一詞。故此,這段本該完全爲閩東語的語料,摻入了官話。

Iso639-6

可由以下網址查閱ISO 639-6列表:

You can view the list of ISO 639-6 from the following website:

legal

用於標記對語詞錯誤的修正

汝 囝 發 野 大 去, 嚽 聽見 就是 野 奇怪 去.

    legal=生

其中,爲對的糾正。

將「發」(buok²⁴)用於人的成長,這種表達爲說話人所不容(「野奇怪去」)。他將「生」(sang⁵⁵)視爲規範的表達(原文稱「乍會使」)。顯然,「發」是作爲誤例舉出來的。則使用此標記。

閩東語沒有具備強制力的規範機構。僅《福州話實用字典》提出福州話以鼓樓音爲規範。沒有教育部門爲此規範背書,此規範更與遣詞無涉。故此,慎用該正誤標記糾正發言人的遣詞造句。

typofix

用於修正用字

鴨 霸

typofix=野

其中,爲對的糾正。

本庫閩東語漢字的正字法以榕典爲準。

*

用於同音替字。有一些閩東語詞彙,只知其音,不知其字。《榕典》對於這類詞彙,並不安易地指定正字,而是使用同音替字。本庫從之,並對這類字標記。不強制。

回* 新 其 平臺 敆 俤所

規範管理

版本號 備註
0.1  
0.2 當前頁面