Prononciation et sémantisme des sinogrammes

Nota bene : on ne prendra dans cet article, sauf mention contraire, que des exemples empruntés aux hànzì tels que prononcés et utilisés en mandarin. Les explications seraient cependant aussi vraies avec d'autres langues chinoises, comme le cantonais. Pour les kanji, hanja et chữ nôm, consulter les articles qui leur sont consacrés.

Les caractères chinois servent à écrire des langues (ici, des langues chinoises) et ne sont pas des symboles idéographiques purs qui noteraient une sorte de langage logique et formel sans aucun lien avec la langue parlée, comme on a pu le croire en Occident aux siècles passés.

Il convient donc de se demander comment les sinogrammes représentent les langues chinoises, c'est-à-dire quel est le lien entre les signes de l'écriture et le duo signifiant ~ signifié de ces langues. On peut déjà balayer une idée reçue tenace : un caractère n'est pas forcément un « mot » et chaque caractère n'a pas forcément un sens. Chaque caractère, cependant, sauf un, se prononce en une seule syllabe.

Une écriture liée au monosyllabisme des langues chinoises

Un caractère égale une syllabe

Chaque graphème, nommé caractère (en mandarin 字 zì), représente phonologiquement une syllabe, laquelle obéit à des contraintes importantes : une syllabe comme branp n'est pas possible. Chaque syllabe, de plus, est prononcée sur un ton particulier. Pour des détails généraux sur la prononciation des syllabes du mandarin, consulter Phonologie du mandarin, sur les contraintes syllabiques de cette langue, Syllabe en mandarin.

Il existe cependant un unique caractère, 兒/儿 -er, qui peut, dans certains contextes, n'être pas syllabique mais indiquer une modification phonétique (rétroflexion) de la syllabe précédente et fonctionner comme un suffixe (consulter Suffixe -er). C'est à ce titre que l'on dit d'une langue comme le chinois qu'elle est monosyllabique : chaque syllabe, en effet, renvoie à un morphème (lexical et/ou grammatical).

Des caractères polysyllabiques ont été créés pour des poids et mesures étrangers, par exemple 粴 límǐ « centimètre », mais ils sont tombés en désuétude. Il existe cependant des caractères polysyllabiques informels, utilisés dans la vie de tous les jours pour abréger.

Plusieurs lectures pour un même caractère

Si chaque caractère représente une syllabe, il ne faut pas croire qu'à un caractère donné ne corresponde qu'une seule lecture. En effet, il existe de nombreux caractères dont la prononciation change selon le sens dénoté, ce qui est d'autant plus vrai en chinois simplifié, où les homographies sont plus fréquentes du fait de la simplification en question.

Selon le sens ou le contexte

On parlera d'homographes pour qualifier des syllabes différentes renvoyant à des signifiés différents mais notées par un même caractère (comme sens en français : [sã] dans « tu sens » mais [sãs] dans « le sens »).

Par exemple, le caractère 得 se prononce de quand il joue dans la phrase le rôle d'une particule grammaticale mais dé ou, de manière moins soutenue, děi, quand il représente le verbe « devoir ». De la même manière, 地 se lit dì quand il signifie « terre » mais de comme particule grammaticale. Plus étrangement, 的 de se dit di dans les chansons de variété, sans que le sens ne change.

On l'a dit, la simplification entraîne des homographies : alors qu'en traditionnels l'adverbe « seulement » se dit 只 zhǐ et le spécificatif des animaux ou des éléments uniques tirés d'une paire 隻 zhī, ils sont tous deux écrits 只 en simplifiés. De fait, dans un texte en simplifiés 只 peut être lu zhǐ ou zhī, selon son sens, qui ne peut être connu qu'en contexte. Le problème ne se posera cependant pas dans un texte en caractères traditionnels. Le cas est identique avec d'autres caractères courants comme 表 biǎo « tableau » et 錶 biǎo « horloge », qui sont déjà homophones et sont devenus en plus homographes en caractères simplifiés, les deux lemmes différents étant représenté par le seul caractère 表.

Selon la place dans un lemme composé

De plus, quand ils font partie d'un lemme composé (un seul mot composé de plusieurs caractères, notion décrite plus bas) le ton des sinogrammes peut subir une altération. Le plus souvent, les caractères passent au ton léger : 子 se prononce zǐ (ton 3) la plupart du temps mais zi (ton léger) dans certains mots composés comme 兒子/儿子 ér-zi (« enfant », « fils »). D'autres changement sont encore plus importants en composition : 大 se prononce normalement dà (« (être) grand ») mais dài dans 大夫 dàifu (« médecin »). De plus, il existe (voir plus loin) des caractères pouvant être utilisés comme suffixes et dont la prononciation varie quand ils jouent ce rôle : le caractère 兒/儿, par exemple, se prononce bien ér dans 兒子/儿子 ér-zi mais ne représente même pas une syllabe quand c'est le suffixe -er : 花兒/花儿 hūa+ér se lit hūar (à opposer à 女兒/女儿 « fille », qui se lit nǚ’ér et non *nǚr).

Seule la pratique de la langue permet de savoir, en contexte, comment prononcer un caractère.

Plusieurs caractères pour une seule lecture

[En préparation]

Plusieurs caractères pour un seul sens

À l'inverse, la langue écrite marque des oppositions que la langue parlée ne connaît pas. Le cas est le plus visible avec les pronoms personnels : alors qu'il n'existe pas de genre en chinois, les pronoms peuvent, à l'écrit seulement, le marquer :

2^e personne : 你 pour les hommes, 妳 pour les femmes, tous deux prononcés nǐ ;
3^e personne : 他 pour les hommes, 她 pour les femmes, 牠 pour les animaux, 它 pour les inanimés, tous prononcés tā.

Ce sont les radicaux utilisés qui précisent le genre : 人, radical de l'homme pour le masculin, 女, celui de la femme pour le féminin, 牛, du bœuf pour les animaux et directement 它, forme modifiée du serpent, pour le reste.

En fait, ce sont des distinctions secondaires que la langue ancienne ne pratiquait pas (elle en pratiquait cependant d'autres, aucune n'opposant les genres), introduites récemment par imitation des langues occidentales. De ces oppositions artificielles, seule celle entre 他 et 她 est courante. 它 est beaucoup plus rarement utilisé. Quant à 牠, il ressortit surtout à la langue littéraire.

Une syllabe n'est cependant pas forcément un mot

Une syllabe ne représente pas forcément un lemme (qu'on prendra ici au sens d'« entrée du dictionnaire », c'est-à-dire, de manière plus courante, un « mot ») mais presque toujours un morphème. En effet, si tel était le cas, cela signifierait qu'à chaque lemme d'une langue correspondrait un caractère. Or, un dictionnaire comme le Grand Robert répertorie, pour la langue française, environ 80 000 lemmes. Il serait impossible d'imaginer une langue nécessitant autant de signes différents. On l'a dit plus haut, un lecteur moyen du mandarin n'a pas besoin de tant de caractères pour lire et écrire sa langue : 2000 sont en effet suffisants. De plus, certains caractères n'ont pas de sens autonome.

On conçoit donc deux cas de figure pour illustrer l'inégalité entre caractère et lemme :

certains caractères ne renvoient pas à un lemme ;
de nombreux lemmes s'écrivent avec plusieurs caractères (ce qui réduit d'autant le besoin en caractères différents).

Caractères grammaticaux

Certains caractères, en effet, n'assurent pas le rôle de mots renvoyant à une notion concrète ou abstraite indépendante du contexte et n'ont pas de sens autonome ; c'est le cas des particules, comme 了 le qui, entre autres, indique qu'un procès (« action verbale ») est nouveau (下雨 xià yǔ : « il pleut » → 下雨了 xià yǔ le : « maintenant, il pleut », « voilà qu'il pleut ») et des suffixes servant à construire un énoncé, comme 的 de, particule subordonnante comparable à la désinence 's en anglais : 我的茶 wǒ-de chá « moi-[possession] thé » = « le thé de moi », « mon thé ». Les caractères comme 了 ou 的 ne peuvent donc pas s'employer seuls : ils doivent faire partie d'un énoncé minimal. Ce ne sont que des morphèmes grammaticaux qui, seuls, sont intraduisibles sans une périphrase.

Caractères non autonomes

D'autres caractères désignent bien une réalité abstraite ou concrète mais, dans la langue parlée moderne, ne peuvent plus s'employer isolément. Ils n'existent plus qu'en composition avec d'autres caractères pour former un lemme complet. C'est là une évolution de la langue parlée par rapport à la langue classique dans laquelle chaque caractère renvoyait à un lemme.

Par exemple, en langue courante, 孩 hái, qui renvoie à l'idée d'« enfant » ne s'utilise pas seul. On doit le faire suivre de 子zǐ, utilisé comme suffixe (voir plus bas) et prononcé dans ce cas zi : 孩子 hái-zi. Le sens du lemme composé reste cependant « enfant ». Chaque caractère du lemme renvoie isolément à un sens, mais celui-ci n'est pas forcément suffisant, de même que -garou en français ne s'emploie que dans le mot composé loup-garou ou, en anglais, cran- dans cranberry. Le cas est cependant bien plus fréquent dans les langues chinoises que dans les langues occidentales.

Caractères vidés de leur sens

Certains caractères, enfin, ont une valeur sémantique quasi nulle voire nulle. Trois cas de figure se présentent :

ce sont des suffixes (comme 兒/儿 -er ou 子 -zi) ;
il s'agit de caractères à valeur phonétique pure (comme 阿 ā dans 阿拉伯 ālābó « arabe ») ou dotés d'un sens qu'ils perdent entièrement ou partiellement pour servir à la transcription de sons ou de mots d'emprunt.

Suffixes

Les suffixes de formation morphologique sont assez rares dans les langues chinoises, principalement en raison de la pauvreté morphologique de ces langues isolantes. Cependant, certains, principalement 兒/儿 -er et 子 -zi (on pourrait aussi citer 頭/头 -tou), sont d'usage fréquent. Le premier est détaillé dans l'article Suffixe -er. Il suffit ici de savoir que c'est, de plus, le seul caractère qui, en mandarin, ne soit pas syllabique. Quant au second, il sert principalement à former des noms : 女子 nǚ-zǐ, « femme », 筷子 kuài-zi, « baguettes ». Pris isolément, 兒/儿 se prononce ér et signifie « fils », 子 se lit zǐ et renvoie au sens d'« enfant ». On voit que dans des lemmes comme 錯兒/错儿 cuòr, « être dans l'erreur » ou 筷子 kuài-zi, « baguettes », ni 兒/儿 ni 子 n'ont le sens de « fils » ou d'« enfant ».

Caractères phonétiques

Ils servent surtout à représenter des onomatopées, des noms propres (chinois ou non) et des mots d'emprunt étrangers : du fait des multiples contraintes subies par la syllabe en mandarin, il n'est pas possible d'emprunter des mots étrangers ou de transcrire des sons directement sans les transformer, parfois de manière très importante, en syllabes chinoises, qu'il faut alors représenter par un ou plusieurs caractères. La transcription sera donc phonologiquement et graphiquement très éloignée du mot d'origine, en cas d'emprunt.

De tels caractères de transcription peuvent parfois ne servir qu'à cela et n'avoir aucun sens. Dans d'autres, cas ils ont bien un sens, lequel est plus ou moins évacué.

Onomatopées et interjections

Parmi les caractères vidés de leur sens, on trouve nombre d'onomatopées et d'interjections, qui sont souvent formées au moyen du radical (ou clef) de la bouche, soit 口. Ce radical peut indiquer qu'il s'agit d'un caractère purement phonétique. Par exemple, le chat fait 咪咪 mīmī ou 喵喵 miāomiāo (qui se lit, du reste, quasiment miaou-miaou) et la souris 吱吱 zīzī. Tous ces caractères utilisent le radical de la bouche qui signifie grosso modo : « à prononcer à peu près comme le reste du caractère sans en garder le sens » (ce sont donc des idéo-phonogrammes). En effet, on reconnaît, dans l'ordre, les caractères 米 mǐ, 貓 māo (auquel, dans l'onomatopée, on a ôté le radical des félins, 豸) et 支 zhī, qui signifient respectivement « riz », « chat » et « branche ». Il est évident que le sens intrinsèque de ces caractères est gommé dans l'onomatopée (même si 喵 et 貓 restent liés de manière efficace mais fortuite : il se trouve que le nom du chat, en chinois, ressemble à celui de son miaulement). Ainsi, dans la phrase 小貓叫“喵喵” xiǎo māo jiào « miāomiāo », « le petit chat fait “miaou” », il n'est pas possible de traduire : *« le petit chat fait “chat-chat” ». Toutes proportions gardées, cela reviendrait, en français, à utiliser un signe spécifique pour marquer qu'un mot doit être lu comme une onomatopée : « le canard fait “côîn-côîn” » (= « à ne pas comprendre comme coin dans “le coin de la table” »).

Pour d'autres onomatopées, rien n'indique graphiquement, au moyen du radical de la bouche, qu'ils n'ont pas de sens mais transcrivent un son. C'est le cas pour 乒 pīng et 乓 pāng qui, utilisés ensemble, forment l'onomatopée 乒乓 pīngpāng comparable à notre « ping-pong ».

Dans d'autres cas, ce sont des caractères « normaux », possédant un sens complet, qui sont utilisés comme onomatopées. Rien n'indique alors graphiquement qu'ils doivent être interprétés comme tels, outre le contexte et le fait qu'ils font souvent partie d'une expression composée : si 丁東/丁东 dīngdōng (le son représenté est assez clair...) est composé d'un premier caractère surtout phonétique (utilisé principalement dans des noms propres chinois, dans la traduction du prénom de Tintin, 丁丁 Dīngdīng, et dans d'autres emplois plus rares), le second, dans un autre contexte, se traduirait par « est » (par opposition à « ouest »).

Termes bouddhistes

Au sein des mots d'emprunt se trouvent des transcriptions bouddhistes de termes sanskrits ou palis, importés de longue date (au VII^e siècle pour certains). Or, si, premièrement, les langues indiennes et chinoises sont phonologiquement très dissemblables, les caractères choisis pour rendre les phonèmes de ces langues ont, secondement, changé de prononciation au cours des siècles, ce qui masque leur valeur de caractères phonétiques. Ils sont, dans ce contexte, « vidés de leur sens ». Par exemple, actuellement, les deux mots 般若 et 波羅蜜 se prononcent bōrě (prononcer à peu près po-jeu) et bōluómì (po-louo-mi). Ils rendent les termes sanskrits pāḷi pañña (pagna, en sanskrit prajña, pradj-gna) et pāramitā (avec /r/ roulé), signifiant « sagesse » et « perfection ». La distance entre les signifiants sanskrit et chinois est maintenant énorme. En moyen chinois, cependant, ces termes devaient se prononcer à peu de chose près pan-nyak (pa-gnak) et pa-la-mjit (pa-la-myit), ce qui est bien plus proche (reconstructions du moyen chinois selon William H. Baxter, An Etymological Dictionary of Common Chinese Characters, version électronique du 28 octobre 2000). Enfin, la lecture actuelle de ces caractères est, dans ces mots, particulière. Dans d'autres contextes, en effet, 般 se lit bān et non bō et signifie « sorte », 若 vaut ruò, « sembler », au lieu de rě. Les autres caractères se prononcent toujours de la même façon, cependant : 波 vaut bien bō et signifie « (une) vague », 羅 luó « collecter » et 蜜 mì « le miel ».

On peut citer d'autres termes bouddhistes célèbres transcrits du sanskrit :

三菩提 sānpútí (moyen chinois : sam-bu-dej), sanskrit saṃbodhi, « illumination, éveil parfait » ;
菩提薩埵 pútísàduǒ, abrégé en 菩薩/菩萨 púsà (moyen chinois : bu-dej-sat-thwa / bu-sat), sanskrit bodhisattva (púsà, du reste, a été emprunté en français pour donner poussah, « jouet à bascule » puis « gros homme ventru ») ;
佛陀 fótuó (moyen chinois phjut-thwa), abrégé en 佛 fó, sanskrit buddha.

Emprunts aux langues modernes

Les emprunts aux langues modernes fonctionnent sur un principe plus complexe : il est en effet possible soit de transcrire phonétiquement le mot en chinois (procédé choisi pour les onomatopées et les termes sanskrits), soit de le traduire. Par exemple, le mot pour microphone est 麥克風/麦克风 màikèfēng (emprunté à l'anglais) qui, caractère par caractère, n'a aucun sens (soit « blé », « gramme », « vent »). C'est bien là une transcription, dans laquelle le sens des caractères est évacué. Le mot peut cependant être aussi traduit, de manière imagée. Dans ce cas, il se dit 話筒/话筒 huàtǒng, « tube de parole ». Souvent, l'adaptation du mot étranger joue sur les deux tableaux : c'est une adaptation phonétique dans laquelle les caractères sont choisis avec soin et gardent, de manière plus ou moins présente, un sens rappelant celui du mot : c'est le cas pour « vitamine », importé de l'anglais sous la forme 維他命/维他命 wéitāmìng qui, traduit, donne « préserver sa vie ». En effet, même quand les caractères sont censés être « vidés de leur sens » pour n'être utilisés que phonétiquement, ils gardent pour le lecteur un rapport virtuel avec leur sens premier. Les Chinois semblent alors préférer ne pas agir au hasard et sélectionner avec soin les caractères.

Prénoms et noms propres étrangers

On comprend pourquoi il n'est pas possible d'écrire facilement des prénoms et noms propres étrangers en chinois. Il faut, de la même façon, soit les traduire (ce qui est bien plus difficile) soit les transcrire phonétiquement (en choisissant des caractères qui en rappellent la prononciation, avec toutes les difficultés phonétiques inhérentes aux langues chinoises en prenant garde à ce que le résultat renvoie à un sens positif voire propitiatoire, ou du moins qui ne soit pas ridicule. Par exemple, Lucie (étymologiquement liée à la lumière, lux en latin), pourrait devenir :

traduction : 明朗 Mínglǎng « clair, limpide » (sans aucun lien avec le signifiant [lysi]) ;
transcription : 旅細 Lǚxì, prononcé [lyɕi] ([si] n'étant pas possible en mandarin) et signifiant à peu près « le chemin est raffiné ».

Quand le nom propre ou le prénom à traduire appartiennent à un domaine plus large (noms des hommes célèbres, par exemple, ou de pays étrangers), la traduction est officielle et ne peut être choisie par le locuteur. C'est le plus souvent une transcription, dans laquelle les caractères utilisés phonétiquement, bien que vidés de leur sens, peuvent être choisis pour leurs connotations évocatrices et laudatives. Ainsi, le nom de la France est 法國 / 法国 Fǎguó, celui de l'Allemagne 德國 / 德国 Déguó et celui de l'Angleterre 英國 / 英国 Yīngguó. Dans ces trois noms étrangers, le deuxième caractère, 國/国 guó signifie simplement « pays » (on a là encore un autre type de transcription). C'est le premier qui donne un indice phonétique : /fa/ pour F(r)a(nce), /dɤ/ (prononcer entre de et do en français) pour Deu(tschland) et /iŋ/ pour Eng(land). 法, 德 et 英, cependant, signifient dans d'autres contextes, respectivement, « loi », « vertu » et « bravoure ». La traduction virtuelle de ces noms de pays, à laquelle il n'est pas possible de ne pas penser car, outre 英, les autres caractères sont d'un emploi assez fréquent, serait alors « pays de la loi », « pays de la vertu » et « pays de la bravoure ». Les noms d'hommes célèbres n'échappent pas à ce mécanisme : Victor Hugo est transcrit par 雨果 Yǔguǒ (prononcer à peu près u-kouo), virtuellement : « fruit de la pluie », et De Gaulle par 戴高樂 / 戴高乐 Dàigāolè (à peu près taï-kaou-leu), « respecter la grande joie ». Il est évident que ces traductions n'ont aucun sens en soi : elles restent du domaine de la connotation.

Dans de nombreux cas, cependant, on utilise des caractères dont le sens virtuel est entièrement gommé, voire des caractères purement phonétiques : si le Yemen est rendu par 也門 / 也门 Yěmén qui, traduit, n'a plus aucun sens évocateur (« aussi » et « (la) porte »), l'Arabie saoudite se dit 阿拉伯, Ālābó, où 阿 n'a pas de sens et les deux suivants signifient, dans d'autres contextes, « tirer » et « frère aîné du père ».

Plus récemment la traduction de noms de marques étrangères est devenu un enjeu commercial majeur, marqué par le double impératif phonétique / sémantique. La chaîne de distribution française Carrefour est par exemple devenue 家乐福, Jiāléfú, qui signifie « maison joie bonheur ». Toutefois, la traduction intégralement sémantique est parfois choisie, comme pour la chaîne d'hôtels My home, dont le nom est traduit en chinois par 如家, Rújiā, signifiant « comme chez soi ».

La notion de mot en chinois

On l'a compris, le « mot » (ou lemme, de manière plus rigoureuse, soit 詞/词 cí en mandarin) et le caractère (字 zì) ne coïncident donc pas exactement dans l'écriture chinoise. Le caractère est une unité graphique et accessoirement sémantique, le mot une unité purement sémantique. Si le lemme peut en effet coïncider avec le caractère (dans ce cas, un caractère = un lemme), il peut aussi le dépasser en nécessitant plusieurs caractères pour ne former qu'un seul lemme. On a de plus vu que certains caractères ne renvoyaient pas à un lemme autonome voire étaient vidés de leur sens.

Exemples

On peut illustrer cette notion par des exemples :

morphème grammatical non autonome (un caractère < un lemme) : 阿 ā (pas de signifié), 孩 hái (signifie « enfant » mais ne s'emploie jamais seul) ;
lemme monosyllabique (un caractère = un lemme) : 車/车 chē « véhicule » ;

Les lemmes monosyllabiques ne sont pas les plus nombreux. Ils sont cependant très fréquents dans un énoncé car très usuels : on y trouve des noms (國/国 guó « pays », 人 rén « homme »), des pronoms (你 nǐ « tu », 他 tā « il »), des adjectifs prédicatifs (美 měi « (être) beau », 好 hǎo « (être) bon »), des verbes (是 shì « être », 喝 hē « boire »), des adverbes (只 zhǐ « seulement », 就 jiù « alors ») du vocabulaire courant.

lemme dissyllabique (deux caractères = un lemme) : 汽車/汽车 qìchē « vapeur + véhicule » → « voiture » ;

Les lemmes dissyllabiques sont les plus courants parmi les composés.

lemme trisyllabique (trois caractères = un lemme) : 出租車/出租车 chūzūchē « (sortir + taxe) + véhicule » → « louer + véhicule » → « taxi » ;
lemme quadrissyllabique (quatre caractères = un lemme) : 公共汽車/公共汽车 gōnggòngqìchē « (public + commun) + (vapeur + véhicule) » → « en commun + voiture » → « autobus ».

Les lemmes composés ne sont pas des rébus

Il ne faudrait cependant pas croire que le sens des lemmes composés découle directement des caractères qu'ils comportent : les sinogrammes ne forment pas des rébus. Il n'est donc pas possible de deviner à tous les coups le sens d'un composé (exactement comme pour les mots composés d'autres langues : un porte-monnaie pourrait, en français, tout aussi bien désigner un convoyeur de fonds qu'une étagère destinée à recevoir des piécettes).

Certains sont limpides (les composés chinois se lisent à rebours des composés français quand ils sont déterminatifs : de la fin vers le début, comme en anglais : bookshop « livre + magasin » → « magasin de livres » → « librairie » ou bien on additionne le sens des deux termes dans l'ordre de lecture ; cette notion est décrite dans Mot composé) :

飯店/饭店 fàndiàn « repas + échoppe » → « échoppe pour les repas » → « restaurant » ;
茶館/茶馆 cháguǎn « thé + établissement » → « maison de thé » (lieu où l'on sert le thé chinois).

D'autres, formés au moyen de suffixes dont la valeur sémantique est pleine (au contraire de 兒/儿 -er, 子 -zi et 頭/头 -tou), se déchiffrent aussi très facilement :

者 -zhě forme des noms d'agent : 學者/学者 xuézhě « apprendre + [celui qui...] » → « celui qui apprend » → « savant, érudit » ;
長/长 -zhǎng forme des noms de dirigeants : 家長/家长 jiāzhǎng → « famille + dirigeant » → « chef de famille », etc.

Les composés pouvant se comprendre aisément se retrouvent dans toutes les classes lexicales. On peut par exemple citer un verbe comme 出國/出国 chūguó « sortir + pays » → « partir à l'étranger », ou un adverbe comme 一時/一时 yìshí « un + moment » → « pendant un instant ».

Dans la plupart des cas, pourtant, le sens ne se laisse pas deviner. Les caractères peuvent cependant garder un lien d'évocation plus ou moins lointain. L'exemple le plus courant de ce phénomène somme toute normal est 東西/东西 dōngxī, composé des points cardinaux « est » et « ouest » et signifiant... « chose » (rien n'interdirait de penser qu'un tel composé pourrait aussi signifier « grande étendue », « totalité » voire « parcours du soleil »). En effet, les sinogrammes notent des langues (ici le mandarin), lesquelles sont donc caractérisées par l'arbitraire du signe linguistique.

On pourrait multiplier les exemples à l'envi, et ce pour toutes les classes lexicales :

noms : 書法/书法 shūfǎ « livre + loi » → « calligraphie », 圖書/图书 túshū « carte + livre » → « ouvrage écrit », 山水 shānshuǐ « montagne + eau » → « paysage » ;
pronoms 大家 dàjiā « grand + famille » → « tout le monde », 多少 duōshǎo « nombreux + peu » → « combien ? » ;
adverbes : 從來/从来 cónglái « depuis + venir » → « toujours », 非常 fēicháng « non + souvent » → « très », 馬上/马上 mǎshàng → « cheval + dessus » → « sur un cheval » → « immédiatement » ;
verbes 說明/说明 shuōmíng « parler + lumière » → « expliquer », 希望 xīwàng « espérer + regarder au loin » → « espérer », etc.

Cette liste n'est bien sûr pas exhaustive. De cette absence de limpidité des composés, qui sont très fréquents en chinois parlé (mais très rares en chinois classique, où l'égalité un caractère = un lemme est la règle), découle l'une des principales difficultés de lecture.

Une écriture en scriptio continua

Il faut bien prendre conscience que rien, dans l'écriture, ne permet d'identifier les associations de caractères : tous sont écrits à la suite, sans espace (on parle de scriptio continua). Seule la ponctuation permet de séparer les propositions et les phrases (entre autres). Ainsi, il n'est pas possible, sans connaître la langue, de savoir si l'on a affaire à un caractère isolé ou un lemme composé, et encore moins de savoir de combien de caractères ce lemme est composé.

On peut montrer cela par une phrase simple (les morphèmes des lemmes composés sont séparés par un trait d'union) :

我朋友的兒子有很多事兒。/我朋友的儿子有很多事儿。
wǒ péng-you de ér-zi yǒu hěn-duō shìr.

Seul un lecteur connaissant le mandarin peut l'analyser correctement (au sens propre : « décomposer en ses éléments ») :

我	朋	友	的	兒/儿	子	有	很	多	事	兒/儿
wǒ	péng-	-you	de	ér-	-zi	yǒu	hěn-	-duō	shì-r
moi	ami	compagnon	possession	fils	enfant	avoir	très	nombreux	affaire
moi	ami		possession	fils			nombreux
moi	de ami			fils			nombreux
le fils de mon ami						a	beaucoup		à faire

[我+[(朋友)]+的+(兒子/儿子)]+有+(很+多)+(事兒/事儿)。

Dans cet exemple le caractère 兒/儿 se prononce syllabiquement ér dans la première occurrence, asyllabiquement dans la seconde (il fait en sorte que 事 shì [ʂʅ] se prononce shìr [ʂɚ], prononciation pékinoise du caractère).

Liens externes

Outils de prononciation des caractères chinois