
Pourquoi mon assistant de codage a commencé à répondre en coréen lorsque j’ai tapé du chinois
. Principalement, je travaille avec mon assistant de codage en chinois. Cependant, mes écrits sont souvent mitigés : de nombreux termes d’ingénierie me sont plus familiers en anglais (notamment les termes que nous utilisons en python, git, etc), et certains sont même difficiles à traduire naturellement en chinois.
Hier, j’ai demandé à mon assistant de codage en chinois : « run.py有早停吗?我在恒源云上跑,发现没有触发 », ce qui signifie : « run.py implémente-t-il l’arrêt anticipé ? J’exécutais le projet sur un service GPU partagé et je n’ai pas vu l’arrêt anticipé déclenché. » Comme d’habitude, j’ai naturellement tapé le jeton technique run.py dans sa forme originale anglaise. Le modèle a inspecté le code et a répondu comme suit :

Tous les jetons techniques sont restés en anglais (run.py, config.py, train_unified), tandis que la structure explicative est passée au coréen. Ce n’est pas un cas unique. Cela m’est arrivé de temps en temps : tant que je mélangeais des termes d’ingénierie chinois et anglais, le coréen apparaissait toujours.

Cela m’a amené à me demander : s’agit-il d’un problème de langue ou de quelque chose de plus profond dans l’espace d’intégration ?
Hypothèse
Les espaces d’intégration ne sont pas principalement structurés par la nature des langages. Ayant été formés parallèlement à des modèles de langage, ils ont tendance à être organisés par registres de tâches tels que la rédaction académique, le texte conversationnel et, dans le cas des assistants de codage, l’ingénierie/le code. Le chinois, bien que parlé par la plus grande population au monde, n’est pas un moyen naturel pour le registre des ingénieurs et a une représentation limitée dans les corpus techniques.
Dans un tel contexte, le texte peut cesser de se comporter comme du « chinois » dans l’espace d’intégration dès que des jetons d’ingénierie tels que révision / branche / validation / PR / diff apparaître. Au lieu de cela, il pourrait dériver vers un domaine d’attracteur technique.
Nous mènerons quelques expériences pour fournir des preuves empiriques de cette hypothèse.
Dérive linguistique contrôlée
Nous construisons la séquence contrôlée de phrases suivante où les mots anglais prennent progressivement le pas sur les mots chinois :
Étape 0 : 请帮我检查这个分支
Étape 1 : examen de 请帮我 这个分支
Étape 2 : révision de la branche 这个 de 请帮我
Étape 3 : Veuillez consulter cette validation de demande d’extraction de branche
Étape 4 : Veuillez examiner cette différence de code de validation de demande d’extraction de branche
Nous calculons maintenant la similarité en utilisant la similarité cosinus entre les plongements de phrases. Nous définissons les « clusters » coréens et anglais comme l’incorporation moyenne d’un petit ensemble de phrases représentatives liées à l’ingénierie dans chaque langue. Nous utilisons Δ (EN − KO) pour désigner la différence entre les scores de similarité anglais et coréen, c’est-à-dire Δ = similarité (anglais) − similarité (coréen).
| Scène | similarité coréenne | similarité anglaise | Δ (EN − KO) |
|---|---|---|---|
| 0 | 0,4783 | 0,5141 | 0,0358 |
| 1 | 0,5235 | 0,5728 | 0,0492 |
| 2 | 0,5474 | 0,6140 | 0,0665 |
| 3 | 0,5616 | 0,7314 | 0,1698 |
| 4 | 0,5427 | 0,7398 | 0,1972 |
Nous avons observé un phénomène intéressant : la similarité coréenne augmente d’abord, puis est dépassée par la similarité anglaise. De plus, la croissance de la similarité anglaise n’est pas linéaire, suggérant un comportement de type transition de phase plutôt qu’une dérive graduelle.
Lors de la projection des intégrations en deux dimensions à l’aide de la PCA, nous observons une trajectoire fluide dans les premiers stades, suivie d’un saut directionnel brusque entre l’étape 2 et l’étape 3, et d’une stabilisation ultérieure. Ce modèle indique que les plongements ne se déplacent pas de manière linéaire dans l’espace ; au lieu de cela, ils semblent faire la transition entre les bassins attracteurs.

Comportement du modèle du monde réel
Considérez à nouveau la phrase que nous avons mentionnée au début. J’ai demandé:
A. « run.py有早停吗?我在恒源云上跑,发现没有触发 », signifiant « Est-ce que run.py implémente l’arrêt anticipé ? J’exécutais le projet sur un service GPU partagé et je n’ai pas vu d’arrêt anticipé déclenché. »
B. « 원인을 찾았습니다. 결론: run.py에는 실제로 조기 종료가 없습니다. config.py에 USE_EARLY_STOPPING = True » (en coréen).
Traduit en chinois, nous avons :
C. « »
Nous calculons les similitudes de A, B et C en utilisant la similarité cosinus entre les plongements de phrases. À titre de comparaison, nous définissons trois clusters de référence : le cluster chinois comme l’incorporation moyenne de phrases générales en langue naturelle chinoise, et les clusters anglais et coréen correspondants.
| Texte | simulation coréenne | simulation anglaise | simulation chinoise |
|---|---|---|---|
| A. (invite chinoise) | 0,2003 | 0,2688 | 0,3134 |
| B. (réponse coréenne) | 0,2745 | 0,2983 | 0,1641 |
| C. (traduit en chinois) | 0,1634 | 0,3106 | 0,2798 |
Comme vous pouvez le constater, traduire la réponse coréenne en chinois ne renvoie pas l’intégration vers la région chinoise. Au lieu de cela, il se rapproche encore plus des clusters anglais.
Cela suggère : La traduction pourrait restaurer la forme du langage, mais probablement pas l’intégration de l’emplacement.
Conclusion
Les deux expériences aboutissent à la même conclusion : l’espace d’intégration n’est pas organisé par les frontières linguistiques. Au lieu de cela, il est plus probablement structuré par nature de tâches, où l’anglais de l’ingénierie domine.
Lorsqu’une phrase entre dans cette région, la forme de la langue peut changer, mais la structure d’intégration reste dans le bassin d’ingénierie, conduisant à des comportements étranges tels que répondre en coréen même si vous n’êtes pas du tout un locuteur coréen.



