前几天在看llm训练流程时，想到一个问题，如果一些小语种，在互联网上的语料很少，印刷的书籍也很少（总之就是相关高质量的文字内容很少），这个情况下llm会不会有比较差的结果？搜了一下后真的存在这个问题

2026年6月10日17:28:29

前几天在看llm训练流程时，想到一个问题，如果一些小语种，在互联网上的语料很少，印刷的书籍也很少（总之就是相关高质量的文字内容很少），这个情况下llm会不会有比较差的结果？

搜了一下后真的存在这个问题。例如缅甸语，因为纯的缅甸语资料很少，所以当你用缅甸语和llm交互时，只做词语 / 短句映射、无深层逻辑、无本土专有知识、不用复杂推理时，效果还行，因为靠跨语言翻译迁移就能搞定。但是遇到：编程 / 法律 / 医疗 / 学术这四个领域，llm给出的回答质量就会很差。

有类似问题的国家/语言有：柬埔寨-高棉语，老挝语，尼泊尔语，不丹-总卡语，阿富汗，斯里兰卡，埃塞俄比亚，尼日利亚，吉尔吉斯斯坦，格鲁吉亚，冰岛，马耳他，立陶宛。

前几天在看llm训练流程时，想到一个问题，如果一些小语种，在互联网上的语料很少，印刷的书籍也很少（总之就是相关高质量的文字内容很少），这个情况下llm会不会有比较差的结果？ 搜了一下后真的存在这个问题

前几天在看llm训练流程时，想到一个问题，如果一些小语种，在互联网上的语料很少，印刷的书籍也很少（总之就是相关高质量的文字内容很少），这个情况下llm会不会有比较差的结果？搜了一下后真的存在这个问题