前几天在看llm训练流程时,想到一个问题,如果一些小语种,在互联网上的语料很少,印刷的书籍也很少(总之就是相关高质量的文字内容很少),这个情况下llm会不会有比较差的结果?
搜了一下后真的存在这个问题。例如缅甸语,因为纯的缅甸语资料很少,所以当你用缅甸语和llm交互时,只做词语 / 短句映射、无深层逻辑、无本土专有知识、不用复杂推理时,效果还行,因为靠跨语言翻译迁移就能搞定。但是遇到:编程 / 法律 / 医疗 / 学术这四个领域,llm给出的回答质量就会很差。
有类似问题的国家/语言有:柬埔寨-高棉语,老挝语,尼泊尔语,不丹-总卡语,阿富汗,斯里兰卡,埃塞俄比亚,尼日利亚,吉尔吉斯斯坦,格鲁吉亚,冰岛,马耳他,立陶宛。
搜了一下后真的存在这个问题。例如缅甸语,因为纯的缅甸语资料很少,所以当你用缅甸语和llm交互时,只做词语 / 短句映射、无深层逻辑、无本土专有知识、不用复杂推理时,效果还行,因为靠跨语言翻译迁移就能搞定。但是遇到:编程 / 法律 / 医疗 / 学术这四个领域,llm给出的回答质量就会很差。
有类似问题的国家/语言有:柬埔寨-高棉语,老挝语,尼泊尔语,不丹-总卡语,阿富汗,斯里兰卡,埃塞俄比亚,尼日利亚,吉尔吉斯斯坦,格鲁吉亚,冰岛,马耳他,立陶宛。