用於訓練大型語言模型的資料集通常缺乏多樣性