# คำถามท้ายบท

มาทดสอบความรู้ที่คุณได้เรียนในบทนี้กันเถอะ!

### 1. สถานการณ์ไหนที่คุณควรจะเทรน tokenizer ขึ้นมาใหม่?

### 2. เวลาใช้ `train_new_from_iterator()` อะไรคือข้อดีของการใช้ generator of lists of texts เทียบกับการใช้ list of lists of texts?

train_new_from_iterator() สามารถใช้ได้",
			explain: "list of lists of texts เป็น generator ประเภทหนึ่ง ดังนั้น method นี้สามารถใช้มันได้เช่นกัน ลองดูใหม่นะ!"
		},
		{
			text: "เพื่อป้องกันไม่ให้คุณต้องโหลดชุดข้อมูลทั้งหมด ลงไปใน memory ภายในครั้งเดียว",
			explain: "ถูกต้อง! แต่ละ batch ของข้อความ จะถูกปล่อยออกจาก memory เวลาที่คุณ iterate มัน คุณจะเห็นประโยชน์ของการทำแบบนี้ได้ชัดเจนยิ่งขึ้น เวลาที่คุณใช้ 🤗 Datasets เพื่อเก็บข้อความ",
			correct: true
		},
		{
			text: "ทำให้ 🤗 Tokenizers library สามารถใช้ multiprocessing ได้",
			explain: "ไม่ถูก เพราะมันจะใช้ multiprocessing ในทั้งสองกรณี"
		},
        {
			text: "tokenizer จะสามารถผลิตข้อความได้ดีขึ้น",
			explain: "tokenizer ไม่สามารถผลิตข้อความได้ -- คุณอาจจะกำลังสับสนมันกับ language model หรือเปล่า"
		}
	]}
/>

### 3. อะไรคือข้อดีของ "fast" tokenizer?

### 4. `token-classification` pipeline มีวิธีจัดการกับ entity ที่ประกอบไปด้วยหลายๆ token ได้อย่างไร?

### 5. `question-answering` pipeline มีวิธีจัดการกับข้อความส่วนบริบท(context)ที่มีขนาดยาวอย่างไร?

### 6. อะไรคือ normalization?

### 7. อะไรคือขั้นตอนการ pre-tokenization ของ subword tokenizer?

### 8. เลือกข้อความที่ถูกต้อง เกี่ยวกับ BPE model?

### 9. เลือกข้อความที่ถูกต้อง เกี่ยวกับ WordPiece model?

### 10. เลือกข้อความที่ถูกต้อง เกี่ยวกับ Unigram model?