ปรัชญา บุญขวัญ (อาร์ม)
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
kaamanita@gmail.com, prachya.boonkwan@nectec.or.th
¡ รู้จักกับภาษาไทย
¡ ความมหัศจรรย์แห่งภาษาไทย
¡ ภาษาไทยในสังคมออนไลน์
¡ หัวข้อวิจัยที่น่าสนใจ
¡ สรุป
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 2
¡ ภาษาไทยเป็นภาษาคำโดด(analytic language)
§ ลำดับคำแบบประธาน-กริยา-กรรม (SVO) และความหมาย
หลักของหน่วยสร้าง (constituent) มักจะเป็นตัวขึ้นต้น
(head-initial)
§ ลำดับคำตายตัว และมีผลต่อการตีความความหมาย
§ ใช้คำกริยาวิเศษณ์ (adverb) และคำช่วย (auxiliary) เพื่อบอก
หน้าที่ทางไวยากรณ์ของคำในประโยค ไม่ต้องผันกริยา
(inflection) หรือเติมวิภัตติปัจจัย (declension)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 3
¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 4
ระบบความคิดแบบปัจเจกนิยม
เน้นความโดดเด่นของปัจเจกบุคคล
นิยมสื่อความหมายแบบชัดแจ้ง
ประเด็น
เหตุผล 1
เหตุผล 2
เหตุผล 3
สรุปสาระสำคัญ
ระบบความคิดแบบรวมศูนย์
เน้นความสัมพันธ์แนบแน่นภายในกลุ่ม
นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 5
ระบบความคิดแบบปัจเจกนิยม
ประเด็นนำไปสู่เหตุผลสนับสนุน
เน้นเล่าเรื่องตามลำดับและให้เหตุผล
ประเด็น
เหตุผล 1
เหตุผล 2
เหตุผล 3
สรุปสาระสำคัญ
ระบบความคิดแบบรวมศูนย์
ข้ออ้างนำไปสู่ประเด็น
เน้นข้อแก้ตัวและการขออภัยที่มารบกวน
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
¡ ภาษาไทยเรียบง่ายแต่สลับซับซ้อน (simplex) และนิยมใช้
ความหมายแฝง (high-context meaning)
§ คำในภาษาไทยมีหน่วยความหมายขนาดเล็ก (minimalist
semantics) ทำให้ต้องใช้คำจำนวนมากมาประกอบสร้างเป็น
หน่วยความหมายที่สลับซับซ้อน
§ สามารถละสรรพนาม (pro-dropping) และละหน่วยสร้าง
(ellipsis) ได้ หากยังสามารถอนุมานความหมายได้จากบริบท
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 6
¡ การใช้ความหมายแฝงทำให้เกิดความมหัศจรรย์
§ ระดับหน่วยคำ: “คำคืออะไร”
§ ระดับไวยากรณ์: “นี่มันคำประสมหรือหน่วยสร้าง” “ทำไม
ประโยคถึงได้ขาดรุ่งริ่งแบบนี้”
§ ระดับความหมาย: “จะตีความรูปแทนความหมายอย่างไร”
§ ระดับปริจเฉท: “อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน”
§ ระดับวัจนปฏิบัติ: “ประโยคนี้หมายความว่าอะไรกันแน่”
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 7
¡ ภาษาไทยเน้นการใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม
§ สรรพนามและหน่วยสร้างอื่นๆ สามารถละได้ ตราบเท่าที่
ภายในกลุ่มสามารถอนุมานได้จากบริบท
§ ความกำกวมทางภาษาก็เป็นที่ยอมรับได้ด้วยเหตุผลเดียวกัน
§ การใช้ความหมายแฝงก่อให้เกิดปัญหากับการประมวลผล
ภาษาธรรมชาติด้วยคอมพิวเตอร์
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 8
¡ การแก้ปัญหาความหมายแฝง (context resolution) มีลักษณะ
ไม่เป็นเชิงเส้น (non-linear) ทำให้การเชื่อมโยงบริบทเกิดภาวะ
non-projectivity ซึ่งต้องแก้ปัญหาด้วย Turing Machine
¡ ตัวอย่าง: การแก้ปัญหาความหมายแฝงด้วย Type Logical Grammar
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 9
สมชายฝากปลาทองไว้กับเพื่อนตอนไปทะเล เขาอยากนั่งตากลมโดยไม่ต้องห่วงเจ้าตากลม
√ เขา.pro
เขา.n
ตา|กลม|
√ ตาก|ลม|
√ ตา|กลม|
ตาก|ลม|
npa1 npa3 npa2a1 a2 a3
¡ การแก้ปัญหาความหมายแฝงด้วยกฎโดยใช้ Turing
Machine มีความซับซ้อนแบบ Exponential จึงเป็น
ปัญหาที่ทนรอไม่ได้ (intractable problem)
¡ ปัจจุบันนี้เราสามารถใช้วิธีการประมาณ (approximate)
เพื่อแก้ปัญหานี้ได้ โดยใช้แบบจำลองทางสถิติ (เช่น NB,
HMM, MEMM, และ CRF) หรือแบบจำลองเชิงตัวเลข
(เช่น SVM และ PCA) แต่ก็ต้องยอมแลกกับความแม่นยำ
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 10
¡ คำถาม 1: คำคืออะไร
§ ภาษาไทยพอมีเกณฑ์คร่าวๆ ของขอบเขตคำ
▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำมูลที่รวมกันแน่น
▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำประสมที่เปลี่ยนความหมายไป
▪ บ้างก็เชื่อว่าขึ้นอยู่กับการนำหน่วยความหมายของคำไปใช้งาน
§ ถึงจะกำหนดเกณฑ์คร่าวๆ ได้ แต่นักภาษาศาสตร์ก็ยังถกเถียง
กันอยู่เสมอเมื่อพบความลักลั่นของกฎเกณฑ์
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 11
¡ รวมกรณีการตัดคำที่ขัดแย้งกับสัญชาตญาณ (counter-intuitive)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 12
เกณฑ์ ตัวอย่าง กรณีที่ขัดแย้งกับสัญชาตญาณ
อิงตามคำมูล
ฉัน|นำ|ดอก|ไม้|ไป|ไหว้|
ศาล|พระ|ภูมิ|ที่|โรง|เรียน|ประจำ|
ดอก|ไม้| ศาล|พระ|ภูมิ| โรง|เรียน|
ตัดแยกให้เป็นคำมูลทั้งหมด
อิงตามคำมูล
ที่รวมกันแน่น
ฉัน|นำ|ดอกไม้|ไป|ไหว้|
ศาลพระภูมิ|ที่|โรงเรียน|ประจำ|
ดอก|จิก| (กล้วย) เล็บ|มือ|นาง|
ตัดแยก เพราะมีความถี่การเกิดร่วมไม่เพียงพอ
อิงตามคำประสม
เปลี่ยนความหมาย
ฉัน|นำ|ดอก|ไม้|ไป|ไหว้|
ศาล|พระภูมิ|ที่|โรง|เรียน|ประจำ|
ดอก|ไม้| แม่|น้ำ| โรง|เรียน|
ต้องตัดแยก เพราะยังไม่เปลี่ยนความหมาย
อิงตาม
หน่วยความหมาย
ฉัน|นำ|ดอกไม้|ไป|ไหว้|
ศาลพระภูมิ|ที่|โรงเรียนประจำ|
การออกกำลังกาย| หม้อแปลงไฟฟ้า|
ต้องตัดรวมเพราะมีคำที่ตรงกันในภาษาอังกฤษ
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 13
เกณฑ์ จุดประสงค์ ความลักลั่น ความกำกวม ตัวอย่าง
อิงตามคำมูล
วิเคราะห์โครงสร้าง
หน่วยคำ
ขอบเขตคำมูล
ทับซ้อนกัน
ต่ำสุด N/A
อิงตามคำมูล
ที่รวมกันแน่น
วิเคราะห์โครงสร้าง
ไวยากรณ์
เมื่อไหร่จึงจะถือว่า
รวมกันแน่น
ปานกลาง
Thai National
Corpus (TNC)
อิงตามคำประสมที่
เปลี่ยนความหมาย
วิเคราะห์โครงสร้าง
ไวยากรณ์
เมื่อไหร่จึงจะถือว่า
เปลี่ยนความหมาย
ปานกลาง BEST 2010
อิงตาม
หน่วยความหมาย
ใช้เพื่อสอนระบบ
แปลภาษาอัตโนมัติ
ไม่มีหน่วยความหมาย
กลางให้เป็นหลักยึด
สูง ORCHID
¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีชัดแจ้ง)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 14
หม้อหุงข้าว
N
หม้อ หุง ข้าว
N V N
VP
S
NP
หม้อหุงข้าว
N
ไฟฟ้า
N
NP
หม้อ หุง
N JV
JVP
NP
NP
ข้าว
N
ไฟฟ้า
N
NP
หม้อหุงข้าว
N
ซ้อมมือ
N
NP
หม้อ หุง
N JV
JVP
NP
NP
ข้าว
N
ซ้อมมือ
N
NP
1
3 4
หีบ ประดับ มรกต
N JV N
JVP
NP
NP
2
หีบประดับมรกต
N
×
×
×
×
(รวมกันแน่น)
(รวมกันแบบหลวม)
(‘ซ้อมมือ’ ขยาย ‘หม้อ’ ไม่ได้)(‘ไฟฟ้า’ขยาย ‘หม้อ’ ได้)
¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีไม่ชัดแจ้ง)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 15
คนขับรถ
N
คน ขับ รถ
N V N
VP
S
NP
คนขับรถ
N
บรรทุก
JV
NP
คน ขับ
N V
VP
S
NP
รถ
N
บรรทุก
V
NP
คน ขับ
N JV
JVP
NP
NP
รถ
N
บรรทุก
V
NP
1
2
คนขับรถบรรทุก
N× ×
(ไม่รวมกันแน่น)
(‘บรรทุก’ ขยาย ‘คน’ ไม่ได้)
¡ คำถาม 3: ทำไมประโยคถึงได้ขาดรุ่งริ่งแบบนี้
§ สรรพนามและหน่วยสร้างวลีบางชนิดสามารถละได้ หากว่า
ภายในกลุ่มยังสามารถอนุมานจากบริบทได้
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 16
สมชายฝากปลาทองไว้กับแม่ก่อนไปทะเล เพราะ φ1 อยากพักผ่อนโดยไม่ต้องห่วง φ2
npa1 npa2a1 a2 a3
because he wants to relax without worrying about it .
¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร
§ เราสามารถถอดรูปแทนความหมายระดับตื้นจากไวยากรณ์ได้
โดยใช้ Categorial Grammar และ Lambda Calculus
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 17
คำศัพท์ Categorial Grammar Lambda Calculus
แม่, น้อง, ผ้า :- np mom’, sister’, clothes’
วาน :- snp1/(snp2)/np2 λx2 λf λx1.ask’(x1, x2, f(x2))
เก็บ :- snp1/np2 λx2 λx1.collect’(x1, x2)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 18
แม่ วาน น้อง เก็บ ผ้า
np
: mom’
snp1/(snp2)/np2
: λx2 λf λx1.ask’(x1, x2, f(x2))
np
: sister’
snp1/np2
: λx2 λx1.collect’(x1,x2)
np
: clothes’
snp1/(snp2)
: λf λx1.ask’(x1, sister’, f(sister’))
snp1
: λx1.collect’(x1, clothes’)
snp1
: λx1.ask’(x1, sister’, collect’(sister’ , clothes’))
s
: ask’(mom’, sister’, collect’(sister’, clothes’))
¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร (ต่อ)
§ การใช้ความหมายแฝงทำให้เราไม่สามารถระบุนิพจน์สโกเลม
(Skolem’s term) และตัวบ่งปริมาณ (quantifier) ลงใน
รูปแทนความหมายได้
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 19
แม่ วาน น้อง เก็บ ผ้า : ask’(mom’, sister’, collect’(sister’, clothes’))
✍ ความกำกวม 1. ‘น้อง’ ที่ว่าหมายถึงน้องคนไหน: sister1’, sister2’, sister3’ … ฯลฯ
✍ ความกำกวม 2. ‘ผ้า’ ที่ว่าหมายถึงผ้าทุกผืนหรือผ้าบางผืน: ∀x. หรือ ∃x. clothes’(x)
¡ คำถาม 5: อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 20
ระบบความคิดแบบรวมศูนย์
นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม
เน้นข้อแก้ตัวและการขออภัยที่มารบกวน
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
ระบบความคิดในสื่อสารมวลชนบางชนิด
อาจใช้ความหมายแฝงเพื่อหลีกเลี่ยงการอ้างอิง
ไม่จำเป็นต้องมีประเด็นที่ชัดเจน
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
?
¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่
§ ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้
ความรู้ทางโลก (world knowledge) และสามัญสำนึก
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 21
ตอนเช้าๆ คุณพ่อเพิ่งตื่นนอน
คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว”
ลูกสาวตอบว่า “แปดโมงยี่สิบค่ะ”
¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่
§ ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้
ความรู้ทางโลก (world knowledge) และสามัญสำนึก
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 22
ณ เวลาตีสองสี่สิบห้านาที ลูกสาวเมากลับเข้าบ้าน
คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว”
ลูกสาวตอบว่า “ตีสองกว่าค่ะพ่อ”
¡ ภาษาไทยในปัจจุบันได้รับอิทธิพลจากอินเตอร์เน็ตและ
สังคมออนไลน์
§ มีคำและความหมายเกิดใหม่ตลอดเวลา ทั้งที่เกิดจากการเทียบเคียง
จากสถานการณ์ การสะกดผิดโดยรู้เท่าไม่ถึงการณ์ ความผิดพร่องใน
การพิมพ์ และการพิมพ์ผิดอย่างจงใจ
§ มีแหล่งข้อมูลขนาดใหญ่ซึ่งสามารถค้นคืนได้ เช่น Facebook,
Twitter, Instagram, หนังสือพิมพ์ และสื่อออนไลน์อื่นๆ
§ ไม่มั่นคง มีพลวัติสูงมาก เปลี่ยนแปลงตามสถานการณ์ได้อย่างรวดเร็ว
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 23
¡ การศึกษาแนวโน้มการใช้ภาษาในสื่อออนไลน์
§ ศึกษาจากการระบุหัวเรื่องด้วย hashtag เช่น #ร้องไห้หนักมาก
§ เครื่องมือที่ช่วยศึกษาภาษาไทยในสื่อออนไลน์ http://pop.ssense.in.th
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 24
¡ การวิเคราะห์ความคิดเห็น (sentiment analysis)
§ เราสามารถวิเคราะห์ขั้ว (polarity) และอารมณ์ (emotion)
ของความคิดเห็นได้โดยพิจารณาจากการใช้รูปคำและบริบท
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 25
โทรศัพท์ XXXXXXX เต็มเปี่ยมไปด้วยความพรีเมี่ยมที่ยอดเยี่ยมกว่าเคย
ไม่มีการติดต่อกลับมาใดๆ จนผมต้องเป็นฝ่ายอีเมล์ไปถามว่าเรื่องถึงไหนแล้ว
+ + +
- - - -
1
2
¡ การวิเคราะห์ความคิดเห็น (sentiment analysis) (ต่อ)
§ ความคิดเห็นแบบการประชด (sarcasm) มีความหมายลึกมีขั้ว
ตรงกันข้ามกับความหมายผิว (ambivalence)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 26
ร้าน XXXXX บริการสุดประทับใจ ไปทานอาหารสองครั้ง ออร์เดอร์หายทั้งสองครั้ง
+ -
แถมครั้งสุดท้ายที่ไป เด็กเสิร์ฟยังคิดค่าอาหารผิด ไปรวมออร์เดอร์ที่หายไว้ในบิล
- - -
¡ หัวข้อวิจัย
§ ระดับคำ: การตัดคำ การระบุคำประสม การกำกับชนิดของคำ
§ ระดับไวยากรณ์: การระบุก้อนหน่วยสร้างการวิเคราะห์โครงสร้างประโยค
การแก้ปัญหาการละในระดับไวยากรณ์
§ ระดับความหมาย: การกำกับบทบาทความหมาย การถอดรูปแทนความหมาย
การตีความนิพจน์สโกเลมและตัวบ่งปริมาณการตีความคำเกิดใหม่
§ ระดับปริจเฉท: การวิเคราะห์โครงสร้างเอกสารการสรุปเอกสารอัตโนมัติ
§ ระดับวัจนปฏิบัติ: การแก้ปัญหาความหมายแฝงการประมวลผลความรู้ทางโลก
(เทรนด์ปัจจุบันคือ ontology) การวิเคราะห์ความคิดเห็นและการประชด
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 27
¡ ข้อแนะนำ
§ ความรู้เบื้องต้นสำหรับภาษาไทย: ไวยากรณ์ไทย (นววรรณ
พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7)
§ ฝึกใช้ machine learning และเทคนิคที่เกี่ยวข้อง
§ ความแม่นยำของระบบขึ้นอยู่กับการออกแบบ “บริบท” เพื่อ
แทนความหมายแฝง เช่น คำก่อนหน้า (n-gram) คำแวดล้อม
(surrounding n-gram) โหนดแม่ในต้นไม้ไวยากรณ์ ฯลฯ
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 28
¡ ภาษาไทยมีความมหัศจรรย์5 ระดับ ซึ่งเป็นผลมาจาก
กรอบความคิดแบบรวมศูนย์และการใช้ความหมายแฝง
¡ การใช้กฎผสมกับ machine learning และการออกแบบ
รูปแทนบริบทจะช่วยแก้ปัญหาความหมายแฝงได้
¡ กรุณาปรึกษาหัวข้อวิจัยกับอาจารย์ที่ปรึกษาของท่าน
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 29
30
ที่มา: เพจมุกหรือ
เปลือกหมอย
¡ ความรู้เบื้องต้นสำหรับภาษาไทย
§ ไวยากรณ์ไทย (นววรรณ พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7)
§ โครงสร้างภาษาไทย: ระบบไวยากรณ์ (วิจินตน์ ภาณุพงศ์,
พ.ศ. 2520)
§ หลักภาษาไทย (กำชัย ทองหล่อ, 2515)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 31
¡ Machine Learning
§ A First Course in Machine Learning (Simon Rogers
and Mark Girolami, 2011) [เข้าใจง่าย]
§ Pattern Recognition and Machine Learning
(Christopher Bishop, 2007) [ยากระดับกลาง]
§ Information Theory, Inference, and Learning
Algorithms (David MacKay, 2003) [ยากและละเอียด]
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 32
¡ Natural Language Processing
§ Speech and Language Processing (Daniel Jurafsky
and James M. Martin, 2008) [ง่าย]
§ Foundations of Statistical Natural Language
Processing (Manning, Prabhakar, and Schütze, 2008)
[ยากระดับกลาง]
§ Natural Language Processing with Python (Bird,
Klein, and Loper, 2009) [ง่าย, สอนใช้ NLTK ด้วย]
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 33

Text Mining and Thai NLP

  • 1.
  • 2.
    ¡ รู้จักกับภาษาไทย ¡ ความมหัศจรรย์แห่งภาษาไทย ¡ภาษาไทยในสังคมออนไลน์ ¡ หัวข้อวิจัยที่น่าสนใจ ¡ สรุป 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 2
  • 3.
    ¡ ภาษาไทยเป็นภาษาคำโดด(analytic language) §ลำดับคำแบบประธาน-กริยา-กรรม (SVO) และความหมาย หลักของหน่วยสร้าง (constituent) มักจะเป็นตัวขึ้นต้น (head-initial) § ลำดับคำตายตัว และมีผลต่อการตีความความหมาย § ใช้คำกริยาวิเศษณ์ (adverb) และคำช่วย (auxiliary) เพื่อบอก หน้าที่ทางไวยากรณ์ของคำในประโยค ไม่ต้องผันกริยา (inflection) หรือเติมวิภัตติปัจจัย (declension) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 3
  • 4.
    ¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด 28 พฤษภาคม2559มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 4 ระบบความคิดแบบปัจเจกนิยม เน้นความโดดเด่นของปัจเจกบุคคล นิยมสื่อความหมายแบบชัดแจ้ง ประเด็น เหตุผล 1 เหตุผล 2 เหตุผล 3 สรุปสาระสำคัญ ระบบความคิดแบบรวมศูนย์ เน้นความสัมพันธ์แนบแน่นภายในกลุ่ม นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น
  • 5.
    ¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด 28 พฤษภาคม2559มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 5 ระบบความคิดแบบปัจเจกนิยม ประเด็นนำไปสู่เหตุผลสนับสนุน เน้นเล่าเรื่องตามลำดับและให้เหตุผล ประเด็น เหตุผล 1 เหตุผล 2 เหตุผล 3 สรุปสาระสำคัญ ระบบความคิดแบบรวมศูนย์ ข้ออ้างนำไปสู่ประเด็น เน้นข้อแก้ตัวและการขออภัยที่มารบกวน ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น
  • 6.
    ¡ ภาษาไทยเรียบง่ายแต่สลับซับซ้อน (simplex)และนิยมใช้ ความหมายแฝง (high-context meaning) § คำในภาษาไทยมีหน่วยความหมายขนาดเล็ก (minimalist semantics) ทำให้ต้องใช้คำจำนวนมากมาประกอบสร้างเป็น หน่วยความหมายที่สลับซับซ้อน § สามารถละสรรพนาม (pro-dropping) และละหน่วยสร้าง (ellipsis) ได้ หากยังสามารถอนุมานความหมายได้จากบริบท 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 6
  • 7.
    ¡ การใช้ความหมายแฝงทำให้เกิดความมหัศจรรย์ § ระดับหน่วยคำ:“คำคืออะไร” § ระดับไวยากรณ์: “นี่มันคำประสมหรือหน่วยสร้าง” “ทำไม ประโยคถึงได้ขาดรุ่งริ่งแบบนี้” § ระดับความหมาย: “จะตีความรูปแทนความหมายอย่างไร” § ระดับปริจเฉท: “อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน” § ระดับวัจนปฏิบัติ: “ประโยคนี้หมายความว่าอะไรกันแน่” 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 7
  • 8.
    ¡ ภาษาไทยเน้นการใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม § สรรพนามและหน่วยสร้างอื่นๆสามารถละได้ ตราบเท่าที่ ภายในกลุ่มสามารถอนุมานได้จากบริบท § ความกำกวมทางภาษาก็เป็นที่ยอมรับได้ด้วยเหตุผลเดียวกัน § การใช้ความหมายแฝงก่อให้เกิดปัญหากับการประมวลผล ภาษาธรรมชาติด้วยคอมพิวเตอร์ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 8
  • 9.
    ¡ การแก้ปัญหาความหมายแฝง (contextresolution) มีลักษณะ ไม่เป็นเชิงเส้น (non-linear) ทำให้การเชื่อมโยงบริบทเกิดภาวะ non-projectivity ซึ่งต้องแก้ปัญหาด้วย Turing Machine ¡ ตัวอย่าง: การแก้ปัญหาความหมายแฝงด้วย Type Logical Grammar 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 9 สมชายฝากปลาทองไว้กับเพื่อนตอนไปทะเล เขาอยากนั่งตากลมโดยไม่ต้องห่วงเจ้าตากลม √ เขา.pro เขา.n ตา|กลม| √ ตาก|ลม| √ ตา|กลม| ตาก|ลม| npa1 npa3 npa2a1 a2 a3
  • 10.
    ¡ การแก้ปัญหาความหมายแฝงด้วยกฎโดยใช้ Turing Machineมีความซับซ้อนแบบ Exponential จึงเป็น ปัญหาที่ทนรอไม่ได้ (intractable problem) ¡ ปัจจุบันนี้เราสามารถใช้วิธีการประมาณ (approximate) เพื่อแก้ปัญหานี้ได้ โดยใช้แบบจำลองทางสถิติ (เช่น NB, HMM, MEMM, และ CRF) หรือแบบจำลองเชิงตัวเลข (เช่น SVM และ PCA) แต่ก็ต้องยอมแลกกับความแม่นยำ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 10
  • 11.
    ¡ คำถาม 1:คำคืออะไร § ภาษาไทยพอมีเกณฑ์คร่าวๆ ของขอบเขตคำ ▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำมูลที่รวมกันแน่น ▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำประสมที่เปลี่ยนความหมายไป ▪ บ้างก็เชื่อว่าขึ้นอยู่กับการนำหน่วยความหมายของคำไปใช้งาน § ถึงจะกำหนดเกณฑ์คร่าวๆ ได้ แต่นักภาษาศาสตร์ก็ยังถกเถียง กันอยู่เสมอเมื่อพบความลักลั่นของกฎเกณฑ์ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 11
  • 12.
    ¡ รวมกรณีการตัดคำที่ขัดแย้งกับสัญชาตญาณ (counter-intuitive) 28พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 12 เกณฑ์ ตัวอย่าง กรณีที่ขัดแย้งกับสัญชาตญาณ อิงตามคำมูล ฉัน|นำ|ดอก|ไม้|ไป|ไหว้| ศาล|พระ|ภูมิ|ที่|โรง|เรียน|ประจำ| ดอก|ไม้| ศาล|พระ|ภูมิ| โรง|เรียน| ตัดแยกให้เป็นคำมูลทั้งหมด อิงตามคำมูล ที่รวมกันแน่น ฉัน|นำ|ดอกไม้|ไป|ไหว้| ศาลพระภูมิ|ที่|โรงเรียน|ประจำ| ดอก|จิก| (กล้วย) เล็บ|มือ|นาง| ตัดแยก เพราะมีความถี่การเกิดร่วมไม่เพียงพอ อิงตามคำประสม เปลี่ยนความหมาย ฉัน|นำ|ดอก|ไม้|ไป|ไหว้| ศาล|พระภูมิ|ที่|โรง|เรียน|ประจำ| ดอก|ไม้| แม่|น้ำ| โรง|เรียน| ต้องตัดแยก เพราะยังไม่เปลี่ยนความหมาย อิงตาม หน่วยความหมาย ฉัน|นำ|ดอกไม้|ไป|ไหว้| ศาลพระภูมิ|ที่|โรงเรียนประจำ| การออกกำลังกาย| หม้อแปลงไฟฟ้า| ต้องตัดรวมเพราะมีคำที่ตรงกันในภาษาอังกฤษ
  • 13.
    28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ(ปรัชญาบุญขวัญ) 13 เกณฑ์ จุดประสงค์ ความลักลั่น ความกำกวม ตัวอย่าง อิงตามคำมูล วิเคราะห์โครงสร้าง หน่วยคำ ขอบเขตคำมูล ทับซ้อนกัน ต่ำสุด N/A อิงตามคำมูล ที่รวมกันแน่น วิเคราะห์โครงสร้าง ไวยากรณ์ เมื่อไหร่จึงจะถือว่า รวมกันแน่น ปานกลาง Thai National Corpus (TNC) อิงตามคำประสมที่ เปลี่ยนความหมาย วิเคราะห์โครงสร้าง ไวยากรณ์ เมื่อไหร่จึงจะถือว่า เปลี่ยนความหมาย ปานกลาง BEST 2010 อิงตาม หน่วยความหมาย ใช้เพื่อสอนระบบ แปลภาษาอัตโนมัติ ไม่มีหน่วยความหมาย กลางให้เป็นหลักยึด สูง ORCHID
  • 14.
    ¡ คำถาม 2:นี่มันคำประสมหรือหน่วยสร้าง (กรณีชัดแจ้ง) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 14 หม้อหุงข้าว N หม้อ หุง ข้าว N V N VP S NP หม้อหุงข้าว N ไฟฟ้า N NP หม้อ หุง N JV JVP NP NP ข้าว N ไฟฟ้า N NP หม้อหุงข้าว N ซ้อมมือ N NP หม้อ หุง N JV JVP NP NP ข้าว N ซ้อมมือ N NP 1 3 4 หีบ ประดับ มรกต N JV N JVP NP NP 2 หีบประดับมรกต N × × × × (รวมกันแน่น) (รวมกันแบบหลวม) (‘ซ้อมมือ’ ขยาย ‘หม้อ’ ไม่ได้)(‘ไฟฟ้า’ขยาย ‘หม้อ’ ได้)
  • 15.
    ¡ คำถาม 2:นี่มันคำประสมหรือหน่วยสร้าง (กรณีไม่ชัดแจ้ง) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 15 คนขับรถ N คน ขับ รถ N V N VP S NP คนขับรถ N บรรทุก JV NP คน ขับ N V VP S NP รถ N บรรทุก V NP คน ขับ N JV JVP NP NP รถ N บรรทุก V NP 1 2 คนขับรถบรรทุก N× × (ไม่รวมกันแน่น) (‘บรรทุก’ ขยาย ‘คน’ ไม่ได้)
  • 16.
    ¡ คำถาม 3:ทำไมประโยคถึงได้ขาดรุ่งริ่งแบบนี้ § สรรพนามและหน่วยสร้างวลีบางชนิดสามารถละได้ หากว่า ภายในกลุ่มยังสามารถอนุมานจากบริบทได้ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 16 สมชายฝากปลาทองไว้กับแม่ก่อนไปทะเล เพราะ φ1 อยากพักผ่อนโดยไม่ต้องห่วง φ2 npa1 npa2a1 a2 a3 because he wants to relax without worrying about it .
  • 17.
    ¡ คำถาม 4:จะตีความรูปแทนความหมายอย่างไร § เราสามารถถอดรูปแทนความหมายระดับตื้นจากไวยากรณ์ได้ โดยใช้ Categorial Grammar และ Lambda Calculus 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 17 คำศัพท์ Categorial Grammar Lambda Calculus แม่, น้อง, ผ้า :- np mom’, sister’, clothes’ วาน :- snp1/(snp2)/np2 λx2 λf λx1.ask’(x1, x2, f(x2)) เก็บ :- snp1/np2 λx2 λx1.collect’(x1, x2)
  • 18.
    28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ(ปรัชญาบุญขวัญ) 18 แม่ วาน น้อง เก็บ ผ้า np : mom’ snp1/(snp2)/np2 : λx2 λf λx1.ask’(x1, x2, f(x2)) np : sister’ snp1/np2 : λx2 λx1.collect’(x1,x2) np : clothes’ snp1/(snp2) : λf λx1.ask’(x1, sister’, f(sister’)) snp1 : λx1.collect’(x1, clothes’) snp1 : λx1.ask’(x1, sister’, collect’(sister’ , clothes’)) s : ask’(mom’, sister’, collect’(sister’, clothes’))
  • 19.
    ¡ คำถาม 4:จะตีความรูปแทนความหมายอย่างไร (ต่อ) § การใช้ความหมายแฝงทำให้เราไม่สามารถระบุนิพจน์สโกเลม (Skolem’s term) และตัวบ่งปริมาณ (quantifier) ลงใน รูปแทนความหมายได้ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 19 แม่ วาน น้อง เก็บ ผ้า : ask’(mom’, sister’, collect’(sister’, clothes’)) ✍ ความกำกวม 1. ‘น้อง’ ที่ว่าหมายถึงน้องคนไหน: sister1’, sister2’, sister3’ … ฯลฯ ✍ ความกำกวม 2. ‘ผ้า’ ที่ว่าหมายถึงผ้าทุกผืนหรือผ้าบางผืน: ∀x. หรือ ∃x. clothes’(x)
  • 20.
    ¡ คำถาม 5:อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 20 ระบบความคิดแบบรวมศูนย์ นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม เน้นข้อแก้ตัวและการขออภัยที่มารบกวน ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น ระบบความคิดในสื่อสารมวลชนบางชนิด อาจใช้ความหมายแฝงเพื่อหลีกเลี่ยงการอ้างอิง ไม่จำเป็นต้องมีประเด็นที่ชัดเจน ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น ?
  • 21.
    ¡ คำถาม 6:ประโยคนี้หมายความว่าอะไรกันแน่ § ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้ ความรู้ทางโลก (world knowledge) และสามัญสำนึก 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 21 ตอนเช้าๆ คุณพ่อเพิ่งตื่นนอน คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว” ลูกสาวตอบว่า “แปดโมงยี่สิบค่ะ”
  • 22.
    ¡ คำถาม 6:ประโยคนี้หมายความว่าอะไรกันแน่ § ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้ ความรู้ทางโลก (world knowledge) และสามัญสำนึก 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 22 ณ เวลาตีสองสี่สิบห้านาที ลูกสาวเมากลับเข้าบ้าน คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว” ลูกสาวตอบว่า “ตีสองกว่าค่ะพ่อ”
  • 23.
    ¡ ภาษาไทยในปัจจุบันได้รับอิทธิพลจากอินเตอร์เน็ตและ สังคมออนไลน์ § มีคำและความหมายเกิดใหม่ตลอดเวลาทั้งที่เกิดจากการเทียบเคียง จากสถานการณ์ การสะกดผิดโดยรู้เท่าไม่ถึงการณ์ ความผิดพร่องใน การพิมพ์ และการพิมพ์ผิดอย่างจงใจ § มีแหล่งข้อมูลขนาดใหญ่ซึ่งสามารถค้นคืนได้ เช่น Facebook, Twitter, Instagram, หนังสือพิมพ์ และสื่อออนไลน์อื่นๆ § ไม่มั่นคง มีพลวัติสูงมาก เปลี่ยนแปลงตามสถานการณ์ได้อย่างรวดเร็ว 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 23
  • 24.
    ¡ การศึกษาแนวโน้มการใช้ภาษาในสื่อออนไลน์ § ศึกษาจากการระบุหัวเรื่องด้วยhashtag เช่น #ร้องไห้หนักมาก § เครื่องมือที่ช่วยศึกษาภาษาไทยในสื่อออนไลน์ http://pop.ssense.in.th 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 24
  • 25.
    ¡ การวิเคราะห์ความคิดเห็น (sentimentanalysis) § เราสามารถวิเคราะห์ขั้ว (polarity) และอารมณ์ (emotion) ของความคิดเห็นได้โดยพิจารณาจากการใช้รูปคำและบริบท 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 25 โทรศัพท์ XXXXXXX เต็มเปี่ยมไปด้วยความพรีเมี่ยมที่ยอดเยี่ยมกว่าเคย ไม่มีการติดต่อกลับมาใดๆ จนผมต้องเป็นฝ่ายอีเมล์ไปถามว่าเรื่องถึงไหนแล้ว + + + - - - - 1 2
  • 26.
    ¡ การวิเคราะห์ความคิดเห็น (sentimentanalysis) (ต่อ) § ความคิดเห็นแบบการประชด (sarcasm) มีความหมายลึกมีขั้ว ตรงกันข้ามกับความหมายผิว (ambivalence) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 26 ร้าน XXXXX บริการสุดประทับใจ ไปทานอาหารสองครั้ง ออร์เดอร์หายทั้งสองครั้ง + - แถมครั้งสุดท้ายที่ไป เด็กเสิร์ฟยังคิดค่าอาหารผิด ไปรวมออร์เดอร์ที่หายไว้ในบิล - - -
  • 27.
    ¡ หัวข้อวิจัย § ระดับคำ:การตัดคำ การระบุคำประสม การกำกับชนิดของคำ § ระดับไวยากรณ์: การระบุก้อนหน่วยสร้างการวิเคราะห์โครงสร้างประโยค การแก้ปัญหาการละในระดับไวยากรณ์ § ระดับความหมาย: การกำกับบทบาทความหมาย การถอดรูปแทนความหมาย การตีความนิพจน์สโกเลมและตัวบ่งปริมาณการตีความคำเกิดใหม่ § ระดับปริจเฉท: การวิเคราะห์โครงสร้างเอกสารการสรุปเอกสารอัตโนมัติ § ระดับวัจนปฏิบัติ: การแก้ปัญหาความหมายแฝงการประมวลผลความรู้ทางโลก (เทรนด์ปัจจุบันคือ ontology) การวิเคราะห์ความคิดเห็นและการประชด 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 27
  • 28.
    ¡ ข้อแนะนำ § ความรู้เบื้องต้นสำหรับภาษาไทย:ไวยากรณ์ไทย (นววรรณ พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7) § ฝึกใช้ machine learning และเทคนิคที่เกี่ยวข้อง § ความแม่นยำของระบบขึ้นอยู่กับการออกแบบ “บริบท” เพื่อ แทนความหมายแฝง เช่น คำก่อนหน้า (n-gram) คำแวดล้อม (surrounding n-gram) โหนดแม่ในต้นไม้ไวยากรณ์ ฯลฯ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 28
  • 29.
    ¡ ภาษาไทยมีความมหัศจรรย์5 ระดับซึ่งเป็นผลมาจาก กรอบความคิดแบบรวมศูนย์และการใช้ความหมายแฝง ¡ การใช้กฎผสมกับ machine learning และการออกแบบ รูปแทนบริบทจะช่วยแก้ปัญหาความหมายแฝงได้ ¡ กรุณาปรึกษาหัวข้อวิจัยกับอาจารย์ที่ปรึกษาของท่าน 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 29
  • 30.
  • 31.
    ¡ ความรู้เบื้องต้นสำหรับภาษาไทย § ไวยากรณ์ไทย(นววรรณ พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7) § โครงสร้างภาษาไทย: ระบบไวยากรณ์ (วิจินตน์ ภาณุพงศ์, พ.ศ. 2520) § หลักภาษาไทย (กำชัย ทองหล่อ, 2515) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 31
  • 32.
    ¡ Machine Learning §A First Course in Machine Learning (Simon Rogers and Mark Girolami, 2011) [เข้าใจง่าย] § Pattern Recognition and Machine Learning (Christopher Bishop, 2007) [ยากระดับกลาง] § Information Theory, Inference, and Learning Algorithms (David MacKay, 2003) [ยากและละเอียด] 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 32
  • 33.
    ¡ Natural LanguageProcessing § Speech and Language Processing (Daniel Jurafsky and James M. Martin, 2008) [ง่าย] § Foundations of Statistical Natural Language Processing (Manning, Prabhakar, and Schütze, 2008) [ยากระดับกลาง] § Natural Language Processing with Python (Bird, Klein, and Loper, 2009) [ง่าย, สอนใช้ NLTK ด้วย] 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 33