Koen G > 18-11-2025, 10:48 AM
(18-11-2025, 01:05 AM)pfeaster Wrote: You are not allowed to view links. Register or Login to view.Nicely put. My own feeling is that it's easier to account for phenomena such as Smith-Ponzi word-break combinations if we imagine spaces being inserted into fundamentally continuous sequences of glyphs.
pfeaster > 18-11-2025, 01:21 PM
(18-11-2025, 10:48 AM)Koen G Wrote: You are not allowed to view links. Register or Login to view.(18-11-2025, 01:05 AM)pfeaster Wrote: You are not allowed to view links. Register or Login to view.Nicely put. My own feeling is that it's easier to account for phenomena such as Smith-Ponzi word-break combinations if we imagine spaces being inserted into fundamentally continuous sequences of glyphs.
I lean the other way, since the word-end glyphs also look like they have been designed for word end. Look at the practice of using a special last minim in roman numerals, for example (xviij). This is similar to [iin]. Similar things can be said about [y] and for example the "-us" abbreviation. I mean, the glyphs kind of look like they belong where we find them most often.
Although gallows with prefixes may be an exception. [qoty] just looks bad.
ReneZ > 19-11-2025, 08:23 AM
(17-11-2025, 09:43 AM)quimqu Wrote: You are not allowed to view links. Register or Login to view.(17-11-2025, 05:33 AM)ReneZ Wrote: You are not allowed to view links. Register or Login to view.For Stolfi: Thai has quite a number of non-separable multi-syllable words. This text has five, not counting [font='Roboto Mono', monospace]สันสกฤต w[/font]hich is a loan word and says 'Sanskrit'.
(Not sure what is happening with the fonts here).
[...]
With all this, and with the cleaned text (I do not know whether it is a good text to test), and limiting the maximum group size to 5 characters, this output appears:
ถึง | แม้ | ว่า | หน | ังส | ือ | จะ | ได้ | รับ | ความ | นิยม | จาก | การ | พิ | มพ | ์และ | การ | อ่าน | อย | ่าง | แพร่ | หลาย | เดิม | ที | เป็น | ตอน | หน | ึ่ง | ของ | ซึ่ง | เป็น | วรรณ | กรรม | ประ | วัติ | ศาส | ตร์ | ภา | ษ | าส | ัน | สกฤต | ของ | โลก | ในอ | ดีต | กล | ่าว | ถึง | สถาน | การ | ณ์ | ซึ่ง | น | ํา | เร | ามาส | ู่ | ยุค | ปัจ | จุ | บัน | คือ | กล | ีย | ุค | ซึ่ง | เป็น | จุด | เริ | ่ม | ต้น | ของ | ยุค | นี้ | กล | ีย | ุค | เริ | ่ม | ขึ้ | นเม | ื่อ | ประ | มาณ | ห้า | พัน | ปีก | ่อน | องค์ | ชรี | คริ | ชณะ | ตรัส | ให้ | แก | ่อาร | จุนะ | ผู้ | ทรง | เป็น | ทั้ง | สหาย | และ | สาวก | ของ | พระ | องค์ | การ | สนท | นา | คร | ั้ง | นี้ | เป็น | การ | สนท | นา | ปรัช | ญา | และ | ธรรม | ะ | อัน | ยิ่ง | ใหญ่ | ที่ | สุด | ที่ | มนุษ | ย์ | เคย | รู้
quimqu > 19-11-2025, 09:33 AM
(19-11-2025, 08:23 AM)ReneZ Wrote: You are not allowed to view links. Register or Login to view.This is a lot better, but still fails in a significant way. I suspect that the input text may have been too short.
All things that are superscripts are vowels or tone marks that cannot be separated from the consonant above which they are written. Also, all vowels are strictly bound to the adjacent consonant. Some are written to the left and some to the right but the rules are strict. My guess is that with a longer text this would have been detected.....
ReneZ > 21-11-2025, 08:44 AM
(19-11-2025, 09:33 AM)quimqu Wrote: You are not allowed to view links. Register or Login to view.My question: does Thai have single char words? If not, I could set the model not to take into consideration single chars and maybe have a better result.