ไลบรารีประมวลผลภาษาไทย PyThaiNLP ออกรุ่น 2.1 เพิ่มตัวตัดคำใหม่

หัวข้อกระทู้ ใน 'เทคโนโลยี' เริ่มโพสต์โดย iPokz, 10 ธันวาคม 2019.

  1. iPokz

    iPokz ~" iPokz "~ Staff Member

    วันที่ 10 ธันวาคม พ.ศ.2562 ไลบรารี PyThaiNLP ซึ่งเป็นไลบรารีประมวลผลภาษาไทยแบบโอเพนซอร์สในภาษาไพธอน ได้ออกรุ่น 2.1 โดยสรุปความสามารถใหม่ดังนี้

    • เพิ่ม AttaCut ตัวตัดคำที่เร็วและแม่นยำ เรียกใช้ผ่าน engine="attacut" ใน pythainlp.tokenize.word_tokenize สามารถอ่านวิธีการทำงานของ AttaCut ตามที่นำเสนอที่ New in ML Workshop, NeurIPS 2019 ได้ที่ arxiv.org/abs/1911.07056
    • เพิ่ม ssg ตัวตัดพยางค์แบบ CRF
    • เพิ่มตัววัดประสิทธิภาพตัวตัดคำ
    • เพิ่มคลังข้อมูลชื่อผู้หญิงและผู้ชาย
    • เพิ่ม tag ทำนอง HTML สำหรับ NER ครอบข้อความที่มีชื่อ
    • เพิ่ม pythainlp.util.thai_time สำหรับแปลงเวลาเป็นคำอ่านภาษาไทย

    สามารถอ่านรายละเอียดได้ที่ github.com/PyThaiNLP/pythainlp/issues/181

    ที่มา : PyThaiNLP 2.1 : PyThaiNLP GitHub

    [​IMG]

    Topics: PythonThailand
     

แบ่งปันหน้านี้