PyThaiNLP รุ่น 2.2 ออกแล้ว เน้นปรับปรุงประสิทธิภาพ

หัวข้อกระทู้ ใน 'เทคโนโลยี' เริ่มโพสต์โดย iPokz, 25 มิถุนายน 2020.

  1. iPokz

    iPokz ~" iPokz "~ Staff Member

    วันที่ 24 มิถุนายน พ.ศ.2563 ไลบรารี PyThaiNLP ซึ่งเป็นไลบรารีประมวลผลภาษาไทยแบบโอเพนซอร์สในภาษาไพธอน ได้ออกรุ่น 2.2 โดยเน้นปรับปรุงประสิทธิภาพการทำงานของไลบรารี โดยสรุปความเปลี่ยนแปลงได้ดังนี้

    • เพิ่มตัวตัดประโยค CRFCut
    • เพิ่มการถอดเสียงภาษาไทยเป็น IPA ด้วย Deep learning
    • เพิ่มเติมความสามารถให้กับฟังก์ชัน normalize หรือฟังก์ชันปรับปรุงข้อความ เช่น ลบช่องว่างซ้ำกัน, ลบวรรณยุกต์ซ้ำในข้อความ เป็นต้น
    • ปรับปรุงโค้ด: ย้ายโค้ดออกจากไฟล์ __init__.py เป็นต้น
    • ลดความต้องการไลบรารีภายนอก: Unigram POS tagger สามารถทำงานได้โดยไม่ต้องการ NLTK
      สามารถอ่านรายละเอียดได้ที่ GitHub

    ที่มา : PyThaiNLP 2.2 : PyThaiNLP GitHub

    Topics: PythonThailandNatural Language
     

แบ่งปันหน้านี้