فناوری پردازش زبان طبیعی (NLP) چیست و چه کاربردهایی دارد؟
به گزارش اخبار ورزش ها، فناوری پردازش زبان طبیعی (Natural Language Processing) یا به اختصار NLP به تعامل بین زبان بشر و کامپیوتر گفته می شود. این زبان فصل مشترک میان علوم کامپیوتر، هوش مصنوعی و زبان محاسباتی محسوب می شود.
فناوری پردازش زبان طبیعی (NLP) چیست؟
فناوری پردازش زبان طبیعی (NLP) شاخه ای از هوش مصنوعی است که در آن کامپیوترها معنی زبان انسان ها را به شکل هوشمندانه و کاربردی آنالیز، درک و تفسیر می کنند. برنامه نویسان با به کارگیری NLP می توانند دانش خود را برای انجام وظایفی مانند خلاصه سازی اتوماتیک، ترجمه، شناسایی موجودیت های نامدار (named entity recognition)، کشف و دسته بندی ارتباط معنایی (relationship extraction)، تحلیل احساسات (sentiment analysis)، تشخیص گفتار (speech recognition) و بخش بندی موضوعات (topic segmentation) سازمان بندی کنند و ساختار دهند.
عملیات پردازش کننده کلمه، با متن مثل رشته ای از نمادها برخورد می کند، در حالی که NLP زبان را ساختاری با سلسله مراتب در نظر می گیرد.
مجموعه ای از کلمات یک عبارت می سازند، چندین عبارت، یک جمله را تشکیل می دهند، در نهایت جملات یک ایده را به وجود می آورند. اکنون این سؤال مطرح می شود که پردازش زبان طبیعی (NLP) چگونه می تواند به کشف احساسات مثبت و منفی در رسانه های اجتماعی کمک کند؟
فناوری NLP این کار را با تجزیه و تحلیل زبان به معنی آن انجام می دهد. سیستم های NLP مدت ها است در این زمینه عملکرد خوبی داشته اند؛ مانند تصحیح گرامر، تبدیل گفتار به نوشتار و ترجمه اتوماتیک زبان های مختلف به یکدیگر از مثال هایی است که می توان به آن اشاره کرد. NLP برای تجزیه و تحلیل متن استفاده می شود و به ماشین ها این امکان را می دهد تا چگونگی صحبت انسان را درک کند و معمولا برای استخراج متن، ترجمه از طریق ماشین و پاسخ دهی اتوماتیک به سؤالات استفاده می شود. NLP در دنیای علوم کامپیوتر به نام مسأله سخت توصیف می شود. زبان انسان به ندرت دقیق یا ساده بیان می شود. ماشین ها برای درک زبان انسان ، لازم است مفاهیم و چگونگی ایجاد ارتباط آن ها به منظور خلق معنا را درک کنند. به همین علت دانستن معنی تک تک کلمات کافی نیست. اگرچه یادگیری زبان یکی از ساده ترین کارهایی است که فکر انسان می تواند آن را بیاموزد، اما ابهام موجود در زبان، تسلط کامپیوتر به فرایند پردازش زبان را سخت و سخت می کند.
فناوری پردازش زبان طبیعی (NLP) چه کاربردی دارد؟
الگوریتم های NLP کاربردهای بسیار متنوعی دارد. این فناوری به برنامه نویس ها اجازه می دهد، نرم افزاری طراحی کنند که زبان انسان را می فهمد. از آنجایی که زبان بشر ماهیت پیچیده ای دارد، یادگیری و اجرای صحیح زبان برای NLP می تواند کار سختی باشد. بعضی از برنامه نویس ها می توانند از الگوریتم های NLP برای اهداف زیر استفاده کنند.
بلاک های خلاصه کننده متن
با استفاده از خلاصه کننده ها، می توان اطلاعات بی ربط را نادیده گرفت و مطالب مهم و ایده های اصلی را استخراج کرد.
طراحی ربات چت
گوگل با کمک Point-of-Speech مدلی برای تجزیه و تحلیل زبان با Deep Learning ساخته است.
ساخت تگ های کلمات کلیدی به صورت اتوماتیک
آنالیز تشخیص خطی (Linear Discriminant Analysis) یا LDA تکنیکی است که به کمک آن می توان موضوعات موجود در درون یک متن را تشخیص دارد.
تشخیص نوع موجودیت به دست آمده
درست مانند آنکه یک شخص، مکان یا سازمانی از شناسایی موجودیت های نام دار استفاده می کند.
تشخیص احساسات
با استفاده از تحلیل احساسات می توان حس وحال رشته ای از متون را از بسیار منفی گرفته تا خنثی و بسیار مثبت تشخیص داد.
کتابخانه های Open Source فناوری پردازش زبان طبیعی (NLP)
این کتابخانه ها، الگوریتم های ساخت بلاک NLP را برای کاربردهای واقعی فراهم می کند.
Apache OpenNLP
یک ابزار یادگیری ماشینی است که توکن سازی، تقسیم بندی جملات، نقش دستوری کلمات، متن کاوی، قطعه بندی، تجزیه، تفکیک پذیری نقش را ارائه می دهد.
NLTK
Natural Language Toolkit کتابخانه ای است که ماژول های متعددی برای پردازش متن، دسته بندی، توکن سازی، ریشه یابی، برچسب زنی، تجزیه و کارهای دیگر در اختیار شما قرار می دهد.
Stanford NLP
مجموعه ای از ابزارهای NLP است که نقش دستوری کلمات، متن کاوی، بازشناسی موجودیت نامی، سیستم تفکیک پذیری نقش، تحلیل احساسات را عرضه می کند.
MALLET
یک بسته جاوا است که تخصیص پنهان دیریکله (Latent Dirichlet Allocation)، دسته بندی اسناد، خوشه بندی، مدل سازی موضوعی و استخراج اطلاعات را ارائه می دهد.
به مثال های زیر که نمونه هایی از نمونه هایی از پردازش زبان طبیعی است، توجه کنید.
- استفاده از خلاصه کننده ها (Summarizer) به منظور خلاصه کردن بلاک های متنی، جملات موضوعی بسیار دقیق و نادیده گرفتن بقیه متن.
- تولید برچسب های کلمات کلیدی با استفاده از LDA که مرتبط ترین کلمه را از متن مشخص می کند. این الگوریتم قلب تپنده Auto-Tag و میکروسرویس های Auto-Tag URL است.
- تحلیل احساسات، بر اساس StanfordNLP می تواند برای تشخیص احساسات، نظر یا عقیده درباره یک نظریه از نظرات بسیار منفی گرفته تا خنثی و بسیار خوب و مثبت استفاده شود. برنامه نویس ها معمولا این الگوریتم را برای تشخیص احساسات در یک جمله یا تجزیه و تحلیل احساسات در رسانه های اجتماعی به کار می گیرند.
الگوریتم های NLP معمولا بر اساس الگوریتم های یادگیری ماشین است. NLP به جای کدنویسی مجموعه ای بزرگ از قوانین، می تواند به یادگیری ماشینی اعتماد کند تا با آنالیز مجموعه ای از مثال ها این قوانین را به صورت اتوماتیک بیاموزد. به طور کلی هرچه داده های بیشتری تحلیل شود، مدل دقیق تر خواهد شد. آنالیز رسانه های اجتماعی یک مثال عالی از کاربرد NLP است. برندها به صورت آنلاین مکالمات پیرامون مسائل مختلف را دنبال می کنند تا ببینند مشتری ها چه می گویند و درک صحیحی از رفتار آن ها به دست بیاورند.
کتاب های پیشنهادی NLP برای مبتدی ها
Speech and Language Processing
این کتاب در نوع خود اولین اثری است که به طور کامل زبان فناوری، تمام سطوح آن و تمام فناوری های مدرن را پوشش می دهد. این اثر با به کارگیری آمار و الگوریتم های یادگیری ماشین برای نهاد های بزرگ، رویکردی تجربی را ارائه می دهد.
Foundations of Statistical Natural Language Processing
این کتاب اولین اثر کامل و جامع برای معرفی پردازش آماری زبان طبیعی است و شامل تئوری ها و الگوریتم های لازم برای ابزار NLP است. این اثر مباحث اساسی ریاضی و زبانی را به طور دقیق ارائه کرده و همچین دارای بحث و مصاحبه روش های آماری است که به دانشجویان و محققان اجازه می دهد تا نظریات خود را پیاده سازی کنند.
Handbook of Natural Language Processing
دومین ویرایش این کتاب، ابزارها و تکنیک های کاربردی برای اجرای پردازش زبان طبیعی در کامپیوتر را ارائه می دهد. همچنین مطالب قدیمی و منسوخ از کتاب حذف شده است. این ویرایش هر فصل را با مطالب تازه و کاربردی نظیر تحلیل احساسات به روز رسانی کرده و محتوای آن را توسعه داده است.
Introduction to Information Retrieval
تا همین سال 1990، مطالعات نشان می داد مردم ترجیح می دهند اطلاعات را از طریق افراد دیگر دریافت کنند تا اینکه آن را از سیستم های بازیابی اطلاعات بگیرند. با این حال در طول دهه گذشته بهینه سازی بی وقفه اطلاعات، کیفیت موتورهای جست وجوی وب را به سطح کیفی مطلوبی سوق داده است که بیشتر مردم از آن رضایت دارند. همچنین جست وجوی در وب به یک منبع قابل اطمینان و ارجح برای یافتن اطلاعات تبدیل شده است. به نام مثال یافته ها در سال 2004 نشان می دهد که 92 درصد از کابران اینترنت معتقدند اینترنت فضای بسیار خوبی برای دریافت اطلاعات روزانه است. در کمال تعجب بسیار، بازیابی اطلاعات از یک رشته دانشگاهی به مبنای اساسی برای دسترسی به اطلاعات بیشتر تبدیل شده است.
Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit
این کتاب درباره پردازش زبان طبیعی است. منظور از زبان طبیعی، زبانی است که افراد در گفت وگوهای روزمره خود به کار می برند مانند زبان انگلیسی، هندی یا پرتغالی. از سوی دیگر، این می تواند به سادگیِ تعدادش تعداد کلمات برای مقایسه سبک های مختلف نگارش باشد.
دوره های آموزشی فناوری پردازش زبان طبیعی (NLP)
Stanford Natural Language Processing on Coursera
این دوره طیف گسترده ای از مباحث پردازش زبان طبیعی را به همراه کلمات، توکن سازی جملات، طبقه بندی متون، آنالیز احساسات، تصحیح املا، استخراج اطلاعات، تجزیه، استخراج معنی و پرسش و پاسخ پوشش می دهد. شما همچنین با تئوری های اساسی از آمار، احتمالات، یادگیری ماشینی که برای این رشته بسیار پر اهمیت است، آشنا می شوید. این دوره الگوریتم های اساسی مانند زبان مدلسازی n-gram، naive bayes، طبقه بندی متن، مدل های متوالی مانند مدل های پنهان مارکوف و وابستگی احتمالی را در اختیار شما قرار می دهد.
Stanford Machine Learning on Coursera
یادگیری ماشین علمِ عملی شدن کامپیوترها بدون برنامه ریزی مشخص است. همچنین بسکمک از متخصصین گمان می کنند که بهترین راه پیشرفت حرکت به سمت هوش مصنوعی است. در این دوره شما درباره کاربردی ترین تکنیک های یادگیری ماشین می آموزید و می توانید آن ها را به صورت عملی اجرا کنید تا تنها برای شما کار کند.
Udemys Introduction to Natural Language Processing
شما در این دوره، با فناوری NLP و با استفاده از زبان پایتون و NLTK آشنا می شوید. در واقع از طریق یک رویکرد عملی، به طور مستقیم، کار با تجزیه و تحلیل متن را تجربه خواهید کرد. شما به نام دانشجوی این دوره، تازهترین مطالب که شامل مرور کنفرانس ها و سخنرانی ها، نمونه کدهای تازه و پروژه های تازه است را به صورت رایگان دریافت خواهید کرد.
Certificate in Natural Language Technology
زمانی که شما با تلفن همراه خود یا سیستم مسیریابی خودرو صحبت می کنید یا به عکس زمانی که آن ها با شما صحبت می کنند، در واقع شما نتیجه توسعه پردازش زبان طبیعی را مشاهده می کنید. این زمینه بر طراحی و خلق نرم افزارهایی که می توانند زبان انسان را آنالیز کنند، تمرکز کرده در چند سال اخیر رشد بی سابقه ای داشته است و در بسکمک از تکنولوژی ها به گرفته می شود.
Natural language processing (Wikipedia)
پردازش زبان طبیعی شاخه ای از علوم کامپیوتر، هوش مصنوعی و زبان شناسی محاسباتی محسوب می شود که به تعامل میان کامپیوترها و زبان انسان ها می پردازد. در سال 1950 آلن تورینگ مقاله ای را تحت نام Computing Machinery and Intelligence منتشر کرد که اکنون ملاک هوش به تعداد می آید و از آن به نام آزمون تورینگ یاد می شود. در اواخر سال 1980 با معرفی الگوریتم های یادگیری ماشین برای پردازش زبان انقلاب بزرگی در NLP رخ داد.
Outline of natural language processing (Wikipedia)
این طرح یک مرور کلی و راهنمای موضوعی را از NLP فراهم کرده است؛ پردازش زبان های طبیعی، فعالیت کامپیوترها که در آن کامپیوتر قادر است زبان طبیعی را آنالیز، درک و در نهایت تولید کند.
Apache OpenNLP
کتابخانه OpenNLP یک ابزار مبتنی بر یادگیری ماشینی برای پردازش متن زبان طبیعی به تعداد می آید.
Natural Language Toolkit
NTLK بستری برای ساخت برنامه های پایتون به منظور کار با داده های زبان های انسانی است. این بستر رابط کاربردی آسانی برای بیش از 50 پیکره و منابع لغوی نظیر WordNet دارد و مجموعه ای از کتابخانه ها طبقه بندی شده پردازش متن، توکن سازی، ریشه یابی، برچسب زنی، تجزیه و استدلال معنایی و فروم های فعال گفت وگو را در اختیار شما قرار می دهد. پردازش زبان با پایتون مقدمه ای عملی برای برنامه نویسی پردازش زبان را فراهم می کند.
از دیگر دوره های مفید برای یادگیری NLP می توان به دوره های زیر اشاره کرد؛
- Six Natural Language Processing Algorithms for Web Developers
- A curated list of speech and natural language processing resources
- NLP research group at google
- General Introduction to NLP