۳۰ هزار جمله پیکره گفتمان در فضای مجازی نهایی شد

سازمان فناوری اطلاعات ایران از نهایی شدن ۳۰ هزار جمله پیکره گفتمان در فضای مجازی با همکاری مرکز علوم و تحقیقات کامپیوتری علوم اسلامی خبر داد.

16 مارس 2019

زمان تقریبی مطالعه 3 دقیقه

۳۰ هزار جمله پیکره گفتمان در فضای مجازی نهایی شد

مجله آنلاین موبنا – به گزارش موبنا به نقل از سازمان فناوری اطلاعات ایران، مرکز علوم و تحقیقات کامپیوتری علوم اسلامی به سفارش سازمان فناوری اطلاعات ایران، طبق استاندارد پیکره گفتمان PENN (Pensilvania)، به تهیه پیکره‌های زبانی پرداخته و به عنوان خروجی نهایی طرح، ۳۰ هزار جمله پیکره گفتمان که علاوه بر برچسب‌های گفتمانی شامل برچسب‌های اجزای کلام، نحوی و معنایی نیز است را ارائه داد.
داده‌های بزرگ به فناوری‌های فوق‌العاده‌ای برای پردازش داده‌های عظیم در مجموعه‌های بزرگ نیازمند است تا بتواند در زمانی معقول پاسخگوی نیازها و اهداف تحلیل و پردازش داده‌ها باشد.
این داده‌ها نحوه کار سازمان‌ها و افراد را تحت تأثیر قرار می‌دهد. پردازش زبان‌های طبیعی یکی از زیرشاخه‌های با اهمیت در حوزه گسترده علوم رایانه، هوش مصنوعی و نیز دانش زبان‌شناسی محاسباتی است که به تعامل بین کامپیوتر و زبان‌های طبیعی می‌پردازد. بازیابی اطلاعات مبحث مهمی در پردازش زبان‌های طبیعی به شمار می‌رود.
مدل‌سازی توانایی زبانی انسان در مقاصد بسیاری از جمله موارد زیر کاربرد دارد: مهندسی زبان، هوش مصنوعی، ترجمه ماشینی متون از زبانی به زبان دیگر، فناوری اطلاعات، فناوری ارتباطات، طراحی موتورهای جستجوگر، استخراج اطلاعات از متون با حجم بالا، جستجو در دادگان‌های زبانی بزرگ یا در اینترنت برای یافتن پاسخ‌های لازم به پرسش‌های متفاوت، پردازش متن و گفتار، دریافت فرمان‌های صوتی توسط ماشین و اجرای دقیق آن‌ها، تبدیل متن به گفتار، تبدیل گفتار به متن، خلاصه‌سازی متون، تهیه بانک‌های اطلاعاتی، تهیه بانک‌های اصطلاحات علمی و…
درک چگونگی عملکرد زبان و مدل‌سازی آن برای رایانه از موارد مهم و حیاتی است. رایانه می‌تواند با برخورداری از دانش زبانی اهل زبان و نیز ویژگی پردازش سریع، داده‌های زبانی را با دقت و سرعت بسیار بالایی تجزیه و تحلیل کند.
به عبارتی می‌توان برای بخش‌های مختلف زبان که ابزار موجود در فضای مجازی است مشخصه و شناسنامه یا بهتر بگوییم پیکره‌ای تعریف کرد که در فضای مجازی و برای اهداف مختلف قابل استفاده باشد. به طور مثال برای نرم‌افزار STT یا «تبدیل گفتار به متن» ابتدا باید یک پیکره آوایی و واجی از آن زبان و بر اساس مدل‌هایی که رایانه قادر به درک آن باشد تهیه کرد.
تصور کنید در یک جلسه تخصصی حقوقی برای اینکه گفتار افراد حاضر در جلسه توسط نرم‌افزار STT به متن تبدیل شود، باید داده‌ها یا پیکره‌های آوایی و واژگانی تخصصی رشته حقوق موجود باشد. برای تبدیل متن به گفتار یا TTS نیز نیاز به پیکره‌های متنی آن موضوع است.
بنابراین برای تحلیل، بازیابی و پردازش زبان مورد استفاده در فضای مجازی، نیاز به داده‌ها یا پیکره‌های موردنیاز آن زبان است. این پیکره‌ها داده‌های پایه‌ای تحلیل ماشینی خواهند بود. که در سطح واج، آوا، هجا، واژه، جمله و سطح بالاتر از جمله گفتمان، قابل تقسیم‌بندی هستند.
به طور مثال در مباحث مربوط به ترجمه‌های ماشینی پیکره‌های متنی و معنایی در سطح کلمه و جمله خواهیم داشت. در تحلیل‌هایی که نیاز به پردازش سطحی بالاتر از جمله باشد، با گفتمان و برچسب‌های گفتمانی که برای رایانه قابل فهم باشد، سر و کار خواهیم داشت.
تصور کنید شما تمایل داشته باشد تا ابزار الکترونیکی شما (مثلاً رایانه) بدون حضور شما به پست‌های الکترونیکی شما پاسخ بدهد. در این صورت ماشین نیاز دارد تا به درک جملات و پاراگراف‌ها بپردازد. به عبارتی نیاز به داده‌های برچسب خورده آن زبان دارد (یعنی جملات و گفتمان) تا بتواند از آن طریق به تحلیل پست الکترونیکی شما و در نتیجه تهیه پاسخ برای آن (با توجه به اطلاعاتی که از وضعیت جلسات، وضعیت روانشناختی شما در آن هفته نوع رابطه شما و فردی که به شما ای میل زده است و بسیاری موارد دیگر…) بپردازد.
در همین راستا در بررسی‌ها و داده‌کاوی‌های مربوط به زبان فارسی در هر حوزه مثلاً کسب و کار نیز می‌توانیم از پیکره‌های مربوط به آن استفاده کرد.
مزیت داشتن پیکره‌ها در یک زبان علاوه بر موارد ذکر شده این است که با وجود پیکره‌ها پردازش و تحلیل آسان‌تر شده و سرعت آن افزایش می‌یابد.

16 مارس 2019

زمان تقریبی مطالعه 3 دقیقه

۳۰ هزار جمله پیکره گفتمان در فضای مجازی نهایی شد

خبر مهم وزیر ارتباطات درباره ر‌فع فیلترینگ

خودرو جدید جگوار شیشه پشتی ندارد

اتفاق عجیب در چین؛ ربات کوچک ۱۲ ربات بزرگ را ربود!

«اسپیس‌ایکس» دومین قرارداد تجاری را برای فرستادن محموله به ماه امضا کرد

ماشین انسان‌شویی ساخته شد

«اُپن‌ای‌آی» دوره آموزشی رایگان هوش مصنوعی برای معلمان برگزار می‌کند

دستگاهی که صدای آلزایمر را می‌شناسد

اکسپنگ از خودروی پرنده «مدولار» رونمایی کرد(فیلم)

بیشترین جست‌وجوی ایرانی‌ها در آبان ۱۴۰۳ چه بود

بازگشت مسیح با کمک هوش مصنوعی (فیلم)

انتشار تصاویر شهرام قائدی در «قهوه تلخ» برای اولین بار(عکس)

ارزآورترین کالای صادراتی کشور در هفت ماه 1403( جدول)

انقلابی در تشخیص سریع: دوربین اشعه ایکس قابل حمل KnovelCam x-ray (فیلم)

سود میلیون دلاری یک اپلیکیشن با دورریز غذا

پنج کپی ناشیانه چینی‌ها از خودرو‌های معروف

ایلان ماسک فاصله آمریکا تا چین را ۴۰ دقیقه‌ای می‌‎رود(فیلم)

معرفی ۵ مدل گوشی گیمینگ پوکو، بهترین گوشی پوکو برای گیم

رابرت پتینسون یک بار دیگر با کریستوفر نولان همراه می‌شود

داستان عجیب ۳ دوست احسان علیخانی بعد از ۲۰ سال(فیلم)

با مشکل گاز چه کنیم(فیلم)

هشدار انجمن داروسازان تهران: مردم مثل نقل و نبات مُسکن می‌خورند

داروی مسکن جدید به‌طور دقیق محل‌ درد را هدف قرار می‌دهد

تاثیر بسته‌بندی در افزایش فروش محصول

«قرآن آبی» یک متن پنهان را آشکار کرد

بهترین اپلیکیشن ها و بازی های اندرویدی سال ۲۰۲۴ به انتخاب گوگل

یک ایرانی در «ایکس» مدیر شد

مسابقه بوکس مایک تایسون و جیک پائول پرپخش‌ترین رویداد ورزشی تاریخ بود

این کشورها خطرناک ترین مکان ها برای زنان هستند

جشن تولد صبا راد با تم جنگل پاییزی(فیلم)

تعطیلی کارخانه‌های سایپا صحت دارد

نوشته های مشابه

برنامه کنسرت‌های جدید اعلام شد

نت‌بوک جدید اسوس تصاویر را HD نمایش می‌دهد

خطرناک‌ترین بازار جهان!+عکس

همایون شجریان هم به تماشای فیلم مهران مدیری نشست! (عکس)