مدیریت مستندات محتوای فارسی رسانه های آنلاین خبری در جامعه اطلاعاتی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه مدیریت فناوری اطلاعات، واحد تهران مرکزی، دانشگاه آزاد اسلامی

2 گروه مدیریت صنعتی، واحد تهران مرکزی، دانشگاه آزاد اسلامی، تهران، ایران.(نویسنده مسئول)

3 گروه مدیریت، پژوهشگاه علوم انتظامی و مطالعات اجتماعی، تهران، ایران.

چکیده

 
عصری که ما در آن زندگی می‌کنیم، عصر اطلاعات است و برای سازمان ها مهم‌ترین مسئله، اشراف بر همین اطلاعات است. با رشد روزافزون اخبار در دنیای دیجیتال و اینترنت، موضوعی که مهم و حائز اهمیت می‌شود، دسته‌بندی این اطلاعات و دسترسی سریع و ارزان ما به آن‌ها می‌باشد. این مهم به دست نمی‌آید مگر با انجام روش‌هایی که از آن به‌عنوان دسته‌بندی متون یاد شده است. هدف این پژوهش دسته­بندی متون خبری در دسته‌های‌ از قبل‌ مشخص‌شده می باشد که با استفاده از ابزار مدل اتوماتیک که یکی‌ از زیرمجموعه­های متن‌کاوی محسوب می‌شود صورت می پذیرد. با توجه‌ به‌ اهمیت‌ موضوع و کاری‌ که‌ در این‌ زمینه‌ برای‌ زبان‌های‌ دیگر دنیا انجام گرفته‌ است‌، نیاز به‌ طبقه‌بندی‌ متون فارسی‌ به‌ خوبی‌ احساس می‌شود. این نکته قابل توجه می باشد که تحقیقات برای متون انگلیسی توسعه داده شده و به کارگرفته می شود اما از آنجایی‌که‌ زبان فارسی‌ پیچیدگی های ساختاری نسبت به سایر زبان ها دارد و همچنین تحقیقات کمتری در این زمینه انجام گرفته است، این پژوهش از نوع کاربردی، توسعه ای می باشد که برای انجام آن می توان به روش پژوهش آزمایشی و استفاده از ابزار متن کاوی اشاره کرد، به این صورت که در یک محیط کاملاً تحت کنترل و با توانایی ثابت نگه داشتن سایر متغیرها انجام می گردد.
در جامعه اطلاعاتی دسته‌بندی متون به‌وسیله افراد نخبه و به‌صورت دستی انجام می‌گیرد. دسته‌بندی متون آن‌هم با این حجم و به‌صورت دستی غیرممکن به نظر می‌رسد، بنابراین ما ناگزیریم که به دنبال روش‌هایی برای دسته‌بندی خودکار متون باشیم. از سوی دیگر ذخیره‌سازی، پردازش و تحلیل این حجم از اطلاعات تبدیل به چالشی جدی شده است. با توجه به حجم بالای اخبار، داده ها، اطلاعات، اسناد و پیچیدگی حفظ و نگهداری آنها، لازم است سیستمی  جهت مدیریت دریافت، حفظ و نگهداری اخبار موجود، بکار گرفته شود. پیچیدگی سازمان ها نیاز به متمرکز بودن اخبار، اسناد، طبقه بندی درست، گردش صحیح اخبار و سهولت در دسترسی به آنها را ایجاد می نماید. مدیریت مستندات این امکان را برای سازمان های اطلاعاتی فراهم می آورد که اخبار و اسناد دریافتی یا موجود را به درستی طبقه بندی نموده، آنها را حفظ، نگهداری و بازیابی نماید. با بررسی، تحلیل و پردازش در این پژوهش به این نتیجه می رسیم که دقت‌ و نتایج حاصل روش پیشنهادی‌ روی‌ متون خبری برخط نشان می‌دهد؛ مدل ماشین‌ بردار پشتیبان دارای‌ دقت 29/93‌، صحت 32/93، فراخوانی 96/92 و خطای 71/6 است‌.

کلیدواژه‌ها


عنوان مقاله [English]

Management of Farsi Content Documentation of Online News Media in the Intelligence Society

نویسندگان [English]

  • Hamid Mirzaei Dehnavi 1
  • Mohammad Ali Karamati 2
  • Mohammad Ali Ameri Habibabadi 3
1 Department of Information Technology Management, Tehran Center Branch, Islamic Azad University, ,
2 Department of Industrial Management, Tehran Center Branch, Islamic Azad University, Tehran, Iran. (Corresponding author)
3 Department of Management, Research Institute of Law Enforcement Sciences and Social Studies, Tehran, Iran
چکیده [English]

The age we live in is the age of information, and the most important issue for organizations is the mastery of this information. With the ever-increasing growth of news in the digital world and the Internet, the issue that becomes important is the classification of this information and our quick and cheap access to it. This importance cannot be achieved except by doing the methods referred to as text classification. The purpose of this research is to classify news texts into predefined categories, which is done using the automatic model tool, which is considered one of the subsets of text mining. Considering the importance of the subject and the work that has been done in this field for other languages ​​of the world, the need to classify Persian texts is well felt. It is noteworthy that research has been developed and used for English texts, but since the Persian language has structural complexities compared to other languages ​​and also less research has been done in this field, this research is of an applied type. It is a development that can be done using the experimental research method and the use of text mining tools, as it is done in a completely controlled environment with the ability to keep other variables constant. In the intelligence society, the classification of texts is done manually by elite people. It seems impossible to categorize texts with this volume manually, so we are forced to look for methods to automatically categorize texts. On the other hand, storing, processing and analyzing this amount of information has become a serious challenge. Due to the high volume of news, data, information, documents and the complexity of maintaining and maintaining them, it is necessary to use a system to manage receiving, maintaining and maintaining existing news. The complexity of organizations creates the need for centralization of news, documents, correct classification, correct circulation of news and ease of access to them. Document management provides the possibility for information organizations to correctly classify received or existing news and documents, preserve, maintain and retrieve them. By examining, analyzing and processing in this research, we come to the conclusion that the accuracy and results of the proposed method on online news texts show; The support vector machine model has 93.29 precision, 93.32 accuracy, 92.96 recall, and 6.71 error.

کلیدواژه‌ها [English]

  • Classification
  • Document Management
  • Information and Classification
  • Persian Content
  • Text Mining
  • باقری، ایوب؛ فرزانه فر، حامد؛ سرایی، محمدحسین و احمدزاده، محمدرضا (1387). دسته‌بندی متون خبری فارسی با استفاده از الگوریتم بیز ساده، دومین کنفرانس داده­کاوی ایران، تهران،https://civilica.com/doc/70524
  • برفامی، مهدی و فاطری، سهیل (1392). استفاده از ترکیب شبکه­های عصبی جهت دسته­بندی متون فارسی مبتنی بر الگوریتم‌های GA، کی-نزدیکترین همسایه، PCA جهت کاهش ویژگی، اولین همایش ملی رویکردهای نوین در مهندسی کامپیوتر و بازیابی اطلاعات، رشت، https://civilica.com/doc/225887
  • بصیری، محمد احسان؛ نعمتی، شهلا و قاسم آقایی، ناصر (1386). مقایسه دسته­بندی متون فارسی با استفاده از الگوریتم­های کی-نزدیکترین همسایه و fkNN و انتخاب ویژگی­ها بر اساس بهره اطلاعات و فرکانس سند، سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران، جزیره کیش، https://civilica.com/doc/41786
  • بینا، بهاره؛ رهگذر، مسعود و ده موبد، آذین (١٣٨٦)‌. طبقه‌بندی‌ خودکار متون فارسی‌ سیزدهمین‌ کنفرانس‌ سالانه‌ انجمن‌ کامپیوتر ایران، جزیره کیش‌، انجمن‌ کامپیوتر، دانشگاه صنعتی‌ شریف‌.
  • حسن‌پور، حمید؛ قنبری سرخی، علی و پارسی، اشکان (1391). استخراج بهترین ویژگی از متون فارسی با استفاده از تجزیه‌وتحلیل مؤلفه‌های اصلی با کمک میانگین یادآوری و الگوریتم ژنتیک، نخستین کنفرانس بین‌المللی پردازش خط و زبان فارسی.
  • حسن‌پور، حمید و مدنی، صبا سادات (1393). بهبود دقت سیستم دسته­بندی خودکار اسناد فارسی به کمک هستان­شناسی فارس­نت، مجله­ی علمی پژوهشی، رایانش نرم و فناوری اطلاعات، جلد 3، شماره 1
  • زمانی، محسن؛ دیانت، روح‌الله و صادق زاده، مهدی (1392). دسته­بندی متون فارسی با استفاده از روش آنالیز معنایی پنهان احتمالاتی، همایش ملی کاربرد سیستم­های هوشمند (محاسبات نرم) در علوم و صنایع، قوچان،https://civilica.com/doc/206251
  • طاهری نیا، محسن (1391). دسته­بندی متون فارسی با استفاده از یادگیری نیمه نظارت‌شده، چهارمین کنفرانس مهندسی برق و الکترونیک ایران، گناباد،https://civilica.com/doc/164226
  • عابدینی نیا، مائده؛ الله دادی، لاله و شیخی، فاطمه (1392). کاوش متون فارسی در وب با استفاده از تحلیل معنایی و روش طبقه­بندی چندلایه­ای اطلاعات، اولین همایش ملی رویکردهای نوین در مهندسی کامپیوتر و بازیابی اطلاعات، رشت،https://civilica.com/doc/225377
  • عربی نرئی، سمیه؛ وحیدی اصل، مجتبی و مینایی بیدگلی، بهروز (1386). استخراج کلمات کلیدی جهت طبقه­بندی متون فارسی، اولین کنفرانس داده­کاوی ایران، تهران، https://civilica.com/doc/33094
  • قنبری سرخی، علی و ابراهیمی، فاطمه (1390). بهبود عملکرد طبقه­بندی متون فارسی با استفاده از تجزیه‌وتحلیل مؤلفه‌های اصلی با کمک معیار میانگین یادآوری و دقت، چهاردهمین کنفرانس دانشجویی مهندسی برق کشور، کرمانشاه،https://civilica.com/doc/121558
  • مقصودی، نوشین و همایون­پور، محمدمهدی (1388). ارائه روشی جدید در طبقه‌بندی متون فارسی با استفاده از دانش معنایی "، پانزدهمین کنفرانس بین‌المللی سالانه انجمن کامپیوتر ایران.
  • آقا کاردان، احمد و کیهانی‌ نژاد، مینا (١٣٩١). ارائه‌ مدلی‌ برای‌ استخراج اطلاعات از مستندات متنی‌، مبتنی‌ بر متن‌کاوی‌ در حوزه یادگیری‌ الکترونیکی‌. فصلنامه‌ علمی‌-پژوهشی‌ فناوری اطلاعات و ارتباطات ایران، سال چهارم، شماره‌های‌ ١١ و ١٢، ص ٤٧ تا ٥٤
  • بازقندی‌، مهدی‌؛ تدین‌ تبریزی‌، قمرناز و وفایی‌ جهان، مجید (١٣٩١). نخستین‌ کنفرانس‌ بین‌المللی‌ پردازش خط‌ و زبان طبیعی‌، دانشگاه سمنان.
  • بهرام پور، اکبر؛ بهشتی، همایون و لاکتراشی، طیبه (1394). بررسی روش­ها و الگوریتم­های دسته­بندی اخبار با استفاده از پردازش زبان طبیعی (NLP)، دومین کنفرانس ملی توسعه علوم مهندسی، تنکابن، موسسه آموزش عالی آیندگان.
  • پرئی‌، اعظم‌السادات و حمیدی‌، حجت‌ اله (١٣٩٥). ارائه‌ رویکردی‌ برای‌ مدیریت‌ و سازماندهی‌ اسناد متنی‌ با استفاده از تجزیه‌ تحلیل‌ هوشمند متن‌. فصل‌نامه‌ علمی‌- پژوهشی‌ پژوهشگاه علوم و فناوری اطلاعات ایران، دوره ٣٢، شماره٤، ص١١٧١ تا ١٢٠٢
  • جمالی‌، ایمان؛ میرعابدینی،‌ سید جواد و هارون‌آبادی، علی (١٣٩٦). ارائه‌ی‌ یک‌ مدل جهت‌ دسته‌بندی‌ متون فارسی‌ با استفاده از ترکیب‌ روش‌های‌ دسته‌بندی، مجله‌ مهندسی‌ مخابرات، سال هفتم‌، شماره ٢٣
  • سیاحی‌، عارف؛ هاشمی‌، سید محسن‌ و مزرعه‌، سعید (١٣٩٤). بهبود یک‌ روش مبتنی‌ بر انتخاب ویژگی‌ به‌منظور دسته‌بندی‌ متون با الگوریتم‌های‌ متن‌کاوی، دومین‌ کنگره سراسری‌ فناوری‌های‌ نوین‌ ایران با هدف دستیابی‌ به‌ توسعه‌ پایدار، تهران، مرکز راهکارهای‌ دستیابی‌ به‌ توسعه‌ پایدار، موسسه‌ آموزش عالی‌ مهر اروند.
  • شیخی‌، مریم‌؛ اکبرپور، شاهین‌ و فرزان، علی‌ (١٣٩١). متن‌کاوی‌ متون فارسی‌ در راستای‌ طبقه‌بندی‌ آن. چهارمین‌ کنفرانس‌ مهندسی‌ برق و الکترونیکی‌ ایران.
  • کریمی‌ منش‌، مصطفی‌ و شیرازی‌، حسین (١٣٩٢). مقایسه‌ روش‌های‌ وزن‌دهی‌ ویژگی‌ در فرایند طبقه‌بندی‌ مستندات. اولین‌ کنفرانس‌ ملی‌ رویکردهای‌ نوین در مهندسی‌ کامپیوتر و بازیابی‌ اطلاعات ایران
  • هاشمی‌، سید محسن‌ (١٣٩٤). بهبود دسته‌بندی‌ متون فارسی‌ با ترکی ‌روش دو مرحله‌ای‌ انتخاب ویژگی‌ و الگوریتم‌های‌ یادگیری‌ ماشین‌، کنفرانس‌ بین‌المللی‌ یافته‌های‌ نوین‌ پژوهشی‌ در مهندسی‌ برق و علوم کامپیوتر، تهران، موسسه‌ آموزش عالی نیکان.

 

  • BolshaKov, I. A. & GelbuKh, A. (2004). Computational linguistics: models, resources, applications: Instituto Politecnico Nacional.
  • Eyheramendy, S. GenKin, A. Ju,W.H. Lewis, D. D. & Madigan, D. (2003). Sparse bayesian classifiers for text categorization. Journal of Intelligence Community Research and Development, 13.
  • Francis, L. A. (2006). Taming Text: An Introduction to Text Mining. Paper presented at the Casualty Actuarial Society Forum
  • McCallum, A. & Nigam, K. (1998). A comparison of event models for naive bayes text classification. Paper presented at the AAAI-98 worKshop on learning for text

categorization.

  • Moulinier, I. & Ganascia, J. G. (1995). Applying an existing machine learning algorithm to text categorization. Paper presented at the International Joint Conference on Artificial Intelligence.
  • P. MulaK, &N. Talhar (2015). Analysis of distance measures using K-nearest neighbor algorithm on KDD dataset. International Journal of Science and Research,

4(7), 2101-2104.

  • NadKarni, P. M. Ohno-Machado, L. & Chapman, W. W. (2011). Natural language processing: an introduction. Journal of the American Medical Informatics Association, 18(5), 544-551.