مدیریت داده های بزرگ و تجزیه و تحلیل در سیستم های پیچیده با Edge 2021
پیش بینی قیمت سهام بر اساس پردازش زبان طبیعی 1
چکیده
کلمات کلیدی مورد استفاده در پیش بینی قیمت سهام سنتی عمدتاً مبتنی بر ادبیات و تجربه است. این مطالعه یک روش جدید استخراج متن را برای تقویت کلمات کلیدی بر اساس مدلهای پردازش زبان طبیعی از جمله بازنمایی رمزگذار دو طرفه از ترانسفورماتورها (BERT) و بازنمایی متنی عصبی برای درک زبان چینی (NEZHA) مدل های پردازش زبان طبیعی طراحی می کند. وکتور سازی BERT و مدل های تبعیض کلمات کلیدی Nezha کلمات کلیدی بذر را به ترتیب از دو بعد شباهت و اهمیت گسترش می دهند ، بنابراین ساخت اصطلاحات کلیدی کلیدی را برای پیش بینی قیمت سهام ایجاد می کنند. علاوه بر این ، توانایی پیش بینی کننده کلمات بذر و کلمات تولید شده ما با مدل LSTM مقایسه می شود و CSI 300 را به عنوان نمونه می گیرد. نتیجه نشان می دهد که ، در مقایسه با کلمات کلیدی بذر ، شاخص های جستجو کلمات استخراج شده با CSI 300 همبستگی بالاتری دارند و می توانند عملکرد پیش بینی آن را بهبود بخشند. بنابراین ، مدل تقویت کلمات کلیدی که در این مطالعه طراحی شده است برای ارائه منابع برای سایر گسترش متغیر در پیش بینی سری زمانی مالی مفید است.
1. مقدمه
بازار سهام فشارسنجی از اقتصاد کلان است که منعکس کننده انتظارات بسیاری از سرمایه گذاران در بازار برای شرایط اقتصادی آینده است. با اصلاحات مداوم و افتتاح تدریجی بازار مالی چین ، بازار سهام نقش مهمی در اقتصاد ملی ایفا می کند. از آنجا که بازار سهام دارای کارکردهای مهمی مانند تخصیص منابع ، تعدیل اقتصادی و کشف قیمت است و از نزدیک با CPI ، نرخ بهره و سایر شاخص ها ارتباط نزدیکی دارد ، شاخص بازار سهام دارای ارزش مرجع مهمی برای سیاست کلان اقتصادی دولت و مرکزی استسیاست پولی بانک ؛بنابراین ، همواره محور تحقیقات دانشگاهی و صنعتی بوده است.
تحقیقات در مورد پیش بینی قیمت سهام بورس سابقه طولانی دارد. اگرچه FAMA [1] فرضیه بازار کارآمد را توسعه داده است ، نشان می دهد که در شرایط ایده آل ، اطلاعات در گذشته به طور کامل در قیمت سهم منعکس شده است ، بنابراین قیمت سهام فقط می تواند تحت تأثیر اطلاعات تازه ظهور قرار بگیرد. اما به دلیل فرض سخت آن ، این تئوری همیشه توسط سایر محققان به چالش کشیده می شود. در بازار ، تجزیه و تحلیل اساسی ، تجزیه و تحلیل فنی ، تجزیه و تحلیل کمی و سایر روش ها هنوز مکانی در سرمایه گذاری فعال را اشغال می کند. با افزایش امور مالی رفتاری ، مردم به تدریج می دانند که رفتار غیر منطقی در بازار گسترده است. به عنوان مثال ، خصوصیات روانشناختی مانند اثر گله باعث می شود یک خبر در بازار منجر به نوسانات شدید در بورس شود. بنابراین ، می توان داده های افکار عمومی شبکه را با روش های آماری تجزیه و تحلیل کرد و سپس قیمت بورس را پیش بینی کرد. با استراتژی تقویت کلمه کلیدی پیشنهادی ما مبتنی بر نمایندگی رمزگذار دو طرفه از ترانسفورماتورها (BERT) و نمایندگی متنی عصبی برای درک زبان چینی (NEZHA) ، به عنوان مثال ، موسسات مالی می توانند سری زمانی به موقع تر را با فهرست جستجوی وب بدست آورند و استراتژی مدیریت ریسک خود را بهبود بخشند. برای پرداختن به نوسان در حال تحول در بازار.
ساختار این مطالعه به شرح زیر است: بخش 2 توسعه پردازش زبان طبیعی و ادبیات مربوط به سهام را معرفی می کند. بخش 3 مدل اساسی و الگوریتم مورد استفاده در این مطالعه را معرفی می کند. بخش 4 چارچوب روش پیش بینی سهام را که در این مطالعه طراحی شده است معرفی می کند. بخش 5 تحقیقات تجربی در مورد پیش بینی شاخص سهام CSI 300 از طریق تحقیقات تجربی است و بخش 6 نتیجه گیری را ارائه می دهد.
2. کار مرتبط
پیش بینی روند قیمت سهام همیشه توسط محققان مورد مطالعه قرار گرفته است. مدل تحقیقاتی موجود پیش بینی سهام عمدتاً در دو جنبه منعکس می شود. از یک طرف ، از مدل های اقتصاد سنجی سنتی مانند مدل رگرسیون و ARIMA تحت چارچوب حداقل مربعات استفاده می شود ، به دلیل یک سری محدودیت ها و داده های غیرخطی که به خوبی نمی توان آنها را پرداخت کرد ، و اثر عملکرد مدل محدود است [2-4]از طرف دیگر ، یادگیری ماشین و مدل های یادگیری عمیق باید بهبود یافته و مورد استفاده قرار گیرد. پیش بینی کننده ها از ویژگی های متداول داده های سهام (باز و حجم و غیره) برای ایجاد یک مدل پیش بینی با دقت و با دقت بالا هستند [5-7]. از نظر انواع داده های پیش بینی ، پیش بینی سهام می تواند بر اساس افزایش و سقوط سهام [8-10] و پیش بینی های رگرسیون بر اساس داده های سری زمانی سهام به پیش بینی های طبقه بندی شده تقسیم شود [11-13]. این تفاوت در این است که آیا انواع داده های اهداف پیش بینی گسسته یا مداوم هستند و این مطالعه متعلق به نوع دوم است.
محققان در پیش بینی قیمت سهام دستاوردهای چشمگیری داشته اند. با این وجود ، ویژگی مشترک ادبیات موجود بهبود روشهای پیش بینی برای بهبود دقت پیش بینی است ، و نواقص زیر در انتخاب ویژگی ها وجود دارد: (1) اگرچه پیش بینی کننده ها به طور گسترده ای مورد استفاده قرار می گیرند ، اما انتخاب پیش بینی کننده ها بیشتر به ادبیات و شهود تجربی متکی است وهیچ استاندارد اندازه گیری نسبتاً علمی وجود ندارد. از آنجا که انتخاب کلمات کلیدی تا حدی تحت تأثیر عوامل ذهنی است ، از دست دادن کلمات کلیدی مهم به دلیل محدوده انتخاب محدود اجتناب ناپذیر است. با این حال ، اگر شاخص کلمه کلیدی به عنوان یک متغیر پیش بینی شده به طور نادرست انتخاب شود ، تا حد زیادی بر صحت پیش بینی قیمت سهام تأثیر می گذارد.(2). تکنیک وکتور سازی پردازش زبان طبیعی (NLP) در شناخت و درک معنایی کافی نیست ، که به راحتی باعث از بین رفتن اطلاعات می شود ، بنابراین منجر به وخامت کیفیت گسترش واژگان متغیرهای پیش بینی می شود. به عنوان مثال ، میانگین بردار کلمه اهمیت سفارش و معناشناسی را نادیده می گیرد و در نتیجه باعث از بین رفتن اطلاعات می شود. مدل Word2VEC بردار شده ، که کلمات را به بردارهای ثابت نقشه می کند ، از نظر ارتباط کلمه نمی تواند زمینه را در نظر بگیرد و فاقد توانایی نمایندگی عمومی است.
NLP قصد دارد مفهوم زبان متنی انسانی را توسط رایانه درک و حفر کند. این یک روش کارآمد برای تجزیه و تحلیل مقدار زیادی از داده های متن شبکه است. از مدل های زبان آماری گرفته تا مدل های زبان یادگیری عمیق ، توانایی مدل ها در نمایش متون زبان طبیعی دائما در حال بهبود است و حتی در برخی زمینه ها از نمایندگی انسان فراتر می رود. مدل زبان آماری عمدتا کلمات کلیدی را بر اساس فرکانس کلمه و توزیع کلمه موضوع استخراج می کند [14-17]. با توسعه قدرت محاسبات رایانه ، مدل زبان یادگیری عمیق مبتنی بر شبکه های عصبی در مقیاس بزرگ تحقق یافته است. در مقایسه با مدل زبان آماری سنتی ، توانایی استخراج متن قوی تر دارد. مدل BERT که توسط Google پیشنهاد شده است ، بازنمایی استاتیک الگوریتم Word2VEC را بهبود می بخشد [18] ، مزایای مدل ELMO و مدل GPT را برای تمایز کلمات چندگانه و پیشگویی موازی [19 ، 20] ادغام می کند ، و پیش از یک دوتایی دوتایی انجام می دهدساختار ترانسفورماتور جهت. سپس مدل BERT می تواند معناشناسی متن را به نمایش بگذارد [21]. بر اساس مدل BERT ، مدل Nezha (وی و همکاران ، 2019) [22] برای بهبود ویژگی های متن چینی (WWM) و سایر فن آوری ها را به تصویب رساند و به اثر SOTA در تعدادی از کارهای زبان طبیعی چینی دست یافت. ادبیات موجود نشان می دهد که BERT توانایی شناخت معنایی قوی را از دیدگاه های مختلف در طبقه بندی متن ، ترجمه دستگاه ، پرسش و پاسخ و سایر کارها نشان می دهد. بنابراین ، این مطالعه مدل های BERT و NEZHA را برای تحقق وظیفه گسترش کلمه کلیدی بذر اتخاذ می کند [23-25].
برای پیش بینی داده های گمشده ، کنگ و همکاران. یک رویکرد پیش بینی حریم خصوصی داده های بهداشتی جدید را بر اساس هش دهی حساس به محل ارائه داد [26]. با ظهور دوران Big Data ، ظهور موتورهای جستجو داده های کمی بیشتر و بیشتر برای تجزیه و تحلیل افکار عمومی شبکه ارائه می دهد. در میان آنها ، شاخص جستجوی وب کلیدی وب به دلیل ویژگی های فرم داده های بصری ، سرعت به روزرسانی سریع و به موقع بودن قوی ، در تحقیقات پیش بینی قیمت سهام مورد استفاده قرار می گیرد. تحقیقات فعلی عمدتاً بر روش پیش بینی بر اساس شاخص جستجوی وب نوآوری می کند [27-30] ، که همچنین ایده هایی را برای تحقیقات این مطالعه ارائه می دهد.
LSTM با پیشرفت مداوم و توسعه فناوری یادگیری عمیق در یادگیری ماشین ، می تواند به طور خودکار ویژگی های غیرخطی و الگوهای پیچیده را در داده ها جستجو کند ، و عملکرد پیش بینی عالی را در تحقیقات کاربردی عملی نشان می دهد. به عنوان مثال ، در مطالعه کاربرد نمونه کارها ، فیشر و کراوس (2018) در مقایسه با سایر مدلهای پیش بینی ، نمونه کارها ساخته شده بر اساس LSTM می توانند عملکرد سرمایه گذاری بهتری کسب کنند [31]. لی بن و همکاران.. رابطه پیچیده بین پیش بینی فاکتور ناهنجاری و بازگشت بیش از حد [32]. لیو و همکاران. نشان داد که LSTM می تواند رابطه بین داده های آب و هوایی تاریخی را به خود اختصاص دهد ، که از عملی خوبی برای پیش بینی آب و هوای گلخانه ای برخوردار است [33]. Mehtab ، تحقیقات Baek و همکاران همچنین نشان می دهد که مدل LSTM Deep Learning عملکرد برجسته ای در پیش بینی سهام دارد [34 ، 35].
بر اساس تجزیه و تحلیل فوق ، روشهای تحقیق زیر در این مطالعه ارائه شده است. اول ، بر اساس پایگاه داده کلمه بذر خلاصه شده در ادبیات موجود ، فناوری خزنده و موتور جستجو برای ضبط متن وب مربوط به قیمت سهام به عنوان پایگاه داده متن اتخاذ شده است و تعداد زیادی از کلمات کلیدی پس از تقسیم کلمه به دست می آیند. دوم ، از مدل BERT برای نشان دادن کلمه بردار و محاسبه شباهت کلمه برای انجام غربالگری اولیه استفاده می شود ، و سپس کلمات کلیدی متغیر پیش بینی کننده بالقوه گسترش می یابد. سپس ، مدل Nezha با عملکرد بهتر در چارچوب MindSpore برای ارائه مجموعه داده های کلمه کلیدی انتخاب شده و اهمیت کلمات را در ترکیب با زمینه به دست می آورد تا متغیرهای کلمه پیش بینی کننده را نشان دهد و بیشتر کلمات کلیدی متغیر پیش بینی را با کیفیت بالاتر گسترش دهد. سرانجام ، این مطالعه با استفاده از یک مدل پیش بینی LSTM یادگیری ماشین برای آزمایش تجربی مجموعه متغیرهای پیش بینی شده به دست آمده و مقایسه و تجزیه و تحلیل اثر پیش بینی مدل قبل و بعد از گسترش مجموعه متغیرها.
3. مدل و الگوریتم
3. 1الگوریتم تقسیم بندی کلمه Jieba
الگوریتم تقسیم بندی کلمه Jieba یک الگوریتم تقسیم بندی جمله کارآمد برای چینی است. در مقایسه با انگلیسی ، هیچ علامت جدایی آشکار بین کلمات چینی وجود ندارد. بنابراین الگوریتم های تقسیم بندی کلمه در تجزیه و تحلیل معنایی چینی از اهمیت ویژه ای برخوردار هستند. اصل تقسیم کلمه الگوریتم تقسیم بندی کلمه Jieba به طور عمده شامل سه بخش زیر است [36].
3. 1. 1. بر اساس فرهنگ لغت پیشوند تمام DAG ممکن را در جمله ایجاد کنید
الگوریتم Jieba از ساختار داده Trie برای ذخیره بیش از 300،000 کلمه مشترک چینی استفاده می کند. درخت پیشوند تعداد زیادی از کلمات را در یک مسیر شبیه درخت نجات می دهد و کلمات را که از گره ریشه شروع می شود ، جمع می کند. در مقایسه با جدول سنتی هش ، مزایای بازده بالا و سرعت سریع در انجام جستجوی کلمات چینی را دارد.
با توجه به فرهنگ لغت پیشوند فوق ، الگوریتم Jieba تمام تقسیم بندی ممکن یک جمله چینی را در یک نمودار حکیمیک هدایت شده (DAG) خلاصه می کند و فرکانس کلمه نمونه آموزش را در Trie ثبت می کند تا بیشتر به احتمال زیاد ترکیب تقسیم بندی شود.
3. 1. 2. از DP برای یافتن محتمل ترین مسیر و تقسیم بندی بر اساس فرکانس کلمه استفاده کنید
در تمام DAG ها ، از برنامه نویسی پویا (DP) می توان برای یافتن حداکثر مسیر احتمال بر اساس فرکانس کلمه در نمونه استفاده کرد. تنظیم