روز اول بخش اول مقاله !
تمامی اطلاعاتی که داخل این پیج باهاتون به اشتراک میذارم مواردی هستند که داخل مقاله زیر در باره اش صحبت شده !
هدف اصلی ما برای متن کاوی شناخت رفتار های پیچیده انسانی با زبان ماشین و نرم افزار است ، این مدل چندین قرن و سال است که در حال گسترش است از زمانی که جنگ ها به خود شکل پیچیده تری گرفتن و مدل های انسانی و شناختی در رفتار های هر کدام از انسان ها شکل تازه ایی به خود گرفتند وارد مدل جدیدتری شدیم از دنیای اطلاعات !!
متن کاوی با اینکه یک متد پیاده سازی و یک محیط اجرای علمی است ولی راه حل هایی آسان در خود دارد ،
یکی از تکنیک های استاندارد دسته بندی و خوشه بندی
Corpus Lingustictis
یک دانش است که بر پایه دسته بندی دانش های جمعی با استفاده از زندگی واقعی مردم تهیه و جمع آوری شده است . زبانشناسی یک پیکره مطالعه زبانی است که بر اساس مجموعههای بزرگ که تهیه شده از «زندگی واقعی» ذخیره و در پیکرهها و یا پایگاههای اطلاعاتی رایانهای مانند دیتابیس ها که برای تحقیقات زبانی ایجاد شدهاند. مورد استفاده قرار میگیرد همچنین به عنوان مطالعات مبتنی بر پیکره شناخته می شود .
Distributional semantics
Distributional hypothesis
فرضیه توزیع پذیری ، نشات گرفته از معنا شناسی توزیع پذیر است که در زبان شناسی مورد استفاده قرار میگیرد ،
هردو مفهوم در یک زمینه مورد استفاده قرار میگیرند و هردو دارای یک استفاده هستند !
اساس این ایده توسط Firth در سال ۱۹۵۰ میلادی معرفی شد ،
ایشون یک جمله معروف دارد ، ” یک کلمه مشخص شده توسط کمپانی تولید کننده آن ”