در ذهن یک کامپیوتر، مجموعه داده هر مجموعه ای از داده است.
این می تواند هر چیزی از یک آرایه گرفته تا یک پایگاه داده کامل باشد.
نمونه آرایه:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
نمونه ای از پایگاه داده:
نام خودرو | رنگ | سن | سرعت | AutoPass |
BMW | قرمز | 5 | 99 | Y |
Volvo | مشکی | 7 | 86 | Y |
VW | خاکستری | 8 | 87 | N |
VW | سفید | 7 | 88 | Y |
فورد | سفید | 2 | 111 | Y |
VW | سفید | 17 | 86 | Y |
تسلا | قرمز | 2 | 103 | Y |
BMW | مشکی | 9 | 87 | Y |
ولوو | خاکستری | 4 | 94 | N |
فورد | سفید | 11 | 78 | N |
تویوتا | خاکستری | 12 | 77 | N |
VW | سفید | 9 | 85 | N |
تویوتا | آبی | 6 | 86 | Y |
با نگاه کردن به آرایه، می توانیم حدس بزنیم که مقدار متوسط احتمالاً حدود 80 است
یا 90، و همچنین میتوانیم بالاترین مقدار و کمترین مقدار را تعیین کنیم، اما چه کار دیگری میتوانیم انجام دهیم؟
و با نگاهی به پایگاه داده می توان دریافت که محبوب ترین رنگ سفید است و قدیمی ترین خودرو 17 سال است.
اما اگر بتوانیم فقط با نگاه کردن به مقادیر دیگر، پیشبینی کنیم که یک خودرو دارای AutoPass است چه میشود؟
یادگیری ماشینی برای همین است! تجزیه و تحلیل داده ها و پیش بینی نتیجه!
در یادگیری ماشینی کار با مجموعه داده های بسیار بزرگ رایج است. در این
ما سعی خواهیم کرد تا حد امکان درک آن را آسان کنیم
مفاهیم مختلف یادگیری ماشین، و ما با کوچک کار خواهیم کرد
مجموعه داده های قابل درک آسان.