Xlera8

Amazon EMR سٹوڈیو سے Amazon EMR Serverless پر انٹرایکٹو ورک لوڈز چلائیں۔ ایمیزون ویب سروسز

ریلیز 6.14 سے شروع، ایمیزون EMR اسٹوڈیو پر انٹرایکٹو تجزیات کی حمایت کرتا ہے۔ ایمیزون EMR سرور لیس. اب آپ EMR سرور لیس ایپلی کیشنز کو کمپیوٹ کے طور پر استعمال کر سکتے ہیں، EC2 کلسٹرز پر Amazon EMR کے علاوہ اور EKS پر ایمیزون EMR ورچوئل کلسٹرز، EMR اسٹوڈیو ورک اسپیسز سے JupyterLab نوٹ بک چلانے کے لیے۔

EMR اسٹوڈیو ایک مربوط ترقیاتی ماحول (IDE) ہے جو ڈیٹا سائنسدانوں اور ڈیٹا انجینئرز کے لیے PySpark، Python، اور Scala میں لکھے گئے تجزیاتی ایپلی کیشنز کو تیار کرنے، تصور کرنے اور ڈیبگ کرنے کے لیے اسے سیدھا بناتا ہے۔ EMR سرور لیس ایک سرور لیس آپشن ہے۔ ایمیزون ای ایم آر جس سے اوپن سورس بگ ڈیٹا اینالیٹکس فریم ورک جیسے اپاچی اسپارک کو بغیر کلسٹرز یا سرورز کی تشکیل، انتظام اور اسکیلنگ کے چلانا سیدھا ہوتا ہے۔

پوسٹ میں، ہم دکھاتے ہیں کہ درج ذیل کام کیسے کریں:

  • انٹرایکٹو ایپلی کیشنز کے لیے ایک EMR سرور لیس اینڈ پوائنٹ بنائیں
  • اختتامی نقطہ کو موجودہ EMR اسٹوڈیو ماحول سے منسلک کریں۔
  • ایک نوٹ بک بنائیں اور ایک انٹرایکٹو ایپلی کیشن چلائیں۔
  • بغیر کسی رکاوٹ کے EMR اسٹوڈیو کے اندر سے انٹرایکٹو ایپلی کیشنز کی تشخیص کریں۔

شرائط

ایک عام تنظیم میں، AWS اکاؤنٹ ایڈمنسٹریٹر AWS وسائل ترتیب دے گا جیسے AWS شناخت اور رسائی کا انتظام (IAM) کے کردار، ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) بالٹیاں، اور ایمیزون ورچوئل پرائیویٹ کلاؤڈ (Amazon VPC) انٹرنیٹ تک رسائی اور VPC میں دیگر وسائل تک رسائی کے لیے وسائل۔ وہ EMR اسٹوڈیو کے منتظمین کو تفویض کرتے ہیں جو EMR اسٹوڈیو کو ترتیب دینے اور صارفین کو مخصوص EMR اسٹوڈیو کو تفویض کرنے کا انتظام کرتے ہیں۔ انہیں تفویض کرنے کے بعد، EMR اسٹوڈیو کے ڈویلپرز EMR اسٹوڈیو کو کام کے بوجھ کو تیار کرنے اور ان کی نگرانی کے لیے استعمال کرسکتے ہیں۔

یقینی بنائیں کہ آپ نے اسی AWS ریجن میں اپنے S3 بالٹی، VPC سب نیٹس، اور EMR اسٹوڈیو جیسے وسائل مرتب کیے ہیں۔

ان شرائط کو متعین کرنے کے لیے درج ذیل اقدامات کو مکمل کریں:

  1. درج ذیل کو لانچ کریں۔ AWS کلاؤڈ فارمیشن اسٹیک
    کلاؤڈفارمیشن اسٹیک لانچ کریں۔
  2. کے لیے اقدار درج کریں۔ ایڈمن پاس ورڈ اور ڈیو پاس ورڈ اور اپنے بنائے ہوئے پاس ورڈز کو نوٹ کریں۔
  3. میں سے انتخاب کریں اگلے.
  4. ترتیبات کو بطور ڈیفالٹ رکھیں اور منتخب کریں۔ اگلے پھر سے.
  5. منتخب کریں میں تسلیم کرتا ہوں کہ AWS CloudFormation حسب ضرورت ناموں کے ساتھ IAM وسائل تخلیق کر سکتی ہے۔.
  6. جمع کرائیں کا انتخاب کریں۔.

ہم نے سیمپل IAM پالیسیوں کے ساتھ ان وسائل کو دستی طور پر تعینات کرنے کی ہدایات بھی فراہم کی ہیں۔ GitHub repo.

EMR اسٹوڈیو اور سرور لیس انٹرایکٹو ایپلی کیشن ترتیب دیں۔

AWS اکاؤنٹ ایڈمنسٹریٹر کے ضروری شرائط کو مکمل کرنے کے بعد، EMR اسٹوڈیو ایڈمنسٹریٹر AWS مینجمنٹ کنسول EMR اسٹوڈیو، ورک اسپیس، اور EMR سرور لیس ایپلیکیشن بنانے کے لیے۔

ایک EMR اسٹوڈیو اور ورک اسپیس بنائیں

EMR اسٹوڈیو کے منتظم کو کنسول میں لاگ ان کرنا چاہیے۔ emrs-interactive-app-admin-user صارف کی اسناد اگر آپ نے فراہم کردہ CloudFormation ٹیمپلیٹ کا استعمال کرتے ہوئے ضروری وسائل کو تعینات کیا ہے، تو وہ پاس ورڈ استعمال کریں جو آپ نے بطور ان پٹ پیرامیٹر فراہم کیا ہے۔

  1. ایمیزون EMR کنسول پر، منتخب کریں۔ EMR سرور لیس نیوی گیشن پین میں.
  2. میں سے انتخاب کریں شروع کریں.
  3. منتخب کریں EMR اسٹوڈیو بنائیں اور لانچ کریں۔.

یہ پہلے سے طے شدہ نام کے ساتھ ایک اسٹوڈیو بناتا ہے۔ studio_1 اور پہلے سے طے شدہ نام کے ساتھ ایک ورک اسپیس My_First_Workspace. کے لیے ایک نیا براؤزر ٹیب کھل جائے گا۔ Studio_1 یوزر انٹرفیس.

EMR اسٹوڈیو بنائیں اور لانچ کریں۔

ایک EMR سرور لیس ایپلی کیشن بنائیں

EMR سرور لیس ایپلیکیشن بنانے کے لیے درج ذیل مراحل کو مکمل کریں:

  1. EMR اسٹوڈیو کنسول پر، منتخب کریں۔ درخواستیں نیوی گیشن پین میں.
  2. ایک نیا اطلاق بنائیں۔
  3. کے لئے نام، ایک نام درج کریں (مثال کے طور پر، my-serverless-interactive-application).
  4. کے لئے ایپلیکیشن سیٹ اپ کے اختیاراتمنتخب حسب ضرورت ترتیبات استعمال کریں۔ انٹرایکٹو کام کے بوجھ کے لیے۔
    اپنی مرضی کے مطابق ترتیبات کا استعمال کرتے ہوئے سرور لیس ایپلی کیشن بنائیں

انٹرایکٹو ایپلی کیشنز کے لیے، بہترین پریکٹس کے طور پر، ہم تجویز کرتے ہیں کہ ڈرائیور اور ورکرز کو ترتیب دے کر پہلے سے شروع کیا جائے۔ پہلے سے شروع کی صلاحیت درخواست کی تخلیق کے وقت. یہ مؤثر طریقے سے کسی ایپلی کیشن کے لیے کارکنوں کا ایک گرم پول بناتا ہے اور وسائل کو استعمال کرنے کے لیے تیار رکھتا ہے، جس سے ایپلیکیشن کو سیکنڈوں میں جواب دینے کے قابل بناتا ہے۔ EMR سرور لیس ایپلی کیشنز بنانے کے لیے مزید بہترین طریقوں کے لیے، دیکھیں ایمیزون EMR سرور لیس کا استعمال کرتے ہوئے بڑے ڈیٹا ورک بوجھ کے لیے فی ٹیم وسائل کی حدیں متعین کریں۔.

  1. میں انٹرایکٹو اختتامی نقطہ سیکشن، منتخب کریں انٹرایکٹو اینڈ پوائنٹ کو فعال کریں۔.
  2. میں نیٹ ورک کا رابطہ سیکشن، VPC، پرائیویٹ سب نیٹس، اور سیکیورٹی گروپ کا انتخاب کریں جو آپ نے پہلے بنایا تھا۔

اگر آپ نے اس پوسٹ میں فراہم کردہ CloudFormation اسٹیک کو تعینات کیا ہے، تو منتخب کریں۔ emr-serverless-sg­  سیکورٹی گروپ کے طور پر.

بیرونی Python پیکجز کو ڈاؤن لوڈ کرنے کے لیے EMR سرور لیس ایپلیکیشن کے اندر سے انٹرنیٹ تک رسائی حاصل کرنے کے لیے کام کے بوجھ کے لیے VPC کی ضرورت ہے۔ VPC آپ کو وسائل تک رسائی کی بھی اجازت دیتا ہے جیسے ایمیزون متعلقہ ڈیٹا بیس سروس (ایمیزون آر ڈی ایس) اور ایمیزون ریڈ شفٹ جو اس ایپلی کیشن سے VPC میں ہیں۔ وی پی سی کے ساتھ سرور لیس ایپلیکیشن منسلک کرنے سے سب نیٹ میں آئی پی ختم ہو سکتی ہے، اس لیے یقینی بنائیں کہ آپ کے سب نیٹ میں کافی IP پتے ہیں۔

  1. میں سے انتخاب کریں درخواست بنائیں اور شروع کریں۔.

انٹرایکٹو اینڈ پوائنٹس کو فعال کریں، پرائیویٹ سب نیٹس اور سیکیورٹی گروپ کا انتخاب کریں۔

ایپلیکیشنز کے صفحہ پر، آپ تصدیق کر سکتے ہیں کہ آپ کی سرور لیس ایپلیکیشن کی حیثیت تبدیل ہو جاتی ہے۔ شروع.

  1. اپنی درخواست منتخب کریں اور منتخب کریں۔ یہ کیسے کام کرتا ہے.
  2. میں سے انتخاب کریں ورک اسپیس دیکھیں اور لانچ کریں۔.
  3. میں سے انتخاب کریں اسٹوڈیو کو ترتیب دیں۔.

  1. کے لئے خدمت کا کردار¸ EMR اسٹوڈیو سروس رول فراہم کریں جو آپ نے بطور شرط بنایا ہے (emr-studio-service-role).
  2. کے لئے ورک اسپیس اسٹوریج، S3 بالٹی کا راستہ داخل کریں جسے آپ نے بطور شرط بنایا ہے (emrserverless-interactive-blog-<account-id>-<region-name>).
  3. میں سے انتخاب کریں تبدیلیاں محفوظ کرو.

emr-studio-service-role اور emrserverless-interactive-blog s3 بالٹی کا انتخاب کریں

14. منتخب کرکے اسٹوڈیو کنسول پر جائیں۔ اسٹوڈیوز میں بائیں نیویگیشن مینو میں EMR اسٹوڈیو سیکشن نوٹ کریں۔ اسٹوڈیو تک رسائی کا URL اسٹوڈیو کنسول سے حاصل کریں اور اپنے ڈیولپرز کو ان کی اسپارک ایپلیکیشنز کو چلانے کے لیے فراہم کریں۔

اپنی پہلی اسپارک ایپلیکیشن چلائیں۔

EMR اسٹوڈیو ایڈمنسٹریٹر کے اسٹوڈیو، ورک اسپیس، اور سرور لیس ایپلیکیشن بنانے کے بعد، اسٹوڈیو صارف اسپارک ورک بوجھ کو تیار کرنے اور ان کی نگرانی کے لیے ورک اسپیس اور ایپلیکیشن کا استعمال کرسکتا ہے۔

ورک اسپیس لانچ کریں اور سرور لیس ایپلیکیشن منسلک کریں۔

درج ذیل مراحل کو مکمل کریں:

  1. EMR اسٹوڈیو ایڈمنسٹریٹر کے ذریعہ فراہم کردہ اسٹوڈیو یو آر ایل کا استعمال کرتے ہوئے، لاگ ان کریں۔ emrs-interactive-app-dev-user AWS اکاؤنٹ کے منتظم کے ذریعے اشتراک کردہ صارف کی اسناد۔

اگر آپ نے فراہم کردہ CloudFormation ٹیمپلیٹ کا استعمال کرتے ہوئے ضروری وسائل کو تعینات کیا ہے، تو وہ پاس ورڈ استعمال کریں جو آپ نے بطور ان پٹ پیرامیٹر فراہم کیا ہے۔

پر ورکشاپ صفحہ، آپ اپنے ورک اسپیس کی حیثیت چیک کر سکتے ہیں۔ ورک اسپیس شروع ہونے پر، آپ کو اسٹیٹس میں تبدیلی نظر آئے گی۔ تیار.

  1. ورک اسپیس کا نام منتخب کرکے ورک اسپیس لانچ کریں (My_First_Workspace).

اس سے ایک نیا ٹیب کھل جائے گا۔ یقینی بنائیں کہ آپ کا براؤزر پاپ اپس کی اجازت دیتا ہے۔

  1. ورک اسپیس میں، منتخب کریں۔ کمپیوٹنگ (کلسٹر آئیکن) نیویگیشن پین میں۔
  2. کے لئے EMR سرور لیس ایپلی کیشناپنی درخواست کا انتخاب کریں (my-serverless-interactive-application).
  3. کے لئے انٹرایکٹو رن ٹائم رول، ایک انٹرایکٹو رن ٹائم رول کا انتخاب کریں (اس پوسٹ کے لیے، ہم استعمال کرتے ہیں۔ emr-serverless-runtime-role).
  4. میں سے انتخاب کریں منسلک کریں اس ورک اسپیس میں موجود تمام نوٹ بکوں کے لیے کمپیوٹ ٹائپ کے بطور سرور لیس ایپلیکیشن منسلک کرنے کے لیے۔

my-serverless-interactive-application کو اپنی ایپ اور emr-serverless-runtime-role کے طور پر منتخب کریں اور منسلک کریں۔

اپنی اسپارک ایپلیکیشن کو انٹرایکٹو طریقے سے چلائیں۔

درج ذیل مراحل کو مکمل کریں:

  1. منتخب کیجئیے نوٹ بک کے نمونے۔ (تین نقطوں کا آئیکن) نیویگیشن پین میں اور کھولیں۔ Getting-started-with-emr-serverless کاپی.
  2. میں سے انتخاب کریں ورک اسپیس میں محفوظ کریں۔.

ہماری نوٹ بک کے لیے دانا کے تین انتخاب ہیں: Python 3، PySpark، اور Spark (Scala کے لیے)۔

  1. جب اشارہ کیا جائے تو منتخب کریں۔ پی اسپارک دانا کے طور پر.
  2. میں سے انتخاب کریں منتخب کریں.

پی اسپارک کو دانا کے طور پر منتخب کریں۔

اب آپ اپنی اسپارک ایپلیکیشن چلا سکتے ہیں۔ ایسا کرنے کے لیے، استعمال کریں۔ %%configure Sparkmagic کمانڈ، جو سیشن تخلیق کے پیرامیٹرز کو ترتیب دیتا ہے۔ انٹرایکٹو ایپلی کیشنز Python ورچوئل ماحول کو سپورٹ کرتی ہیں۔ ہم ورکر نوڈس میں ایک اپنی مرضی کے مطابق ماحول کا استعمال کرتے ہوئے ایگزیکیوٹر ماحول کے لیے مختلف ازگر کے رن ٹائم کے لیے راستہ بتاتے ہیں۔ spark.executorEnv.PYSPARK_PYTHON. درج ذیل کوڈ دیکھیں:

%%configure -f
{
  "conf": {
    "spark.pyspark.virtualenv.enabled": "true",
    "spark.pyspark.virtualenv.bin.path": "/usr/bin/virtualenv",
    "spark.pyspark.virtualenv.type": "native",
    "spark.pyspark.python": "/usr/bin/python3",
    "spark.executorEnv.PYSPARK_PYTHON": "/usr/bin/python3"
  }
}

بیرونی پیکیجز انسٹال کریں۔

اب جب کہ آپ کے پاس کارکنوں کے لیے ایک آزاد ورچوئل ماحول ہے، EMR اسٹوڈیو نوٹ بک آپ کو اسپارک کا استعمال کرکے سرور لیس ایپلیکیشن کے اندر سے بیرونی پیکجز انسٹال کرنے کی اجازت دیتی ہے۔ install_pypi_package اسپارک سیاق و سباق کے ذریعے کام کریں۔ اس فنکشن کو استعمال کرنے سے تمام EMR سرور لیس کارکنوں کے لیے پیکج دستیاب ہو جاتا ہے۔

پہلے، PyPi سے matplotlib، ایک Python پیکیج انسٹال کریں:

sc.install_pypi_package("matplotlib")

اگر پہلے والا مرحلہ جواب نہیں دیتا ہے، تو اپنے VPC سیٹ اپ کو چیک کریں اور یقینی بنائیں کہ یہ انٹرنیٹ تک رسائی کے لیے صحیح طریقے سے ترتیب دیا گیا ہے۔

اب آپ ڈیٹاسیٹ استعمال کر سکتے ہیں اور اپنے ڈیٹا کا تصور کر سکتے ہیں۔

تصورات بنائیں

تصورات تخلیق کرنے کے لیے، ہم NYC پیلی ٹیکسیوں پر ایک عوامی ڈیٹاسیٹ استعمال کرتے ہیں:

file_name = "s3://athena-examples-us-east-1/notebooks/yellow_tripdata_2016-01.parquet"
taxi_df = (spark.read.format("parquet").option("header", "true") 
.option("inferSchema", "true").load(file_name))

پچھلے کوڈ بلاک میں، آپ Amazon S3 میں ایک عوامی بالٹی سے Parquet فائل پڑھتے ہیں۔ فائل میں ہیڈرز ہیں، اور ہم چاہتے ہیں کہ اسپارک اسکیما کا اندازہ لگائے۔ اس کے بعد آپ اسپارک ڈیٹا فریم کو گروپ کرنے اور مخصوص کالموں کو شمار کرنے کے لیے استعمال کرتے ہیں۔ taxi_df:

taxi1_df = taxi_df.groupBy("VendorID", "passenger_count").count()
taxi1_df.show()

استعمال %%display نتیجہ ٹیبل کی شکل میں دیکھنے کے لیے جادو:

%%display
taxi1_df

ٹیبل vendor_id، مسافروں کی_شمار اور کالموں کی گنتی دکھاتا ہے۔

آپ پانچ قسم کے چارٹس کے ساتھ اپنے ڈیٹا کو تیزی سے دیکھ سکتے ہیں۔ آپ ڈسپلے کی قسم منتخب کر سکتے ہیں اور اس کے مطابق چارٹ بدل جائے گا۔ مندرجہ ذیل اسکرین شاٹ میں، ہم اپنے ڈیٹا کو دیکھنے کے لیے بار چارٹ کا استعمال کرتے ہیں۔

بار چارٹ ہر وینڈر_آئی ڈی کے خلاف مسافروں کی_کاؤنٹ دکھا رہا ہے۔

Spark SQL کا استعمال کرتے ہوئے EMR سرور لیس کے ساتھ تعامل کریں۔

آپ ٹیبلز کے ساتھ تعامل کر سکتے ہیں۔ AWS گلو ڈیٹا کیٹلاگ EMR سرور لیس پر سپارک ایس کیو ایل کا استعمال۔ نمونہ نوٹ بک میں، ہم دکھاتے ہیں کہ آپ Spark ڈیٹا فریم کا استعمال کرتے ہوئے ڈیٹا کو کیسے تبدیل کر سکتے ہیں۔

سب سے پہلے، ایک نیا عارضی منظر بنائیں جسے ٹیکسیاں کہتے ہیں۔ یہ آپ کو اس منظر سے ڈیٹا منتخب کرنے کے لیے Spark SQL استعمال کرنے کی اجازت دیتا ہے۔ پھر مزید پروسیسنگ کے لیے ٹیکسی ڈیٹا فریم بنائیں:

taxi_df.createOrReplaceTempView("taxis")
sqlDF = spark.sql(
    "SELECT DOLocationID, sum(total_amount) as sum_total_amount 
     FROM taxis where DOLocationID < 25 Group by DOLocationID ORDER BY DOLocationID"
)
sqlDF.show(5)

ٹیبل vendor_id، مسافروں کی_شمار اور کالموں کی گنتی دکھاتا ہے۔

اپنے EMR اسٹوڈیو نوٹ بک کے ہر سیل میں، آپ توسیع کر سکتے ہیں۔ ملازمت کی پیش رفت اس مخصوص سیل کو چلاتے ہوئے EMR سرور لیس کو جمع کرائے گئے کام کے مختلف مراحل کو دیکھنے کے لیے۔ آپ ہر مرحلے کو مکمل کرنے میں لگنے والا وقت دیکھ سکتے ہیں۔ مندرجہ ذیل مثال میں، کام کے مرحلے 14 میں 12 مکمل کام ہیں۔ اس کے علاوہ، اگر کوئی ناکامی ہوتی ہے، تو آپ لاگز دیکھ سکتے ہیں، جس سے خرابیوں کا سراغ لگانا ایک ہموار تجربہ ہے۔ ہم اگلے حصے میں اس پر مزید بحث کریں گے۔

جاب[14]: showString at NativeMethodAccessorImpl.java:0 اور جاب[15]: showString at NativeMethodAccessorImpl.java:0

matplotlib پیکیج کا استعمال کرتے ہوئے پروسیس شدہ ڈیٹا فریم کو دیکھنے کے لیے درج ذیل کوڈ کا استعمال کریں۔ آپ ڈراپ آف لوکیشن اور کل رقم کو بار چارٹ کے طور پر پلاٹ کرنے کے لیے maptplotlib لائبریری کا استعمال کرتے ہیں۔

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
plt.clf()
df = sqlDF.toPandas()
plt.bar(df.DOLocationID, df.sum_total_amount)
%matplot plt

انٹرایکٹو ایپلی کیشنز کی تشخیص کریں۔

آپ اپنے لیوی اینڈ پوائنٹ کے لیے سیشن کی معلومات حاصل کر سکتے ہیں۔ %%info Sparkmagic. یہ آپ کو اپنی نوٹ بک میں اسپارک UI کے ساتھ ساتھ ڈرائیور لاگ تک رسائی کے لنکس دیتا ہے۔

درج ذیل اسکرین شاٹ ہماری ایپلیکیشن کے لیے ڈرائیور لاگ کا ٹکڑا ہے، جسے ہم نے اپنی نوٹ بک میں لنک کے ذریعے کھولا ہے۔

ڈرائیور لاگ اسکرین شاٹ

اسی طرح، آپ نیچے دیئے گئے لنک کا انتخاب کر سکتے ہیں۔ اسپارک UI UI کھولنے کے لیے۔ مندرجہ ذیل اسکرین شاٹ دکھاتا ہے۔ ایگزیکٹوز ٹیب، جو ڈرائیور اور ایگزیکیوٹر لاگز تک رسائی فراہم کرتا ہے۔

مندرجہ ذیل اسکرین شاٹ اسٹیج 14 کو دکھاتا ہے، جو اسپارک ایس کیو ایل کے اس قدم سے مماثل ہے جو ہم نے پہلے دیکھا تھا جس میں ہم نے کل ٹیکسی کلیکشن کی لوکیشن وار رقم کا حساب لگایا تھا، جسے 12 کاموں میں تقسیم کیا گیا تھا۔ اسپارک UI کے ذریعے، انٹرایکٹو ایپلی کیشن ٹاسک لیول کی عمدہ حالت، I/O، اور شفل تفصیلات کے ساتھ ساتھ آپ کی نوٹ بک سے ہی اس مرحلے کے لیے ہر کام کے متعلقہ لاگز کے لنکس فراہم کرتی ہے، جو ایک ہموار ٹربل شوٹنگ کے تجربے کو قابل بناتی ہے۔

صاف کرو

اگر آپ اس پوسٹ میں بنائے گئے وسائل کو مزید نہیں رکھنا چاہتے ہیں، تو صفائی کے درج ذیل مراحل کو مکمل کریں:

  1. EMR سرور لیس ایپلیکیشن کو حذف کریں۔.
  2. EMR اسٹوڈیو اور متعلقہ ورک اسپیس اور نوٹ بک کو حذف کریں۔.
  3. باقی وسائل کو حذف کرنے کے لیے، CloudFormation کنسول پر جائیں، اسٹیک کو منتخب کریں، اور منتخب کریں۔ خارج کر دیں.

تمام وسائل کو حذف کر دیا جائے گا سوائے S3 بالٹی کے، جس کی حذف کرنے کی پالیسی برقرار ہے۔

نتیجہ

پوسٹ میں دکھایا گیا کہ EMR سٹوڈیو میں انٹرایکٹو PySpark ورک بوجھ کو EMR Serverless کو کمپیوٹ کے طور پر کیسے چلایا جائے۔ آپ ایک انٹرایکٹو JupyterLab ورک اسپیس میں اسپارک ایپلی کیشنز کی تعمیر اور نگرانی بھی کر سکتے ہیں۔

آنے والی پوسٹ میں، ہم EMR سرور لیس انٹرایکٹو ایپلی کیشنز کی اضافی صلاحیتوں پر بات کریں گے، جیسے:

  • اپنے VPC میں Amazon RDS اور Amazon Redshift جیسے وسائل کے ساتھ کام کرنا (مثال کے طور پر، JDBC/ODBC کنیکٹیویٹی کے لیے)
  • سرور لیس اینڈ پوائنٹس کا استعمال کرتے ہوئے لین دین کے کام کے بوجھ کو چلانا

اگر آپ پہلی بار EMR اسٹوڈیو کو تلاش کر رہے ہیں، تو ہم اسے چیک کرنے کی تجویز کرتے ہیں۔ ایمیزون EMR ورکشاپس اور حوالہ دیتے ہوئے ایک EMR اسٹوڈیو بنائیں.


مصنفین کے بارے میں

سیکر سری نواسن AWS میں پرنسپل اسپیشلسٹ سولیوشن آرکیٹیکٹ ہے جو ڈیٹا اینالیٹکس اور AI پر مرکوز ہے۔ سیکر کے پاس ڈیٹا کے ساتھ کام کرنے کا 20 سال سے زیادہ کا تجربہ ہے۔ وہ صارفین کو ان کے فن تعمیر کو جدید بنانے اور ان کے ڈیٹا سے بصیرت پیدا کرنے میں توسیع پذیر حل تیار کرنے میں مدد کرنے کے بارے میں پرجوش ہے۔ اپنے فارغ وقت میں وہ غیر منافع بخش منصوبوں پر کام کرنا پسند کرتے ہیں، جن کی توجہ پسماندہ بچوں کی تعلیم پر مرکوز ہے۔

دیشا عمروانی گلوبل ہیلتھ کیئر اور لائف سائنسز کے اندر ایمیزون پروفیشنل سروسز کے ساتھ ایک سینئر ڈیٹا آرکیٹیکٹ ہے۔ اس نے ڈیٹا سٹریٹیجی کو ڈیزائن، آرکیٹیکٹ اور لاگو کرنے کے لیے صارفین کے ساتھ کام کیا ہے۔ وہ انٹرپرائز پلیٹ فارمز کے لیے ڈیٹا میش آرکیٹیکچرز کی تعمیر میں مہارت رکھتی ہے۔

ہمارے ساتھ بات چیت

ہیلو وہاں! میں آپ کی کیسے مدد کر سکتا ہوں؟