Replication and Sharding in MongoDB pt2

 

بخش دوم این مطلب به تنظیمات مربوط به سرورهای دیتا می‌پردازیم.

 

مسیر زیر را بر روی تمامی سرورهای shard ایجاد می‌کنیم:

mkdir /data/db

دستور مقابل را اجرا کرده تا پیام زیر نمایش داده شود:

mongod –shardsvr

waiting for connection on port 27018

 

در این مرحله باید سرورهای shard را به کلاستر اضافه کنیم. بر روی سرور مستر یک ترمینال جدید باز کرده و دستور mongo را اجرا می‌کنیم تا وارد خط فرمان دیتابیس شویم.

سپس دستورات زیر را جهت افزودن shard اجرا می کنیم تا پیام اضافه شدن نمایش داده شود:

sh.addShard(“repSet01:27018”)

sh.addShard(“repSet01:27018”)

sh.addShard(“repSet01:27018”)

“shardAdded” ….

با اجرای این دستور از وضعیت و اضافه شدن سرورهای دیتا به کلاستر اطمینان پیدا می‌کنیم:

sh.status()

حالا می توانیم sharding را بر روی یک دیتابیس تستی ساده فعال کنیم:

db.runCommand({enablesharding:”tesstdb”});

sh.shardCollection(“testdb.testdata”,{“name”:1})

 

با انجام این دستورات به صورت صحیح تنظیمات مربوط به راه‌اندازی یک کلاستر توزیع شده mongo به پایان می‌رسد. در بخش بعدی به نحوه کارکرد و ذخیره دیتا بر روی دیتابیس می‌پردازیم.

 

Replication and Sharding in MongoDB pt1

 

شاردینگ یک روش برای توزیع داده‌ها بر روی نودهای مختلف توسط دیتابیس Mongo است. در این مطلب به یک پیاده سازی ساده با سه سرور و یک replica set می پردازیم.

نمای کلی از یک Sharding را در شکل زیر میتوانید ببینید.

 

 

در این حالت ما سه سرور دیتا با نامهای repSet01 , repSet02 , repSet03 و یک مجموعه کانفیگ سرور با نامهای confSrv01 , confSrv02 , confSrv03 و یک Routing Server نصب می‌کنیم.

بر روی تمامی سرورها MongoDB را نصب می‌کنیم:

 

echo “deb http://repo.mongodb.org/apt/debian jessie/mongodb-org/3.6 main” | sudo tee /etc/apt/sources.list.d/mongodb-org-3.6.list

sudo apt-get update

sudo apt-get install -y mongodb-org

 

بر روی کانفیگ سرورها این مسیر را ایجاد می‌کنیم:

mkdir /data/configdb

و این دستور را اجرا

mongod –configsvr

تا خروجی زیر بر روی هر سه سرور نمایش داده شود:

websvr admin web console waiting for connections on port 28019

 

حالا بر روی سرور مستر یا Routing Server لاگین کرده و دستور زیر را اجرا می کنیم: (توجه داشته باشید که من قبلا تنظیمات فایل /etc/hosts را بر روی تمامی سرورها انجام داده ام)

 

mongos –configdb repSet01:27019,repSet02:27019,repSet03:27019 –port 27020

 

تا خروجی زیر بر روی سرور مستر و کانفیگ سرورها نمایش داده شود:

config servers and shards connected successfully

connection accepted from nasterSrv01

 

در بخش اول کار ما با سرورهای Configتمام شد. در بخش دوم به نصب و تنظیمات سرورهای Replica Set می پردازیم.

 

DataFlow with Apache Flume

 

یک ابزار مناسب برای انتقال داده‌ها از یک منبع به یک ذخیره ساز داده جهت نگهداری و پردازش جریان داده Apache Flume می باشد.

flume توانایی انتقال داده‌ها به صورت  stream و log را از منابع مختلف مثل kafka , Local Disk , HTTP , SysLog و انواع دیگر منابع تولید دیتا را دارد.

اینجا یک مثال کاربردی و ساده برای انتقال event های تولید شده بر روی یک دیسک را به محیط HDFS را بررسی می کنیم.

 

ابتدا اجزای اصلی را تعیین می کنیم: منبع تولید داده (source) ، نوع ارتباط (channel) ، محل ذخیره سازی (sink)

agent.sources = iot-log
agent.sinks = hdfs-data
agent.channels = ch1
agent.channels.ch1.type = memory

سپس ارتباط مابین منبع و ذخیره ساز:

agent.sources.iot-log.channels = ch1
agent.sinks.hdfs-data.channel = ch1

مشخصات منبع. spooldir نام یکی از انواع source در flume است که فایلهای ایجاد شده در یک مسیر حاص را ارسال می کند. flieHeader برای اینکه مسیر اصلی فایل هم انتقال داده شود.

agent.sources.iot-log.type = spooldir
agent.sources.iot-log.spoolDir = /log/event/spool/
agent.sources.iot-log.fileHeader = true

پارامترهای محل انتقال و ذخیره داده ها. DataStream تغییری در نوع داده ایجاد نمی‌کند و فقط جریان داده دریافتی را ذخیره می‌کند.

agent.sinks.hdfs-data.type = hdfs
agent.sinks.hdfs-data.hdfs.fileType = DataStream
agent.sinks.hdfs-data.hdfs.path = /flume/event/iot/

 

هم اکنون این تنظیمات را در یک فایل مانند iot-data-stream.conf ذخیره و با دستور زیر بر روی سرور که flume نصب شده اجرا می‌کنیم

flume@hell:~# flume-ng agent -n agent -c conf -f /home/iot-data-stream.conf

هر فایل جدیدی که در مسیر /log/event/spool/ ایجاد گردد به محیط HDFS و در مسیر flume/event/iot/ منتقل می‌شود.

برای توضیحات کامل در مورد تمام پارامترها به http://flume.apache.org/FlumeUserGuide.html مراجعه کنید.

 

Bash Tips بخش اول

 

وقتی یک دستور طولانی با بخش‌های متفاوت را در bash تایپ می کنید، ویرایش یک کلمه یا سطر کار مشکلی هست بخصوص حرکت بین حروف با نشانگر صفحه کلید.

در این نوشته چند تا از کلیدهای میانبر bash را با هم مرور میکنیم:

ALT+F حرکت نشانگر یک کلمه به جلو

ALT+B حرکت نشانگر یک کلمه به عقب

ALT+T جابجایی دو کلمه بعد از نشانگر با یکدیگر

ALT+U تبدیل تمام حروف یک کلمه به کاراکترهای Capital

ALT+L تبدیل تمام حروف یک کلمه به کاراکترهای Uncapital

ALT+R برگرداندن تمام تغییرات به حالت قبل

CTRL+A بردن نشانگر به ابتدای سطر

CTRL+E حرکت نشانگر به انتهای سطر

CTRL+K پاک کردن تمام کاراکترهای پس از نشانگر

CTRL+T جابجابی دو کاراکتر بعد از نشانگر

CTRL+U پاک کردن تمام کاراکترها قبل از نشانگر

و..

 

vi Tips بخش اول

 

کار کردن با وبرایشگر متن vi خیلی مشکل نیست. اگر کسی به این ویرایشگر عادت پیدا کنه، کار کردن با بقیه ادیتورها خیلی مشکل میشه. من که بعد چند سال کار با این برنامه هنوز مشکل دارم.

اینجا یکی دو تا از دستورات را مرور میکنیم.

 

برای اضافه کردن یه کاراکتر به ابتدای چند سطر متوالی. برای مثال جایی به درد میخوره که در یک کد نیاز به کامنت کردن بخشی از کد برنامه دارید.

۱- کلید Esc را بزنید تا در حالت command mode باشید.

۲- کلیدهای Ctrl + v را بزنید تا وارد حالت Visual Block  بشوید بعد با حرکت نشانگر به بالا یا پایین سطرهای مورد نظر را انتخاب کنید.

۳- کلید Ctrl + i را بزنید و کاراکتر مورد نظر را تایپ کنید برای مثال # را برای کامنت کرذن سطرها

۴- حالا کلید Esc را بزنید و منتظر اضافه شدن کاراکتر به اول خط باشید.

 

برای اضافه کردن شمارشگر خط به اول هر سطر

با زدن کلید Esc وارد حالت دستوری شده و عبارت set number را تایپ کنید. شمارشگر ظاهر میشه.

برای غیرفعال کردن عبارت set nonumber را وارد کنید.

 

در هنگام کد نویسی اضافه کردن فاصله به ابتدای هر سطر برای خوانا شدن کد خیلی مفید هست. برای فعال کردن حالت Auto-indentation رد ویرایشگر vi

ابتدا وارد command mode شده و سپس عبارت set autoindent را وارد کنید.

برای مشخص کردن اندازه فاصله هر سطر از ابتدای خط در حالت دستوری عبارت set shiftwidth را وارد کنید. برای مثال برای اندازه 5 کاراکتر space از ابتدای هر خط دستور set shiftwidth=5 را وارد کنید.

برای غیر فعال کردن این حالت عبارت set noautoindent را وارد کنید.

 

این دستورات فقط چندتا عبارت کاربردی کوچک بود. ویرایشگر متن vi شامل صدها دستور و عبارت ترکیبی و حتی regex هست که کار کردن با متن را بسیار ساده میکنه.

 

کپی فایل بین کلاسترهای Hadoop

 

برای کپی فایل بر روی یک کلاستر هدوپ از دستور DistCp به راحتی میشه استفاده کرد.

کاربرد این دستور برای کپی فایل بر روی چند کلاستر HDFS یا بین چندین کلاستر می باشد. این دستور از MapReduce  برای کپی کردن و ایجاد تسک‌های map برای توزیع کردن بلاک‌های فایل بر روی کلاستر استفاده می‌کند.

ساده ترین شکل استفاده از این دستور به صورت زیر است:

hadoop distcp hdfs://node-01:8020/source hdfs://node-02:8020/destination

با اجرا این دستور بر روی node-01 یک فایل temporary ایجاد شده و سپس با اجرای مجموعه ای از تسکهای map عملیات کپی بر روی HDFS مقصد با نام node-02 شروع می شود.

برای کپی چندین فایل از روی یک source بر روی مجموعه‌ای کلاسترها به صورت زیر نیز می‌توان کپی را انجام داد:

hadoop distcp hdfs://node-01:8020/source/xxa hdfs://node-01:8020/source/xxb hdfs://node-02:8020/destination

 

ایجاد یک ارتباط امن با Reverse SSH

 

تقریبا همه حداقل یکبار ارتباط ssh بین سرور و کلاینت را ایجاد کرده اند. در اکثر شبکه ها این ارتیاط یکطرفه است یعنی فقط از کلاینت به سرور ssh میشه وصل شد. حالا تصور کنید از یک سرور روی اینترنت میخواهید به یک کلاینت ارتباط بگیرید ولی پشت فایروال و همینطور NATبر روی شبکه قرار دارید که این‌کار غیر ممکن میشه. اینجا راه حلی که خیلی به درد بخور  Reverse SSH هست.

به شکل زیر دقت کنید شما ارتباط یکطرفه از A  به سرور B دارید همینطور از C به B  و حالا تصمیم دارید برخلاف میل مدیر شبکه فایروال و قواعد سازمان را دور بزنید 🙂 و یک ارتباط از C به A برقرار کنید.

 

 

راه حل این هست که یک تونل Reverse SSH از B به A برقرار کرده و سرور B را به عنوان SSH Server Gateway استفاده کنید، که باید یک سرور لینوکس باشه.

اگر از کلاینت و سرور ویندوز استفاده میکنید برنامه putty را روی هر دو سیستم مبدا و مقصد نصب کنید.

از روی سرور A برنامه putty را اجرا کرده و در بخش SSH – Connection – Tunnel را انتخاب و مقدار Source Port را یک پورت آزاد مثل 50000 انتخاب کنید این پورتی هست که بر روی سرور SSH باز خواهد شد. مقدار Destination برابر با پورتی که میخواهید بر روی سرور دسترسی داشته باشید انتخاب کنید برای مثال 8080 پس مقدار این فیلد برابر با localhost:8080 خواهد شد. حالا گزینه  Remote را انتخاب و ارتباط SSH را با سرور B یرقرار کنید. در اینجا پورت 50000 بر روی SSH Server باز و ارتباط تونل بین دو سرور برقرار خواهد شد.

حالا بر روی کلاینت C برنامه putty را اجرا کنید و در همان بخش SSH – Connection – Tunnel مقدار Source Port برابر با یک پورت آزاد مثل 50005 قرار داده و در فیلد Destination مقدار localhost:8080 را قرار داده و ارتباط SSH از کلاینت C به سرور B را برقرار کنید.

حالا اگر شما بر روی کلاینت C پورت 50005 را فراخوانی کنید به پورت و یا برنامه ای که بر روی سرور A بر روی این پورت در حال اجرا هست دسترسی خواهید داشت.

سیستم های لینوکسی مراحل خیلی ساده تر هست.

بر روی سرور A دستور زیر را اجرا کنید:

user@server-a:~$ ssh -R 50000:localhost:22 user@ssh-server-b

از روی کلاینت C دستور زیر را اجرا کنید:

user@client-c:~$ ssh user@ssh-server-b

user@ssh-server-b:~$ ssh localhost -p 50000

الان دسترسی شما به سرور A و پورت 22 برقرار خواهد بود.

 

تقسیم یک فایل به چند بخش با dd

 

دیروز یه فایل تقریبا بزرگ در حدود 250GiB روی یک datastore متصل به سرور ESXi داشتیم که باید به یک سرور لینوکس دیگه منتقل میشد. امکان اتصال storage به سرور وجود نداشت، وضعیت شبکه هم بسیار کند و ناپایدار بود. راحترین راه که به ذهن رسید انتقال با scp از روی esxi به سرور بود ولی اگر شبکه در موقع انتقال قطع می شد یا اختلال داشت باید تمام مراحل را از اول انجام می‌دادیم پس فایل را به چند قسمت تقسیم کردیم و انتقال دادیم که در صورت خرابی فقط مجبور به انتقال یک بخش از فایل باشیم.

حجم فایل در حدود 250GiB بود، اون را به بخش‌های 50GiB تقسیم می کنیم.

 

dd if=/vmfs/volumes/ds-04/xyz.img bs=1MB count=51200  | ssh user@192.168.66.6 dd of=/home/user/xyz.img.pt01

 

اینجا چون اندازه هر بلاک را 1MiB در نظر گرفتیم و به 50 گیگابایت ابتدای فایل نیاز داشتیم تعداد 51200 بلاک اول را جدا کردیم. و خروجی را با دستور ssh مستقیما به سرور remote ارسال کردیم تا فایل در هنگام تقسیم بر روی دیسک مقصد نوشته شود.

برای بخش بعدی می نویسیم:

 

dd if=/vmfs/volumes/ds-04/xyz.img bs=1MB count=51200  skip=51200 | ssh user@192.168.66.6 dd of=/home/user/xyz.img.pt02

 

که با سوئیچ skip از 51200 بلاک اول صرف نظر کردیم. و همینطور تعداد بلاک‌ها را افزایش می‌دهیم تا به انتهای فایل برسیم:

 

dd if=/vmfs/volumes/ds-04/xyz.img bs=1MB count=51200  skip=102400 | ssh user@192.168.66.6 dd of=/home/user/xyz.img.pt03

dd if=/vmfs/volumes/ds-04/xyz.img bs=1MB count=51200  skip=153600 | ssh user@192.168.66.6 dd of=/home/user/xyz.img.pt04

dd if=/vmfs/volumes/ds-04/xyz.img bs=1MB count=51200  skip=204800 | ssh user@192.168.66.6 dd of=/home/user/xyz.img.pt05

 

حالا بر روی دیسک مقصد پنج فایل داریم که باید به یک فایل تبدیل بشوند برای این کار این دستور را می نویسیم:

 

cat /home/user/xyz.img.pt0* | dd of=/home/user/xyz.img

 

این ساده‌ترین راهی بود که با دستورات عادی به ذهن من رسید، مسلما دستورات و روش‌های دیگه ای هم وجود دارند 🙂

 

رمزگذاری فایل‌ها در لینوکس

 

خیلی پیش میاد که نیاز به رمز گذاشتن بر روی یا محافظت از یک فایل داریم. در لینوکس این کار بدون هیچ پیچیدگی قابل انجام هست. خیلی راحت ابتدا بسته mcrypt را نصب می‌کنیم:

apt install mcrypt

بعد فقط کافی هست که اسم و مسیر فایل مورد نظر را به عنوان ورودی به این دستور بدبم:

mcrypt /home/morteza/securefile.gz

 از شما یک عبارت جهت کلید رمزگذاری می‌پرسه و خروجی یک فایل با پسوند nc هست که با الگوریتم rijndael-128 رمزگذاری (Encryption) شده.

حالا میتونید فایل اصلی را پاک کنید. هر موقع به بازیابی فایل نیاز داشتید کافی هست با سوئیچ -d فایل را باز کنید:

mcrypt -d /home/morteza/securefile.nc

این ابزار از سایر الگوریتم های رایج رمزنگاری هم پشتیبانی می‌کنه که با سوئیچ –list-hash لیست الگوریتم‌ها را نمایش میده. برای استفاده از یک مورد خاص مثل whirlpool هم از این دستور استفاده کنید:

mcrypt -h whirlpool /home/morteza/securefile.gz

البته باید توجه داشته باشید که این کار دسترسی به تمام اطلاعات را کاملا امن نمی‌کنه و این فقط یک راه‌حل ساده برای کاربران عادی بود. برای یک محیط امن باید از چندین راه‌حل گوناگون در کنار همدیگر استفاده کرد.

 

تغییر نام فایل و ایجاد پوشه در لینوکس

 

من تعداد زیادی فایل فیلم داشتم که می خواستم هر کدوم در یک پوشه به اسم خودش قرار بگیره. چون تمام فیلم‌هایی که قبلا داشتم هم همینطور دخیره شده بودند.

خب اول از همه، اسم بعضی از فایل‌ها با کاراکتر فاصله space بود، من میخواستم این کاراکتر حذف بشه و با یک نقطه dotجایگزین کنم.

find . -name “* *” -type f | rename ‘s/ /./g’

این دستور اول تمام فایل‌های موجود در مسیر جاری که توی اسم اونها کاراکتر فاصله هست را پیدا میکنه، بعد خروجی را به دستور rename میده. اینجا هم با کاراکتر space را با کاراکتر dot جایگزین میکنه.

دستور rename در واقع یه اسکریپت با زبان پرل هست که میتونه یه جایگزین خوب برای mv باشه.

حالا که تغییر نام فایل‌ها انجام شد باید به اسم تمام فایلها یه فولدر درست کنم و هر فایل را به پوشه هم اسم خودش منتقل کنم.

find . -name “*.mkv” -exec sh -c ‘MYNDIR=`basename “$1” .mkv` ; mkdir “$MYNDIR” ; mv “$1” “$MYNDIR” ‘ _ {} \;

بخش اول هر فایل با پسوند mkv را پیدا میکنه بعد بخش اسم هر فایل رل بپن در نظر گرفتن پسوند جدا میکنه و در یک متغیر می‌ریزه. حالا با مقدار اون متغیر یه فولدر ایجاد میکنه. بعد از این دو تا دستور فقط کافی هست فایل مورد نظر را به پوشه ایجاد شده منتقل کنیم.

خب حالا من تعداد زیادی فولدر دارم که فیلم به اسم خودش داخل اون هست.