推薦自動化監控網站運行服務 - Gatus

gatus dashboard

部署服務後,怎麼明確讓團隊清楚知道服務的運行狀況,就像 GitHub 就是提供整體運行的網頁,監控常用的操作指令,像是 Git Operations, Webhooks 或 GitHub Actions 等服務狀況。讓開發者遇到問題的時候,可以即時查看現在狀態做出相對應動作。而類似這樣的線上服務很多,像是 Atlassian 的 StatuspagePingPong 等,更多免費服務可以直接參考 awesome-status-pages。而本篇要介紹一套開源軟體 Gatus,它是用 Go 語言撰寫出來的,非常輕量。

[Read More]

使用 pyroscope adhoc 加速找到效能瓶頸

pyroscope profiling

大家在開發軟體時,會快速迭代專案時程跟需求,功能越多,系統就會開始出現效能上的瓶頸,而最快的解決方式就是先垂直擴展,把 CPU 跟記憶體先往上加,但是這是治標不治本,所以之前有推薦大家一套如何在服務執行時,快速找到哪個地方執行較慢,請參考之前的文章『即時效能分析工具 Pyroscope』,Pyroscope 目前支援了很多語言,像是 Go, Python, Java, Ruby, Rust, PHP 及 .Net,如果你想要快速在本地端找到效能瓶頸,請繼續將本篇看完。底下會用 Go 語言實際範例教大家。

[Read More]

Go 1.18 generics 新套件 constraints, slices 及 maps

logo

今天看到 Go1.18 終於推出 RC1 版本了,離正式 Release 又跨出一大步了。繼上一篇『初探 golang 1.18 generics 功能』教學後,本次來看看 go1.18 推出三個新的 Package: constraints, slicesmaps 使用方式。目前這三個 Package 會統一放在 golang.org/x/exp 內。本篇程式碼都可以在這邊找到

[Read More]

初探 golang 1.18 generics 功能

logo

Go 語言在近期內會推出 1.18 版本,而 1.18 最重要的功能之一就是 generics,在此版本之前,最令人詬病的就是 Go 無法支援多種 Type 當參數,造成在寫 Package 時候多出很多重複性的程式碼,本篇會教大家基礎認識什麼是 generics,及怎麼使用。

[Read More]

Introduction to Open Policy Agent 初探權限控管機制

logo

很高興可以在 Mopconf 分享 Open Policy Agent。本議程最主要是跟大家初步分享 OPA 的概念,我們團隊如何將 OPA 導入系統架構,及分享如何設計 RBAC 及 IAM Role 架構,底下是這次預計會分享的內容:

  1. Why do we need a Policy Engine?
  2. Why do we choose Open Policy Agent?
  3. Workflow with Open Policy Agent?
  4. What is Policy Language (Rego)?
  5. RBAC and IAM Role Design
  6. Three ways to deploy an Open Policy Agent.

可以參考另外兩篇介紹

如果可以的話,大家可以給我一些回饋,請填寫會後問卷

[Read More]

用 Supervisor 管理系統程式

cover

相信大家都有管理 Linux 主機 Process 的經驗,用的工具也是千奇百種,但是肯定對 Python 版本的 Supervisor 並不陌生,這套工具相當好用,可以監控不同的 Process 狀態,也可以自動重啟。而本篇要介紹用 Go 語言寫出來的開源套件『Supervisord』,作者提到為什麼要用 Go 語言開發此工具,原因很簡單,就是透過 Go 語言的跨平台優勢,寫一套程式,可以直接跑在任何平台,管理者就不需要再為了 Python 環境而煩惱。

[Read More]

NSQ Consumers 處理 Graceful Shutdown 技巧

Imgur

NSQ 是一套即時分散式處理消息平台,目的在於提供大量的訊息傳遞,團隊可以依據不同的任務來設計分散式架構去消化大量的訊息。而我在最近開發了一套開源項目 golang-queue/queue,這套詳細的資訊會再開另一篇進行討論,簡單來說這個套件可以讓開發者使用在單機的 Producer 及 Consumer 架構,使用的就是 Go 語言的 Goroutine 及 Channel,又或者直接搭配 NSQ, NATsRedis Pub/Sub 第三方的系統取代內建的 Channel 機制。而本篇會講在整合 NSQ 要處理 Graceful Shutdown 所遇到的問題跟解決方式。

[Read More]

用 AWS EFS 或 FSx Lustre 加速 Sagemaker AI 模型訓練

cover

前不久寫過一篇『AI 團隊整合導入 AWS SageMaker 流程』介紹如何用 Go 語言整合 SageMaker API。本篇會介紹在訓練 AI 模型前,如何將 Dataset 準備好並整合 SageMaker,過程中遇到什麼問題跟挑戰。團隊提供 AI 平台讓使用者可以上傳自家的 Dataset 搭配團隊內部預設的 Dataset 進行 AI 模型的訓練,最後將模型提供給使用者下載使用,簡單來說,使用者只需要提供 Dataset 並把 AI 訓練參數設定完畢,就可以拿到最後的模型進行後續的整合開發。底下我們探討使用者上傳 Dataset 的流程。

[Read More]

開源專案 Drone CI/CD 平台真的免費嗎?

cover

自己推行 Drone CI/CD 開源平台已經多年,很多人都會問我說,Drone 真的可以免費使用嗎?用在開源上面,或者是導入進公司內部團隊,這費用該怎麼計算呢?好的,本篇就帶大家了解 Drone 用在開源上或是公司內部團隊上需要注意的地方,官方其實有寫了一整頁 FAQ 非常詳細,底下是我整理幾點給大家知道。

[Read More]

AI 團隊整合導入 AWS SageMaker 流程

Flow

團隊困境

如果團隊未來想把機器學習推廣成一個服務,可以讓開發者帶入不同的參數進行客製化的學習,最終拿到學習過的 Model。或是團隊資源不夠,想要使用大量的 GPU 資源來加速 AI Model Training,這時就是要朝向使用第三方資源像是 AWS SageMaker 來進行整合。而在團隊內會分成機器學習團隊,及後端團隊,前者是專門進行資料分析及 AI Model 演算法及程式碼開發,後者則是專攻全部工作流程,從產生測試資料,前置準備,到 Training Model,及將產生的結果發送給開法者,這整段流程會由後端團隊進行串接。所以當我們要用第三方服務時 AWS SageMaker,對於機器學習團隊來說,要將整個環境打包成容器模式,並且符合 SageMaker 所規定的格式,過程相當複雜,而為了讓開發環境統一,我們使用了容器技術 (Docker Container) 來進行 SageMaker 串接,本篇會教大家如何整合 SageMaker 流程,讓機器學習團隊可以專注於 Model 流程開發,而不需要花時間在整合容器技術並符合 SageMaker 格式。

[Read More]