

What you will do:
Own the resilience testing roadmap for vLLM and llm-d: define resilience indicators, prioritize fault scenarios, and establish go/no-go gates for releases and CI/CD
Design GPU/accelerator-aware fault experiments that target vLLM and the stack beneath it (drivers, GPU Operator/DevicePlugin, NCCL/collectives, storage/network paths, NUMA/topology)
Build an automated harness (preferably extending krkn-chaos (https://github.com/krkn-chaos/krkn) ) to run controlled experiments with scoped blast radius, and evidence capture (logs, traces, metrics)
Integrate fault signals into pipelines (GitHub Actions or otherwise) as resilience gates alongside performance gates
Develop detection and diagnostics: dashboards and alerts for pre-fault signals (e.g., vLLM queue depth, GPU throttling, P2P downgrades, KV-cache pressure, allocator fragmentation)
Triage and root-cause resilience regressions from field/customer issues; upstream bugs and fixes to vLLM and llm-d
Explore and experiment with emerging AI technologies relevant to software development and testing, proactively identifying opportunities to incorporate new AI capabilities into existing workflows and tooling.
Publish learnings (internal/external): failure patterns, playbooks, SLO templates, experiment libraries, and reference architectures; present at internal/external forums
What you will bring:
3+ years in reliability, and/or performance engineering on large-scale distributed systems
Expertise in systems‑level software design
Expertise with Kubernetes and modern LLM inference server stack (e.g., vLLM, TensorRT-LLM, TGI)
Observability & forensics skills with experience with Prometheus/Grafana, OpenTelemetry tracing, eBPF/BPFTrace/perf, Nsight Systems, PyTorch Profiler; adept at converting raw signals into actionable narratives.
Fluency in Python (data & ML), strong Bash/Linux skills
Exceptional communication skills - able to translate raw data into customer value and executive narratives
Commitment to open‑source values and upstream collaboration
The following is considered a plus:
Master’s or PhD in Computer Science, AI, or a related field
History of upstream contributions and community leadership, public talks or blogs on resilience, or chaos engineering
Competitive benchmarking and failure characterization at scale.
The salary range for this position is $127,890.00 - $211,180.00. Actual offer will be based on your qualifications.
Pay Transparency
● Comprehensive medical, dental, and vision coverage
● Flexible Spending Account - healthcare and dependent care
● Health Savings Account - high deductible medical plan
● Retirement 401(k) with employer match
● Paid time off and holidays
● Paid parental leave plans for all new parents
● Leave benefits including disability, paid family medical leave, and paid military leave
משרות נוספות שיכולות לעניין אותך

主要職務:
Red HatのCloud製品およびソリューション、特にRed Hat Enterprise Linux (RHEL) を用いたシステム構築に関する技術情報を提供すること。
製品知識や深い技術知識を駆使し、顧客に概念実証 (POC)、プレゼンテーションやデモを提供すること。
見込み客に対して複雑なソリューションを紹介して、価値駆動型のアーキテクチャーを設計し、このような技術ソリューションのアプリケーションや費用対効果を説明すること。特にLinuxベースのソリューションにおける優位性を強調します。
セールスチームと連携して、契約を新たに獲得できるようにソリューションを提供すること。
顧客のビジネスや IT 環境を深く理解して、セールスチームと連携し、Red Hat 製品(特にRHEL)をどのように取り入れることができるかを評価すること。
全ステークホルダーに価値、進捗、状況を伝えること。
必須スキル:
プリセールス、セールスエンジニアリング、ソリューションアーキテクト等の経験。
Red Hatまたは同類の製品、特にRed Hat Enterprise Linux (RHEL)、Kubernetesやクラウドネイティブ技術の提案、設計、構築、運用の経験。
オープンソース、特にLinuxへの熱意、クラウドやソフトウェアに関する知識、お客様のビジネスや IT の問題に関する深い理解力をバランス良く有すること。
案件を進めていくための優れたコミュニケーション力、プレゼン力、交渉力。
お客様(エンジニアリング、ビジネス、エグゼクティブレベル)との関係構築力。
継続的に学習し新しいケイパビリティを習得する意欲があること。
基礎的な英語力(特にリーディングとリスニング)。
Javaを使用したアプリケーション開発経験があれば尚可。
IoT / 機械学習(AI) / FinTech / インテグレーション / マイクロサービスや、パブリッククラウドの利用経験があれば尚可。
משרות נוספות שיכולות לעניין אותך

職務内容:
技術アドバイザーとして、販売前から販売後の実装までお客様を導き、導入を確実に成功させる。
デモ、ワークショップ、パイロットプロジェクトを通じて技術の検証を主導し、お客様のニーズと Ansible の機能を結び付ける。
セールスチームを支援し、一定水準の成果をお客様に提供するために、再利用可能なソリューションの枠組みとコンテンツを開発する。
製品チームと協力してカスタマーエクスペリエンスを向上させ、Red Hat 社内でお客様のニーズを代弁する。
お客様の成功を実現するために、RFP に対する回答の作成をチームの一員として支援する。
技術スキル:
Ansible Automation Platform (認定資格が望ましい) および Puppet/Chef/SaltStack/Terraform などのツールに関する専門知識。 優れた実践的スキル。
自動化分野で 6 年以上、アーキテクチャー/開発/コンサルティング分野で 5 - 10 年の経験。
Linux (RHEL/Satellite)、Cisco ネットワーク自動化、DevOps 手法に精通していること。
ビジネススキル:
経営幹部レベルの関係者に働きかけ、エンタープライズ企業の IT 課題に対処し、クロスプラットフォームソリューションを提案する能力。
大規模な IT 組織全体と関係を構築し、エンドツーエンドの概念実証プロセスを管理した経験。
望ましい資格:
Red Hat 認定資格 (RHCE、Ansible Specialist、Architect) およびコンピューターサイエンス/エンジニアリングの学位。
業界への貢献 (ホワイトペーパー、カンファレンスなど) を通じて業界の第一人者としての地位を築き、常に自動化分野の最新動向を把握している。
משרות נוספות שיכולות לעניין אותך

職務内容:
Red Hat Ansible Automation Platform のソリューションとユースケースに基づく顧客アカウントのビジネス成長戦略を担当する
アカウントプランの策定プロセスにおいて Account チームと協力し、お客様のビジネス推進要因を分析して、テクノロジー主導のイノベーションとデジタル変革を実現するための重要な要素として Red Hat の自動化ソリューションを位置付けるストーリーを作成する
アカウント管理チーム、ソリューションアーキテクト、プロフェッショナルサービスチームと連携して、見込み客の発掘から成約までの複雑な販売サイクルを管理する
定量的および定性的なパフォーマンスの期待に応える
リーダーシップスキルと専門家としての豊富な経験を活かし、経営幹部 (C レベルの意思決定者) に働きかけて信頼を獲得することで、変革をもたらすプロジェクトを創出する
Red Hat テクノロジーソリューションがビジネスにもたらす効果を示して、お客様がプロジェクトに取り組むべき説得力のある理由を獲得する
お客様のビジネス要件に合わせて Red Hat のソリューションをカスタマイズする
Red Hat ソリューションがもたらす差別化されたビジネス価値と Red Hat の競争優位性を、お客様の意思決定者に理解していただき同意を得る
Red Hat のセールスチームとパートナーが、Red Hat のソリューションがもたらすビジネス価値を効果的に企業に伝えられるよう支援する
Red Hat のジャーニーベースのサービスエンゲージメントプログラムと商用購買プログラムを活用し、お客様との長期的かつ戦略的な関係を構築する
応募資格:
10 年以上の自動化および管理ソフトウェア製品、クラウドサービス、または関連テクノロジー製品の販売経験
価値ベースのソリューション販売経験。お客様のビジネス目標や変革目標を、テクノロジーソリューションが提供する価値と結び付ける能力
創造的な思考力、コミュニケーション能力、およびプレゼンテーションスキル
オープンソーステクノロジーへの情熱と Red Hat のソフトウェアサブスクリプションビジネスモデルの理解
顧客の成功を実現するために、グローバルかつ部門横断的なチームとシームレスに連携してきた実績
以下の分野における専門知識:
IT の自動化と管理
ビジネスプロセスの自動化
ロボティックプロセスオートメーション (RPA)
IT セキュリティーとコンプライアンス
人工知能 (AI) と運用
DevOps、継続的インテグレーション (CI) および継続的デリバリー (CD)、テスト、ソフトウェア開発ライフサイクル (SDLC)、アジャイル手法
ハイブリッドクラウド、パブリッククラウド、およびプライベートクラウド
コンテナーと Kubernetes
テクノロジーソリューションのビジネス価値を提示する能力
消費ベースの価格モデル、ソフトウェアサブスクリプションとライセンス
Red Hat のソフトウェアポートフォリオと競合製品に関する理解
משרות נוספות שיכולות לעניין אותך

RedHatソリューションアーキテクトチームでは、 お客様の課題にあわせたソリューションの提案が行える、経験豊富なプリセールスエンジニアを募集しています。このポジションでは、お客様企業のCxOやIT部門の責任者に対して、どう自社のITがビジネスや業務に貢献していくべきか、その道筋とそこに至るまでの具体的なロードマップを描き、サポートしていくポジションです。一方で、お客様のデジタルトランスフォーメーションを実現するために攻めのIT戦略とともに重要になってきているのが、既存のIT資産の運用の効率化やコストセービングです。この攻めと守りの戦略をバランスよく立案し、お客様企業のさらなる成長を支えていくことがミッションとなります。お客様の技術アドバイザーとして活動するために、技術的な知識とオープンソースへの知見、高いコミュニケーション能力やヒューマンスキルと共に、担当する業界の知識と課題、将来の方向性を理解した上でIT戦略を立案できる能力が必要です。
What you will do:
担当する業界やお客様を深く理解し、お客様のIT戦略の立案や将来計画のデザインを提案すること
顧客のビジネスや IT 環境を深く理解し、セールスチームと連携しながら営業戦略を立案すること
お客様コールやWorkshopの開催を通して顧客の課題を正しく理解し、Red Hat 製品をどのように取り入れることができるかを評価すること
セールスチームと連携し、契約を獲得できるよう案件を推進すること
Red Hatの製品およびソリューションを使ったシステム構築に関する技術情報を提供すること
製品知識や深い技術知識を駆使し顧客に概念実証 (POC)、プレゼンテーションやデモを提供すること
全ステークホルダーに進捗、状況を伝えること
What you will bring:
プリセールス、セールスエンジニアリング、ソリューションアーキテクト等の経験
システム構築(要件定義/設計/実装/テスト)に参画した経験
案件を進めていくための優れたコミュニケーション力、プレゼン力、交渉力に加え、エンジニアリング、ビジネス、エグゼクティブレベルとの関係構築の実績
顧客のビジネスの問題や技術的問題を理解し、ソリューションがどのように顧客のニーズや要件に対応していくのかを効果的に説明する能力
エンタープライズソリューションおよびアーキテクチャーの知識を有すること (例: クラウド、ビッグデータ、仮想化、ストレージ、RDBMS、Oracle や SAP などの ERP、ミドルウェア、クラスタリング、高可用性)
UNIX または Linux システム管理、統合、または開発の経験
歓迎する経験、スキル
技術的な課題を解決するWorkshopや、業務課題や業務アイデア出しのようなDiscovery Sessionの開催経験
システム部門だけでなく、業務部門などの、複数部門とのお客様とのコミュニケーションや提案経験
Red Hat OpenShift/Red Hat Ansible Automation Platformの提案や設計構築の経験
xKS, k8s, AIを使った業務システムの提案や構築経験
משרות נוספות שיכולות לעניין אותך

RedHatソリューションアーキテクトチームでは、 お客様の課題にあわせたソリューションの提案が行える、経験豊富なプリセールスエンジニアを募集しています。このポジションでは、お客様企業のCxOやIT部門の責任者に対して、どう自社のITがビジネスや業務に貢献していくべきか、その道筋とそこに至るまでの具体的なロードマップを描き、サポートしていくポジションです。一方で、お客様のデジタルトランスフォーメーションを実現するために攻めのIT戦略とともに重要になってきているのが、既存のIT資産の運用の効率化やコストセービングです。この攻めと守りの戦略をバランスよく立案し、お客様企業のさらなる成長を支えていくことがミッションとなります。お客様の技術アドバイザーとして活動するために、技術的な知識とオープンソースへの知見、高いコミュニケーション能力やヒューマンスキルと共に、担当する業界の知識と課題、将来の方向性を理解した上でIT戦略を立案できる能力が必要です。
What you will do:
担当する業界やお客様を深く理解し、お客様のIT戦略の立案や将来計画のデザインを提案すること
顧客のビジネスや IT 環境を深く理解し、セールスチームと連携しながら営業戦略を立案すること
お客様コールやWorkshopの開催を通して顧客の課題を正しく理解し、Red Hat 製品をどのように取り入れることができるかを評価すること
セールスチームと連携し、契約を獲得できるよう案件を推進すること
Red Hatの製品およびソリューションを使ったシステム構築に関する技術情報を提供すること
製品知識や深い技術知識を駆使し顧客に概念実証 (POC)、プレゼンテーションやデモを提供すること
全ステークホルダーに進捗、状況を伝えること
What you will bring:
プリセールス、セールスエンジニアリング、ソリューションアーキテクト等の経験
システム構築(要件定義/設計/実装/テスト)に参画した経験
案件を進めていくための優れたコミュニケーション力、プレゼン力、交渉力に加え、エンジニアリング、ビジネス、エグゼクティブレベルとの関係構築の実績
顧客のビジネスの問題や技術的問題を理解し、ソリューションがどのように顧客のニーズや要件に対応していくのかを効果的に説明する能力
エンタープライズソリューションおよびアーキテクチャーの知識を有すること (例: クラウド、ビッグデータ、仮想化、ストレージ、RDBMS、Oracle や SAP などの ERP、ミドルウェア、クラスタリング、高可用性)
UNIX または Linux システム管理、統合、または開発の経験
歓迎する経験、スキル
技術的な課題を解決するWorkshopや、業務課題や業務アイデア出しのようなDiscovery Sessionの開催経験
システム部門だけでなく、業務部門などの、複数部門とのお客様とのコミュニケーションや提案経験
Red Hat OpenShift/Red Hat Ansible Automation Platformの提案や設計構築の経験
xKS, k8s, AIを使った業務システムの提案や構築経験
משרות נוספות שיכולות לעניין אותך

Primary Job Responsibilities:
Carry out the account strategy to increase performance and customer success in key Telco accounts, retaining and growing bookings through strategic account planning.
Collaborate with the team members to maximize RH business for Japan Telco accounts especially throughout experience and excellence to operate tools such as RHSC.
Required Skills
Solid understanding of Telco customer business, industry trends, competitive landscape, and Red Hat’s differentiators and value proposition.
Proven experience selling complex IT solutions to large organizations within the region and to multiple decision makers.
משרות נוספות שיכולות לעניין אותך

What you will do:
Own the resilience testing roadmap for vLLM and llm-d: define resilience indicators, prioritize fault scenarios, and establish go/no-go gates for releases and CI/CD
Design GPU/accelerator-aware fault experiments that target vLLM and the stack beneath it (drivers, GPU Operator/DevicePlugin, NCCL/collectives, storage/network paths, NUMA/topology)
Build an automated harness (preferably extending krkn-chaos (https://github.com/krkn-chaos/krkn) ) to run controlled experiments with scoped blast radius, and evidence capture (logs, traces, metrics)
Integrate fault signals into pipelines (GitHub Actions or otherwise) as resilience gates alongside performance gates
Develop detection and diagnostics: dashboards and alerts for pre-fault signals (e.g., vLLM queue depth, GPU throttling, P2P downgrades, KV-cache pressure, allocator fragmentation)
Triage and root-cause resilience regressions from field/customer issues; upstream bugs and fixes to vLLM and llm-d
Explore and experiment with emerging AI technologies relevant to software development and testing, proactively identifying opportunities to incorporate new AI capabilities into existing workflows and tooling.
Publish learnings (internal/external): failure patterns, playbooks, SLO templates, experiment libraries, and reference architectures; present at internal/external forums
What you will bring:
3+ years in reliability, and/or performance engineering on large-scale distributed systems
Expertise in systems‑level software design
Expertise with Kubernetes and modern LLM inference server stack (e.g., vLLM, TensorRT-LLM, TGI)
Observability & forensics skills with experience with Prometheus/Grafana, OpenTelemetry tracing, eBPF/BPFTrace/perf, Nsight Systems, PyTorch Profiler; adept at converting raw signals into actionable narratives.
Fluency in Python (data & ML), strong Bash/Linux skills
Exceptional communication skills - able to translate raw data into customer value and executive narratives
Commitment to open‑source values and upstream collaboration
The following is considered a plus:
Master’s or PhD in Computer Science, AI, or a related field
History of upstream contributions and community leadership, public talks or blogs on resilience, or chaos engineering
Competitive benchmarking and failure characterization at scale.
The salary range for this position is $127,890.00 - $211,180.00. Actual offer will be based on your qualifications.
Pay Transparency
● Comprehensive medical, dental, and vision coverage
● Flexible Spending Account - healthcare and dependent care
● Health Savings Account - high deductible medical plan
● Retirement 401(k) with employer match
● Paid time off and holidays
● Paid parental leave plans for all new parents
● Leave benefits including disability, paid family medical leave, and paid military leave
משרות נוספות שיכולות לעניין אותך