

What you will do:
Own the resilience testing roadmap for vLLM and llm-d: define resilience indicators, prioritize fault scenarios, and establish go/no-go gates for releases and CI/CD
Design GPU/accelerator-aware fault experiments that target vLLM and the stack beneath it (drivers, GPU Operator/DevicePlugin, NCCL/collectives, storage/network paths, NUMA/topology)
Build an automated harness (preferably extending krkn-chaos (https://github.com/krkn-chaos/krkn) ) to run controlled experiments with scoped blast radius, and evidence capture (logs, traces, metrics)
Integrate fault signals into pipelines (GitHub Actions or otherwise) as resilience gates alongside performance gates
Develop detection and diagnostics: dashboards and alerts for pre-fault signals (e.g., vLLM queue depth, GPU throttling, P2P downgrades, KV-cache pressure, allocator fragmentation)
Triage and root-cause resilience regressions from field/customer issues; upstream bugs and fixes to vLLM and llm-d
Explore and experiment with emerging AI technologies relevant to software development and testing, proactively identifying opportunities to incorporate new AI capabilities into existing workflows and tooling.
Publish learnings (internal/external): failure patterns, playbooks, SLO templates, experiment libraries, and reference architectures; present at internal/external forums
What you will bring:
3+ years in reliability, and/or performance engineering on large-scale distributed systems
Expertise in systems‑level software design
Expertise with Kubernetes and modern LLM inference server stack (e.g., vLLM, TensorRT-LLM, TGI)
Observability & forensics skills with experience with Prometheus/Grafana, OpenTelemetry tracing, eBPF/BPFTrace/perf, Nsight Systems, PyTorch Profiler; adept at converting raw signals into actionable narratives.
Fluency in Python (data & ML), strong Bash/Linux skills
Exceptional communication skills - able to translate raw data into customer value and executive narratives
Commitment to open‑source values and upstream collaboration
The following is considered a plus:
Master’s or PhD in Computer Science, AI, or a related field
History of upstream contributions and community leadership, public talks or blogs on resilience, or chaos engineering
Competitive benchmarking and failure characterization at scale.
The salary range for this position is $127,890.00 - $211,180.00. Actual offer will be based on your qualifications.
Pay Transparency
● Comprehensive medical, dental, and vision coverage
● Flexible Spending Account - healthcare and dependent care
● Health Savings Account - high deductible medical plan
● Retirement 401(k) with employer match
● Paid time off and holidays
● Paid parental leave plans for all new parents
● Leave benefits including disability, paid family medical leave, and paid military leave
משרות נוספות שיכולות לעניין אותך

主要職務:
Red HatのCloud製品およびソリューション、特にRed Hat Enterprise Linux (RHEL) を用いたシステム構築に関する技術情報を提供すること。
製品知識や深い技術知識を駆使し、顧客に概念実証 (POC)、プレゼンテーションやデモを提供すること。
見込み客に対して複雑なソリューションを紹介して、価値駆動型のアーキテクチャーを設計し、このような技術ソリューションのアプリケーションや費用対効果を説明すること。特にLinuxベースのソリューションにおける優位性を強調します。
セールスチームと連携して、契約を新たに獲得できるようにソリューションを提供すること。
顧客のビジネスや IT 環境を深く理解して、セールスチームと連携し、Red Hat 製品(特にRHEL)をどのように取り入れることができるかを評価すること。
全ステークホルダーに価値、進捗、状況を伝えること。
必須スキル:
プリセールス、セールスエンジニアリング、ソリューションアーキテクト等の経験。
Red Hatまたは同類の製品、特にRed Hat Enterprise Linux (RHEL)、Kubernetesやクラウドネイティブ技術の提案、設計、構築、運用の経験。
オープンソース、特にLinuxへの熱意、クラウドやソフトウェアに関する知識、お客様のビジネスや IT の問題に関する深い理解力をバランス良く有すること。
案件を進めていくための優れたコミュニケーション力、プレゼン力、交渉力。
お客様(エンジニアリング、ビジネス、エグゼクティブレベル)との関係構築力。
継続的に学習し新しいケイパビリティを習得する意欲があること。
基礎的な英語力(特にリーディングとリスニング)。
Javaを使用したアプリケーション開発経験があれば尚可。
IoT / 機械学習(AI) / FinTech / インテグレーション / マイクロサービスや、パブリッククラウドの利用経験があれば尚可。
משרות נוספות שיכולות לעניין אותך

職務内容:
技術アドバイザーとして、販売前から販売後の実装までお客様を導き、導入を確実に成功させる。
デモ、ワークショップ、パイロットプロジェクトを通じて技術の検証を主導し、お客様のニーズと Ansible の機能を結び付ける。
セールスチームを支援し、一定水準の成果をお客様に提供するために、再利用可能なソリューションの枠組みとコンテンツを開発する。
製品チームと協力してカスタマーエクスペリエンスを向上させ、Red Hat 社内でお客様のニーズを代弁する。
お客様の成功を実現するために、RFP に対する回答の作成をチームの一員として支援する。
技術スキル:
Ansible Automation Platform (認定資格が望ましい) および Puppet/Chef/SaltStack/Terraform などのツールに関する専門知識。 優れた実践的スキル。
自動化分野で 6 年以上、アーキテクチャー/開発/コンサルティング分野で 5 - 10 年の経験。
Linux (RHEL/Satellite)、Cisco ネットワーク自動化、DevOps 手法に精通していること。
ビジネススキル:
経営幹部レベルの関係者に働きかけ、エンタープライズ企業の IT 課題に対処し、クロスプラットフォームソリューションを提案する能力。
大規模な IT 組織全体と関係を構築し、エンドツーエンドの概念実証プロセスを管理した経験。
望ましい資格:
Red Hat 認定資格 (RHCE、Ansible Specialist、Architect) およびコンピューターサイエンス/エンジニアリングの学位。
業界への貢献 (ホワイトペーパー、カンファレンスなど) を通じて業界の第一人者としての地位を築き、常に自動化分野の最新動向を把握している。
משרות נוספות שיכולות לעניין אותך

職務内容:
Red Hat Ansible Automation Platform のソリューションとユースケースに基づく顧客アカウントのビジネス成長戦略を担当する
アカウントプランの策定プロセスにおいて Account チームと協力し、お客様のビジネス推進要因を分析して、テクノロジー主導のイノベーションとデジタル変革を実現するための重要な要素として Red Hat の自動化ソリューションを位置付けるストーリーを作成する
アカウント管理チーム、ソリューションアーキテクト、プロフェッショナルサービスチームと連携して、見込み客の発掘から成約までの複雑な販売サイクルを管理する
定量的および定性的なパフォーマンスの期待に応える
リーダーシップスキルと専門家としての豊富な経験を活かし、経営幹部 (C レベルの意思決定者) に働きかけて信頼を獲得することで、変革をもたらすプロジェクトを創出する
Red Hat テクノロジーソリューションがビジネスにもたらす効果を示して、お客様がプロジェクトに取り組むべき説得力のある理由を獲得する
お客様のビジネス要件に合わせて Red Hat のソリューションをカスタマイズする
Red Hat ソリューションがもたらす差別化されたビジネス価値と Red Hat の競争優位性を、お客様の意思決定者に理解していただき同意を得る
Red Hat のセールスチームとパートナーが、Red Hat のソリューションがもたらすビジネス価値を効果的に企業に伝えられるよう支援する
Red Hat のジャーニーベースのサービスエンゲージメントプログラムと商用購買プログラムを活用し、お客様との長期的かつ戦略的な関係を構築する
応募資格:
10 年以上の自動化および管理ソフトウェア製品、クラウドサービス、または関連テクノロジー製品の販売経験
価値ベースのソリューション販売経験。お客様のビジネス目標や変革目標を、テクノロジーソリューションが提供する価値と結び付ける能力
創造的な思考力、コミュニケーション能力、およびプレゼンテーションスキル
オープンソーステクノロジーへの情熱と Red Hat のソフトウェアサブスクリプションビジネスモデルの理解
顧客の成功を実現するために、グローバルかつ部門横断的なチームとシームレスに連携してきた実績
以下の分野における専門知識:
IT の自動化と管理
ビジネスプロセスの自動化
ロボティックプロセスオートメーション (RPA)
IT セキュリティーとコンプライアンス
人工知能 (AI) と運用
DevOps、継続的インテグレーション (CI) および継続的デリバリー (CD)、テスト、ソフトウェア開発ライフサイクル (SDLC)、アジャイル手法
ハイブリッドクラウド、パブリッククラウド、およびプライベートクラウド
コンテナーと Kubernetes
テクノロジーソリューションのビジネス価値を提示する能力
消費ベースの価格モデル、ソフトウェアサブスクリプションとライセンス
Red Hat のソフトウェアポートフォリオと競合製品に関する理解
משרות נוספות שיכולות לעניין אותך

Primary Job Responsibilities
Manages the development and application of a mature/dynamic multi-year customer account plan based on proven methodologies to manage a sustainable, long-term business portfolio. Leads strategies for the assigned account that high-volume sales and open new opportunities for both customer and Red Hat, aligned to goals, budgets, and forecasts.
Leads and coordinates a diverse team on plan execution and drives accountability to execute and deliver on account plans and grow the account, leveraging industry expertise.
Proactively expands the strategic network of key internal and external partners and decision makers, including vertical industry partners, to ensure execution of core tasks and account transactions, and to provide a comprehensive account management experience.
Demonstrates an understanding of the customer's business model to articulate growth opportunities, leveraging industry expertise to shape the ecosystem. Influences relevant (internal and external) stakeholders and resources to drive change on behalf of the customer and to enhance team capabilities, improve Red Hat offerings.
Required Skills
7+ years of experience working in IT sales with exceptional record
Ability to work as part of a fast-paced and growing team as well as on your own
Good understanding of the companies and opportunities that exist within Japan
Good communication and technical skills to develop relationships at engineering, commercial, and executive levels throughout organizations
Good understanding of the enterprise market and partner ecosystem
High ethical standards and integrity
Understanding of Container, Linux, and middleware software-related sales cycles is a plus
Experience selling open source software technology or other software services in a subscription model is a plus
משרות נוספות שיכולות לעניין אותך

Primary Job Responsibilities
レッドハットにとって重要かつ戦略的に重要な、指定されたエンタープライズアカウントとの顧客関係を構築する
指定されたアカウント内で新しい関係を維持、開発しながら、Cレベルの役員を含む組織のすべてのレベルで関係構築をリードする
アカウントプランを策定し、四半期ごとの目標およびアカウントの全体的な戦略的発展をリードする
アカウントチームのリーダーとして、プリセールス、サポート、コンサルティングサービスを始めとした社内外の関係者をまとめ、担当アカウントに対するレッドハットの提供製品ポートフォリオ全体を成長させる
パイプラインの創出と正確な予測に重点を置いた、案件創出からクロージングまでのセールスサイクル全体の管理
Required Skills
3年以上の企業向けITセールスの経験を有し、大企業向けアカウントまたはグローバルアカウントの管理に成功した実績があること - アカウント戦略の設定、コミットメントされた予測の実現、販売目標の超過達成の卓越した記録
常に柔軟な思考を持ち、新たな可能性を追求するマインドセット
関係者すべてと心理的安全性を築ける人間性
マトリックス型組織において多様なステークホルダーを巻き込む優れたリーダーシップとコミュニケーション力
セールスサイクルの理解を伴う堅実な戦略立案能力
担当エリア内の顧客およびパートナーについての深い理解(顧客ビジネス、業界動向、競合状況、Red Hatの差別化要素と提供価値を含む)
Red Hatのソリューションの価値、差別化ポイント、ビジネス機会を顧客およびパートナーに明確に伝える
משרות נוספות שיכולות לעניין אותך

Primary Job Responsibilities
レッドハットにとって重要かつ戦略的に重要な、指定されたエンタープライズアカウントとの顧客関係を構築する
指定されたアカウント内で新しい関係を維持、開発しながら、Cレベルの役員を含む組織のすべてのレベルで関係構築をリードする
アカウントプランを策定し、四半期ごとの目標およびアカウントの全体的な戦略的発展をリードする
アカウントチームのリーダーとして、プリセールス、サポート、コンサルティングサービスを始めとした社内外の関係者をまとめ、担当アカウントに対するレッドハットの提供製品ポートフォリオ全体を成長させる
パイプラインの創出と正確な予測に重点を置いた、案件創出からクロージングまでのセールスサイクル全体の管理
Required Skills
3年以上の企業向けITセールスの経験を有し、大企業向けアカウントまたはグローバルアカウントの管理に成功した実績があること - アカウント戦略の設定、コミットメントされた予測の実現、販売目標の超過達成の卓越した記録
常に柔軟な思考を持ち、新たな可能性を追求するマインドセット
関係者すべてと心理的安全性を築ける人間性
マトリックス型組織において多様なステークホルダーを巻き込む優れたリーダーシップとコミュニケーション力
セールスサイクルの理解を伴う堅実な戦略立案能力
担当エリア内の顧客およびパートナーについての深い理解(顧客ビジネス、業界動向、競合状況、Red Hatの差別化要素と提供価値を含む)
Red Hatのソリューションの価値、差別化ポイント、ビジネス機会を顧客およびパートナーに明確に伝える
משרות נוספות שיכולות לעניין אותך

What you will do:
Own the resilience testing roadmap for vLLM and llm-d: define resilience indicators, prioritize fault scenarios, and establish go/no-go gates for releases and CI/CD
Design GPU/accelerator-aware fault experiments that target vLLM and the stack beneath it (drivers, GPU Operator/DevicePlugin, NCCL/collectives, storage/network paths, NUMA/topology)
Build an automated harness (preferably extending krkn-chaos (https://github.com/krkn-chaos/krkn) ) to run controlled experiments with scoped blast radius, and evidence capture (logs, traces, metrics)
Integrate fault signals into pipelines (GitHub Actions or otherwise) as resilience gates alongside performance gates
Develop detection and diagnostics: dashboards and alerts for pre-fault signals (e.g., vLLM queue depth, GPU throttling, P2P downgrades, KV-cache pressure, allocator fragmentation)
Triage and root-cause resilience regressions from field/customer issues; upstream bugs and fixes to vLLM and llm-d
Explore and experiment with emerging AI technologies relevant to software development and testing, proactively identifying opportunities to incorporate new AI capabilities into existing workflows and tooling.
Publish learnings (internal/external): failure patterns, playbooks, SLO templates, experiment libraries, and reference architectures; present at internal/external forums
What you will bring:
3+ years in reliability, and/or performance engineering on large-scale distributed systems
Expertise in systems‑level software design
Expertise with Kubernetes and modern LLM inference server stack (e.g., vLLM, TensorRT-LLM, TGI)
Observability & forensics skills with experience with Prometheus/Grafana, OpenTelemetry tracing, eBPF/BPFTrace/perf, Nsight Systems, PyTorch Profiler; adept at converting raw signals into actionable narratives.
Fluency in Python (data & ML), strong Bash/Linux skills
Exceptional communication skills - able to translate raw data into customer value and executive narratives
Commitment to open‑source values and upstream collaboration
The following is considered a plus:
Master’s or PhD in Computer Science, AI, or a related field
History of upstream contributions and community leadership, public talks or blogs on resilience, or chaos engineering
Competitive benchmarking and failure characterization at scale.
The salary range for this position is $127,890.00 - $211,180.00. Actual offer will be based on your qualifications.
Pay Transparency
● Comprehensive medical, dental, and vision coverage
● Flexible Spending Account - healthcare and dependent care
● Health Savings Account - high deductible medical plan
● Retirement 401(k) with employer match
● Paid time off and holidays
● Paid parental leave plans for all new parents
● Leave benefits including disability, paid family medical leave, and paid military leave
משרות נוספות שיכולות לעניין אותך